結合商業與資料科學的實戰課程-ALPHA Camp 資料人才種子計畫 完課心得

Kai
Feb 7, 2022

--

「資料人才種子計畫」是什麼?

這是一個旨在「培養能落地業界,用數據解決問題的人才」的計畫,六週的課程中不僅是教你這些資料工具、模型如何應用,更重要的是透過產業的真實資料,培養拆解問題、定義問題,到最終產出結果的能力。

If all you have is a hammer, everything looks like a nail.

Part 1. 模擬教案 — 美妝電商

前三週的課程是以 Amazon 的美妝商品評價資料,結合一些財報的數據,來勾勒出一個商業情境,並且在這三週依序學習 rule-based、content-based、協同過濾三種推薦系統模型解決該平台遇到的商業問題。

在案例中,該美妝電商面臨的主要問題有兩點

  1. 商品銷售集中在熱銷品上,且熱銷品供不應求
  2. 廣告投放成本上升,且廣告帶來的客單價下降

在這三週有針對不同的商業情境進行討論,例如大型行銷活動在即,是否要推出一個還不確定成效的推薦系統。從銷售的角度來說,能幫助業績增長就是好事;但從客戶成功(客服)的角度來說,不精準的推薦內容,可能會造成用戶抱怨、甚至流失。這些議題滿寫實的,都是值得深思的好問題,同時也能聽到來自各領域的同學們不一樣的思維。

未完待解的商業問題

在這個電商案例中,不只嘗試揭開商業問題的面紗,不斷的透過平台營運數據挖掘、釐清、定義各種潛在的商業問題,更進一步探討了不同的解決方案,以及推薦系統是如何解決這些商業問題。

將商業問題定義為一個資料科學問題是一件非常複雜困難的事。

在案例中要解決營收集中在熱銷品上,且熱銷品供不應求造成營收成長受阻的問題。選擇用推薦系統來推薦更多元的商品給使用者看似是其中一個合理的思路,但這個解決方案其實是建立在眾多假設上的。

例如,使用者的偏好是容易被改變的,會接受平台推薦的他款商品;商品種類越多,更能夠吸引更多(不同的)使用者。

這些假設都是滿有趣的議題,同時也應該考量到是否有必要將這些假設轉化為可驗證的假說,用資料科學的方式回答它們。

要如何衡量推薦系統能解決這項商業問題也是很值得探討的,例如,如何將商品推薦的多元性定義為模型指標,且在模型訓練、驗證時考慮到這項因素;或是推薦系統在短、中、長期會影響到哪些商業指標,要如何觀測。

課程中展開了許多商業、資料科學議題,幫助我們在學習推薦系統時有更好的代入感,可惜礙於課程時間有限,許多議題都沒有機會與講師、同學們有更進一步的討論,也沒有很好的總結,這是我覺得相對可惜的地方。

Part 2. 實戰新創案例 — iCook

第四到六週的課程,是使用 iCook 的內部資料進行推薦系統的實作。能夠在工作以外的場合,接觸到新鮮的商業資料是一件很有趣的事。

推薦系統的訓練資料是 2020 年的用戶收藏與料理內容等資料,而模型指標是這些用戶在 2021 年第一季的收藏清單的 recall,我們的任務就是要盡可能的建立一個得到高分的推薦系統模型。

在第五週的同學與 Richard 的分享中,已經揭露了時間對於推薦系統的重要性,也有許多關於時間的 rule-based 方法非常有效的提高模型表現。

我一開始採用的協同過濾方法,模型表現慘絕人寰。但是我還是很想嘗試用機器學習來解決這個問題(完全和課程理念背道而馳),大致上的理由有兩個

  1. 聽完同學分享以後,我心想這些 rule-based 看起來都是超簡單(只包含一個變數)的規則,讓模型學習到這些規則應該不難吧。透過 EDA 去找出規則,不就和決策樹在找分支的變數數值是一樣的嗎?能用機器學習為什麼要用工人智慧?
  2. 如果能讓模型從資料學習到簡單的規則,之後再透過更複雜的模型結合一些高維的資訊,這樣在模型的架構上會有更好的彈性與擴充性。

後來改良的方法是透過協同過濾計算出的相似度作為特徵,與其他食譜相關的特徵一起用模型預測收藏的機率,希望能同時考慮到用戶與食譜間的互動關係與食譜本身的特徵。

結果是模型表現有些微進步,但相比 rule-based 方法還是很差。推測原因是模型過擬合,訓練資料中的特徵數太少,而模型相對複雜。將這個推薦問題定義為一個預測問題,但卻沒有用戶的個人資料可以使用,一定會缺少很多重要的資訊。

雖然在模型成效上有點卡關,但這也是一個不斷驗證自己想法的實驗過程,同時也從許多優秀的同學中獲得了寶貴的經驗分享。

回顧與反思

結束了六週的課程,真的是非常充實且獲益良多,這堂課讓我覺得最棒的地方

  1. 學習到許多優秀同學們資料分析的框架與方法。這六週聽到了許多同學精彩的分享,有同學是在 EDA 的過程中用了很好的視覺畫的方法來觀察到變數的潛在模式,也有同學在 readme 檔案做出了一份很完整易懂的報告(太神了!),透過這種交流帶來的成長是非常大的。
  2. 最後兩週是由 iCook 的 Richard 分享,也是我認為這堂課中最精華的部分,都是只有在這領域弄髒雙手,紮實的摸索,用血淚才能換來的實戰經驗。不論是從推薦系統的建立,或是早期如何在團隊中推動資料科學的故事,都讓人印象深刻。

當然在時間、資源有限的情況下,討論「如何用商業領域知識來解決推薦系統問題」的篇幅,還是遠比「如何用推薦系統來解決商業問題」這樣的廣泛議題大得多,所以我不認為這次的經驗真的能夠直接的應用在實際商業場景中(因為還有太多層面沒考慮到了)。但對我來說,這堂課帶給我最珍貴的內容不是那些有關推薦系統的知識,而是透過這樣的實作、交流與業界第一手資訊,開啟了我對推薦系統在實際商業應用場景下各個面向的思考。

感謝 AC 所有夥伴、 iCook Richard 精心規劃的課程內容,以及各位同學們為這趟旅程帶來精彩的激盪與火花,期待未來在商業與資料科學的旅途上能與大家有更多的交流!

--

--