對于在業務中將機器學習作為核心技術的初創公司來說,能否獲得高質量的訓練數據極為關鍵。雖然很多算法和軟件工具都是開源和共享的,但好的數據集通常是專有的,且很難創建。因此,擁有針對特定領域的龐大數據集,能夠成為競爭優勢的一個重要來源,尤其是在初創公司能夠快速引發數據網絡效應的情況下(更多的用戶→更多的數據→更智能的算法→更好的產品→更多的用戶)。
所以,如何創建高質量數據集以用于訓練學習算法,這是機器學習初創公司必須作出的一個重要的戰略決定。不幸的是,在剛開始的時候,初創公司的標記數據常常十分有限,甚至缺失,為他們在數據驅動型產品的打造上取得重大進展增添了阻礙。因此,在聘請數據科學團隊或者部署昂貴的核心設施之前,有必要從一開始就研究制定好數據采集的策略。
很多方法都可以幫助初創公司克服數據采集的冷啟動問題。數據策略/來源的選擇通常與商業模式的選擇、公司的關注點(消費者或企業,水平或垂直,等等)以及融資的情況息息相關。以下是五種數據采集策略,雖然并不詳盡,且多少互有重疊,但能讓你對很多可用的方法有一個直觀的感受。
策略一:人工作業
從零開始創建好的專有數據集,幾乎永遠意味著預先投入大量人力采集數據,執行難以規模化的人工任務。靠蠻力開路的初創公司有很多。例如,很多聊天機器人初創公司聘請人類擔任“AI訓練師”,讓他們手動創建或核實虛擬助手作出的預測(實際效果各異,且員工流動率高)。就連科技巨頭都采用這種策略:Facebook虛擬助手M的所有回答,都由一支合同工隊伍進行檢查和編輯。
只要數據網絡效應在某個時候生效,所需人力不再跟隨客戶數量同步增加,那么用蠻力來手動標記數據點的策略就能取得成功。一旦AI系統的進步速度夠快,不明確的異常值就會變得更少,進行手動標記的人員數量就可以減少或者保持不變。
適用于:幾乎所有的機器學習初創公司
例子:
*很多聊天機器人初創公司(包括Magic、GoButler、x.ai和Clara)
*MetaMind(手動采集和標記的食物分類數據集)
*BuildingRadar(由員工/實習生手動標記建筑物圖片)
策略二:縮小范圍
大多數初創公司都會試圖從用戶那里直接采集數據,但問題在于,在機器學習的好處尚未全部體現出來之前,會很難說服早期采用者使用產品(因為先要有數據才能訓練和改進算法)。避開這種兩難處境的一個方法是大幅縮小問題域(如果以后有需要再擴大范圍)。克里斯·迪克森(ChrisDixon)說:“你需要的數據量與你試圖解決的問題廣度有關。”
關于縮小范圍的好處,聊天機器人再次成為很好的例子。這個領域的初創公司可以在兩個市場進入策略之間做出選擇:一種是打造水平型虛擬助手,也就是幫助解答很多問題并響應即時請求的機器人,例如Viv、Magic、Awesome、Maluuba和Jam;一種是打造垂直型虛擬助手,也就是力求極為出色地完成某項明確具體工作的機器人,例如x.ai、Clara、DigitalGenius、Kasisto、Meekan和近期的GoButler。雖然兩個方法都可行,但解決閉域問題的初創公司在數據的采集上要容易許多。
適用于:垂直整合型公司
例子:
*高度專業化的垂直型聊天機器人(比如x.ai、Clara和GoButler)
*DeepGenomics(利用深度學習技術對基因變異進行分類和解讀)
*QuantifiedSkin(利用客戶自拍照進行皮膚分析)