淺談數據分析與數據建模相關問題
數字時代到來之后,企業經營的各個階段都可以被記錄下來,產品銷售的各個環節也被記錄下來,客戶的消費行為和網上行為都被采集下來。企業擁有了多維度的數據,包括產品銷售數據、客戶消費數據、客戶行為數據、企業運營數據等。擁有數據之后,數據分析成為可能,企業成立了數據分析團隊整理數據和建立模型,找到商品和客戶之間的關聯關系,商品之間關聯關系,另外也找到了收入和客戶之間的關聯關系。典型的數據分析案例如沃爾瑪啤酒和尿布、蛋撻和手電筒,Target的判斷16歲少女懷孕都是這種關聯關系的體現。
關聯分析是統計學應用早的領域,早在1846年倫敦第二次霍亂期間,約翰醫生利用霍亂地圖找到了霍亂的傳播途徑,平息了倫敦霍亂,打敗了霍亂源于空氣污染說的精英,拯救了幾萬人的生命。倫敦霍亂平息過程中,約翰醫生利用了頻數分布分析,建立了霍亂地圖,從死亡案例分布的密集程度上歸納出病人分布同水井的關系,從而推斷出污染的水源是霍亂的主要傳播途徑,建議移除水井手柄,降低了霍亂發生的概率。
另外一個典型案例是第二次世界大戰期間,統計分析學家改造轟炸機。英美聯盟從1943年開始對德國的工業城市進行轟炸,但在1943年年底,轟炸機的損失率達到了英美聯盟不能承受的程度。轟炸軍司令部請來了統計學家,希望利用數據分析來改造轟炸機的結構,降低陣亡率,提高士兵生還率。統計學家利用大尺寸的飛機模型,詳細記錄了返航轟炸機的損傷情況。統計學家在飛機模型上將轟炸機受到攻擊的部位用黑筆標注出來,兩個月后,這些標注布滿了機身,有的地方標注明顯多于其他地方,例如機身和側翼。有的地方的標注明顯少于其他地方,例如駕駛室和發動機。統計學家讓軍火商來看這個模型,軍火商認為應該加固受到更多攻擊的地方,但是統計學家建議對標注少的地方進行加固,標注少的原因不是這些地方不容易被擊中,而是被擊中的這些地方的飛機,很多都沒有返航。這些標注少的地方被擊中是飛機墜毀的一個主要原因。軍火商按照統計學家的建議進行了飛機加固,大大提高了轟炸機返航的比率。以二戰的B-17轟炸機為例,其陣亡率由26%降到了7%,幫助美軍節約了幾億美金,大大提高了士兵的生還率。
一、數據分析中的角色和職責
數據分析團隊應該在科技部門內部還在業務部門內部一直存在爭議。在業務部門內部,對數據場景比較了解,容易找到數據變現的場景,數據分析對業務提升幫助較大,容易出成績。但是弊端是僅僅對自己部門的業務數據了解,分析只是局限獨立的業務單元之內,在數據獲取的效率上,數據維度和數據視角方面缺乏全局觀,數據的商業視野不大,對公司整體業務的推動發展有限。業務部門的數據分析團隊缺少數據技術能力,無法利用新的大數據計算和分析技術,來實現數據分析和建模。數據分析和計算依賴于科技部門,效率較低,無法打通各個環節和實現效率和收益優。
數據分析和挖掘部門位于科技部門,優點是直接可以了解所有數據,利用新的大數據計算分析技術來進行數據分析和建模,數據視野好。面對全局數據建立數據采集和分析系統,系統復用程度高,降低重復投資,效率高。但是團隊人員商業敏感度低,過度關注技術和架構,重視技術的和處理效率,數據商業敏感度低,不重視數據商業化場景,對業務理解程度不夠,支持力度不如前者。科技部門愿意搭建一個大數據平臺,讓業務部門自己去尋數據場景,業務部門在數據商業化過程中也會遇到環節不暢通,效率低下的問題。
數據分析團隊應該屬于獨立的部門,為所有的業務部門提供服務,具有獨立的技術團隊,可以搭建獨立的大數據計算和分析平臺,利用新的數據處理技術來建立模型進行分析。另外數據分析團隊的人應來源于業務部門,具有高度的數據商業敏感度,可以將業務部門的需求分解為數據需求,將業務場景同數據場景以及數據分析相結合起來。
數據分析是一項實踐性很強的工作,涉及到很多交叉學科,需要不同的崗位和角色,來實現不同的性質的工作。基本的崗位和角色如下:
1、數據庫(倉庫)管理員DBA
DBA了解企業內部的數據和可用的數據資源,包括數據的存儲細節和數據字典,另外其對數據的采集、清洗和轉化起到關鍵作用。
DBA為數據科學家和數據分析師提供加工好的原始數據,這些數據是數據分析和建模的基礎,DBA做了數據分析工作中重要的基礎工作,完成了大量的臟活和累活。
2、業務專家
業務專家的優勢是數據的商業敏感度,了解業務需求,可以將業務需求轉化為數據需求,進一步找到數據應用場景。另外業務專家也可以通過對數據的分析,找到新的商業機會,同業務部門一起制定商業計劃,利用數據分析推動業務增長。
業務專家的經驗對于數據分析和建模是非常關鍵的,他們可能是風險管理人員、欺詐監測專家、投資專家等。數據建模來源于業務經驗和業務知識,正是業務專家的專業分析找到了業務規律,從而找到了建模方向,并對建模工作給出建議和解釋。
3、數據科學家
過去統計分析依賴于統計分析工具,大數據時代之后,數據量級的提升和數據類型的復雜程度,讓很多傳統的統計分析工具無法完成分析計算。這個時候,數據科學家出現了,他們可以利用自己的專業技能幫助業務專家和數據分析人員進行建模和計算。
過去數據統計分析建模常用SPSS,SAS,MATLAB等工具,現在基于大數據平臺的分析建模可以使用Spark+Scala/Python/R/Java。數據科學家了解模型和算法,可以直接承擔建模和調優工作,懂得選擇合適的算法來進行計算,提率。
4、數據分析師
數據分析師站在數據和商業的角度來解讀數據,利用圖標和曲線等方式向管理層和業務人員展現分析結果,揭示數據分析產生的商業機會和挑戰。
數據分析師將雜亂的數據進行整理后,將數據以不同的形式展現給產品經理、運營人員、營銷人員、財務人員、業務人員等。提出基于數據的結果和分析建議,完成數據從原始到商業化應用到關鍵一步,數據分析師的數據敏感度、商業敏感度、分析角度、表達方式對于商業決策很重要。
5、運營專家
數據分析結果和商業決策出來之后,運營專家負責實現商業決策。通過有計劃的運營活動,將數據分析的結果應用到實際的商業活動之中,運營專家是實現數據變現后一公里的關鍵人物。
運營專家屬于業務人員,實際上參與業務運營活動,利用數據分析結果,實現業務場景和數據場景的結合,實現數據商業化應用。
二、數據分析之前的各項準備工作
數據分析團隊各成員確定之后,將進行下一項工作,就是找到有價值的數據進行分析了。數據是分析的基礎,因此數據的質量、數據的相關度、數據的維度等會影響數據分析的結果影,其中GIGO(垃圾進垃圾出)對于數據分析結果影響大。
1、數據源選擇
數據分析團隊面對大量的數據源,各個數據源之間交叉聯系,各個數據域之間具有邏輯關系,各個產品統計口徑不同,不同的時間段數值不同等。這一系列問題多會影響數據分析結果,因此確定數據源選擇和數據整理至關重要。
DBA可以基于數據分析需要,找到相關數據,建立一張數據寬表,將數據倉庫的數據引入到這張寬表當中,基于一定的邏輯關系進行匯總計算。這張寬表作為數據分析的基礎,然后再依據數據分析需要衍生出一些不同的表單,為數據分析提供干凈全面的數據源。寬表一方面是用于集中相關分析數據,一方面是提率,不需要每次分析時都查詢其他的數據表,影響數據倉庫效率。
2、數據抽樣選擇
簡單的數據分析可以調用全體數據進行分析,數據抽樣主要用于建模分析,抽樣需考慮樣本具有代表性,覆蓋各種客戶類型,抽樣的時間也很重要,越近的時間窗口越有利于分析和預測。在進行分層抽樣時,需要保證分成出來的樣本比例同原始數據基本一致。
3、數據類型選擇
數據類型分為連續型和離散型,建模分析時需要確定數據類型。進行業務收入趨勢分析、銷售額預測分析、RFM分析時,一般采用連續型變量。信用評級、分類預測時一般采用離散變量。