【中國智能制造網(wǎng) 專訪�“�(shù)�(jù)分析師與�(shù)�(jù)科學(xué)家的區(qū)� 就像本科與博士做研究一樣:本科生是老師手把手教題目,而博士生是自己找題目�”
鄭宇:大�(shù)�(jù)�(shí)代缺的不是數(shù)�(jù) 而是開放的思維
作為人群聚集區(qū),城市是一�(gè)天然的數(shù)�(jù)集中池�
社交媒體、交通流量、氣象、地理等多種大數(shù)�(jù)都在這里匯聚,物�(lián)�(wǎng)、傳感器的發(fā)展,也讓這些�(shù)�(jù)得以被追蹤存�(chǔ)。當(dāng)這些�(shí)空數(shù)�(jù)集被組合起來,并與人工智能結(jié)合,這似乎是一條解決交通擁堵、環(huán)境惡化、能耗增加等城市問題的新的角度�
“我們都生活在城市中,城市跟我們的生活密切相關(guān)。我是做�(jì)算機(jī)科學(xué)的人,那為什么不能想辦法解決身邊的那些常見的問題呢?”在一次公開采訪中,鄭宇如此描述自己鐘情城市計(jì)算的一�(gè)原因�
近年來,城市�(jì)�(Urban Computing)逐漸走入公眾視野,并且越來越受到社會(huì)�(guān)注。這是是計(jì)算機(jī)科學(xué)以城市為背景,與城市�(guī)劃、交通、能源、環(huán)境、社�(huì)�(xué)和經(jīng)�(jì)等學(xué)科融合的新興�(lǐng)域。城市計(jì)算通過不斷獲取、整合和分析城市中不同領(lǐng)域的大數(shù)�(jù)來解決城市所面臨的挑�(zhàn)�
�2013年,鄭宇�?yàn)樵诔鞘杏?jì)算方面的杰出研究被《MIT科技�(píng)論評(píng)》評(píng)為全球杰出青年創(chuàng)新者�
雅虎�(chuàng)始人楊致�(yuǎn)、谷歌聯(lián)合創(chuàng)始人拉里•佩奇、Facebook�(chuàng)始人馬克•扎克伯格、Twitter�(lián)合創(chuàng)始人杰克•多西以及蘋果�(shè)�(jì)師喬納森•艾維等多位互�(lián)�(wǎng)明星都曾入選TR35。而鄭宇是�(dāng)年入選者中僅有的兩位來自中國機(jī)�(gòu)的創(chuàng)新者之一�
微軟研究院鄭宇帶�(lǐng)�(tuán)�(duì)主持“城市�(jì)�”以來,通過分析和融合城市中的各種大�(shù)�(jù),實(shí)�(xiàn)了一系列�(guān)于智能交通、城市規(guī)劃、環(huán)境和能源的實(shí)際案例。相�(guān)技�(shù)不僅被應(yīng)用于微軟的產(chǎn)品,并且還在多�(gè)城市服務(wù)于中國政府�
3�20日,微軟亞洲研究�“城市�(jì)�”�(lǐng)域負(fù)�(zé)人鄭宇博士近期在清華大數(shù)�(jù)講座上分享了題為“大數(shù)�(jù)�(qū)�(dòng)城市�(jì)�”的講座�
演講后,我們有幸針�(duì)“�(shù)�(jù)科學(xué)�(tuán)�(duì)建設(shè)問題”�(duì)鄭宇博士�(bǔ)充了相關(guān)采訪問題,針�(duì)這樣一�(gè)�(shí)空數(shù)�(jù)交雜的分析領(lǐng)域,鄭宇在組建數(shù)�(jù)�(tuán)�(duì)和數(shù)�(jù)人才培養(yǎng)方面有著自己的獨(dú)到見解,此外,針�(duì)技�(shù)和研究方向上,他也給出了基于自己�(jīng)�(yàn)的看法�
以下為問答實(shí)�——
�(shù)�(jù)分析師與�(shù)�(jù)科學(xué)家的區(qū)�
就像本科與博士做研究一�
�
Q:數(shù)�(jù)分析師和�(shù)�(jù)科學(xué)家有什么區(qū)別?
鄭宇:很多公司的招聘廣告上面寫招聘數(shù)�(jù)科學(xué)家其�(shí)都不是招真正的數(shù)�(jù)科學(xué)家,而是�(shù)�(jù)分析師。數(shù)�(jù)分析師有明確的任�(wù),明確的�(shù)�(jù),結(jié)果也明確,他�(huì)用一些分析工具去跑一些報(bào)表,然后提交�(jié)果。而數(shù)�(jù)科學(xué)家要有能力自己找題目,首先要懂得行業(yè)問題,其次懂得數(shù)�(jù)背后的隱含信息,然后還要知道這�(gè)行業(yè)問題之后你要知道用什么數(shù)�(jù)如何解決這�(gè)問題。除此以外,還要�(duì)各種模型都很清楚,不光是�(jī)器學(xué)�(xí),還有數(shù)�(jù)管理以及可視化,把很多模型要組合在一起。后要對(duì)云計(jì)算平�(tái)有一定的了解,要�(xué)�(huì)怎么用,甚至要學(xué)�(huì)怎么改它,一�(gè)好的�(shù)�(jù)科學(xué)家是站在云平�(tái)上面看問題、想�(shù)�(jù)、關(guān)�(lián)模型,把這些模型有機(jī)組合起來部署到云平臺(tái)上面,產(chǎn)生鮮活的知識(shí),解決行�(yè)問題,這�(gè)才是大數(shù)�(jù)。其中的區(qū)別就像本科與博士做研究一樣,本科生是老師手把手教題目,博士生是自己找題目�
我通過兩�(gè)例子講述一下什么叫�(shù)�(jù)科學(xué)家,什么叫�(shù)�(jù)分析師:
先舉一�(gè)�(shù)�(jù)分析師的例子:銀行向用戶�(fā)信用卡,用戶提交的表格上有他的年齡、職�(yè)、收入等信息,需要分析師判斷是否給這�(gè)用戶�(fā)信用卡。這是一�(gè)YES or NO的問題,分析師要做的是拿�(gè)人的信用記錄去訓(xùn)練一�(gè)分類模型。任�(wù)明確,數(shù)�(jù)明確,決定也很明確�
再說一�(gè)政府向數(shù)�(jù)科學(xué)家提出的需求:“徐匯區(qū)有一條路灰很多,怎么用大�(shù)�(jù)去處理?”�“北京市建副中心到通州以后�(duì)北京整�(gè)的經(jīng)�(jì)、環(huán)境、交通有什么影響?”這�(gè)問題不是因果問題,不是預(yù)�(cè)問題,也不是�(guān)�(lián)問題,需要你去想找什么樣的數(shù)�(jù),怎么展現(xiàn)怎么�(shí)施。沒有具體問題也沒有具體�(shù)�(jù),這就是數(shù)�(jù)科學(xué)家應(yīng)該解決的問題�
Q:您的團(tuán)�(duì)大致有多少人組成?與數(shù)�(jù)相關(guān)的團(tuán)�(duì)有多少人,有哪些不同的職位劃�?
鄭宇:我的核心團(tuán)�(duì)其實(shí)沒有大家想象的那么大。有2位研究員�4名軟件工程師和八、九名研究助理組成。根�(jù)城市�(jì)算的四�(gè)層面(城市感知、城市數(shù)�(jù)管理、城市數(shù)�(jù)的分析和挖掘、服�(wù)提供)以及每�(gè)人的特長和興趣,我會(huì)給這些組員分配不同的工作。其中一位研究員帶領(lǐng)幾名研究助理和工程師,負(fù)�(zé)�(shù)�(jù)管理層面。另一位研究員帶領(lǐng)幾名研究助理和工程師,負(fù)�(zé)城市�(shù)�(jù)的挖掘和分析層面。另外幾名研究助理會(huì)分布在城市感知以及服�(wù)提供兩�(gè)層面。我�(huì)參與到城市計(jì)算各�(gè)層面的項(xiàng)目中去。此外,我們會(huì)跟一些合作伙伴展開合作,比如,會(huì)有一些高校的�(tuán)�(duì)在某些項(xiàng)目中幫助我們做一些可視分�. 另外,我們也�(huì)�(jīng)常跟市場(chǎng)部門的合作伙伴一起跟客戶溝通,了解他們的需求,�(xié)�(diào)�(shù)�(jù)并終部署技�(shù)�
Q:數(shù)�(jù)相關(guān)�(tuán)�(duì)在微軟及您的整�(gè)�(tuán)�(duì)中所處地位如何?
鄭宇:數(shù)�(jù)�(tuán)�(duì)在一�(gè)�(xiàng)目的始終都扮演者及其重要的作用。從開始的市�(chǎng)接入�(huán)節(jié),我們的�(shù)�(jù)�(tuán)�(duì)就要開始參與到其中,了解用戶的需求和掌握的數(shù)�(jù)情況,甚至要幫助用戶分析和提出他們的需求。在�(xiàn)在這些�(shù)�(jù)�(qū)�(dòng)和人工智能主�(dǎo)的項(xiàng)目中,單純依靠銷售和市場(chǎng)�(tuán)�(duì)很難打開局面,也很難形成跟客戶的有效配合。后期,我們還要對(duì)第三方運(yùn)維企�(yè)做有效的培訓(xùn),確保他們能夠維�(hù)我們部署的系統(tǒng)�
[MTpage]
大數(shù)�(jù)�(shí)代我們真的不再缺�(shù)�(jù)�
缺得是我們的思維不夠開放
�
Q:一�(gè)好的�(shù)�(jù)科學(xué)家關(guān)鍵的品質(zhì)是什么?
鄭宇:你�(huì)�(fā)�(xiàn)在大�(shù)�(jù)�(shí)代我們真的不再缺�(shù)�(jù)了,缺得是我們的思維不夠開放,思考問題A的時(shí)候不要一直看問題A的數(shù)�(jù),其�(shí)�(huì)�(fā)�(xiàn)問題B和C的數(shù)�(jù)都可以拿來用,而且這�(gè)�(shù)�(jù)完全可以不是你這�(gè)�(lǐng)域的�(shù)�(jù)。只有你�(duì)這�(gè)問題理解深刻以后才能把別的數(shù)�(jù)背后的知�(shí)拿過來做融合。很多時(shí)候項(xiàng)目推�(dòng)不了不是人數(shù)不夠,而是�?yàn)槿狈χ虚g靈魂的頭腦,培養(yǎng)這樣的人其實(shí)是非常困難的。以我�(gè)人的�(jīng)�(yàn)至少七到十年才能培養(yǎng)出這樣一�(gè)真正的數(shù)�(jù)科學(xué)家來,這樣一�(gè)人可以解決很多問題。所以我鼓勵(lì)大家,你至少讀一�(gè)五年P(guān)HD加兩年的�(shí)�(zhàn)�(jīng)�(yàn),基本上可以來做這樣的事情�
Q:那么算法的理論知識(shí)和實(shí)際項(xiàng)目的�(shí)踐經(jīng)�(yàn)?zāi)膫€(gè)更重要?
鄭宇:兩�(gè)方面都很重要,但是后者的�(xué)�(xí)和獲取過程更困難�
�(shù)�(jù)挖掘的模型你可能拿本書學(xué)�(gè)兩三年基本能�(xué)�(huì)一些模型,但是很多�(xiàng)目的�(jīng)�(yàn),你的真的很少有�(jī)�(huì)接觸到這樣的項(xiàng)目。只有把系統(tǒng)部署到真�(shí)世界中用起來,拿到新的反饋,再改�(jìn)模型,經(jīng)過這幾次迭代過程你�(huì)�(xué)到很多東西,但是這�(gè)�(jī)�(huì)特別少,特別難得。而且你從后者怎么吸取和提煉這種�(jīng)�(yàn)也很重要,如果沒有總�(jié)能力和提取能力的話,換�(gè)新問題你還是不會(huì)做。所以我覺得這兩者都重要,后者培�(yǎng)起來更加困難一�(diǎn)�
Q:您怎么看待�(shù)�(jù)�(qū)�(dòng)?數(shù)�(jù)�(qū)�(dòng)在一�(gè)企業(yè)可以輔助商業(yè)決策,請(qǐng)列舉在過去幾年利用數(shù)�(jù)解決研究問題/�(fā)�(xiàn)觀�(diǎn)的一�(gè)有趣的例子�
鄭宇:從商業(yè)選址到空氣質(zhì)量預(yù)�(cè),數(shù)�(jù)�(qū)�(dòng)的方法已�(jīng)多次作出了有效的決策。比如,合理的為商業(yè)店面選址可以帶來更多的人氣,提升商業(yè)的收益并降低企業(yè)的投入。通過�(shù)�(jù)�(qū)�(dòng)的方法為充電樁選址,可以讓有限的資源為更多車服�(wù),并且避免過度擁堵。另外,在住宅地�(chǎn)選址的過程中,我們發(fā)�(xiàn)除了�(xué)區(qū)房,影響小區(qū)�(jià)值的另一�(gè)重要因素是該小區(qū)通向近高速公路入口的路網(wǎng)距離(或者通行�(shí)�)。位置很近的兩�(gè)小區(qū),其�(jià)�(根據(jù)同一市場(chǎng)�(huán)境下的漲幅比來確�)可以相差很遠(yuǎn)�
�(guān)于數(shù)�(jù)模型資產(chǎn)的復(fù)�
有兩�(gè)東西可以�(zhuǎn)�
�
Q:北上廣這些城市的數(shù)�(jù)化基�(chǔ)�(shè)施比較好,那么在這些地區(qū)做城市研究會(huì)相對(duì)可操作,但是,在其他的比較落后的地區(qū)如何開展相關(guān)城市�(jì)算研究呢�
鄭宇:我�?cè)谘芯恐校�?huì)遇到有兩�(gè)類似的模型應(yīng)用場(chǎng)景的情況,但是我們不能直接把在A�(chǎng)景做的模型應(yīng)用到B�(chǎng)景去,這時(shí)候,我建議基于遷移學(xué)�(xí)的方法來做不同場(chǎng)景間的知�(shí)的轉(zhuǎn)移。有兩�(gè)東西可以�(zhuǎn)移:
,數(shù)�(jù)和數(shù)�(jù)之間的關(guān)系可以轉(zhuǎn)移:比如說出�(xiàn)擁堵的時(shí)候空氣質(zhì)量會(huì)變壞,當(dāng)濕度比較高的�(shí)候容易形成霧霾。這種�(shù)�(jù)和數(shù)�(jù)之間的關(guān)系在很多地方都是普遍存在的,可以在A 城市里面用豐富的�(shù)�(jù)�(xùn)練出一些字典,然后以此為基�(zhǔn)�(fù)用到B、C、D城市去�
第二,利用隱含空間:�(shù)�(jù)本身可能不能�(zhuǎn)移,但是把數(shù)�(jù)投影到隱含空間以后,不同城市的數(shù)�(jù)就可以共享。我舉�(gè)隱含空間的例子,比如北京市的交通流量和寧波市的交通流量肯定很不一樣,但是它們投影到隱含空間里面可能都是早高峰堵、晚高峰堵中間不堵,如果都能投影到類似的隱含空間以后,不同城市的�(shù)�(jù)就可以共享和利用�
Q:如何選擇模型特征?
鄭宇:在做模型特征選擇時(shí),數(shù)�(jù)�(zhì)量比特征重要,特征比模型重要�
,如果你根本都沒這�(gè)�(shù)�(jù)的話你可能費(fèi)很大勁設(shè)�(jì)各種模型才能得到一�(diǎn)好的�(jié)果,如果你的�(shù)�(jù)�(zhì)量很好,你有這�(gè)�(shù)�(jù)了,就很容易得到�(jié)果�
第二,業(yè)�(wù)理解深度和對(duì)�(shù)�(jù)的敏感度決定了你能找到的特征好壞。如果提了很好的特征,可能根�(jù)兩三�(gè)特征就能得到別人十幾�(gè)特征的不得結(jié)果。我們提取什么特征完全取決于我們對(duì)問題本身的理解,所以我著眼在與行業(yè)知識(shí)�(jié)合,�(shù)�(jù)挖掘其實(shí)是一�(gè)�(fā)�(xiàn)知識(shí)的過程,我們需要有從數(shù)�(jù)里面提煉知識(shí)解決問題的能力�
第三,數(shù)�(jù)越大、質(zhì)量越好,特征的選擇的必要性越低。在傳統(tǒng)的數(shù)�(jù)挖掘里往往有很多參�(shù)但訓(xùn)練樣本又很少,所以不得不�(jìn)行特征優(yōu)選,使得�(xùn)練樣本還是那么多,但是參�(shù)變少,這樣可以保證�(xùn)練效果跟以前不差甚至更好。而現(xiàn)在我們擁有海量數(shù)�(jù)了,哪怕多選了一些冗余的特征,也可以依靠后面模型的力量來通過�(quán)重參�(shù)的做約束,越來越多的�(jī)器學(xué)�(xí)算法本身就考慮了特征的冗余性問題,所以在你擁有足夠大的高�(zhì)量數(shù)�(jù)之后,是沒必要花�(fèi)太多的精力在特征剔除上�
有問題的�(shí)候不�
先去看別人怎么做的
重要的是你是否真�
�(duì)用數(shù)�(jù)解決問題感興�
�
Q:怎么決定研究方向�
鄭宇:我們基本上所有的工作都來源對(duì)生活的觀察。重要的一�(diǎn)是你是否真的�(duì)用數(shù)�(jù)解決問題感興趣,你真正能夠體�(huì)到這種樂趣的時(shí)候就�(jìn)入狀�(tài)了�
通常我�?cè)诳吹浆F(xiàn)�(shí)生活中真的有很難的題目后,會(huì)在設(shè)�(jì)完方法以后再看有沒有相關(guān)的工作做過了,這避免了我們的思路跟別人重�(fù)。再此我也建議大家,如果你有問題的時(shí)候不要先去看別人怎么做的,很多學(xué)生喜歡這么想,看到一�(gè)題目馬上就去搜別人怎么做的,然后馬上跟著別人思路走�(jìn)去了,很難有�(chuàng)造性的思維�
Q:對(duì)于希望�(jìn)入數(shù)�(jù)�(lǐng)域的工程師,分析師們,您希望他們加�(qiáng)哪方面的技能培�(yǎng)?
,加�(qiáng)�(shù)�(jù)科學(xué)的基本技能培�(yǎng),包括數(shù)�(jù)管理、機(jī)器學(xué)�(xí)和可視化技�(shù)以及云計(jì)算平�(tái)的使用�
第二,加�(qiáng)�(duì)要解決問題所在行�(yè)的了解,借助行業(yè)�(xiàn)有的知識(shí)來設(shè)�(jì)合理的數(shù)�(jù)模型,明確行�(yè)傳統(tǒng)方法為什么不行,并懂得跟行業(yè)專家有效溝通�
第三,培�(yǎng)溝通和表達(dá)能力。現(xiàn)在的�(shù)�(jù)科學(xué)家不再是�(guān)起門來在家里閉門造車的工匠或者學(xué)者,他需要把�?yuàn)W的問題和理論用淺顯的語言講出來,讓政府以及傳�(tǒng)行業(yè)的客戶能夠明白�
后,培養(yǎng)自己的創(chuàng)作力。很多時(shí)候客戶是提不出需求的,作為一�(gè)�(shù)�(jù)科學(xué)家要有超前的想象力和犀利的�(chuàng)造力。這點(diǎn)難培�(yǎng),跟一�(gè)人的成長�(jīng)歷有�(guān),甚至要從娃娃抓起�
我正在為MIT Press撰寫一本《城市計(jì)算》的英文專著,里面涉及了�(shù)�(jù)科學(xué)家需要掌握的各種技能,以及�(shí)�(zhàn)案例。該書將作為美國該專�(yè)的本教材,預(yù)�(jì)年底出版,有興趣的朋友可以關(guān)注�”
(原標(biāo)題:專訪微軟鄭宇:這�(gè)�(shí)代不缺數(shù)�(jù),缺得是不夠開放的思維)