2019年已經走過了98%,再過幾天,20后就要誕生了!
這一年注定是充滿了里程碑的一年。它將大眾從《西部世界》、《終結者》等好萊塢科幻電影不切實際的虛幻場景中抽離出來,讓人們認識到,AI其實是世界上的有形力量而非夢幻,從而開始認真討論AI對社會,經濟,政治和力量平衡的影響。
本文回顧了語言模型成績斐然、人臉識別遭遇阻礙、自動駕駛遲遲未實現、DeepFake進入主流等等AI領域的發展現狀:有哪些技術突破面世,又遭遇了哪些新的困難?一起跟隨吳恩達的Deeplearning.ai,來看今年AI重要領域內的六大標志性事件和趨勢。
新智元吳恩達團隊盤點2019AI大勢:自動駕駛寒冬,NLP大躍進,Deepfake已成魔!
自動駕駛:春天的希望即將到來
就在幾年前,一些汽車公司還在承諾,早在2017年就可推出可上路的自動駕駛汽車。不過,今年1月《華爾街日報》報道,Waymo首席執行官約翰·克拉夫奇克(John Krafcik)表示,自動駕駛汽車可能永遠無法在全路況條件下行駛。
自動駕駛在2019年不太容易,幾家在自動駕駛領域活躍的公司的商業化擴展的速度明顯放緩。GM Cruise和特斯拉已經將自家旗下的自動駕駛出租車的后期限推遲到2020年。
對于Waymo和Lyft而言,盡管美國鳳凰城監管部門在2018年就已允許這兩家公司開展自動駕駛出租車的運營業務,但到目前為止,這項服務僅在少數有限地區開展,愿意選擇這項服務的人群也是寥寥無幾。商用業務進展不順,今年11月,Waymo宣布關閉在德州奧斯汀的自動駕駛汽車研發機構。
從技術上看,城市中道路的實時駕駛環境比路測更復雜,可能出現的危險情況也明顯增多。但如此多的情況,能實際出現的幾率卻很低,這就造成了一個麻煩,工程師們可能無法獲得足夠的模擬數據再現這些情況。目前來看,一些行駛路線相對固定,可預測性較高的車輛,比如自動駕駛公交車、貨車等,這些車可能比私家車和出租車更有希望嘗到自動駕駛技術落地的真正甜頭。
從成本上看,傳感器(尤其是激光雷達)成本居高不下,而且供應量吃緊,汽車企業成本控制,更多地選擇自己嘗試制造這些設備,同時勢必對車輛上的傳感器數量進行縮減,而傳感器數量的減少意味著訓練和認知數據量的下降,如果傳感器的性能提升速度無法彌補這個下降,威脅到的將是自動駕駛技術的重中之重——安全性。
從市場環境上看,2019年是汽車企業大裁員的一年。在經濟下行、新車需求減少的背景下,日美歐各大車企先后宣布了大裁員計劃。據不完全統計,每三家汽車公司中就有一家正在裁員。自動駕駛是個燒錢的行業,新技術的研發離不開傳統車企的技術和資金支持,目前這個環境下,過去的富爸爸們也顯得捉襟見肘了。
當然,也不是沒有好消息,中國就正在嘗試另一種思路。不再訓練自動駕駛汽車在現有的城市環境中進行導航,而是對現有城市進行數字化改造,以適應并促進自動駕駛技術的發展。這被稱為“智能城市”建設,包括路邊傳感器設備的完善,這些傳感器會根據導航提示(例如車道變化和限速牌)傳遞更豐富的道路信息。
總體來看,2019年是自動駕駛行業內劃分進一步細化的一年,技術瓶頸和資金緊縮讓企業無法維系大而全的業務線,轉而專攻一個個自己擅長的專門領域。
傳統汽車制造商,比如福特和梅賽德斯,將重點放在了輔助駕駛功能上,背靠谷歌的Waymo則繼續致力于全自動駕駛汽車,一些小公司則努力在有限場景中部署全自動駕駛,這些公司的目標會隨著時間的推移而不斷擴展。
Deepfake:技術孕育的妖怪如何收服?
2018年底開始,一批能夠生成高度還原圖像的模型陸續誕生,如BigGAN和StyleGAN,前者可以生成ImageNet中發現的類的圖像,后者能夠生成姿勢,發型和衣服等要素的逼真變化。
2019年,基于深度學習技術生成的“Deepfake”假視頻開始泛濫,這些視頻能夠憑空制造根本不存在的名人或政治人物的演講內容,這些逼真的視頻讓人們發出“技術無所不能”的贊嘆,同時,也引發了更多的人對技術濫用和不可控的擔憂,甚至是恐懼。
Deepfake的出現實現了“以假亂真”的合成技術從圖像到視頻的跨越
在Deepfake視頻中,英國足球明星大衛·貝克漢姆(David Beckham)可以用9種語言傳達抗瘧疾信息。中國科技企業發布基于同樣技術的應用ZAO,可以將視頻中用戶的臉換到流行的電影場景中的演員身上,讓用戶感覺就像是自己在演電影一樣。
不過,與惡搞娛樂和公益相比,Deepfake更多地顯示了技術的“陰暗獠牙”。利用Deepfake偽造的演講視頻已經對馬來西亞和加蓬的政治丑聞產生影響。
據Deepfake檢測軟件的DeeptraceLabs的一份報告稱,目前在線的Deepfake視頻中有96%是非自愿拍攝的“換頭”片,片中人的臉往往被換成了女性名人的臉。這已經超出了惡搞的范疇,觸及違法的邊緣。
“妖怪”已經從瓶中放出,我們應如何應對?科技企業和政府立法部門已經開始努力。Facebook宣布了開啟一項總獎金高達1000萬美元的競賽,開發Deepfake假視頻的自動檢測技術。中國政府頒布了關于禁止傳播虛假視頻的相關規定。美國加州也通過了一項類似的法律,眾議院則在考慮推動對抗Deepfake假視頻的國家層面的立法。
這可能是一場曠日持久的“貓捉老鼠”的高科技比拼。南加州大學計算機科學教授黎顥表示,這場比拼中,當貓的一方前景可能并不樂觀,盡管今天的Deepfake視頻仍有明顯特征,但一年之后,這些假視頻和真視頻可能就根本沒有區別了。
人臉識別落地受挫,政府插手立法遏制
相比NLP領域的蓬勃發展,人臉識別卻在前進路上遭遇到了嚴重的抵制。反監視情緒的推波助瀾,阻礙了人臉識別系統的進一步泛濫。
公眾出于對自身隱私、肖像被濫用的擔憂,美國和歐洲的維權人士以及監督組織對人臉識別可能導致公民人身權利遭到潛在危害而深感憂慮,于是促使立法來限制該技術的使用。
他們的努力推動了國家禁止對該技術的公共和私人使用的勢頭,讓剛剛嶄露頭角、準備大干一場的人臉識別大規模商用遭受當頭一棒,
如今隨著美國聯邦政府對問題進行審議,美國多個城市通過了反面部識別法。而歐盟也正在努力制定自己的限制標準。下面我們回顧一下今年幾起標志性的事件。
今年5月,舊金山成為美國第一個禁止警察和其他政府官員使用人臉識別的大城市;馬薩諸塞州波士頓的薩默維爾地區則緊隨其后。在接下來的幾個月內,舊金山的鄰居奧克蘭和伯克利也通過了類似的法律。這些法律是由美國公民自由聯盟牽頭的,該聯盟旨在促進國家立法。
在華盛頓,美國國會議員抨擊了國土安全部對該機構在機場和邊境使用該技術的計劃。參議院和眾議院的立法者提出了至少十二項法案,其中許多法案得到了兩黨的支持。這些法案旨在限制使用面部識別在壓制人身,剝奪住房和創造利潤方面的影響。
歐洲監管機構推動將面部圖像分類為符合現有隱私法規的生物識別數據。歐盟委員會正在考慮立法來針對私人組織和公共機構“不加區別地使用”面部識別的行為。盡管如此,法國還是在10月準備了一項基于該技術的國家識別項目。
中國對人臉識別的使用在美國引起了反對,美國聯邦貿易當局禁止向幾家中國公司出口美國技術。
2016年,美國國家電信和信息管理局發布了人臉識別指南,要求公司保持透明,實行良好的數據管理并允許公眾對與第三方共享人臉數據的某些控制權。盡管該技術的主要供應商是NTIA的成員,但尚不清楚他們是否遵守這些準則。
雖然立法限制使用人臉識別的初衷是為了保護公民的隱私,但不同的立場以及各自為政的作風,反而可能帶來一些負面的效果。
今年6月份,亞馬遜網絡服務公司首席執行官Andy Jassy大吐苦水:“求求國會趕緊統一立法的吧,要不然我們將會面對的是:在美國50個州有50種不同的法律法規!”這樣的混亂局面甚至可能讓當地的執法部門都陷入困惑之中。
NLP飛躍,語言模型變得精通語言
早期由Word2Vec和GloVe embeddings支持的語言模型產生了令人困惑的聊天機器人、具有中學閱讀理解能力的語法工具,以及勉強能看的翻譯。但新一代的語言模型變得如此之好,甚至有人認為它們很危險。
2019年自然語言處理領域發生了什么呢?一個新的語言模型生成了新聞文章,讀者評價其和《紐約時報》一樣可信;同樣的語言模型還為《紐約客》的一篇文章做出了貢獻。令人欣慰的是,這些模型沒有像人們擔憂的那樣散布大量虛假信息。
2019年,研究人員在讓機器理解自然語言方面取得了飛躍。通過對巨大的、未標記的數據集進行預訓練,新模型通常可以熟練掌握自然語言。然后,他們通過在專門語料庫上進行微調來掌握給定的任務或主題。
早期的模型如ULMFiT(由Jeremy Howard和Sebastian Ruder提出)和ELMo(來自艾倫人工智能研究所和華盛頓大學)展示了預訓練的潛力,而谷歌的BERT是這種方法的第一個突破性的成功。BERT于2018年底發布,在GLUE閱讀理解基準測試中得分之高,以至于測試的組織者首次將模型的表現與人類的baseline分數進行了比較。今年6月,微軟的MT-DNN模型首次擊敗了人類。
今年2月中旬,OpenAI發布了GPT-2,一個預訓練的通用語言模型,其創建者甚至認為它太過危險而不能發布,因為它有能力生成令人信服的文章。GPT-2使用40GB的Reddit評論進行了訓練,并沒有引發假新聞的大災難,但確實為一部小說、一首前衛的歌詞,以及《權力的游戲》的同人小說做出了貢獻。OpenAI終在11月發布了完整版本的模型。
在這期間,來自百度、卡內基梅隆大學、谷歌大腦、Facebook等其他機構的一系列模型依次超越了NLP基準。其中許多都基于transformer架構,并利用了BERT風格的雙向編碼。
新聞的背后:2018年7月,就在BERT誕生前不久,DeepMind研究員Sebastian Ruder預測了預訓練對自然語言處理的影響。此外,他還預測,NLP的突破將徹底改變整個人工智能。他的論點基于2012年前后預訓練對計算機視覺模型的激發。許多業內人士將深度學習的爆炸式增長追溯到這一刻。
現狀:盡管經過了一年的創新,語言模型仍然有很大的增長空間:即使是1.5萬億參數的GPT-2也經常吐出一堆令人費解的文字。至于新的模型是否有能力用鋪天蓋地的虛假信息擾亂民主,即將到來的美國選舉季將檢驗這一點。
從《星際爭霸II》到機器手解魔方:機器學習更多地依賴模擬數據
機器學習的未來可能更少地依賴于收集真實數據,而更多地依賴模擬環境。
有了足夠的高質量數據,深度學習就像變魔術一樣有效。但是,當樣本很少的時候,研究人員就用模擬數據來填補空白。
2019年,在模擬環境中訓練的模型完成了比該領域先前工作更復雜、更多樣的壯舉。在強化學習方面,DeepMind的AlphaStar在復雜戰略游戲《星際爭霸II》(StarCraft II)中取得了特級大師段位——能夠打敗99.8%的人類玩家。OpenAI Five訓練了一個由5個神經網絡組成的團隊,打敗了Dota 2的世界。但這些模型在模擬世界學習,學會的是在模擬世界中行動。其他研究人員將AI在模擬中學習到的技能遷移到現實世界中。
OpenAI的Dactyl機械臂在虛擬環境中花費了相當于13000年的模擬時間,開發出操作魔方所需的靈活性。然后將這些技能應用到一個真實魔方上。當還原一個魔方需要15次以內的旋轉時,它的成功率達到60%。當還原魔方需要更多次操作時,它的成功率下降到20%。
加州理工學院的研究人員訓練了一個神經網絡來區分重疊地震和同時發生的地震,方法是模擬橫跨加州和日本的地震波,并將模擬結果作為訓練數據。
亞馬遜旗下的Aurora自動駕駛汽車部門同時進行數百次模擬,以訓練其模型在城市環境中導航。該公司正在以類似的方式訓練Alexa的對話能力、送貨無人機和機器人。
模擬環境,諸如Facebook的AI Habitat,谷歌的強化學習行為套件,以及OpenAI的Gym,都可以為AI掌握任務提供資源,例如優化紡織生產線,填充3D圖像中的空白點,以及在嘈雜的環境中檢測對象。在不久的將來,模型可以探索分子模擬,以了解如何設計具有預期結果的藥物。
沖突爆發:符號主義和連接主義的古老爭論再燃
以Twitter為陣地,以加里·馬庫斯(Gary Marcus)為首的長達一年的爭論,為圍繞人工智能發展方向數十年的爭論注入了新的活力。
馬庫斯是紐約大學教授、作家、企業家,以及基于邏輯的AI的鼓吹者,他發起了不懈的Twitter爭論,試圖打破深度學習的根基,并推廣其他人工智能方法。
馬庫斯重新點燃了所謂的符號主義者和連接主義者之間的古老爭論,前者堅持認為基于規則的算法對認知至關重要,而后者則認為將足夠多的神經元與正確的損失函數連接起來是獲得機器智能的途徑。
與馬庫斯針鋒相對的AI從業者重新熟悉了象征主義的方法,以免連接主義的局限性導致資金崩潰,或人工智能陷入寒冬。這一爭論促使人們對人工智能的未來做出了清醒的評估,并在12月23日由馬庫斯和深度學習、蒙特利爾大學Yoshua Bengio教授的一場現場辯論中達到高潮。辯論過程非常有禮貌,雙方都承認兩個黨派之間需要合作。
2018年12月,馬庫斯向深度學習支持者的“帝國主義”態度發起了挑戰,開始了自己的進攻。他繼而鞭策Facebook的深度學習Yann LeCun,要他選擇一方:是把自己的信仰寄托在純粹的深度學習上,還是有好的“出色的老式人工智能”(good old-fashioned AI)的一席之地?
OpenAI在10月份提出的混合模型成為頭條新聞。它的機械手通過深度強化學習和經典的Kociemba算法的結合解決了魔方難題。雖然馬庫斯指出是Kociemba算法計算出了解決方案,而不是深度學習,但其他人斷言機器人可以通過進一步的訓練來學習這項技能。
去年12月,微軟提出“神經符號人工智能”(neurosymbolic AI),填補了這一空缺。這是一個旨在彌合神經表示和符號表示之間差距的模型架構。
隨著2019年臨近結束,NeurIPS會議強調了人工智能社區的soul searching。谷歌研究員Blaise Aguera y Arcas在一次主題演講中表示:“我們目前所有的訓練模式都是為了讓AI在特定任務中取得勝利或者贏得高分,但這并不是智能的全部。”
符號主義者和連接主義者之間的敵意可以追溯到半個多世紀以前。1969年,馬文·明斯基和西摩爾·派普特在《Perceptrons》書中,仔細分析了以感知機為代表的單層神經網絡系統的功能及局限,證明感知機不能解決簡單的異或(XOR)等線性不可分問題,幫助觸發了第一個AI冬天。
第二個AI寒冬是在將近20年后,部分原因是符號AI依賴于LISP計算機,而LISP計算機已經隨著PC的出現變得過時了。
神經網絡在20世紀90年代開始普及,并在過去十年計算能力和數據的爆炸式增長中取得了主導地位。 當連接主義者和符號主義者齊頭并進,或者直到一個派別消滅另一個派別時,我們期待著激動人心的新時代。