機器之心:近期機器學習領域有哪些讓您覺得很有趣的研究嗎?
楊強:機器學習領域里一個很強的特點是:可以把感知的東西學到,但很難推理。所以我覺得一個挺好的方向是讓機器學習去做推理。一個例子是Facebook做的機器閱讀(MachineReading),它可以在讀的文章里做推理。雖然它很簡單,但指出了一個方向——加入注意力模型之后就可以做符號推理。但如果能夠scale到一階邏輯去做大規模推理和定理證明的話(也是我們目前在做的研究),還有很長的路。
現在,開始有一些工作把規則,邏輯和深度學習相結合,這可以起到解釋模型和獲得知識的作用,把人的知識賦予到統計學習的模型里,這是很好的方向,但目前那些方法還不夠,我們希望在這方面多做一些研究。因為規則是在任何一個垂直領域都必不可少的,并不是任何東西都需要從零開始學。規則的好處是準確和通用,壞處是缺乏覆蓋的廣度比較有限,而統計學習可以應付各種例外的發生,如何把這兩者更好的結合起來是一個很有趣的方向。
機器之心:人工智能如果取得繼續突破的話,是否需要把規則和統計結合起來?
楊強:統計和邏輯的結合在人工智能的發展中必不可少,AlphaGo就是這樣一個例子,它非常深入的將搜索和學習這兩者結合了起來。像傳統符號主義的蒙特卡洛樹搜索,基于統計的深度學習(比如估值網絡和策略網絡),然后在這兩者的結合之上再加上強化學習。現在看來,雖然這事是三者比較生硬的結合,但已經取得非常大的成績。再下面,就是看能不能把人工智能做的像人腦一樣有效,不是各自獨立的三塊,而是在一起的。如何用一個機器模型就能同時做符號搜索,深度學習和強化學習這三件事,這是一項很有挑戰但非常有趣的研究。
機器之心:那人工智能需要從神經科學領域獲得更多靈感和線索嗎?
楊強:是的,確實可以獲得很多的靈感和線索。蒲慕明院士在2016中國人工智能大會的演講中介紹了很多神經科學的發現。首先,他們發現在生物領域也存在BP算法的現象。如果這個神經學的發現啟發了人工智能的研究,那將就是一個完整的故事,但是,神經學的這個發現是在計算機領域提出BP算法之后發現的。今天,這個發現也會對人工智能有啟發。其次,人工智能里的最小計算單元往往是同類型的神經元,但蒲慕明院士認為,人腦的神經元并不是都是同類的,而是每一類有各自專門功能的。如果我們在人造神經網絡中設計這樣一些神經元種類,也將是很有趣的研究問題。第三就是如何學習和計算一個「忘記機制」神經學發現,人腦是在進行有選擇的忘記,而這種機制是智能必不可少的體現。但是,在我們人工智能的學習系統里,并沒有特別設計這種忘記機制。
另外,聯接主義在人腦研究中大行其道的,但在計算領域并不是如此,深度學習可能是一個例外。但其他的——比如說符號主義的搜索——大部分都是孤立的,是單CPU大規模算法在進行,而不是并行,這些都是需要探索和發現的。但我們回來說,人工智能可以借鑒人類大腦,但不應該被人類大腦所局限。我們最后可能會發現,新的人造的智能結構,可能人腦也沒有,(但可能外星人有)。所以,可能還有一些新的智能算法在等待我們來發現。如果真是那樣,那也不錯。
機器之心:對話系統是現在比較熱的研究領域,科技巨頭也都提出bots,目前在這方面還存在哪些研究難點嗎?
楊強:對話系統的一個難點是把目標引入,如果你只會聊天但不會實現目標,那就沒有商業前景;另外一個目標是如何把規則和統計學習結合好,因為有些特殊領域是需要有規則來規范的。第三個目標是怎么樣把個性化引入,這就是遷移學習所應該發揮的價值。如果把三者統一在一個系統里完整實現,可能還需要有很長的研究,如果能做出來,那就是解決對話問題的一個非常優美的方法。
關于遷移學習,去年Science那篇文章Human-level concept learning through probabilistic program induction里提到的單個例學習,即oneexample learning。這實際上是一種遷移學習的做法,他們把一個問題分解成參數學習和結構學習兩種,他們發現如果參數學習如果能夠從別的地方遷移過來,那只做結構學習就可以了,而結構學習恰恰又特別好用,只需要一個例子就可以解決了。所以前面用了遷移學習,后面用了結構學習,就把oneexamplelearning實現了,是這樣一個trick。這給我們帶來一個很好的概念,就是說在對話系統中,你就可以把自然語言的結構學習和參數學習分開,采取分而治之的辦法。
機器之心:比如說在自然語言處理方面。那遷移學習應用自然語言方面會有獨特優勢嗎?能實現不同語言間的遷移嗎?
楊強:可以實現不同語言之間的遷移。很多遷移學習的任務會比機器翻譯的任務要簡單,機器翻譯需要很高密度的數據來對應每一句話,你要收集很多的平行語料,但是有很多學習任務并不需要做語言之間的關系,比如說分類、聚類,像這樣不需要機器翻譯的,就可以用遷移學習來建立兩種語言(可以看成是兩個領域)之間的共同表示,就是一個中性語言,通過這個中性語言進行遷移。
機器之心:Chris Manning SIGIR2016主題報告Natural Language Inference,Reading Comprehension and DeepLearning中有一頁有一個形象的「壓路機」比喻,列了深度學習在哪一年會對特定領域的傳統算法進行「碾壓」,比如說語音是在2011年、視覺是2013年、自然語言處理是2015年,IR是2017年。您對此怎么看?KDD應該在哪年?
KDD(數據挖掘)和IR是有區別的,IR是賦予機器搜索的能力,自動化為主要代表,主體并不需要引入人,所以用機器學習比較合適。但是KDD的最終目的是為人服務,所以是離不開人的。因為KDD和數據挖掘中沒有人,是全自動的話,那就是機器學習了。所以,如果是為人而發掘知識、為人做解釋,就需要比深度學習更多的東西:雖然里面很多東西可以用深度學習來解決,但深度學習里有很多東西是不可解釋的,所以從這一點上來,僅僅用深度學習來做數據挖掘說是不合適的。在和人打交道這一方面,深度學習不可能碾壓KDD。數據挖掘是為人做數據分析的輔助工具,而機器學習則是力圖模擬人的行為。對于兩者的區別,我做過一個比喻:你訓練一只狗,若干年后,如果它忽然有一天能幫你擦鞋洗衣服,那么這就是數據挖掘。如果有一天,它化妝成狼外婆跑了,那這就是機器學習。
但是,深度學習確實可以取代某些算法。另外,我覺得KDD和IR的基因還是不一樣的,這得看原領域和深度學習的重合度:做KDD研究的很多人是從數據庫過來的,他們是的目的是管理信息,這就不能僅僅引入機器學習;同時,KDD的有些人是機器學習過來的,他們可以引入深度學習。但,也有心的問題:那就是模型的可解釋性怎么辦?如何向人類解釋模型的功能和結構?因此,KDD為深度學習引入了這樣一個契機——不是深度學習碾壓KDD,而是KDD和深度學習一起來發揮作用。
機器之心:機器學習對基礎科學研究有什么重要的推動和價值?許多科學研究現在面對著海量的實驗,觀測數據,比如天體物理,粒子物理,生命科學,材料科學等,機器學習會在基礎科學研究中發揮重要作用嗎?
楊強:機器學習對基礎科學的發展應該有很大促進,在這些傳統科學領域,很多人可能現在沒有意識到人工智能可能帶來的影響,但我們看到,深度學習的出現,只是計算機出現以來的數字革命中的一環。下一步到底要到哪兒去?是不是有可能要把科學家變成「數據民工」?比如說,把天文學家就變成操縱望遠鏡的天體數據的民工,把生物學家變成擺弄小白鼠的生物數據的民工?雖然這是一個未來可能出現的極端現象,但從計算機革命的角度來說,這個未來并不是不可能!當然,科學家可以去創造一些理論并去驗證它,但這樣的科學家的助手們可能會變成一些機器人。所以,整個科學研究會出現一個本質上的變化。
機器之心:戴文淵之前在介紹「第四范式·先知」平臺時,提到這個平臺的目的是讓數據科學家「失業」,那人工智能會不會讓科學家失業?
楊強:人工智能會讓很多二流科學家失業,一流科學家還是很安全的。
對人工智能從業者的建議
機器之心:您對目前行業內深度學習熱有什么看法?年輕從業人員應該如何對待這種現象?
楊強:深度學習過熱不是一個壞事,我們也不應該拒絕。對于年輕人來說,大家要用平常心來看:這是一個學習算法,學習能力比較強,能夠容納更多的訓練數據,我們發現它能做過去想象不到的事情,現在還是有很多紅利去獲取。所以年輕人如果要做的話,要盡量多動手,多編程,多了解內核的東西,而不僅僅把深度學習當成黑箱來用。
機器之心:您認為國內人工智能領域在科研和產業上還有哪些缺陷和不足嗎?
楊強:我覺得國內的人工智能研究不能太跟風,對自己的研究理念和創新要有信心。在科研和產業都是如此,要創新,尤其是在大學的研究者,每個大學的教授應該是獨樹一幟的,自己領先一個子領域,而不是跟著別人去做。對公司的要求?公司要首先考慮生存,但在產業上也不要以為人工智能可以包羅萬象。
機器之心:您有著天文學和計算機科學的復合背景,研究天文學的這段經歷對您后續研究機器學習有什么幫助或者啟發呢?您的物理學專業背景為您后來人工智能領域的研究工作重提供什么樣的思維方式,思維習慣等方面的借鑒和幫助?
楊強:最大的啟發是知道一個問題要換幾個不同的角度去想,物理學家特別容易這樣,他觀察一個東西,可能就聯想到十萬八千里,看到行星就想到原子。這種聯想能力是物理學里特別流行,但在計算機領域不是這樣,培養一個學生出來很好的編程,拿競賽金牌,他都不一定有聯想能力。所以我特別受益于這種訓練,這可能不僅僅是從物理學來的,而是從跨領域來的,所以我建議年輕人可以接觸最起碼兩個領域。
機器之心:您有本關于介紹如何做學術研究的著作《學術研究——你的成功之路》,對于人工智能領域的學術研究,您能否給研究者提供一些建議?
楊強:任何學科都有一個系統性,對于研究我提過五點,這個對人工智能也適用。第一個就是研究的問題有用,重要。第二是這個問題可以給專業外的人都能說清楚,能自己很簡潔地表達出來,能講明白。第三個是要說清楚這個問題為什么難,就是問題到現在還沒有人做過,不知道怎么做。第四點是,雖然問題還不知道怎么做,但你知道怎么把問題進行分解,分成一段一段來做,每個階段都有一點進步,就是現在網絡上說的「小目標」。第五是得有數據來驗證你的想法,否則就是空想。這五個條件對學術和商業都適用。如果你覺得一個研究特別好,但你沒有辦法拿到數據,那你一開始就不要花時間做。另外,補充一點特別重要的,大家要明白別人做過些什么,要看很多論文,并能對過去的工作有所批判。
機器之心:您在學術界和產業界都取得了非凡的成績,這和日常的時間規劃、研究技巧和學習方法密不可分,能分享一下這方面的經驗和心得嗎?
楊強:時間規劃,研究技巧和學習方法,這些都會因人而異,但是,學術和工業的成功有一個共同點,就是——我特別受益于鍛煉身體,再忙也要抽出時間來鍛煉身體。中國的學者到國外去,要給人一種很健美的形象、要有精神。而且我們會發現如果我們經常鍛煉身體的話,很多時間規劃的問題就迎刃而解了,因為鍛煉之后你會發現頭腦特別清楚,會注意到很多細節,分清楚事情的輕重緩解,之后就特別容易去做了。總之,在鍛煉身體之后,以前你覺得特別難的問題都不會覺得是問題了,原來覺得特別煩惱的事情也沒有了。這是給大家的一個建議。