天堂色网-天堂色综合-天堂社区在线观看-天堂社区在线视频-天天操网-天天操网站

 
當(dāng)前位置: 首頁(yè) » 行業(yè)資訊 » 機(jī)器人»實(shí)際工作總與理論相矛盾?詳解機(jī)器學(xué)習(xí)教科書(shū)七大經(jīng)典問(wèn)題
   

實(shí)際工作總與理論相矛盾?詳解機(jī)器學(xué)習(xí)教科書(shū)七大經(jīng)典問(wèn)題

 46.1K
     [點(diǎn)擊復(fù)制]
放大字體  縮小字體 發(fā)布日期:2017-08-06   瀏覽次數(shù):895
核心提示:  現(xiàn)實(shí)任務(wù)中,應(yīng)當(dāng)怎樣做和教科書(shū)講的結(jié)論相抵觸,這時(shí)候候要怎樣辦呢?豈非教科書(shū)中的結(jié)論失足了?  假如愿望懂得機(jī)械進(jìn)修,或許曾經(jīng)決議投身機(jī)械進(jìn)修,你會(huì)第一時(shí)光找到各類(lèi)教材停止充電,同時(shí)在心中默許:書(shū)

  現(xiàn)實(shí)任務(wù)中,應(yīng)當(dāng)怎樣做和教科書(shū)講的結(jié)論相抵觸,這時(shí)候候要怎樣辦呢?豈非教科書(shū)中的結(jié)論失足了?

實(shí)際工作總與理論相矛盾?詳解機(jī)器學(xué)習(xí)教科書(shū)七大經(jīng)典問(wèn)題

  假如愿望懂得機(jī)械進(jìn)修,或許曾經(jīng)決議投身機(jī)械進(jìn)修,你會(huì)第一時(shí)光找到各類(lèi)教材停止充電,同時(shí)在心中默許:書(shū)里講的是牛人年夜神的終生聰明,是準(zhǔn)確無(wú)誤的行為指南,賣(mài)力進(jìn)修就可以取得疾速晉升。但現(xiàn)實(shí)情形是,你極可能曾經(jīng)在走彎路。

  科技成長(zhǎng)很快,數(shù)據(jù)在指數(shù)級(jí)增加,情況也在指數(shù)級(jí)轉(zhuǎn)變,是以許多時(shí)刻教科書(shū)會(huì)跟不上時(shí)期的成長(zhǎng)。有時(shí),即使是寫(xiě)教科書(shū)的人,也不見(jiàn)得都明確結(jié)論面前的“所以然”,是以有些結(jié)論就會(huì)落伍于時(shí)期。針對(duì)這個(gè)成績(jī),第四范式開(kāi)創(chuàng)人、首席履行官戴文淵近日就在公司外部分享上,向年夜家引見(jiàn)了機(jī)械進(jìn)修教材中的七個(gè)經(jīng)典成績(jī)。戴文淵是ACM世界冠軍(2005年),“遷徙進(jìn)修”全球領(lǐng)武士物,在遷徙進(jìn)修范疇單篇論文援用數(shù)至今仍排名世界第三。曾任百度鳳巢戰(zhàn)略的技巧擔(dān)任人、華為諾亞方舟試驗(yàn)室主任迷信家。

  本文依據(jù)演講實(shí)錄整頓,略有刪減。

  有時(shí)我們會(huì)發(fā)明,在現(xiàn)實(shí)任務(wù)中,應(yīng)當(dāng)怎樣做和教科書(shū)講的結(jié)論相抵觸,這時(shí)候候要怎樣辦呢?豈非教科書(shū)中的結(jié)論失足了?現(xiàn)實(shí)上,有時(shí)確切如斯。所以明天我就想和年夜家分享一下機(jī)械進(jìn)修教材中的一些經(jīng)典成績(jī),愿望對(duì)年夜家往后的任務(wù)和進(jìn)修有所贊助。

  成績(jī)一:神經(jīng)收集不宜跨越3層

  這是最著名毛病斷定,如今的教科書(shū)簡(jiǎn)直曾經(jīng)不再有如許的結(jié)論,但假如看15年、20年前的機(jī)械進(jìn)修教科書(shū),會(huì)有一個(gè)很風(fēng)趣的結(jié)論:神經(jīng)收集不克不及跨越三層。這和我們?nèi)缃裾f(shuō)的深度進(jìn)修是抵觸的,深度進(jìn)修如今年夜家比拼的不是神經(jīng)收集能不克不及跨越三層,而是能不克不及做出一百層、一千層或許更多。

實(shí)際工作總與理論相矛盾?詳解機(jī)器學(xué)習(xí)教科書(shū)七大經(jīng)典問(wèn)題

  那為何之前的教科書(shū)上會(huì)寫(xiě)神經(jīng)收集不克不及跨越三層,這就要從神經(jīng)收集的汗青說(shuō)起。五十年月有位迷信家叫Marvin Minksy,他是一名生物學(xué)家,數(shù)學(xué)又很好,所以他在研討神經(jīng)元的時(shí)刻就在想能不克不及用數(shù)學(xué)模子去描繪生物的神經(jīng)元,是以就設(shè)計(jì)了感知機(jī)。感知機(jī)就像一個(gè)神經(jīng)細(xì)胞,它能像神經(jīng)細(xì)胞一樣連起來(lái),構(gòu)成神經(jīng)收集,就像年夜腦的神經(jīng)收集。其其實(shí)60年月開(kāi)端的時(shí)刻,是有很深的神經(jīng)收集,但其時(shí)經(jīng)由年夜量試驗(yàn)發(fā)明,不跨越三層的神經(jīng)收集后果不錯(cuò),因而年夜概到80年月時(shí)就得出結(jié)論:神經(jīng)收集不宜跨越三層。

實(shí)際工作總與理論相矛盾?詳解機(jī)器學(xué)習(xí)教科書(shū)七大經(jīng)典問(wèn)題

  那為何如今這條結(jié)論又被顛覆了呢?現(xiàn)實(shí)上這條結(jié)論是有條件前提的,即在數(shù)據(jù)量不年夜的情形下,神經(jīng)收集不宜跨越三層。而從2005年開(kāi)端,年夜家發(fā)明跟著數(shù)據(jù)增長(zhǎng),深度神經(jīng)收集的表示優(yōu)越,所以漸漸走向深度進(jìn)修。其實(shí)這里真正準(zhǔn)確的道理是Valiant引理,它可以懂得為“模子龐雜度(例如專家體系的規(guī)矩?cái)?shù)目)要和數(shù)據(jù)量成反比”。數(shù)據(jù)量越年夜,模子就越龐雜。上個(gè)世紀(jì)由于數(shù)據(jù)量小,所以神經(jīng)收集的層數(shù)不克不及太深,如今數(shù)據(jù)量年夜,所以神經(jīng)收集的層數(shù)就要做深。這也說(shuō)明了為何其時(shí)教科書(shū)會(huì)有如許的結(jié)論,而如今跟著深度進(jìn)修的風(fēng)行,年夜家曾經(jīng)不再會(huì)以為這句話是對(duì)的。

  成績(jī)二:決議計(jì)劃樹(shù)不克不及跨越五層

  假如有同窗看教科書(shū)上引見(jiàn)決議計(jì)劃樹(shù),會(huì)有一個(gè)說(shuō)法就是決議計(jì)劃樹(shù)要減枝,決議計(jì)劃樹(shù)假如不減枝后果欠好。還有教科書(shū)會(huì)告知決議計(jì)劃樹(shù)不克不及跨越五層,跨越五層的決議計(jì)劃樹(shù)后果欠好。這個(gè)結(jié)論和神經(jīng)收集結(jié)論一樣,神經(jīng)收集不克不及跨越三層也是由于其時(shí)數(shù)據(jù)量不年夜,決議計(jì)劃樹(shù)不克不及跨越五層也是由于上個(gè)世紀(jì)數(shù)據(jù)量不敷年夜,二叉樹(shù)決議計(jì)劃樹(shù)假如深度是N的話,龐雜度年夜概是2的N次方,所以不跨越五層龐雜度也就是三十多。假如數(shù)據(jù)量到達(dá)一百萬(wàn)的時(shí)刻,決議計(jì)劃樹(shù)能到達(dá)十幾二十層的范圍,假如數(shù)據(jù)量到了一百億的時(shí)刻決議計(jì)劃樹(shù)能夠要到三十幾層。

實(shí)際工作總與理論相矛盾?詳解機(jī)器學(xué)習(xí)教科書(shū)七大經(jīng)典問(wèn)題

  如今,我們強(qiáng)調(diào)更深的決議計(jì)劃樹(shù),這能夠和教科書(shū)講的相抵觸。抵觸的緣由是如今全部場(chǎng)景下數(shù)據(jù)質(zhì)變年夜,所以要做更深的決議計(jì)劃樹(shù)。固然,我們也紛歧定在一切的場(chǎng)景里都有很年夜數(shù)據(jù)量,假如碰到了數(shù)據(jù)量小的場(chǎng)景,我們也要曉得決議計(jì)劃樹(shù)是要做淺的。最基本來(lái)講,就是看有若干數(shù)據(jù),能寫(xiě)出多龐雜的模子。

  成績(jī)?nèi)禾攸c(diǎn)選擇不克不及跨越一千個(gè)

  有些教科書(shū)會(huì)零丁開(kāi)個(gè)章節(jié)來(lái)說(shuō)特點(diǎn)選擇,告知我們?cè)谀玫綌?shù)據(jù)后,要先刪除一些不主要的特點(diǎn),乃至有的教科書(shū)注明,特點(diǎn)數(shù)不克不及跨越一千,不然模子后果欠好。但其實(shí)這個(gè)結(jié)論也是有條件前提的,假如數(shù)據(jù)量少,是不克不及夠充足支持許多特點(diǎn),但假如數(shù)據(jù)量年夜,結(jié)論就會(huì)紛歧樣。這也就是為何我們做LogisticRegression會(huì)有幾十億個(gè)特點(diǎn),而不是限制在幾百個(gè)特點(diǎn)。

實(shí)際工作總與理論相矛盾?詳解機(jī)器學(xué)習(xí)教科書(shū)七大經(jīng)典問(wèn)題

  曩昔傳統(tǒng)數(shù)據(jù)剖析軟件,如SAS,之所以只要幾百個(gè)特點(diǎn),是由于它出生于上世紀(jì)七十年月,它面對(duì)的成績(jī)是在詳細(xì)場(chǎng)景下沒(méi)有太多可用數(shù)據(jù),能夠只要幾百上千個(gè)樣本。是以,在設(shè)計(jì)體系時(shí),就只須要針對(duì)幾百個(gè)特點(diǎn)設(shè)計(jì),不須要幾十億個(gè)特點(diǎn),由于上千個(gè)樣本沒(méi)法支持幾十億特點(diǎn)。但如今,跟著數(shù)據(jù)量增長(zhǎng),特點(diǎn)量也須要增長(zhǎng)。所以我以為,在年夜數(shù)據(jù)情況下,全部機(jī)械進(jìn)修教科書(shū)里關(guān)于特點(diǎn)選擇的章節(jié)曾經(jīng)落伍于時(shí)期,須要依據(jù)新的情勢(shì)從新撰寫(xiě);固然在小數(shù)據(jù)場(chǎng)景下,它依然具有價(jià)值。

  成績(jī)四:集成進(jìn)修取得最勤學(xué)習(xí)后果

  第四個(gè)叫做集成進(jìn)修,這個(gè)技巧在各類(lèi)數(shù)據(jù)發(fā)掘競(jìng)賽中特殊有效,好比近年KDD CUP的冠軍簡(jiǎn)直都是采取集成進(jìn)修。甚么是集成進(jìn)修?它不是做一個(gè)模子,而是做許多(例如一千個(gè))紛歧樣的模子,讓每一個(gè)模子投票,投票的成果就是終究的成果。假如不斟酌資本限制情形,這類(lèi)形式是后果最好的。這也是為何KDDCUP選手們都選擇集成進(jìn)修的方法,為了尋求最初后果,不在意投入若干,在這類(lèi)前提下,集成進(jìn)修就是最好的方法。

實(shí)際工作總與理論相矛盾?詳解機(jī)器學(xué)習(xí)教科書(shū)七大經(jīng)典問(wèn)題

  但在實(shí)際中,企業(yè)做機(jī)械進(jìn)修尋求的不是用無(wú)窮的資本做盡量好的后果,而是若何充足應(yīng)用無(wú)限資本,取得最好后果。假定企業(yè)只要兩臺(tái)機(jī)械,若何用這兩臺(tái)機(jī)械取得最好的后果呢?假如采取集成進(jìn)修,用兩臺(tái)機(jī)械跑五個(gè)模子,就要把兩臺(tái)機(jī)械分紅五份,每一個(gè)模子只能用0.4臺(tái)機(jī)械去跑,是以跑的數(shù)據(jù)量就無(wú)限。那假如換種方法,不消集成進(jìn)修,就用一個(gè)模子去跑,就可以跑5倍的數(shù)據(jù)。平日5倍的數(shù)據(jù)量能比集成進(jìn)修有更好的后果。在工業(yè)界比擬少會(huì)運(yùn)用集成進(jìn)修,重要是由于工業(yè)界絕年夜多半的場(chǎng)景都是資本受限,資本受限時(shí)最好的方法是想方法放出來(lái)更多的數(shù)據(jù)。集成進(jìn)修由于跑更多的模子招致只能放更少的數(shù)據(jù),平日這類(lèi)后果都邑變差。

  成績(jī)五:正樣本和負(fù)樣本平衡采樣到1:1

  第五個(gè)叫做平衡采樣,絕年夜多半的教科書(shū)都邑講到。它是指假如我們練習(xí)一個(gè)模子,正樣本和負(fù)樣本很不屈均,好比在正樣本和負(fù)樣本1:100的情形下,就須要對(duì)正、負(fù)樣本做平衡采樣,把它釀成1:1的比例,如許才是最好的。但其實(shí)這個(gè)結(jié)論紛歧定對(duì),由于統(tǒng)計(jì)進(jìn)修里最基本的一條道理就是練習(xí)場(chǎng)景和測(cè)試場(chǎng)景的散布要一樣,所以這個(gè)結(jié)論只在一個(gè)場(chǎng)景下成立,那就是應(yīng)用模子的場(chǎng)景中正、負(fù)樣本是1:1,那這個(gè)結(jié)論就是對(duì)的。

實(shí)際工作總與理論相矛盾?詳解機(jī)器學(xué)習(xí)教科書(shū)七大經(jīng)典問(wèn)題

  準(zhǔn)確的做法是,運(yùn)用場(chǎng)景是1:100,那練習(xí)聚集最好也是1:100。平衡采樣紛歧建都是對(duì)的,多半情形下不采樣反而才是準(zhǔn)確的。由于年夜多時(shí)刻,我們直接把練習(xí)聚集和測(cè)試聚集做隨機(jī)拆分,或許依照時(shí)光拆分,兩者的散布就是分歧的,誰(shuí)人時(shí)刻不采樣是最好的。固然有時(shí)刻,我們也會(huì)發(fā)明做負(fù)樣本采樣會(huì)有更好的后果,好比范式在為某股分制銀行卡中間做生意業(yè)務(wù)反訛詐時(shí),就做了負(fù)樣本采樣,那是由于當(dāng)我們把一切樣本都放出來(lái)后,發(fā)明盤(pán)算資本不敷,所以只能做采樣。正樣本與負(fù)樣本年夜概是1:1000或許1:10000,假如對(duì)正樣本做采樣,喪失信息量會(huì)比擬年夜,所以我們選擇對(duì)負(fù)樣本采樣,好比做1:1000的采樣,再把負(fù)樣本以1000的加權(quán)加歸去。在資本受限時(shí)這么做,會(huì)盡量下降信息量的喪失。但假如僅僅是為了把它做平衡而做負(fù)樣本采樣,平日是紕謬的。和后面幾個(gè)成績(jī)分歧,負(fù)樣本采樣其實(shí)不是因情況轉(zhuǎn)變而結(jié)論變更,現(xiàn)實(shí)上就不該該做負(fù)樣本采樣。

  成績(jī)六:穿插驗(yàn)證是最好的測(cè)試辦法

  下一個(gè)成績(jī)叫做穿插驗(yàn)證,是指假定要將一份數(shù)據(jù)拆分紅練習(xí)集和測(cè)試集,這個(gè)時(shí)刻怎樣評(píng)價(jià)出它的誤差?穿插驗(yàn)證是把聚集拆成五份,取四份做練習(xí)集、一份做測(cè)試集,而且每次選擇分歧的那一份做測(cè)試級(jí),最初測(cè)出五個(gè)成果再做均勻,這被以為是最好的測(cè)試辦法。

實(shí)際工作總與理論相矛盾?詳解機(jī)器學(xué)習(xí)教科書(shū)七大經(jīng)典問(wèn)題

  穿插驗(yàn)證確切是一個(gè)還不錯(cuò)的驗(yàn)證的辦法,但在實(shí)際運(yùn)用場(chǎng)景下,它常常不是最適合的一種方法。由于平日來(lái)講,我們用機(jī)械進(jìn)修做的工作是猜測(cè),絕年夜多半情形下我們是用如今或許曩昔的數(shù)據(jù)做一個(gè)模子來(lái)猜測(cè)將來(lái)。而拿曩昔的練習(xí)猜測(cè)將來(lái)的最好測(cè)試辦法不是穿插驗(yàn)證,由于穿插驗(yàn)證是依照生意業(yè)務(wù)或許按人拆分的。最適合的是辦法實(shí)際上是依照時(shí)光拆分,好比評(píng)價(jià)的時(shí)刻拔取一個(gè)時(shí)光點(diǎn),用在這個(gè)時(shí)光點(diǎn)之前的數(shù)據(jù)做練習(xí),猜測(cè)在這個(gè)時(shí)光點(diǎn)以后的,這是最接近真實(shí)運(yùn)用場(chǎng)景的評(píng)價(jià)成果。

  穿插驗(yàn)證能夠只實(shí)用于和時(shí)光屬性不相干的場(chǎng)景,好比人臉辨認(rèn),但我們面對(duì)更多的運(yùn)用場(chǎng)景,不管是風(fēng)險(xiǎn)、營(yíng)銷(xiāo)或許反訛詐,都是在用曩昔的數(shù)據(jù)練習(xí)后猜測(cè)將來(lái),最適合如許場(chǎng)景的評(píng)價(jià)辦法不是穿插驗(yàn)證,而是依照時(shí)光去拆分。

  成績(jī)七:過(guò)擬合必定欠好

  最初一個(gè)叫過(guò)擬合,這也是一個(gè)評(píng)論辯論特殊多的話題。之前,平日我們會(huì)說(shuō)假如模子做的太龐雜了就會(huì)過(guò)擬合,如PPT左邊所示,而最好的方法應(yīng)當(dāng)是圖中中央的狀況——擬合的方才好,圖中右邊的模子underfitting,沒(méi)有練習(xí)完整。但如今來(lái)看,年夜多半的現(xiàn)實(shí)場(chǎng)景都是在拿曩昔猜測(cè)將來(lái),過(guò)擬合紛歧定是欠好的,照樣要看詳細(xì)場(chǎng)景。假如這個(gè)場(chǎng)景是曩昔見(jiàn)過(guò)的情形比擬多,新的情形比擬少的時(shí)刻,過(guò)擬合反卻是好的。

實(shí)際工作總與理論相矛盾?詳解機(jī)器學(xué)習(xí)教科書(shū)七大經(jīng)典問(wèn)題

  打個(gè)比喻,假如期末測(cè)驗(yàn)題就是日常平凡的功課,那我們把日常平凡的功課都背一遍就是最好的方法,而這就是過(guò)擬合。假如期末測(cè)驗(yàn)不考日常平凡功課,滿是新題,那末這個(gè)時(shí)刻就不克不及只背日常平凡的功課,還要充足懂得這門(mén)課的常識(shí),控制若何推懂得題的技能。所以過(guò)擬合利害與否,完整取決于場(chǎng)景。假如運(yùn)用場(chǎng)景依附逝世記硬背就可以弄定,那過(guò)擬合反卻是好的。現(xiàn)實(shí)上在我們的設(shè)計(jì)外面,許多時(shí)刻我們會(huì)偏向于往過(guò)擬合靠一點(diǎn),能夠做新題會(huì)差一點(diǎn),然則關(guān)于逝世記硬背的送分題會(huì)做的異常好。在拿曩昔猜測(cè)將來(lái)的運(yùn)用場(chǎng)景下,有的時(shí)刻過(guò)擬合紛歧定欠好,要依據(jù)現(xiàn)實(shí)情形來(lái)看。

  明天與年夜家分享了教科書(shū)中的幾個(gè)經(jīng)典成績(jī)。其其實(shí)現(xiàn)實(shí)工業(yè)運(yùn)用中,我們不會(huì)完整依照教科書(shū)中的方法去理論。我們也會(huì)設(shè)計(jì)很深的模子、很深的決議計(jì)劃樹(shù)、許多的特點(diǎn)、會(huì)過(guò)擬合一點(diǎn),我們更強(qiáng)調(diào)按時(shí)光拆分,不強(qiáng)調(diào)平衡采樣。面臨教科書(shū)中的結(jié)論,我們須要學(xué)會(huì)的是依據(jù)現(xiàn)實(shí)場(chǎng)景做出響應(yīng)靈巧斷定。

只要你關(guān)注機(jī)器人,你就無(wú)法錯(cuò)過(guò)睿慕課

 
 
 
[ 行業(yè)資訊搜索 ]  [ 加入收藏 ]  [ 告訴好友 ]  [ 打印本文 ]  [ 關(guān)閉窗口 ]
 
 
 
主站蜘蛛池模板: 亚洲天堂777 | 国产欧美日韩综合 | 成人免费网站久久久 | 爆操欧美 | 亚洲日本天堂在线 | 久久久国产成人精品 | 另类异族videosex太狠了 | 欧美成人亚洲欧美成人 | 亚洲精品手机在线 | 国产一级特黄一级毛片 | 色噜噜网站 | 亚洲精品在线观看91 | 亚洲无线一二三四区 | 黄色三级毛片视频 | 亚洲一级影院 | 黄色网址免费在线 | 国产偷视频| 真正免费一级毛片在线播放 | 日韩在线视频观看 | 狠狠色视频 | 天天草夜夜骑 | 一个人看的在线www片高清 | 国内一卡2卡三卡四卡在线 国外欧美一区另类中文字幕 | 久草高清视频 | 成人在线观看免费 | 成人黄网大全在线观看 | 五月婷婷丁香久久 | 亚洲成人手机在线 | 在线制服丝袜 | 成人小视频网 | 久久99一区| 精品一区在线 | 亚洲成年网 | 怡红院美国十次成人影院 | 久久国产精品偷 | 亚洲精品乱码中文字幕无线 | 伦理剧网址在线播放 | 伦理久久| 国产 日韩 欧美 亚洲 | 日韩福利在线 | 狠狠大日本亚洲香蕉亚洲 |