假如有人讓你畫一只小鳥,你年夜概得先線條起稿、彌補細節,然后著色,全部進程也得個把小時。微軟比來宣布了一項新的人工智能項目,名為繪畫機械人(drawing bot),可以將文字轉換成丹青(text-to-image)。
1
反抗生成收集
何曉東是微軟深度進修技巧中間的擔任人,也是 text-to-image 項目標焦點人員之一。他說,跟收集搜刮獲得的圖片分歧,繪畫機械人給你的圖案都是依照必定的指令一點一點畫出來的,也有能夠它畫出來的器械這個世界上其實不存在。
繪畫機械人的焦點技巧是反抗生成收集(Generative Adversarial Network,即 GAN),聽這個是否是感到很難明想溜,別急,微軟亞洲研討院在知乎專欄里舉了個很好的例子。
女生拉男票給本身攝影,拍完第一張,女生說:你要學一下誰誰誰的構圖;
拍完第二張,女生又說,你要學一下誰誰誰的調色;
拍完第三張,女生再說,你要學一下誰誰誰的感到;
……重復幾回,女生才終究承認了男票拍出來的照片。
這個男朋友攝影血淚史就是生成反抗收集。生成反抗收集它有兩個任務模子,一個擔任依據文字生成圖片(generator),另外一個依據文字評判生成的圖片(discriminator),這兩個模子賡續互相博弈、又互相進修,直到 discriminator 再也沒有才能斷定這個圖形,「生成模子」便可以班師了。
2
研討過程
這個項目其實不是比來新出的,何曉東與他的團隊曾經研討了 5 年了。
他們最早推出過一個 Captionbot,只需你上傳一張圖,這小我工智能就會主動為圖片配一段文字;接著,他們又將這個技巧進一步成長,你可以依據圖片上的事物停止發問,人工智能會答復你提出的成績。這個時代的技巧,有點像小先生的看圖作文、看圖答復成績。
早在 2017 年 1 月份,在 arXiv.org 上就何曉東團隊刊登了一篇引見 text-to-image 的論文,這項技巧名為生成反抗收集(Attentional ,簡稱 AttnGAN)。而比來微軟正在停止的 text-to-image 項目,生成的丹青質量將是之前的 3 倍。
與依據圖片停止文字描寫技巧比擬,text-to-image 的難點在于,繪畫機械人要描寫出更多細節,而這些細節是文字論述中所沒有的,這就請求你的人工智能主動「腦補」。
研討繪畫機械人有極年夜的科研意義,這是盤算機視覺研討(computer vision)和天然說話處置(natural language)這兩個研討范疇的一次融會。怎樣懂得呢?盤算機視覺研討的是機械若何去看,也就是說讓機械像人眼一樣去對待這個世界、而且停止圖象處置;而天然說話處置,研討的就是人與人工智能之間若何用我們平常的說話停止交換。
3
繪畫機械人的現實運用
繪畫機械人固然今朝仍處在研討階段,然則界內猜測,它一旦涌現,將會有極年夜的現實用處。
好比,它可以作為畫家或許設計師的助理,乃至可以幫他們完成草圖。
依據何曉東的想象,繪畫機械人還可以贊助片子任務者,可以依據片子腳本直接生成影片,這可以節儉年夜量的人力。片子從業人員莫哭。
人類為營生斗爭了這么多年,沒想到最年夜的競爭敵手倒是機械人。而何曉東表現,人類和人工智能配合生涯在這個地球上,兩邊是須要找到一種溝通的方法的,而最好的溝通方法就是說話和圖象。這話似乎很順耳,然則你有無認為有細思極恐的感到?