天堂色网-天堂色综合-天堂社区在线观看-天堂社区在线视频-天天操网-天天操网站

 
當前位置: 首頁 » 行業資訊 » 機器人»以識別西夏文為例,聊聊人工智能如何幫我們認識歷史
   

以識別西夏文為例,聊聊人工智能如何幫我們認識歷史

 46.1K
     [點擊復制]
放大字體  縮小字體 發布日期:2017-10-27   瀏覽次數:1000
核心提示:  曾記得有一次聊天,有個同伙描寫他對人工智能的印象,總結成三個詞:東方的、貿易的、將來的。  我立即表現你說的很好,獨一的成績是一條都沒說對  按下我們倆怎樣睜開斗毆暫且不提。這里愿望廢除的是年夜家

  曾記得有一次聊天,有個同伙描寫他對人工智能的印象,總結成三個詞:東方的、貿易的、將來的。

  我立即表現你說的很好,獨一的成績是一條都沒說對……

  按下我們倆怎樣睜開斗毆暫且不提。這里愿望廢除的是年夜家對人工智能的某種固有印象。現實上,人工智能作為一種很早就成長起來的通用技巧,毫不是東方的專利,也毫不僅僅可以或許發明貿易價值。

  乃至在某些機緣偶合下,人工智能可以或許成為我們用以熟悉汗青、熟悉本身平易近族、熟悉先人與曩昔的利器。

  梁啟超說“學術乃世界之公器”,不只是說學術世界人共有,同時也是說學術世界共致。作為一種基本對象的人工智能,常常可以或許在乎想不到處所產生功效。好比說明天為年夜家引見的借助人工智能技巧,主動辨認西夏文——一個純潔中國的人文社科范疇。

以識別西夏文為例,聊聊人工智能如何幫我們認識歷史

  (美感獨特的西夏文)

  固然這項技巧年夜多半人永久不會涉足,但這個案例的價值在于可以打破我們對AI的某些成見。AI不只是集中在那幾個范疇,也不是歐美寡頭的玩具,它乃至能夠無處不在。

  為何要辨認西夏文?個中隱含著哪些艱苦?

  我們曉得,西夏是與北宋、遼、金前后對立的黨項族國度,已經統治河西地域跨越二百年。與年夜眾認知中分歧,西夏不是個茹毛飲血的蠻橫文明。他們已經創建過驚人的文明、藝術與宗教文明,但跟著1227年蒙古滅西夏,蒙元不為西夏立史,關于這個政權的記載疾速滅亡,李元昊立國時創建的西夏文也隨之湮滅。

  西夏文別名河西字、番文、唐古特文,曾在西夏王朝總攬的今寧夏、甘肅、陜東南部、內蒙古南部地域風行了約兩個世紀。但在西夏滅國后,這類參考漢字創建的獨特文字逐步掉傳,終究成了一種逝世文字。

  直到1804年,武威年夜云寺發明了有名的《重建涼州護國寺感通塔碑》,西夏文才在埋藏了數百年后重現人世。從此識讀西夏文開端成了學界的主要任務。

以識別西夏文為例,聊聊人工智能如何幫我們認識歷史

  (《重建涼州護國寺感通塔碑》部分)

  二百年以來,出土的西夏文文獻賡續增多,個中年夜部門都被英、俄探險家帶到了境外。但列國學者盡力下,西夏文的基本文字辨認曾經完成,現階段的任務重點是根據文字列表,去識讀年夜量西夏文文獻的詳細內容,揭開西夏和其時華夏、西域列國的汗青迷霧。

  但在這個進程里,研討人員認讀西夏文必需經由過程手工翻閱查找,消耗時光異常辛勞不說,因為西夏文是一種類似度極高的文字,人工辨認還能夠存在很年夜的毛病率。

  所以就有學者提出,應用盤算機來主動辨認西夏文。這類假想很好,但在詳細操作中照樣有偉大成績。好比西夏文構造龐雜、構成字符各部門要素高度類似,而且均勻筆劃到達25畫,盤算機辨認難以動手。

  另外,西夏時代固然已有印刷術,但出土文獻照樣以手手本和刻版文字為主,統一個字的在分歧文獻上的地位不固定、全體結構會產生偏移,都給機械辨認帶來偉大艱苦。

  因而成心思的事涌現了,寧夏年夜學相干研討機構為代表的學術力氣,選擇了以人工智能技巧處理西夏文的主動辨認。

  而且這個任務很早就曾經開端,賡續有結果出現。從時光上看,毫不是趕這波AI熱的產品。

  人工智能完成西夏文主動辨認

  其實,用盤算機技巧處置西夏文很早就曾經開端。

  早在1996年,日本國立亞非說話文明研討所就制造了西夏文字庫和排版體系。1997 年中國粹者李范文和日本學者中島干起應用該排版體系協作出書了《電腦處置西夏文〈雜字〉研討》。俄羅斯應當也都有西夏文數據化和盤算機處置的項目與研討結果。

  而應用彈性收集、神經收集、AI算法和深度進修來辨認西夏文,則是中國搶先完成的一個創舉。

以識別西夏文為例,聊聊人工智能如何幫我們認識歷史

  (記載片《奧秘的西夏》創建文字片斷)

  用AI辨認西夏文,重要依托的是盤算機字符辨認( optical character recognition,OCR) 技巧,這類技巧上世紀60年月就成了人工智能研討的重要范疇之一。它的焦點技巧主意是基于人工智能運算來辨認文字符號的數字影象,并將其轉換為對應的數字文本,到達可辨認、可編纂、可轉化的目標。

  OCR技巧今朝在許多范疇曾經相當做熟,好比我們常常用到的印刷文件文字提取。在OCR辨認范疇,更多的運用是手寫體內容的精準辨認,而應用OCR辨認考古文獻中的非普遍應用文字卻根本處于空白。

  這里可以聯合論文簡略引見兩種AI辨認西夏文的案例。

  好比在《基于彈性收集的西夏文辨認》傍邊,研討人員應用彈性收集技巧,將西夏文中的筆劃特點停止網格化提取。再統計像素點在每一個網格內的幾率散布,構成一種可讀取的特點模子。最初應用文檔主題模子辦法對提取的特點降維處置,聯合數據庫對文獻停止辨認。

  依據論文這類辦法實際,這類辦法均勻辨認率可達87.99 %。

  再好比《基于Mean Shift算法的西夏文字筆形辨認》,Mean Shift算法,即偏移均值向量,是機械進修范疇的一種根本算法。其基本實際是應用信息密度來完成聚類、圖象朋分、跟蹤義務,可應對類似但界線隱約的圖象處置運用。應用這類算法,研討人員將原始材料生成幾率統計直方圖,經由過程類似度來斷定歸類詳細的西夏文筆形。

以識別西夏文為例,聊聊人工智能如何幫我們認識歷史

  (西夏文智能辨認算法流程)

  這里僅僅是兩個詳細運用案例,應用深度進修等前沿人工智能技巧辨認西夏文的運用還在賡續成長。

  文獻與考古范疇的人工智能運用

  能夠辨認西夏文間隔我們的平常生涯還絕對較遠,但推行當全部人文社科范疇,AI的運用能夠就會從另外一個角度無窮切近我們的生涯。

  從近處來講,AI推進學術效力,能夠會影響我們的學科設置裝備擺設、學術練習乃至高級教導系統,從遠處來看,AI推進的進一步辨認汗青與文獻的才能,是我們窺測本身曩昔,懂得“中國”為什么是“中國”的全新對象。

  在我們沉溺于將來帶來的快感時,人工智能卻能夠在汗青范疇疾速施展它的價值。經由過程西夏文辨認的例子,不難發明在文獻與考古這些社科范疇傍邊,人工智能至多可以施展以下幾種功能:

  1、考古圖象的辨認與歸檔,好比基于算法的文物辨認、文物數據化、考古現場數據化。

  2、文獻文本的辨認與轉碼,好比原始文獻的文字辨認讀取、文獻聚類、文獻數據化。

  3、文獻數據庫的常識圖譜化與機械進修運用。好比學科文獻圖譜化、時期文獻圖譜化、科研項目數據圖譜化,和基于常識圖譜練習的人文社科范疇智能體。這一點特別主要,想象力也最為充分。就像金融、翻譯等范疇極可能被AI替換一樣,文獻學與汗青研討范疇年夜部門依附考據、校勘、材料爬梳的任務,也完整可以被AI代替。

  相似的人文范疇與AI跨界還有許多,有些乃至觸及哲學與倫理層面的技巧與人文互搏,今后我們會陸續引見。

  或許AI就像風,當它是一場風暴的時刻,家家戶戶都邑門窗緊鎖當心防護。但當它是清風徐來穿屋而過的時刻,在我們不知覺間,AI就曾經無孔不入了。

只要你關注機器人,你就無法錯過睿慕課

 
 
 
[ 行業資訊搜索 ]  [ 加入收藏 ]  [ 告訴好友 ]  [ 打印本文 ]  [ 關閉窗口 ]
 
 
 
主站蜘蛛池模板: 99精品欧美一区二区三区美图 | 亚洲精品欧美日本中文字幕 | 欧美日韩国产最新一区二区 | 妞干网免费在线观看 | 欧美日韩性视频在线 | 偷偷狠狠的日日高清完整视频 | 玖玖视频精品 | 欧美在线中文 | 日日拍夜夜嗷嗷叫视频 | 曰韩毛片 | 在线观看黄的网站 | 一个人看的www播放视频 | 在线播放国产一区二区三区 | 最新精品在线视频 | 日韩在线天堂免费观看 | 日韩插插| 福利网址在线 | 狠狠色噜噜狠狠色综合久 | 亚洲国产欧美精品 | 三级大片网站 | 日韩黄色视屏 | 一区二区三区四区欧美 | 亚洲欧美日韩在线2020 | 深夜福利网站在线观看 | 国产免费怡红院视频 | 欧美成人激情在线 | 欧美成人三级网站 | 99精品视频在线观看免费 | 羞羞视频在线看免费 | 一级做a爱过程免费观看 | 欧美日韩人成在线观看 | 免费亚洲视频 | 夜夜做日日做夜夜爽 | 99re最新| 制服丝袜中文字幕在线 | 一区免费在线观看 | 夜夜操狠狠操 | 欧美高清一区二区三 | 曰本不卡视频 | 久久狠狠色狠狠色综合 | 欧美在线 | 欧美 |