當前位置: 首頁 » 行業資訊 » 智能制造»從概念上看看智能機器人的新范式：深度強化學習;

從概念上看看智能機器人的新范式：深度強化學習;

[點擊復制]

發布日期：2016-08-30 瀏覽次數：393

核心提示：近兩年機器智能取得重大突破，像圍棋九段高手李世石敗北Alpha Go，DeepMind團隊研發的機器人在Atari多項游戲上超越人類水平。這

近兩年機器智能取得重大突破，像圍棋九段高手李世石敗北Alpha Go，DeepMind團隊研發的機器人在Atari多項游戲上超越人類水平。這些突破主要得益于從基于深度學習的視覺、語音、語義感知到動作反饋的激勵懲罰強化訓練模式。本文從概念上分析深度強化學習的要點，部分摘于ICML 2016 Tutorial里的Deep Reinforcement Learning[1]的報告。

　　強化學習，即機器人根據環境里動作得到的懲罰和激勵去自動調整策略。通過訓練，機器人學到一組策略：在環境狀態S下應采取動作A，（可）能獲得最大累積獎勵V。

　　強化學習有豐富的交叉學科背景，包括經濟學、工程學、神經科學里的博弈論、優化控制，條件反射系統。

深度學習，使用深度神經網絡實現機器人的記憶，視覺感知，語音語義理解和生成。

　　深度強化學習以深度學習做感知，強化學習訓練策略，并且以深度神經網絡作為策略載體。相比于傳統的多模塊組合，深度強化學習實現了從感知到控制的端到端直接訓練，減少了模塊間信息損失。

　　最近兩年在學術理論上，GoogleDeepMind團隊在連續性動作控制[2]，異步訓練[3]，訓練框架[4]，分布式訓練[5]等都有重要突破，為智能機器人的研發奠定理論和實踐基礎。

　　在特定任務的應用上，深度增強學習已有廣泛實踐嘗試，例如流水線機器人。

　　在集成應用上，深度強化學習在自動駕駛，聊天機器人[6][7]都有良好的前景。例如，使用分布式訓練或異步訓練，自動駕駛汽車可以多輛同時在各種環境學習，并且相互交換知識，加速學習過程。聊天機器人可以通過對話過程中用戶的反饋來調整自己的語言表達，逐步成長。

　　深度強化學習為智能機器人提供了新的計算范式：提供環境、激勵和懲罰、神經網絡結構即可訓練得到最大化獎勵的智能機器人。

下一篇：社交機器人Jibo：貼心的廚房小幫手;
上一篇：我國借助機器人為“貔貅人”做手術;

[ 行業資訊搜索 ] [ 加入收藏 ] [ 告訴好友 ] [ 打印本文 ] [ 關閉窗口 ]

同類行業資訊

共0條 [查看全部] 相關評論

展會更多+

第26屆上海國際清	2025數控機床與金
2025中國(上海)機	2025武漢國際工業

視頻更多+

中舟智能固守科技	玉灃科技：精研滑
新松機器人自動化	羅克韋爾自動化（

• 上市公司驕成超聲總部基地開工，助力線束超聲波	• 格力與優傲達成戰略合作助力制造業智能化邁上
• 加速向工業智能化轉型運機集團擬收購永磁電機	• 目標產業規模達3000億元江蘇推動儀器儀表產業
• 轉型升級再提速制造業蓄勢聚力向“新”而行	• 施耐德電氣以AI加持預測性維護解決方案，打造設
• AI技術加速企業數字化轉型	• 推動職業本科教育高質量發展迎接人工智能和機
• 2024年Formnext + PM South China 促進中國加	• AI能輔助尋找高溫超導材料？陳仙輝：在這個領域

天堂色网-天堂色综合-天堂社区在线观看-天堂社区在线视频-天天操网-天天操网站

我的供應

我的求購

商鋪管理

工業機器人及行業應用

智能機器人

工業自動化

智能裝備

從概念上看看智能機器人的新范式：深度強化學習;