? 综合色网站,榴莲视频app下载安装,www.四虎com

久久婷婷丁香-久久婷婷大香萑太香蕉a-久久天天综合-久久天天躁夜夜躁狠狠躁2020-久久天天躁狠狠躁夜夜2020一-久久天堂影院

您所在的位置:首頁 >> 新聞點評 >>正文
分享34K

首個端到端強化學習具身模型Psi R0橫空出世!

發(fā)布時間: 2024-12-31 11:12:36 來源:新戰(zhàn)略機器人

核心提示: 從而完成并閉環(huán)長程靈巧操作任務。并且,Psi R0還可以實現(xiàn)跨物品、跨場景級別的泛化。

近日,靈初智能發(fā)布首個基于強化學習(RL)的端到端具身模型Psi R0。該模型支持雙靈巧手協(xié)同進行復雜操作,將多個技能串聯(lián)混訓,生成具有推理能力的智能體,從而完成并閉環(huán)長程靈巧操作任務。并且,Psi R0還可以實現(xiàn)跨物品、跨場景級別的泛化。

真實世界中,人類生活近乎100%的場景涉及抓握、轉(zhuǎn)動、捏取、觸摸等操作,而其中超過 90% 的操作屬于多技能融合的長程任務。然而在當下具身業(yè)界,多局限于Pick and Place操作的泛化,一旦任務復雜化、長程化,泛化性和成功率則大大降低,無法兼顧——這也是具身智能只能存在于demo,遲遲無法在真實場景中落地的核心原因!機器人如何突破Pick and Place、脫離遙操作,擁有自主完成長程靈巧操作的能力,實現(xiàn)真正類人的場景級任務閉環(huán),仍是具身智能亟待攻克的難題。

RL是長程靈巧操作實現(xiàn)任務閉環(huán)的唯一解

在真實世界中,機器人解決長程任務必須通過Learning-based模式,目前主流技術(shù)路徑有兩種:模仿學習(IL)和強化學習(RL)。

純模仿學習的泛化能力受限于示范行為的多樣性和質(zhì)量。加之長程任務步驟較多,更容易出現(xiàn)分布漂移問題,使得 IL實現(xiàn)長程任務的泛化性能較差,魯棒性也較弱。

基于RL的Psi R0 模型,使用海量仿真數(shù)據(jù)高效訓練出雙手操作的智能體,并通過雙向訓練框架串聯(lián)多技能,在業(yè)界率先完成開放環(huán)境中的長程任務,具備較強的泛化能力與較高的魯棒性。這一技能訓練框架從物體時空軌跡抽象出關(guān)鍵信息以構(gòu)建通用目標函數(shù),從而解決獎勵函數(shù)難設(shè)計的問題。在后訓練階段,通過少量高質(zhì)量真機數(shù)據(jù)對齊,進一步提升長程任務的成功率。除此之外,雙向訓練框架中的轉(zhuǎn)移可行性函數(shù)發(fā)揮著重要作用,它能夠微調(diào)技能以提高串聯(lián)的成功率與泛化性,同時賦予模型自主切換技能的能力,使其在遭遇操作失敗時能夠迅速調(diào)整策略,確保高成功率。

Sequential Dexterity: Chaining Dexterous Policies for Long-Horizon Manipulation  

Yuanpei Chen, Chen Wang*, Li Fei-Fei, C. Karen Liu

Psi R0 模型表現(xiàn)出的靈巧性、高成功率以及泛化性,充分展示了其大腦的任務拆解與規(guī)劃能力,以及小腦的靈巧操作、泛化和魯棒能力。這一模型的誕生,突破了當前具身機器人在商業(yè)化應用進程中所面臨的核心技術(shù)瓶頸,為整個行業(yè)的未來發(fā)展開拓出一片全新且廣闊的天地,有望引領(lǐng)具身機器人邁向全新的發(fā)展階段。

從理論概念到有效落地,Psi R0解答了具身智能商業(yè)化的終極命題

長程任務靈巧操作場景無處不在,從工廠產(chǎn)線組裝,到服務業(yè)的揀貨打包,到家居環(huán)境的清潔整理。

Psi R0模型的智能體展示了其強大的場景落地能力。以電商場景為例,商品打包是典型的長程任務作業(yè),需對上萬件商品進行抓取,掃碼,放置,塑料袋打結(jié)等多個操作。Psi R0能夠使用雙靈巧手流暢地完成這一系列動作(此系列動作在客戶現(xiàn)場可以取代一個完整工位),成為首個基于強化學習訓練完成長程靈巧操作任務的具身機器人。

視頻中,機器人系統(tǒng)接收到的指令僅僅是“將桌面的物體打包”,而這一看似簡單的任務背后,是靈初智能極具創(chuàng)新性的端到端技術(shù)架構(gòu)在發(fā)揮作用。當指令下達后,上層視覺語言模型(VLM)對桌上混亂擺放的商品進行分析,編排出商品的操作順序,下層操作模型拆解出單個商品的子任務,如抓取、放置、掃碼、打包等,智能體依次執(zhí)行。

抓取環(huán)節(jié),面對隨意擺放、形狀各異的商品,模型必須具備高度的泛化能力,才能成功完成商品的逐個抓取。視頻中展示的品客薯片,Psi R0 僅僅依靠 20 條真機數(shù)據(jù),模型就成功實現(xiàn)了99%+的成功抓取率。

掃碼環(huán)節(jié)更是考驗機器人的靈巧操作水平,需要雙手高度精細地協(xié)調(diào)彼此相對位置,以確保掃碼槍與商品條碼能夠精準對齊,任何細微偏差都可能導致掃碼失敗。此時,RL訓練策略為雙手雙臂構(gòu)成的高自由度復雜系統(tǒng)提供了可靠的實時閉環(huán)控制,保障掃碼動作精準流暢地完成。

打包環(huán)節(jié),需要雙手協(xié)調(diào)完成對塑料袋的靈巧操作。在動態(tài)打包的過程中,塑料袋的形狀會隨動作變化,需要實時調(diào)整操作。為了提升機器人對柔性物體的操作適應能力,Psi R0在仿真環(huán)境中模擬多種柔性物體的操作場景,同時結(jié)合真機數(shù)據(jù)進行微調(diào)優(yōu)化。甚至在被打斷、干擾的情況下,也能自適應調(diào)整策略,重新進行打包動作。

靈初智能Psi R0模型是具身智能遞歸性成長的第一步。具身智能將遵從從簡單到復雜、從保護到協(xié)同的漸進式演進。在早期,小腦是與真實世界交互的物理基礎(chǔ),其設(shè)計需結(jié)合領(lǐng)域知識,滿足環(huán)境中的約束條件,同時具備容錯性,支持大腦學習與優(yōu)化。Psi R0模型發(fā)揮RL算法探索的優(yōu)勢,支持小腦的快速迭代,生成支持長程靈巧操作的智能體。通過靈巧操作轉(zhuǎn)動數(shù)據(jù)飛輪,實現(xiàn)從小腦Action到大腦Cognition的閉環(huán)回饋,驅(qū)動大腦認知能力優(yōu)化,模型持續(xù)迭代,形成小腦協(xié)同+大腦優(yōu)化的具身智能“神經(jīng)回路”,使端到端模型完成從簡單到復雜、從保護到協(xié)同的漸進式演進。


【免責聲明】所刊原創(chuàng)內(nèi)容之本文僅代表作者本人觀點,與新戰(zhàn)略機器人網(wǎng)無關(guān)。新戰(zhàn)略機器人網(wǎng)站對文中陳述、觀點判斷保持中立。本網(wǎng)轉(zhuǎn)載自其它媒體的信息,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責。

【版權(quán)聲明】凡本網(wǎng)注明“來源:xzl機器人”的所有作品,著作權(quán)屬于新戰(zhàn)略機器人網(wǎng)站所有,未經(jīng)本站之同意或授權(quán),任何人不得以任何形式重制、轉(zhuǎn)載、散布、引用、變更、播送或出版該內(nèi)容之全部或局部,亦不得有其他任何違反本站著作權(quán)之行為。違反上述聲明者,本網(wǎng)將追究其相關(guān)法律責任。轉(zhuǎn)載、散布、引用須注明原文來源。

分享到:
?
關(guān)閉對聯(lián)廣告
頂部微信二維碼微博二維碼
底部
掃描微信二維碼關(guān)注我為好友
掃描微博二維碼關(guān)注我為好友
主站蜘蛛池模板: 秋霞网毛片 | 被18号每天强行榨干acg | 精品9e精品视频在线观看 | 国产精品xxxav免费视频 | 1024毛片| 精品在线网站 | 国模一区二区三区视频一 | 我的漂亮朋友在线观看全集免费 | 国产良心大作白丝精厕 | 热久久免费 | 九九精品国产兔费观看久久 | 久久人妻少妇嫩草AV無碼 | 40分钟在线观看免费 | 日本动漫黄网站在线观看 | 国产精品调教 | 欧美人成绝费网站色www吃脚 | 国产乱妇无码大片在线观看 | 动漫人物差差差动漫人物免费观看 | 天堂精品高清1区2区3区 | 欧美成人免费观看bbb | 欧美精品综合一区二区三区 | 四虎国产欧美成人影院 | 日韩三及片 | 日韩在线天堂 | 国产精品亚洲午夜不卡 | 高清国语自产拍免费视频国产 | 91污污视频| 久久精品国产亚洲AV热无遮挡 | www.四虎在线观看 | 日韩精品视频福利资源站 | 精品久久成人免费第三区 | 欧美日韩高清完整版在线观看免费 | 免费高清视频免费观看 | 欧美老肥妇bbb | 美女光屁股网站 | 国产精品嫩草影院一二三区入口 | 日本精品一区二区三区 | 免费观看毛片视频 | 我要看靠逼片 | 无套啪啪| 国产精品51麻豆cm传媒 |