人形機(jī)器人一般是指具有與人類類似的身體結(jié)構(gòu)和運(yùn)動(dòng)方式(雙足行走、雙手協(xié)作等)的智能機(jī)器人。人形機(jī)器人既需要極強(qiáng)的運(yùn)動(dòng)控制能力,也需要具備非常強(qiáng)的感知計(jì)算能力。人形機(jī)器人更能適應(yīng)于各類現(xiàn)實(shí)生活場(chǎng)景,使得機(jī)器人能從“專用”轉(zhuǎn)向“通用”,以此形成規(guī)模效應(yīng)和降低成本。
隨著人工智能技術(shù)不斷發(fā)展,通過結(jié)合人工智能、機(jī)械工程和傳感技術(shù),人形機(jī)器人可以模仿人類的動(dòng)作和行為,執(zhí)行各種任務(wù)。
NVIDIA 機(jī)器人與邊緣計(jì)算副總裁 Deepu Talla 表示,技術(shù)進(jìn)步和仿真環(huán)境的改進(jìn)是激發(fā)人形機(jī)器人即將爆發(fā)的兩大源動(dòng)力。
生成式人工智能和大語言模型技術(shù)的進(jìn)步,打破了數(shù)字應(yīng)用和物理應(yīng)用間的界限,而仿真環(huán)境的改進(jìn),使得機(jī)器人研發(fā)不再受限于物理環(huán)境,從而使得機(jī)器人技術(shù)獲得了跨越式發(fā)展。
為了推動(dòng)機(jī)器人從“專用”走向“通用”,NVIDIA以其在計(jì)算領(lǐng)域突破性創(chuàng)新成果為基礎(chǔ),面向機(jī)器人領(lǐng)域推出了集合訓(xùn)練、仿真和計(jì)算的“三臺(tái)計(jì)算機(jī)”解決方案。
第一臺(tái)計(jì)算機(jī)用于訓(xùn)練:這是用于訓(xùn)練AI模型的系統(tǒng)。訓(xùn)練通常在云端、數(shù)據(jù)中心或像NVIDIA DGX這樣的強(qiáng)大系統(tǒng)上進(jìn)行,這是構(gòu)建機(jī)器人“大腦”的關(guān)鍵步驟。
第二臺(tái)計(jì)算機(jī)用于仿真:一旦訓(xùn)練完成,就需要進(jìn)行測(cè)試。以往的標(biāo)準(zhǔn)是物理測(cè)試,但這種方式既慢又昂貴,還存在風(fēng)險(xiǎn)。更好的解決方案是引入一個(gè)“仿真層”,即“數(shù)字孿生”,在虛擬環(huán)境中完成測(cè)試。仿真允許在大規(guī)模、快速且安全的條件下運(yùn)行數(shù)千種場(chǎng)景測(cè)試,無需受到真實(shí)世界時(shí)間或成本的限制。
第三臺(tái)計(jì)算機(jī)用于部署:第三種系統(tǒng)安裝在機(jī)器人內(nèi)部,它就是操作物理機(jī)器人的“大腦”。對(duì)NVIDIA來說,這可以通過像Jetson或AGX這樣的系統(tǒng)來實(shí)現(xiàn)。
Deepu Talla 表示,通過整合上述三個(gè)系統(tǒng),在機(jī)器人正式部署之前,通過仿真進(jìn)行成千上萬次測(cè)試,可以顯著縮短機(jī)器人的開發(fā)時(shí)間,加速整個(gè)流程。
NVIDIA,并不直接制造機(jī)器人,而是通過構(gòu)建一個(gè)包含三種計(jì)算系統(tǒng)以及相關(guān)軟件工具和工作流程的平臺(tái),幫助機(jī)器人專家、研究人員、機(jī)械工程師和測(cè)試人員更輕松地開發(fā)機(jī)器人解決方案。
與ChatGPT大模型可以通過數(shù)據(jù)訓(xùn)練獲得進(jìn)步不同的是,應(yīng)用于機(jī)器人的大模型還無法獲得執(zhí)行各種動(dòng)作的海量數(shù)據(jù)。目前僅僅通過使用Apple Vision Pro或動(dòng)作捕捉套裝來記錄人類動(dòng)作的示范,而這些方法雖能提供有用的數(shù)據(jù),但規(guī)模太小,無法完全滿足機(jī)器人模型的訓(xùn)練需求。沒有足夠的數(shù)據(jù),機(jī)器人模型無法進(jìn)行有效的訓(xùn)練、測(cè)試或部署。這使得數(shù)據(jù)的收集和生成成為解決機(jī)器人開發(fā)挑戰(zhàn)的關(guān)鍵第一步。
為了解決這一問題,合成數(shù)據(jù)生成變得至關(guān)重要。
銀河通用創(chuàng)始人、CTO王鶴表示,通過合成數(shù)據(jù),可以生成特定動(dòng)作(例如抓取物體)的無數(shù)種變化,或者構(gòu)建完整的虛擬環(huán)境。通過將少量的現(xiàn)實(shí)世界數(shù)據(jù)與使用像NVIDIA Cosmos這樣的工具生成的大規(guī)模合成數(shù)據(jù)相結(jié)合,可以克服機(jī)器人技術(shù)中數(shù)據(jù)稀缺的問題,解決機(jī)器人領(lǐng)域的基礎(chǔ)數(shù)據(jù)挑戰(zhàn)。
NVIDIA Cosmos是一個(gè)“世界基礎(chǔ)模型”,可以生成高度逼真、類似視頻游戲的環(huán)境,用于機(jī)器人訓(xùn)練。在這里,“世界”指的并不是地球,而是機(jī)器人交互的環(huán)境,例如機(jī)器人操作的房間內(nèi)可見區(qū)域。通過采用這種結(jié)合現(xiàn)實(shí)與合成數(shù)據(jù)的創(chuàng)新工作流,NVIDIA正為機(jī)器人領(lǐng)域的重大進(jìn)步鋪平道路。