2025全球開發(fā)者先鋒大會12月12日至12月14日在上海舉行。在同期舉行的思辨會上,具身智能企業(yè)家們對“2050年人機共存的社會”進行了暢想。
他們認(rèn)為,隨著具身智能硬件、軟件、生態(tài)深度融合,機器人能勝任人類的大多數(shù)工作。有企業(yè)家提出,當(dāng)機器人成為主要生產(chǎn)力后,人類將有更多時間和機會探索宇宙,盡享“星辰大海”。
既要仰望星空,也要腳踏實地。多名具身智能專家在思辨會上強調(diào)了多模態(tài)語料數(shù)據(jù)痛點。他們表示,數(shù)據(jù)短缺是具身智能發(fā)展的真命題,且數(shù)據(jù)多來自受控環(huán)境,質(zhì)量與真實場景需求存在差距。產(chǎn)業(yè)應(yīng)用對數(shù)據(jù)質(zhì)量要求更高,這需要政府與企業(yè)協(xié)同構(gòu)建貼合實際場景的高質(zhì)量數(shù)據(jù)集,推動機器人應(yīng)用落地。

未來社會或出現(xiàn)機器人醫(yī)院、具身智能學(xué)校
“現(xiàn)在,具身智能行業(yè)的發(fā)展速度和呈現(xiàn)狀態(tài)遠超所有人預(yù)期,但其實很多人不清楚具身智能機器人這一概念的起源。”國家地方共建人形機器人創(chuàng)新中心首席科學(xué)家江磊表示,1986年,863計劃(國家高技術(shù)研究發(fā)展計劃)開始實施,其中提出了“智能機器人”研究方向,開啟了我國機器人研究的歷程。
江磊說,近 40 年過去了,如今人們在這一基礎(chǔ)上新增 “具身” 二字,提出 “具身智能機器人”,標(biāo)志著行業(yè)迎來了全新發(fā)展階段?!昂芏嗳苏f這是機器人行業(yè)的 ‘翻篇’,但我并不完全認(rèn)同。它更像是歷代從業(yè)者不斷探索嘗試的積累,是整個行業(yè)在追逐 ‘星辰大?!?愿景過程中,一個極具里程碑意義的熱點爆發(fā)。”
對于2050年具身智能機器人的理想和愿景,上海青心意創(chuàng)科技有限公司CTO曾俊表示,至少能于2050年前實現(xiàn)三個核心維度“質(zhì)的飛躍”。
一是硬件能夠穩(wěn)定、可靠地滿足任務(wù)要求,這是基礎(chǔ)保障。二是軟件集成度提升,當(dāng)人們下達任意任務(wù)指令時,配套軟件能高效支撐機器人完成與人、與環(huán)境的交互,還具備緊急情況下的自動響應(yīng)能力。
三是在產(chǎn)品生態(tài)上,2050年前,行業(yè)已明確可盈利的商業(yè)方向,且這些盈利方向能清晰拆解為對應(yīng)的軟件和硬件需求。當(dāng)硬件、軟件、生態(tài)三者深度融合,行業(yè)就能進入良性循環(huán)的發(fā)展?fàn)顟B(tài),形成持續(xù)前進的 “飛輪效應(yīng)”。
開普勒副總裁宋華作出了較為樂觀的預(yù)測,他表示,具身智能的發(fā)展速度將快于業(yè)內(nèi)預(yù)期。到2050年,行業(yè)已徹底解決兩大核心問題。在硬件穩(wěn)定性上,經(jīng)過多輪迭代更新,硬件性能會達到非??煽康乃?;軟件功能性方面,通過持續(xù)迭代,機器人能精準(zhǔn)完成各類預(yù)設(shè)任務(wù)。
宋華認(rèn)為,人機共存的社會,將出現(xiàn)專門服務(wù)于機器人的配套體系,例如類似人類醫(yī)院、學(xué)校、培訓(xùn)機構(gòu)的單位,為機器人提供維護、升級和技術(shù)賦能。
“人形機器人的核心發(fā)展邏輯,是追求機器人能勝任各類任務(wù)?!毙聲r達副總經(jīng)理蔡亮表示,十五年內(nèi)想要機器人做到 “無所不能” ,存在不小的挑戰(zhàn),但整體發(fā)展方向是積極向好的。
他還透露,新時達將具身智能作為未來發(fā)展的重點方向,正在從傳統(tǒng)工業(yè)機器人向具身智能加速轉(zhuǎn)型,預(yù)計本月月底或2026年年初左右會公布具身智能方面的新進展。

蔡亮還拋出一個頗具哲學(xué)意味的思考:若未來機器人具備高度的運動能力和任務(wù)執(zhí)行力,能勝任人類所有的工作,那人類的價值在哪里?“到時候,真正困擾大家的可能不再是如何讓機器人做事,而是人類該做什么。”他說。
對于上述問題,宋華提出,人類對未知世界的探索欲望是無限的。如今太空探索已邁出了第一步,未來太空必然會成為無數(shù)人向往的美好家園。而這件事,必須借助人形機器人的力量 —— 讓機器人為人類創(chuàng)造更多財富,讓人類有更多時間和機會投身太空探索。
“到2050年,人類很可能會和人形機器人一起登上太空,而真實的未來,或許會比這個設(shè)想來得更早?!彼稳A說。

機器人也需要“為什么犯錯”等負樣本數(shù)據(jù)
具身智能何時迎來“ChatGPT時刻”?在2025全球開發(fā)者先鋒大會思辨會上,業(yè)內(nèi)人士普遍指出,模型是具身智能的 “大腦”,數(shù)據(jù)是滋養(yǎng)大腦的 “養(yǎng)分”。大語言模型的爆發(fā),源于海量高質(zhì)量語料的支撐;而具身智能要實現(xiàn)從 “能行動” 到 “會思考” 的跨越,同樣離不開多模態(tài)語料數(shù)據(jù)的“質(zhì)的飛躍”。
靈御智能首席科學(xué)家、清華大學(xué)自動化系長聘副教授莫一林表示,數(shù)據(jù)缺失是公認(rèn)的非常嚴(yán)重的行業(yè)痛點,尤其是較自動駕駛行業(yè)而言,具身智能數(shù)據(jù)集規(guī)模遠遠未達到合理水平。
數(shù)據(jù)的問題,不僅體現(xiàn)在數(shù)量上,更反映在質(zhì)量上。莫一林進一步表示,大量具身智能數(shù)據(jù)是在實驗室、數(shù)據(jù)采集場等受控、干凈的環(huán)境中采集的,而自動駕駛數(shù)據(jù)則來自真實的道路行駛場景,更貼近實際應(yīng)用需求。由于具身智能機器人尚未大規(guī)模落地,數(shù)據(jù)采集只能局限于實驗室、工廠或數(shù)據(jù)農(nóng)場,這導(dǎo)致具身智能數(shù)據(jù)質(zhì)量與自動駕駛數(shù)據(jù)存在顯著差距。這一問題必須得到正視并著力解決。
上??萍即髮W(xué)教授顧家遠也表示,仿真數(shù)據(jù)已成為具身智能數(shù)據(jù)的重要來源。此外,數(shù)據(jù)質(zhì)量是至關(guān)重要的,尤其是疊衣服、高精度操作等場景對數(shù)據(jù)采集的精度和細節(jié)要求極高,數(shù)據(jù)質(zhì)量直接影響模型的學(xué)習(xí)效果。

上大通用智能機器人研究院特聘研究員、技術(shù)副總監(jiān)黃嘉鋒強調(diào)了“數(shù)據(jù)維度”和“數(shù)據(jù)信息密度”的重要性,他表示,具身智能需要解決的任務(wù)更復(fù)雜,且完全處于真實物理場景中,這與大語言模型有本質(zhì)區(qū)別。大語言模型可以通過文本、圖像數(shù)據(jù)識別物體、拆解任務(wù);但在物理世界中執(zhí)行任務(wù)時,僅靠文本、圖像數(shù)據(jù)和機器人關(guān)節(jié)數(shù)據(jù)是不夠的 ,真實物理場景需要動態(tài)交互。
“中國有句古話 :人教人教不會,事教人一次會。機器人只有真正感知物理世界,才能理解‘為什么抓不住衣服’‘為什么踢球后球會因重力下落’等底層邏輯?!秉S嘉鋒表示,具身智能數(shù)據(jù)需要增加維度,納入力傳感器、觸覺傳感器等數(shù)據(jù)——這些對人類而言習(xí)以為常的感知信息,對機器人理解物理世界至關(guān)重要。
數(shù)據(jù)的正負樣本比例亦受到專家的關(guān)注。黃嘉鋒表示,當(dāng)前訓(xùn)練數(shù)據(jù)大多聚焦于 “如何正確完成任務(wù)”,但缺乏 “錯誤操作的后果及原因” 相關(guān)數(shù)據(jù),包括 “沒抓穩(wěn)杯子會掉落破碎”“掉落的原因是握持力不足”等。具身智能需要理解真實的物理邏輯,而正負樣本的均衡搭配,能幫助模型更全面地掌握任務(wù)規(guī)律。
校對:廖勝超