
在2025年3月5日第十四届全国人民代表大会第三次会议上的政府工作报告中,特别提到了“具身智能”。

图片截自中华人民共和国中央人民政府网站 www.gov.cn
那么具身智能到底是什么呢?

图库版权图片,转载使用可能引发版权纠纷
回想我们看过的科幻电影,经典的机器人角色有很多——从冷酷强悍的杀手(shǒu),到(dào)矫(jiǎo)健(jiàn)的(de)拳(quán)击(jī)运(yùn)动(dòng)员(yuán),从(cóng)稳(wěn)重(zhòng)冷(lěng)静(jìng)的(de)维(wéi)修(xiū)工(gōng),到(dào)神(shén)烦(fán)碎(suì)嘴(zuǐ)的(de)礼(lǐ)仪(yí)官(guān)……不(bù)过(guò),这(zhè)些(xiē)作(zuò)品(pǐn)中(zhōng)的(de)想(xiǎng)象(xiàng)很(hěn)美(měi)好(hǎo),但(dàn)实(shí)现(xiàn)起(qǐ)来(lái)真(zhēn)的(de)很(hěn)难(nán)——甚(shén)至(zhì)光(guāng)是(shì)让(ràng)机(jī)器(qì)人(rén)像(xiàng)人(rén)那(nà)样(yàng)迈(mài)开(kāi)两(liǎng)条(tiáo)腿(tuǐ)走(zǒu)路,都(dōu)历尽坎坷。
反观(guān)我(wǒ)们(men)人(rén)类(lèi)的(de)小(xiǎo)宝(bǎo)宝(bǎo),成(chéng)长(zhǎng)过(guò)程(chéng)中(zhōng)也(yě)没(méi)有(yǒu)人(rén)给(gěi)他(tā)们(men)编(biān)什(shén)么(me)程(chéng)序(xù),经(jīng)过(guò)多(duō)次(cì)尝(cháng)试(shì)和(hé)摔(shuāi)倒(dào)之(zhī)后(hòu),他(tā)们(men)自(zì)己(jǐ)就(jiù)学(xué)会(huì)了(le)爬(pá)和(hé)走(zǒu),很(hěn)快(kuài)就(jiù)能(néng)跑(pǎo)得(de)飞(fēi)快(kuài)并(bìng)躲(duǒ)开(kāi)障(zhàng)碍(ài)。而(ér)“具(jù)身(shēn)智(zhì)能(néng)”技(jì)术(shù),就(jiù)参(cān)考(kǎo)了(le)这(zhè)个(gè)过(guò)程(chéng)——这(zhè)项(xiàng)技(jì)术(shù)能(néng)让(ràng)机(jī)器(qì)人(rén)像(xiàng)人(rén)那(nà)样(yàng),用(yòng)身(shēn)体(tǐ)感知世界,在互动学习(xí)中(zhōng)成(chéng)长(zhǎng)。
具(jù)身(shēn)智(zhì)能(néng)是(shì)什(shén)么(me),
是(shì)怎(zěn)么(me)跟(gēn)机(jī)器(qì)人(rén)结(jié)合(hé)的(de)?
具(jù)身(shēn)智(zhì)能(néng),英(yīng)文全称(chēng)是(shì)“Embodied Artificial Intelligence”,从(cóng)这(zhè)个(gè)全称(chēng)我(wǒ)们(men)可(kě)以(yǐ)看(kàn)出(chū),其(qí)实(shí)具(jù)身(shēn)智(zhì)能(néng)这(zhè)个(gè)词中的“智能”就是(shì)“ AI ”(人(rén)工(gōng)智(zhì)能(néng))的(de)意(yì)思(sī)。而(ér)说(shuō)到(dào) AI ,大(dà)家(jiā)早(zǎo)都(dōu)不(bù)陌(mò)生(shēng)了(le),从(cóng) ChatGpt 到(dào) DeepSeek ,都(dōu)是(shì) AI 的(de)一(yī)种(zhǒng)。它(tā)们(men)就(jiù)像没有身体的“大脑”,虽然能从外部接收数据并解决问题,但它们作为没有身体(tǐ)的(de)软(ruǎn)件(jiàn)系(xì)统,缺乏通过身体与环境交互的能力和反馈机制。

图库版权图片(piàn),转(zhuǎn)载(zài)使(shǐ)用(yòng)可能引发版权纠纷
举个例子,下围棋的 AlphaGo ,就必须有一位工作人员在场上帮它落子,因为 AlphaGo 是个纯算法系统,尽管能在服务器上快速训练成千上万场棋局,甚至能够战胜世界冠军,但它自己甚至根本不具备在真实世界中拿起一枚棋子的能力。而具身智能机器人,则能通过摄像头、触觉及其他传感器等“感官”收集环境信息,并用肢体与环境互动,进而形成“感知-行动”的闭环。
了解了上面的信息,再解释具身智能相关的概念就比较容易理解了,所谓“具身智能”是指一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。总结一下,具身智能就是“能够感知、推理并与物理世界互动的智能系统”。而具身(shēn)智(zhì)能(néng)机(jī)器(qì)人(rén),可(kě)以(yǐ)视为具身智能系统的载体。
那么,“具身智能(néng)机(jī)器(qì)人(rén)”可(kě)以(yǐ)简(jiǎn)单(dān)理(lǐ)解(jiě)为(wèi)“给(gěi) AI 套(tào)了(le)一(yī)具(jù)身(shēn)体(tǐ)”或(huò)“给(gěi)机(jī)器(qì)人(rén)装(zhuāng)上(shàng)了(le)一(yī)个(gè) AI ”吗(ma)?这(zhè)种(zhǒng)认(rèn)识(shi)也(yě)是(shì)不(bù)全面(miàn)的(de)。举(jǔ)个(gè)例(lì)子(zi),现(xiàn)在(zài)有(yǒu)一(yī)些(xiē)机(jī)器(qì)人(rén)产(chǎn)品(pǐn),能(néng)够(gòu)做(zuò)一(yī)些(xiē)简(jiǎn)单(dān)的(de)动(dòng)作(zuò),也(yě)连(lián)上(shàng)了(le) AI ,甚(shén)至(zhì)可(kě)以(yǐ)跟(gēn)人(rén)聊(liáo)得(de)有(yǒu)来(lái)有(yǒu)回(huí),但(dàn)它(tā)们(men)仍(réng)然(rán)不(bù)能(néng)算(suàn)是(shì)具(jù)身(shēn)智(zhì)能(néng)。
这(zhè)是(shì)因(yīn)为(wèi)它(tā)缺(quē)少(shǎo)了(le)至(zhì)关重(zhòng)要(yào)的(de)一(yī)环(huán),也(yě)就(jiù)是(shì)“具(jù)身(shēn)智(zhì)能(néng)”中(zhōng)的(de)“具(jù)身(shēn)性(xìng)”(Embodiment)。而(ér)具(jù)身(shēn)性(xìng)的(de)核(hé)心(xīn)在(zài)于(yú),智(zhì)能(néng)必(bì)须(xū)通(tōng)过(guò)物(wù)理(lǐ)身(shēn)体(tǐ)与(yǔ)环(huán)境(jìng)的(de)实(shí)时(shí)交互和动态反馈来生成,而非依赖预设程序或离线数据,要靠深度融合人工智能与机器人两大前沿技术才能实现这个目标,简单“拼”在一起是不行的。
为什么我们需要具身智能机器人?
其实现在已经有很多机器人在帮助人类劳动了,但很多机器人工作(zuò)的(de)时候依赖预先编好的程序,我们经常能看到工厂生产线中的机械臂(也是机器人的一种),它们高效默契地运行,能有条不紊地进行搬运、焊接等工作。这类机械臂通常高度依赖编程行动,虽然可以分毫不差地运行,也集成了一些基本的传感器以便了解工作状态,但遇到突发情况却仍然“不懂”避让行人(在无需工人的生产线上通常也没有必要)。
这也是为什么很多工厂的机械臂操作区都要装上隔离网,标上警戒线。因为这些机械臂工作时“只认程序不认人”,虽然有大量安全相关的措施和规章制度保障,但如果有人疏忽大意踏入它们的工作范围,仍可能发生悲剧——面对严格按程序从 A 点运动到 B 点的机械臂,挡在路上的人体实在太脆弱了。
试想一下,你敢让这样一个一个“只认程序”的机器人,走进你的家中,帮你打理家务,照顾老人小孩吗?当然,现在很多流水线上用的工业机器人也有了碰撞检测等功能,变得更加安全,但它们仍然是按预设程序执行,缺乏动态学习能力,更适合执行简单的重复任务。而一旦面临复杂的(de)环(huán)境(jìng)和(hé)任(rèn)务(wu),只(zhǐ)靠(kào)预(yù)设(shè)程(chéng)序(xù)是(shì)行(xíng)不(bù)通(tōng)的(de),因(yīn)为(wèi)在(zài)复(fù)杂(zá)环(huán)境(jìng)下(xià),很(hěn)难(nán)穷(qióng)尽(jǐn)所(suǒ)有(yǒu)的(de)规(guī)则。
这里再举个例子,在汽车制造业中,诸如搬运物料、抛光、焊接、喷漆等加工工序,大部分可以用机器人轻松完成。但是到了发动机、底盘、电器等装配工序,大部分工作仍难以用机(jī)器(qì)人(rén)完(wán)成,因(yīn)为(wèi)这(zhè)些(xiē)工(gōng)作(zuò)更(gèng)加(jiā)复(fù)杂,更需要“随机应变”以及沟通合作,机器人还无法胜任,需要人工。
而具身智能,则更加(jiā)灵(líng)活(huó),具(jù)有适应环境解决复杂任务的潜力,要想让机器人实现更加广泛的应用并走进千家万户,需要发展具身智能。
具身智能机(jī)器(qì)人,“活学活用”
由于具身智能和机器人的技术非常复杂,也有很多不同的技术路线,下面仅以具身智能开源学习项目 LeRobot 为例,简单介绍一下具身智能机器人的基本特点。
假设我们的任务目标是让机械臂捡起黄色的小积木块,再放进盒子里。我们可以编程序直接“命令”机械臂严格按照规定路径和动作运行——很多生产线上的工业机器人正是如此,但只要积木换个地方,机械臂按之前的行动路径就会捡个空。我们也可以编程序让机械臂能识别出积木块,再执行“捡”的动作并放进盒子里,这样更加灵活,但仍需要事先编写相应的程序。
而 LeRobot 则是靠人操作主动臂,“手把手”地教从动臂完成一次捡起积木放进盒子的过程,从动臂运动的整个过程会被 2 个不同位置的摄像头全程监控并记录。改变几次积木位置,操纵机械臂重复数十到上百次捡起和放下的动作,就能获得足够的资料。

LeRobot 的一次训练过程 来自 Huggingface 官方教程
再通过算法“学习”这些资料,就能让这套系统“学会”捡积木——如果有积木块出现在机械臂面前,它就会自己拿起积木来放进盒子。

LeRobot 一次成功的自主拾取过程 来自 Huggingface 官方教程
上图中,研究人员并没有操作主臂,甚至积木的位置也改变了,但机械臂仍然能自主完成任务。
从上面这个简单的例子中,我们能了解具身智能的一些最基本的特点。首先,具身智能可以通过身体与环境的实时交互学习(多次捡起积木),不用事先编写大量规则穷尽所有(yǒu)可(kě)能(néng)。其次,具(jù)身(shēn)智(zhì)能(néng)能(néng)够(gòu)在(zài)执(zhí)行(xíng)任(rèn)务(wu)的(de)过(guò)程(chéng)中(zhōng)动(dòng)态(tài)调(diào)整(zhěng)策(cè)略(è)(积(jī)木(mù)换(huàn)个(gè)地(de)方(fāng)也(yě)能(néng)捡(jiǎn)到(dào))。
当(dāng)然(rán),这(zhè)只(zhǐ)是(shì)个(gè)简(jiǎn)单(dān)的(de)例(lì)子(zi),实(shí)际上具身智能机器人的技术路线有很多,除了像上边的例子中基于真实世界交互的,还有在虚拟环境中进行的仿真训练以及二者相结合的等等。此外,具身智能机器人还能实现远比捡起积木扔进盒子里复杂得多的功能。比如行走、适应地形,模拟人的动作等等,不久之后,相信各类具身智能机器人,就能在更多的领域发挥重要作用。
最后总结一下,具身智能和机器人技术的融合,将会让未来的机器人变得更加能干,甚至能理解和模拟简单的感情交互。而且,对具身智能和机器人的持续投入,更将带动从软件到硬件的整个产业链的发展。
策划制作
作者丨丁崝 科普作者
审核丨于乃功 北京工业大学机器人工程专业负责人,北京人工智能研究院机器人研究中心主任,博士生导师
策划丨丁崝
审校丨徐来、林林
本文封面图片及文内图片来自版权图库
转载使用可能引发版权纠纷