细心点

触觉集成、硬件和模型等挑战限制了实体智能向通用智能的演变。文字|新闻周刊《瞭望》记者王鹤先生、宫文先生。从机器人玉树在央视春节晚会上的“扬子”表演开始,中国的体智能正在以惊人的速度增长。跑马拉松、拳击、踢足球、街舞、在汽车厂“打工”……每一个“惊艳”技能都彰显着行业发展的新高度。 “这些搞笑视频的发布,吊起了大家的胃口。人们往往会误判形势,认为机器人已经非常成熟,能够做很多困难的事情,即将登天、无所不能。”一家工业机器人公司的高管感叹需要超越“表面的繁荣”来看到具体智能的真实能力。如果你是一个细心的人,你会发现几乎所有的机器人执行困难的动作要么由人类工程师远程控制,要么由预先编程的机器人完成。换句话说,这些机器人仍然是“提线木偶”,需要人类“牵着他们的手”才能做任何事情。具身智能何时才能摆脱远程控制?你距离“完全自主”还有多远? 2025年8月14日,在北京国家冰带速滑体育场举行的2025年世界人形机器人运动会开幕式上,机器人进行100米比赛。谢涵/本刊摄影 大脑进化 摆脱远程控制的关键是拥有强大的大脑,让机器能够理解物理世界,与之互动,实现闭环。认识、决定、行动并提供反馈。例如,在自动驾驶领域,三大核心技术要素是大型VLA模型(视觉语言动作模型)、端到端强化学习、全局模型。三人一起机器能够自主智能,从了解环境到采取行动。大VLA模型集成了视觉、言语和行为三种模式。这意味着机器人是用来让人们理解、接受指令、执行身体动作的。它是具身智能的基本模型。今年6月,银河通用推出了针对零售场景的大规模模型GroceryVLA。这使得机器人能够在复杂的环境中自主做出决策并准确执行。例如,如果人类发出“给我拿点东西来吃”的命令,机器人不需要远程控制或事先收集场景数据。可以识别饼干和饮料,从货架上抓取它们并使用自动路线规划来交付它们。端到端强化学习是一种不依赖于路径规划器等模块的强化学习系统,可以直接从原始输入(例如图像或传感器数据)运行到目标机器上。动作的输出。这是训练大规模VLA模型的重要方法。清华大学教授、机器人控制研究所所长赵明国带领的机器人足球队“清华火神队”获得2025年世界仿人机器人大赛冠军。比赛过程中,机器人不进行遥控,可以走、跑、跳、翻滚,具有在复杂路径和障碍物上行走的平衡性和适应性。赵明国团队的主要突破是利用重学习算法,端到端的力将机器人的视觉线索,如球位置、队友/对手位置、球场边界等直接映射到运动控制指令,从而实现机器人的行走方向。 、踢腿力度和身体姿势的调整。全局模型是模拟环境动态的“虚拟大脑”。其核心是通过学习环境的物理规律,为大规模VLA模型提供环境意识支持。例如物体的运动和碰撞的后果,以及预测未来的状态。在攻克世界模型的技术瓶颈方面,致远近期推出了自己研发的世界模型GE。与传统机器人的言行相比,GE学习物理和环境动力学定律,内部预测未来状态,并模拟人类“大脑推理”,教会机器人像人类一样主动预测和决策:先思考,然后实践,然后行动。赋予您做出决定的能力。搭载该模型的机器人完成了制作三明治、倒茶、擦桌子等任务。 GE平台开放的底层架构,有潜力成为未来机器人行业的“安卓系统”。通用智能仍需克服核心挑战。体现智能大脑技术不断进步。然而,接受采访的专家认为,这方面还存在重要差距。当前实现通用智能的水平使机器能够以与人类相同的方式“理解”其环境,并具有从一个示例推广到另一个示例的能力。 “机器人在某些特殊场景下可以自主完成动作,比如足球比赛,但在其他场景下就不行。”赵明国说。行业专家认为,触觉集成、硬件和模型等挑战正在限制实体智能向通用智能的演变。在触觉整合方面,机器人从能够看到、能够触摸、理解力和适应还有很长的路要走。大型VLA模型集成了三种模式:视觉、言语和运动。添加触感是非常困难的。触觉是一种多维度的感知能力。除了力感知之外,材料感知还包括表面干燥度、温度、柔韧性和脆性等。 “结合视觉和触觉数据不可避免地包括增加了模型的数量和难度,因为有太多有效的数据元素需要考虑。”塔山科技CEO兼联合创始人马阳举了一个关于剥小龙虾的机器人的example.jo。这个看似很简单的精细动作,其实需要大量的训练和学习。 “我们目前正在招募一个十几人的团队,负责武汉的小龙虾项目。 “我们计划今年年底完成模型训练,并方便小批量测试。”在硬件方面,嵌入式智能本体侧实现的大型模型对计算能力要求很高,专用芯片还不够成熟。“我们需要加快开发大规模嵌入式智能模型专用、低功耗、高性能的芯片。”同时,大型参数化模型应该是轻量级的、小型的,这样它们在执行任务时就不会显着降低性能。”大学的情报专家。在算法层面,业界目前还很难训练出泛化能力强的大规模模型。中国信息通信研究院人工智能研究所人体安全与智能部副主任张为民表示,虽然目前最先进的模型在3D场景的情景问答任务(SQA3D)中的准确率已经提升到55%到60%的范围,但仍然远低于人类的90.06%,说明算法还不够成熟。此外,目前讨论的大多数具身智能都是单一智能。在现实应用中,多个机器人协同工作的群体智能也是一个行业标准。必须克服的问题。不可否认,嵌入式智能产业正在快速发展,其泛化能力日趋成熟。g更强。 “在某些情况下,乐观地估计三到五年内将实现技术突破。”赵明国说。分层分类加快实施速度,加速通用智能的实现。仅在实验室环境中不可能模拟复杂场景的动态不确定性。你需要在真实的部署场景中暴露问题并找到解决方案。 “嵌入式智能需要标准的叠加。使用标准将有助于实现技术一致性并加速产品发布,”瑞银证券中国行业分析师王飞利表示。目前,国内一些行业组织正在模仿智能驾驶分类标准,提出嵌入式智能相关的分类框架,旨在加速技术进步和场景落地。例如,2024年10月,国家和地方人形机器人RoBot创新中心联合企业和行业机构,宣布团体标准《仿人机器人分类分级应用指南》和《具身智能发展阶段判定指南》在上海发布。北京仿人机器人创新中心有限公司牵头的团体标准《仿人机器人智能分类》从识别、决策、执行、协作四个方面建立了四点评价体系维度、五个层次。这提供了整体的安全结果,并明确了不同级别机器人的能力要求和适用场景。这将有助于加速仿人机器人在特种任务、物流加工、科教科研、商业服务、医疗保健等领域的应用,打破技术和场景之间的壁垒。受访专家建议加快对人形机器人等分层应用进行评级,提到了自动驾驶在封闭和开放场景中的不同应用级别。在工厂车间等封闭场景中,障碍物、光线、地形等因素相对容易预测和控制。先进的仿人机器人将能够更可靠地执行复杂的任务,例如在此类环境的特定区域中进行高精度零件组装和货物装卸。开放的情况非常不确定。在这种场景下运行的人形机器人必须处理各种紧急情况。因此,可以使用较低级别的人形机器人来执行引导服务、物品分发等特定任务,并逐步积累开放场景中的操作经验。 ■
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:上述内容(包括图片和视频,如有)由网易号用户上传并发布,网易号是一个仅提供信息存储服务的社交媒体平台。

此条目发表在吃瓜热门分类目录。将固定链接加入收藏夹。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注