“训练大规模、具身化、智能的模型需要收集视觉、听觉、触觉、力等多模态数据。我们保守估计,当前的数据量与所需的数据量至少存在两个数量级的差异。” “借鉴互联网中间平台理念,我们可以建立智能化、内置的数据共享平台,制定贡献和收益规则,通过财政补贴、算力支持等政策鼓励企业贡献数据,并利用数据交易机制保证投资回报,共同做大产业蛋糕。”文字|杜康席嘉 《瞭望》周刊新闻记者 目前,一些内置的智能产品可以行走、跳跃、翻转,甚至完成抓取和组装等灵活方式。随着嵌入式智能变得越来越普遍,人们期望新一代机器人具有高度的多功能性,这意味着它们可以在各种场景下可靠地执行任务,在工业应用中能够制造完整的零件并精确组装,在商业应用中能够进入家庭。数据是体现智能泛化能力的基础。通过创建大型、多样化、多模式、任务丰富和交互式的数据集,并将其与先进的学习范式相结合,以提高在不熟悉的环境和任务中的适应性,可以真正应用具身智能。就目前而言,我们还有很长的路要走。大规模嵌入式智能模型目前有两种类型的训练数据:合成数据和真实数据。合成数据很便宜,但与现实世界有偏差。真实数据很大程度上重构了真实场景,基于这些数据训练的模型具有更高的可靠性和泛化能力。目前业界正在创新各种采集方式,积累真实数据量。从体量上来说,大家也都进步了通过创新、场景实施和标准创建等方面来提高数据质量。千寻Moz1智能机器人正在采集数据(图202)(2016年11月11日摄) 受访者提供 缩小现实世界数据差距 业界认为,通过利用现实世界数据训练大规模模型,可以逐步实现更大程度的泛化。实际的数据收集成本高昂且效率低下。 “大规模融合的智能模型训练需要采集视觉、听觉、触觉、力等多模态数据。保守估计,目前的数据量与所需的数据量至少有两个数量级的差距。”上海数据科学重点研究院院长、复旦大学计算机科学与技术学院教授肖艳华告诉记者。目前,业界正在创新各种模型。方法来打破实际数据收集的障碍。第一步是收集实际机器数据并创建标准平台。例如,北京人形机器人创新中心有限公司(以下简称“北京人形”)正在与百度智能云合作,打造通用、密集、高质量的百万级数据集。北京人形大模型总监鞠小竹表示,该数据集包含了家用、商业和工业场景中各种机器人配置的数据,并已应用于训练北京人形机器人的各种自主开发模型。其中,大型视觉语言动作跨界车型XR-1搭载了Tiangon、Franca等不同配置的机器人。各项任务的平均成功率提高了约20%。二是利用数据气球实时采集高精度运行数据。例如,北京大学与灵珠联合实验室重点研究积聚收集有关手动操作的数据,以设计具有均匀外骨骼的灵巧手。 “我们还设计了一款类似的电子数据手套,它是一种在工作时佩戴的设备。与远程操作的采集数据的机器人抓手相比,数据手套可以采集运动数据。实时对每个手关节进行高精度测量,让机器人更好地抓取柔性物体并进行精密装配。将帮助你实现这一目标。”北京大学人工智能研究院研究员、灵楚-北大联合研究院高级研究员杨耀东表示,每天采集的数据量团队集数已达5000个,累计采集人工作业数据超过100万条,主要集中在物流分拣场景。三是通过产品的大规模部署,获得更具体的数据。”动力联合创始人赵哲伦表示。(北京)科技吉利股份表示,自动驾驶已经验证了嵌入式智能的大规模部署可以提供真实数据帮助完成模型的训练和评估,并介绍北大与灵珠联合实验室的机器人技术正在加速工业来料检验、物流扫码等场景的落地,利用采集到的数据解决大规模模型交互不足的精度缺陷。随着真实数据量的不断积累,数据质量的提升,短期内各地建立的数据总量正在显着增加。一个新问题是“数据追随本体”的现象。不同类型机器人的设计和算法存在差异,导致采集的数据格式不兼容。 “目前数据采集标准还处于模糊阶段,如果数据标准统一的问题“rds和跨本体无法解决,未来机器人本体结构更新时,当前采集工厂采集到的数据的有用性将大幅下降。”雎晓珠表示,统一数据格式、术语、采集流程等可以从根本上解决数据异构问题,为模型训练提供优质原材料。 MT咨询嵌入式智能研究院CEO王淼建议,基于技术的多元化和差异化,通过整合嵌入式智能的数据基础设施根源,做底层工具链、数据格式和通信,可以在一定程度上解决数据异构问题。开放安全协议和认证。我们正在采取行动。致远机器人宣布通过国家机器人检测评价中心颁发的《人形机器人数据集CR产品认证实施规定》今年9月上线Center,成为业内首家获得仿人机器人数据集产品CR认证的公司。经过认证的数据集可以为企业提供切合实际需求的“合规数据”,大幅降低数据利用效率。一旦提高了数据收集标准,就可以改善其分配和利用,以最大限度地发挥其价值。鉴于企业出于利益和安全考虑不愿共享数据,业界希望政府和行业学会建立数据共享平台,提高数据使用效率。 “我们可以借鉴互联网的概念,建立智能化、实体化的数据共享平台,制定捐赠规则,并给予财政补贴、算力支持。这样的政策将鼓励企业提供数据,利用数据交易机制保证投资回报,共同做大产业蛋糕。”肖阳华说。反对。智能体现 数据的顺畅流动需要法律保障。目前,缺乏明确的法规和标准,隐私的定义也比较模糊。 “智能数据嵌入的隐私问题应根据来源来判断。合成数据和基础核活动数据目前不构成隐私风险,但进入现实场景时问题就变得明显。例如家庭环境中的对话、工厂中的实际工作状况等数据深深嵌入了与隐私和商业秘密挂钩的实体,中长期将面临风险。”王淼建议,应加快制定相关法规,在保证安全的同时促进数据流通。 ■
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
请n注:以上内容(包括图片和视频,如有)不能在社交媒体平台上使用。是网易号用户上传发布的网站,仅提供信息存储服务。