首 页 资讯 产业动态 发明·创新 探索·发现 科学麻辣烫 科技人物 专家讲坛 新基建 院士知播

首页>科技>资讯

全国政协委员、天娱数科CEO贺晗:3D数据是人形机器人发展关键资源

2024年12月11日 10:22  |  作者:王菡娟  |  来源:人民政协网 分享到: 

人民政协网12月11日电(记者 王菡娟)作为未来产业的前沿领域,人形机器人已成为全球科技和产业竞争的新赛道。近期,随着特斯拉、OpenAI、英伟达等科技巨头的加码布局,人形机器人赛道迎来空前热度。从市场空间看,据GGII预测,2030年全球市场规模将突破200亿美元,中国市场规模将达到50亿美元左右。特斯拉CEO埃隆·马斯克展望,长期来看人形机器人需求量可能达100亿台!

那么,如何看待本轮的人形机器人热?人形机器人会有怎样的发展阶段?记者采访了全国政协委员、天娱数科CEO贺晗。

人形机器人发展分三个发展阶段

当下人形机器人产业火热,提及背后的原因,贺晗表示,火热的背后是技术跨越带来的产业变革浪潮。

“今年以来,大模型技术与机器人技术加速融合、进化,使人形机器人成为具身智能的关键载体,为人形机器人带来了革命性的变革,让门槛大幅降低、场景快速增多,催生了‘研发热’‘应用热’‘投资热’。”贺晗说。

贺晗还介绍了人形机器人的三个发展阶段。

1. 0阶段:基于程序控制的演示阶段。人形机器人脱胎于工业机器人,加上拟人化的外形,目的在日常生活中进行应用,依赖于程序控制。这些程序通常是由工程师根据特定的任务和场景进行编写,机器人按照指令完成简单的动作演示。这个阶段的人形机器人功能比较单一,只能完成一些预先设定的任务,主要应用于科技馆、展览会等场所,作为展示科技成果的工具。

2. 0阶段:基于大模型的模仿阶段。模仿学习技术让人形机器人通过观察和模仿人类的行为,直接从人类的示范中学习动作和技能,快速掌握一些复杂的操作,如穿衣、做饭、打扫卫生等日常生活动作,以及特定领域的专业技能,如工业生产中的零件装配、医疗护理中的简单操作等。结合虚拟仿真平台技术,将模仿学习的数据在仿真环境进行海量泛化训练,可以更好地提高泛化能力和适应性。与此同时,视觉-语言-动作(VLA)模型的发展让人形机器人能够更高效地完成从视觉、语言理解到推理并生成动作的全过程,将自然语言指令转化为具体行动规划,并具备一定泛化能力,使人形机器人成为具身智能关键载体,这是革命性的。

3. 0阶段:基于海量3D数据的智能阶段。这是今后的发展方向,从被动响应和执行到主动感知和决策,是这个阶段的标志。核心是海量3D数据的喂养,让具身智能构建世界模型,这是真正意义上的具身智能大模型,它能创建对世界运作方式的内部表征,并具备行动后果的推理能力,从而显著提升对真实世界的感知、推理、执行与预测能力,使机器人认识和理解3D世界,并能够像人类一样进行推理和规划,不仅可以适应复杂多变的环境和任务需求,更为重要的是,具备自主决策、行动与操作能力。

“同时,随着多智能体协同技术的引入,未来,这一方向可能发展出更加高级的群体智能算法和多智能体系统,使得具身智能体能够协同完成复杂任务。例如,在家庭陪伴场景中,机器人能够利用3D空间数据理解家庭成员的行为,并通过世界模型进行因果推理。如当检测到老人在客厅摔倒时,能够迅速判断位置并主动联系急救人员,同时采取初步的急救措施。当具身智能可以高度智能化地执行与人类相同的任务,则代表我们真正迈入了通用智能时代。”贺晗说。

3D数据人形机器人发展的关键资源

在贺晗看来,要实现人形机器人发展3D数据是关键资源。

“3D数据对于提供真实人物、场景的展示、丰富的交互和决策支持至关重要,3D数据能让AI对物理世界人与物的形态、结构、位置、动作有更准确的理解,可以在三维场景中像人类一样对视觉信息进行高级推理,超越二维视觉的局限。具身智能大模型极端依赖大规模、高质量的3D数据训练。当下高质量3D数据集匮乏是产业痛点,全球范围内,3D数据都处于极端重要,又极端缺乏的状态。3D数据集正在成为竞争的核心节点。”贺晗说。

2023年10月,谷歌DeepMind联合全球33家顶级学术实验室共同开发Open X-Embodiment数据集,基于该数据集训练了RT-X系列3D多模态大模型用于人形机器人。2024年3月,斯坦福大学、伯克利大学联合全美多家头部研究机构推出DROID 分布式机器人交互数据集,涵盖3D轨迹、3D场景等。2024年3月,全球著名人工智能专家李飞飞教授领衔、联合美国多所大学推出BEHAVIOR-1K具身智能数据平台,涵盖了50个场景、9000多个具有丰富物理和语义属性的物体。

3D数据集,在可见的未来,决定3D多模态大模型和空间智能的发展,以及全球科技竞争的走势。

但贺晗也坦言,3D数据集的发展有两个痛点,一是3D数据的获取与处理成本高昂、流程繁杂,需要大量的时间、人力与资金投入;二是3D数据的标准化程度低,导致数据的兼容性较差,共享和复用难度大。

为此,天娱数科在这方面也进行了一系列布局。

据贺晗介绍,为了解决第一个问题,天娱数科去年与合肥产投一起战略投资了芯明。芯明是一家专注空间计算及人工智能芯片及产品设计的高科技企业,其自研空间计算芯片是目前全球唯一单芯片集成芯片化实时3D立体视觉感知、AI、SLAM(实时定位图)的空间智能系统级芯片,采用12nm制程工艺,具备3.5TOPS的端侧算力,功耗仅为约0.5W,可支持单芯片接入6路传感器,其产品解决方案已在全球范围内应用在泛机器人、XR、消费电子、物流无人机、3D扫描等多个前沿应用领域的龙头企业产品中,真正实现了“感算一体、多路融合、空间智能”的功能。与芯明合作后,依托其芯片和模组优势,通过多种高精度3D 扫描设备,采集 3D 场景、模型、动作等多类数据源,大幅降低了3D数据采集成本。

“为了解决第二个问题,我们融合大模型、3D数据集、可视算法,构建了空间智能MaaS平台,通过跨类型数据的智能解析提高数据标准化程度和易用性。目前模型与多项算法已完成中央网信办生成式人工智能服务备案。平台目前拥有超80万组3D数据、35万组多模态数据。”贺晗说。

今年10月份,天娱数科采集加工形成的“人形机器人空间动捕长程数据”“大场景空间感知模型重建数据”等5个3D具身智能数据集正式在北京国际大数据交易所完成数据资产登记,通过数据信息的核验、合规审查、登记备案等环节,成为全国首个完成资产登记的3D具身智能数据集。

“未来,天娱数科将在模型训练、数据集拓展、平台性能优化等方面持续努力,不断深化AI+3D技术竞争优势。”贺晗说。

标准、人才、平台建设一个不能少

贺晗同时还对中国人形机器人产业发展提出了三点建议。

一是加快标准制定与完善,包括硬件接口标准、软件通信协议标准、3D数据集标准、性能标准等,确保不同企业的产品之间能够实现更好的兼容性和互操作性,同时大力推动标准国际化。二是加强复合型人才培养,目前人形机器人领域懂机械、自动化、程序控制的很多,懂大模型、具身智能的很少,两者都懂得少之又少,建议在高校中设置具身智能相关专业或方向,加强多学科交叉融合,增加实践教学环节,培养学生的跨学科思维和实际动手能力。三是鼓励通用平台建设,建立从硬件到软件、从底层到应用层、从模型底座到3D数据集的多层次具身智能通用平台架构,鼓励企业、高校和科研机构等各方在平台上进行技术研发、应用创新和资源共享,形成良好的产业协同创新氛围,降低创业门槛,避免重复“造轮子”,加速具身智能技术的推广应用和产业化进程。

编辑:马嘉悦