网易科技出品的对话《态度AGI》 作者 |崔宥贤编辑|丁广生 ChatGPT 依靠互联网海量文本数据实现智能的出现,但机器人却陷入了从物理世界收集数据的“高成本泥潭”。 “现阶段,对通过真实数据嵌入的智能发起标度法则是没有用的。”跨次元智能创始人贾奎在接受网易科技等人采访时坦言。数据不足,使用起来并不容易。而嵌入式智能数据缺乏已经成为行业共识。针对这个问题,业界逐渐形成了两个主要派别:赞成真机派和赞成模拟派。 InterDimension Intelligence、Nvidia、Galaxy General等都选择了模拟路线。近日,跨维度智能同时发布开源和专有的VLA基础模型自动化由 EmbodiChain 以及针对多个特定任务示例的 VLA 模型进行了专门训练。事实证明,EmbodiChain 作为体现智能的开源“生成数据引擎”,验证了一条新路径,机器人可以完全依赖 100% 合成数据来学习一项技能(所谓的虚拟世界梦想),并在现实世界中以零样本(零样本)无缝执行。为什么机器人不像 ChatGPT 那样聪明? “嵌入式智能智能和大规模语言模型智能是两种不同的智能。”贾奎指出了两者的根本区别。大规模语言模型的成功依赖于互联网上无限的文本数据,并遵循众所周知的缩放定律。然而,当这种范式试图迈向具身智能的领域时,就面临着物理世界的冷酷现实。传统的机器人学习需要收集真实数据。这个过程存在三个主要问题。采集真实数据ATA 可能很贵。这需要人类来控制机器人,这需要时间和精力。它效率较低,不会加速物理世界的速度,并且会带来安全风险。数据是孤立的,只有少数大公司可以创建大型收集团队。贾奎用自动驾驶的例子来解释数据缺乏的深层原因。 “为什么有这么多关于无人驾驶汽车的真实数据?因为我们每天开着汽车,做各种各样的事情。在具身智能领域,我们生活的世界里没有机器人,除了工厂和物流仓库的机械臂。”面对这种困境,跨维度智能选择了技术生成模拟这一路径。贾奎强调:“成熟的基础物理仿真技术可以达到毫米级精度,工厂可能需要亚毫米级。嵌入式智能缺少的不是底层的仿真技术,而是一种方法。”高效、自动地将物理模拟塑造的任务场景与各种虚拟传感器、模型训练和本体实现生成的数据连接起来。”如何在现实世界中没有样本的情况下完美运行模拟数据?作为嵌入式智能的开源“生成数据引擎”,EmbodiChain验证了一条新路径。机器人完全依靠100%合成数据来学习技能,可以在没有样本的现实世界中完美运行。Embody Chain的根本先进性体现在三个“非必需品”上。这表明VLA模型可以100%使用合成数据进行训练,无需繁琐的手动调整,即可自动生成基于文本描述的场景和任务,无需专门的建模工程师。y 强调拥有 100% 合成数据的重要性。 “每个公司所走的技术路径,无论是95%合成的,5%真实的,甚至0.1%的,都是判断其是否真正基于其产生的数据的一个非常重要的指标。如果技术路径形成的产品无法摆脱真实数据,就意味着任何场景或机器人都必须进入任务并收集数据,因此成本无法控制。” EmbodiChain创建了完整的飞轮流程“Real2Sim2Real”数据。 Real2Sim 模块利用高保真仿真和自动数据编辑技术,使用有限的真实交互数据在仿真引擎中创建大型、多样化的任务和可训练环境。 Sim2Real 阶段提供高达数百万美元规模的高多样性数据放大。报告称,在商业层面,跨维度智能已经建立了明确的实施路径。 “我将实现1亿收入到2025年,从2022年到2024年,将以一倍以上的增速增长。这个增长主要是公司在两个核心泛智能制造业务领域的持续扩张所推动的。“如果不严格遵循这一点,你的产品就根本卖不出去。”他强调,“整个系统的售价不能超过这个岗位员工18个月的工资。”跨维智能成立于2021年6月,核心团队由全球顶尖2%科学家之一贾奎领衔,公司产品目前应用于50多个细分行业,在1000多个项目中实施。以下为网易科技与他人的交流。依靠真实的数据收集来到达ChatGPT时刻是没有用的。这是一个非常重要的原因。具身智能领域数据收集现状贾奎:具身智能和大规模语言模型智能是两种不同类型的智力。这使得前者涉及基于知识的技能,并且需要基于三维物理世界中的感知和行动的智能。数据从一开始就是多模态的,包括视觉、力、触觉、语言等,它是三维的,需要物理精度。尽管预计大规模模型提供的尺度法则可以扩展到具身智能,但它们具有固有的缺点(它们无法扩展)(这也是迄今为止具身智能新的技术范式出现的根本原因)。问题:根据模型训练数据,有多种路径。我们有真实数据学校、模拟学校和视频学习学校。异次元智能模拟学校有什么优势?仿真技术的物理精度上限是多少?哪些任务有盲点? Jackie:现阶段或者说现在,基本上没有什么问题。实际数据法。依靠真实的数据收集来达到ChatGPT时刻是没有希望的。一个重要原因是社会上没有那么多机器人可以做不同的事情。在我们生活的世界里,除了工厂和物流中的机械臂之外,没有机器人。相反,无人驾驶汽车拥有大量真实数据,因为我们每天都驾驶汽车执行各种任务。通过在汽车中安装传感器,驾驶员可以生成数据并训练模型。生成模拟方法包括使用生成式人工智能从文本生成到图像生成、视频生成和3D生成。随着这些数据技术范例的建立,数据采集可能会成为计算能力的问题。只有这样,我们才能真正实现体现智能所期望的智能的出现,更准确地说,实现所需的泛化性和多功能性。只有通过生成式人工智能,我们才能生成各种可泛化的媒体和可泛化的数据。如果 y你仍然需要一台真机来收集它,这是永远不可能的。此外,即使数据是使用真机收集的,在实验室收集的数据也可能包含许多位于不同房间的GAP。嵌入式智能机器人任务本质上可能需要生活场景中的毫米级任务和工厂中的亚毫米级任务。随着底层物理模拟技术的成熟,它可能会变得更加准确。因此,嵌入式智能缺少的不是底层的仿真技术,而是一种高效、自动化地将物理仿真形成的任务场景与各种虚拟传感器生成的数据、模型训练和本体部署等链接起来的方法。这就是为什么嵌入式智能引擎和物理模拟并不相同,但底层模拟技术足以支持它。问:数据收集方法UMI的决定目前引起了很多关注。世界卫生大会您觉得这个技术路线有什么想法吗?贾奎:UMI是一个非常短期的中间状态。数据收集需要人握住抓手,并且抓手必须像机器人抓手一样握住。问:他们也是走模拟路线,但有些厂商在标语中说他们使用一小部分真实数据进行强化学习和调优,那么为什么异次元智能可以使用100%模拟数据呢? Jackie:我们对最后一英里和最后一米感兴趣。每家公司遵循的技术路径(95% 是合成的,5% 是正品或不是正品)。 o 99% 合成数据,1% 真实数据;即使是 0.1%,这也是一个非常重要的指标,可以用来判断是否真正基于生成的数据。例如,如果使用生成的数据进行预训练,最后使用真实数据进行精细训练.al,上面的效果如何?如果该技术路线形成的产品无法摆脱真实数据,则意味着在任何场景下它都是需要引入机器人来执行任务并收集数据,成本无法控制,而这个技术参数意味着它无法与Dime形成的产品竞争。 2026年:商用人形机器人服务元年 问:2026年体智能产业发展关键词有哪些?贾奎:从技术角度来说,关键词是基于生成模拟的世界模型,或者简单的世界模型。但我们更强调的是世界模式2.0。仅仅基于视频生成的全局模型是行不通的。从商业角度来看,今年应该是人形机器人商业服务元年。问:您对智能手机内置气泡有何看法? Jackie:实体智能,包括人形机器人,不仅仅是一个泡沫问题。其实大家都期待它,都希望它发展得更快。然而,如果我们脱离了开发逻辑技术、产品或者企业本身就会出现泡沫。该公司于2021年底成立并开始运营。事实上,我们不是一家迎合或反对趋势而建立的公司。从成立到现在,我们的底层技术、产品理念和业务都非常务实,我们严格按照投资回报率(ROI)来设计我们的产品和技术路线图。问:2026世界模式为主线。您认为全球模式目前处于哪个发展阶段?什么时候会出现突破?贾奎:相对纯粹的3D物理世界模型仍然存在数据量的问题。其实我们刚才讲的文字、图像、视频和3D就是先有鸡还是先有蛋的问题。没有数据或本机数据,就无法创建模型或生成模型。如果模型足够大,本机模型可以生成各种数据。如果使用适当的技术方法进行脱钩,则自卸电源int 不会来得太晚。严守ROI,实现年收入过亿。问:EmbodiChain 是开源的。我们如何平衡开源策略与商业支持?构建开源生态对于我们的长期护城河有多重要?贾奎:EmbodiChain是一个基于生成模拟的世界模型,或者俗称世界模型2.0。这是构建基础设施的非常基本的第一步。这类开源工作促进了工业界和学术界的发展,并具有一定的学术历史。此外,它也是构建完整的嵌入式智能机器人生态系统的起点。坦白说,从开源本身来看,我们开源更多的是概念、学术、工具链。如果你真的想用它来将模型移植到真机上,那么在达到生产水平之前还有很多东西需要获取。问:下一代智能客户仍然非常多样化,包括汽车制造商以及智能家电制造商。在产品实施过程中,客户关注哪些重要指标?我们了解制造企业非常关心投资回报。您有这方面的定量数据可以分享吗? Jackie:我们之所以做了这么多,是因为我们非常专注。事实上,它创造的是通用技术和通用产品。产品的整体功能围绕机器人的灵巧性和灵巧操作展开。无论是商业服务、工厂还是商店,其实有很多事情可以做。我们主要进行柔性分拣、柔性组装等柔性作业。因此,在早期阶段,如果不严格遵守ROI,产品就不会被出售,所以我们严格按照ROI方法生产产品。当我们开始做这些事情的时候,具身智能的趋势还没有到来。因此,如果你想给你留下深刻的印象对你的客户来说,你必须提供高性价比的产品,你必须严格计算你提供的产品是否真正创造价值或基于投资回报的附加值。例如,整个系统的销售价格不能超过该职位雇员18个月的工资。问:是否建议披露2025年的收入?贾奎:2025年我们要达到10亿的收入是收入,不是订单。基本上是23年到2022年、2024年翻倍的速度。2026年的数字应该是2025年的三到四倍。 问:3到4倍的增长主要来自哪里?贾奎:主要有两个板块:泛智能制造和商业服务业。泛智能制造增速翻倍增长。商业服务是我们的第二条增长曲线。商业服务实际上出售自己的本体,其中包括混合大脑。

你也可能喜欢

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注