英伟达以创新技术赋能“智能体”的未来
自动驾驶的热度还在持续,智能机器人的风口又来了。
图片来源于网络,如有侵权,请联系删除
2025年8月8日至10日在北京举行的世界机器人大会再次印证了这一热点趋势——展会现场人头攒动,各种创新的机器人令人应接不暇,从工业机器人到医疗辅助机器人,再到家庭陪伴机器人,各类智能机器人产品琳琅满目,其中人形机器人更是备受追捧,显示出机器人技术正加速渗透到各行各业。这一火爆场景也预示着智能机器人产业即将迎来爆发式增长。
图片来源于网络,如有侵权,请联系删除
在这一浪潮中,英伟达(NVIDIA)作为全球人工智能计算领域的领导者,持续关注并深度布局智能机器人行业。在刚刚结束的SIGGRAPH 2025大会上,英伟达宣布推出全新Omniverse库、Cosmos世界基础模型 ()及AI计算基础设施等一系列创新解决方案,为智能机器人和自动驾驶汽车等智能体的创新发展注入了强劲动力。
这些库和模型由全新NVIDIA RTX PRO服务器和提供支持,可帮助开发者在任何地方开发物理精确的,在仿真中捕捉和重建现实世界,生成用于训练模型的,并构建理解物理世界的AI智能体。
这些技术突破不仅解决了当前产品开发中的关键瓶颈,更为未来AI智能体的演进指明了方向。
全新Omniverse库:构建机器人开发的数字基石
英伟达Omniverse平台长期以来一直是构建和运行虚拟世界的行业引领者,而此次最新发布的Omniverse库则将这一能力提升到了新高度。全新,可用于构建和部署和应用。
全新Omniverse SDK实现了MuJoCo (MJCF) 与 之间的数据互操作性,帮助超过 250,000 名 MJCF 开发者无缝地模拟各平台的机器人。这意味着开发者可以更容易地将物理仿真与3D场景结合起来,大大降低了机器人开发的门槛。
全新Omniverse NuRec引入了Omniverse RTX光线追踪(3DGS)技术,这种渲染技术可帮助开发者利用传感器数据,在3D中截取、重建和模拟现实世界。
目前,Omniverse NuRec渲染已集成到超过15万名开发者使用的领先开源模拟器CARLA中,并被Foretellix等智能汽车工具链领先者采用,用于增强其可扩展的合成数据生成能力。
和NVIDIA 开源机器人仿真和学习框架。现在包括NuRec神经渲染和基于OpenUSD的全新机器人及传感器模式,帮助机器人开发者缩小仿真与现实之间的差距。
行业巨头如Boston Dynamics、Figure AI、Hexagon等已开始采用Omniverse库和Isaac Sim加速其AI机器人开发,Amazon Devices & Services也在使用它们支持新的制造解决方案。
与此同时, (AV) 工具链领先者 也正在集成 NuRec、™ 和 Cosmos Transfer,以增强其可扩展的合成数据生成能力,提供物理精准的场景。 的视觉和多模态AI数据引擎FiftyOne支持NuRec,帮助简化重建的数据准备工作。FiftyOne主要为福特和保时捷等汽车客户提供服务。
Cosmos模型:物理AI的大脑与创造力引擎
如果说Omniverse为机器人提供了"身体"和"环境",那么Cosmos模型则为它们注入了"大脑"和"学习能力"。
英伟达在SIGGRAPH大会上宣布的在合成数据生成速度、模型精度、语言支持和控制方面取得了重大进步:即将发布,它简化了提示并能从地面实况 3D 仿真场景或空间控制输入(如深度、分割、边缘和高清地图)中,快速生成逼真的合成数据;Cosmos Transfer 的精简版本将70个步骤的蒸馏过程简化为一个步骤,开发者能够以前所未有的速度在上运行模型。
目前,Cosmos WFM的下载量超过 200 万次,可帮助开发者通过文本、图像和视频提示大规模生成各种用于训练机器人的数据。Lightwhl、Moon Surgical 和 Skild AI正在利用 Cosmos Transfer大规模模拟各种条件,加速物理AI训练。
但真正具有颠覆性的是NVIDIA Cosmos Reason——这是一款面向物理 AI 和机器人开发的全新开源、可定制的 70 亿参数推理 VLM,可让机器人和视觉 AI 智能体像人类一样推理,利用先验知识、物理理解和常识,理解现实世界并付诸行动。
Cosmos Reason的应用场景广泛而深入:在数据管理与注释方面,它可以帮助开发者自动对海量、多样化的训练数据集进行高质量管理;在机器人规划和推理中,它可作为机器人视觉语言行为(VLA)模型的"大脑",让机器人能够解读环境并将复杂指令分解为可执行任务;在视频分析领域,基于NVIDIA Blueprint构建的AI智能体能够从海量视频数据中提取有价值的洞察。
NVIDIA 的机器人和 团队正在使用Cosmos Reason进行数据管理和筛选、注释和 VLA 后训练。Uber正使用它为辅助驾驶训练数据添加注释和字幕。
智能体的核心:图像处理与视觉技术的持续演进
在自动驾驶汽车和智能机器人等智能体的发展中,图像处理和视觉技术是关键,其发展呈现出几个明显趋势:首先是多模态感知融合,未来的智能体需要同时处理来自摄像头、激光雷达、雷达、红外传感器等多种传感器的数据,并将其融合为统一的环境理解;其次是实时高性能计算,在边缘设备上实现低延迟的复杂视觉算法将成为标配;第三是自监督与小样本学习,减少对大量标注数据的依赖,使AI系统能够从少量样本中快速学习。
英伟达的技术布局精准地应对了这些需求和趋势。Omniverse NuRec的3DGS技术实现了高效的多传感器数据融合;RTX PRO Blackwell服务器提供了边缘计算所需的强大性能;而Cosmos世界基础模型的合成数据生成能力则有效解决了数据稀缺问题。
NVIDIA Omniverse 和仿真技术副总裁 Rev Lebaredian 表示:“计算机图形技术与AI的融合,从根本上改变着智能汽车和智能机器人。通过将 AI 推理与物理精准的可扩展仿真相结合,我们正帮助开发者打造未来的AI智能体,这将为各行业带来巨大的改变。”
当前智能机器人的火爆景象仅仅只是产业腾飞的开始,随着物理AI技术的成熟和应用场景的拓展,我们也许很快将迎来一个智能体与人类协同共生的新时代。
推荐阅读:
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。