智驾网
45000 2025-01-07
在CES开幕演讲中,NVIDIA 创始人兼首席执行官黄仁勋推出的一系列产品中, Cosmos无疑对于行业的影响最为深远。
NVIDIA Cosmos由生成式世界基础模型、高级 tokenizer、护栏和加速视频处理管线组成,服务于自动驾驶汽车(AV)和机器人等物理 AI系统的发展。
Cosmos 世界基础模型(WFM)使开发者能够轻松生成大量基于物理学的逼真合成数据,以用于训练和评估其现有的模型,他们还可以通过微调 Cosmos WFM 构建自定义模型。
而当下物理 AI 模型的开发成本高并且需要大量真实数据和测试。
Cosmos 模型将以开放模型许可证的方式提供,开发者可以在 NVIDIA API 目录中预览首批模型,也可以从 NVIDIA NGC目录或 Hugging Face 下载整个系列的模型和微调框架。
这一方式将大大加速机器人和自动驾驶汽车行业的进展。
目前,Cosmos 的首批用户包括 1X、Agile Robots、Agility、Figure AI、Foretellix、Fourier、Galbot、Hillbot,、IntBot、Neura Robotics、Skild AI、Virtual Incision、Waabi 和小鹏汽车等领先机器人和汽车公司以及共享出行巨头 Uber。
NVIDIA 创始人兼首席执行官黄仁勋表示:“机器人技术的 ChatGPT 时刻即将到来。与大语言模型一样,世界基础模型是推动机器人和自动驾驶汽车开发的基础,但并非所有开发者都拥有自主训练模型所需的专业知识和资源。我们创建 Cosmos 是为了普及物理 AI,让每一位开发者都能接触到通用机器人技术。”
如果做个简单的类比, Cosmos 类似于PC时代开源的Linux,虽然不能将之简单地称之为物理AI的操作系统,但可以理解为一种开发语言。
借助 NVIDIA Cosmos 的开放模型套件,开发者可以根据目标应用的需要,使用数据集定制自动驾驶汽车旅行视频、机器人在仓库中的移动轨迹等 WFM。
黄仁勋表示,Cosmos WFM 专为物理 AI 的研发而构建,可以根据文本、图像和视频等输入组合以及机器人传感器或运动数据生成基于物理学的视频。
这些模型为实现基于物理学的交互、物体恒存性以及生成高质量的仿真工业环境(例如仓库或工厂)和驾驶环境(包括各种路况)而构建。
在 CES 主题演讲中,黄仁勋展示了物理AI开发者如何使用 Cosmos模型,它可以在四大领域简化物理AI开发者的工作:
视频搜索和理解:使开发者能够从视频数据中轻松找到特定的训练场景,例如雪天路况或仓库拥堵等。
基于物理学的逼真合成数据生成:使用 Cosmos 模型从NVIDIA Omniverse™ 平台上开发的可控 3D 场景中生成逼真视频。
物理 AI 模型开发和评估:在基础模型上构建自定义模型,使用 Cosmos 进行强化学习以改进模型,或者测试模型在特定仿真场景中的表现。
预测与“多元宇宙”模拟:使用 Cosmos 和 Omniverse 生成 AI 模型所有未来可能实现的结果,以便帮助其选择最佳和最准确的路径。
Cosmos 本质上是一种开发工具,但它的服务对象是做为开发世界模型的开发工具。
黄仁勋强调,构建物理 AI 模型需要数 PB(petabytes)的视频数据以及数万小时的计算来处理、整理和标记这些数据。为了帮助节省在数据整理、训练和模型定制方面的巨大成本,Cosmos 提供了以下功能:
NVIDIA NeMo Curator 驱动的 NVIDIA AI 和 CUDA 加速数据处理管线,使开发者能够使用 NVIDIA Blackwell 平台在 14 天内处理、整理和标记 2000 万小时的视频,而如果单纯使用 CPU 则需要 3 年以上。
NVIDIA Cosmos Tokenizer 是先进的可视化 tokenizer,可将图像和视频转换成 token。与当前领先的 tokenizer 相比,其总压缩率提高了 8 倍,处理速度提高了 12 倍。
NVIDIA NeMo 框架可用于高效的模型训练、定制和优化。
用一句话解释就是性能提升,成本下降。
Cosmos虽然正式官宣的时间不长,但已经洛阳纸贵。
首批用户包括 1X、Agile Robots、Agility、Figure AI、Foretellix、Uber、Waabi 和小鹏汽车等全球物理 AI 领先公司。
AI 和人形机器人公司1X 使用 Cosmos Tokenizer 推出了 1X World Model Challenge 数据集。
小鹏汽车将使用 Cosmos 加快其人形机器人的开发。
Hillbot 和 Skild AI 正在使用 Cosmos 加速其通用机器人的开发。
Agility 首席技术官 Pras Velagapudi 表示:“数据的稀缺性和可变性是在机器人环境中成功学习的主要挑战。借助 Cosmos 的文本、图像和视频到世界的能力,我们能够在各种任务中生成和增强逼真的场景并利用这些场景训练模型,而不需要采集那么多昂贵的真实数据。”
相比人形机器人,在自动驾驶领域,Cosmos的出现可以说将人形机器人和自动驾驶打通了底层开发工具。
在英伟达公布的信息中,Waabi作为一家从自动驾驶汽车开始致力于开发物理世界生成式 AI 的先驱,正在评估 Cosmos 在自动驾驶汽车软件开发和仿真中数据整理的应用。
Wayve 则是一家致力于开发自动驾驶 AI 基础模型的公司,该公司正在评估使用 Cosmos 搜索用于提高安全性和验证的极端驾驶场景。
自动驾驶汽车工具链提供商 Foretellix 将使用 Cosmos 与 NVIDIA Omniverse Sensor RTX API 大规模评估和生成高保真测试场景与训练数据。
全球共享出行巨头 Uber 正在与 NVIDIA 合作,共同加速自动驾驶汽车的发展。
Uber 丰富的驾驶数据集在与 Cosmos 平台和 NVIDIA DGX Cloud 的功能结合后,能够帮助自动驾驶汽车合作伙伴更加高效地构建更强大的 AI 模型。
Uber 首席执行官 Dara Khosrowshahi 表示:“生成式 AI 将驱动未来的移动出行,而这需要丰富的数据和非常强大的算力。相信在 NVIDIA 的助力下,我们能够帮助行业更快开发出安全、可扩展的自动驾驶解决方案。”
不过,正如在智能汽车产业有灵魂与躯壳争论一样,NVIDIA Cosmos类似操作系统的底层开发系统,做为最底层的开发工具,是否留有后门,是否容易被攻破都会让NVIDIA 处于风暴眼中。
黄仁勋特别解释说,Cosmos根据 NVIDIA 的可信 AI 原则开发而成,该原则将优先考虑隐私、安全、保障、透明和减少不必要的偏见,NVIDIA 致力于实现安全、可信的 AI,这与全球的各个 AI 安全倡议相吻合。
在细节方面,Cosmos 开放平台加入了专为减少有害文字和图像而设计的护栏,并提供了一个增强文字提示准确性的工具。使用 NVIDIA API 目录上的 Cosmos 自回归模型和扩散模型生成的视频会带有隐形水印,可识别 AI 生成的内容,这有助于减少错误信息和错误归属的可能性。
Cosmos WFM 现在可以通过 NVIDIA在 Hugging Face 和 NVIDIA NGC 目录上的开放模型许可证获得,并且很快将以经过全面优化的 NVIDIA NIM 微服务形式提供。
开发者可以使用 NVIDIA NeMo Curator 加速视频处理,并使用 NVIDIA NeMo 定制自己的世界模型。然后,他们可以通过NVIDIA DGX Cloud 快速、简单地部署这些模型,并获得 NVIDIA AI Enterprise 软件平台提供的企业支持。
NVIDIA 还宣布推出全新 NVIDIA Llama Nemotron 大语言模型和 NVIDIA Cosmos Nemotron 视觉语言模型,开发者可将这些模型用于医疗、金融服务、制造等领域的企业 AI 用例。
Cosmos 对于当下的物理AI(具身智能)绝对是革命性的产品,NVIDIA 通过生成式物理 AI 进一步扩展 了Omniverse也就是世界模型的构建能力,为机器人、自动驾驶汽车和视觉 AI 等在数字孪生世界训练打开了效率之门。
NVIDIA 创始人兼首席执行官黄仁勋表示:“物理 AI 将为总值 50 万亿美元的制造业和物流业带来巨大改变。从汽车和卡车到工厂和仓库,移动的事物能够被机器人化并通过 AI 具身化。NVIDIA 的 Omniverse 数字孪生操作系统和 Cosmos 物理 AI 将作为实现全球实体产业数字化的基础库。”
黄仁勋表示, 创建用于物理 AI 仿真的 3D 世界分为三个步骤:构建世界、使用物理属性标记世界,并让其栩栩如生。
NVIDIA 提供的生成式 AI 模型可加速各个环节。
借助已正式推出的 USD Code 和 USD Search NVIDIA NIM微服务,开发者能够使用文本提示生成或搜索 OpenUSD 资产。
而今天发布的全新 NVIDIA Edify SimReady 生成式 AI 模型可自动为现有 3D 资产添加物理效果或材质等属性,使开发者能在几分钟内处理 1000 个 3D 对象,无需像以前一样花费 40 多个小时手动处理。
NVIDIA Omniverse 搭配全新 NVIDIA Cosmos 世界基础模型,组合成了一个合成数据倍增引擎,开发者能够使用该引擎轻松生成大量可控、逼真的合成数据。
开发者还可以在 Omniverse 中创建 3D 场景并对输出的图像或视频进行渲染,然后将这些图像或视频可以与文本提示一起用于调整 Cosmos 模型,生成无数用于物理 AI 训练的合成虚拟环境。
在 CES 主题演讲中,NVIDIA 还发布了另外四个新蓝图,使开发者能够更加轻松地构建基于通用场景描述(OpenUSD)的 Omniverse 物理 AI 数字孪生。
这四个蓝图分别是:
Mega:由 Omniverse Sensor RTX API 驱动,用于在部署到真实设施中前,先在工厂或仓库的数字孪生中大规模开发和测试机器人集群。
自动驾驶汽车仿真:同样由 Omniverse Sensor RTX API 驱动,使自动驾驶汽车开发者能够播放驾驶数据、生成新的基准真实数据并执行闭环测试,从而加快开发流水线。
Omniverse Apple Vision Pro 空间流式传输:帮助开发者创建将大型工业数字孪生以沉浸式流的形式传输到 Apple Vision Pro 的应用。
适用于计算机辅助工程(CAE)的实时数字孪生:基于 NVIDIA CUDA-X™ 加速库、物理 AI 库和 Omniverse 库构建的实时物理可视化参考工作流。
此外,全新的免费 Learn OpenUSD 课程现已推出,这些课程将帮助开发者快速构建基于 OpenUSD 的世界。
市场领先者使用 NVIDIA Omniverse 推动工业 AI 发展
全球软件开发和专业服务领域的领先企业正在使用 Omniverse 开发新的产品和服务,加快工业 AI 新时代的到来。
电子系统设计领域的领先者 Cadence 在其 Reality Digital Twin 数据中心数字孪生平台中使用了 Omniverse 库,并以此为基础宣布将 Omniverse 进一步集成到 Allegro 中。Allegro 是 Cadence 的领先电子计算机辅助设计应用,广泛用于全球各大半导体公司。
计算智能领域的领导者 Altair 正在使用 Omniverse 蓝图构建交互式计算流体动力学(CFD)的实时 CAE 数字孪生。Ansys 正在将 Omniverse 用于其领先的 CAE 应用 Ansys Fluent 中。Neural Concept 正在将 Omniverse 库集成到其下一代软件产品,从而实现了实时 CFD 并改进了工程工作流。
全球专业服务领域的领先企业埃森哲正在使用 Mega 帮助德国供应链解决方案领导者 KION 为该公司的全球仓储和配送客户网络构建下一代自主仓库和机器人集群。
自动驾驶汽车工具链供应商 Foretellix 是数据驱动型自动驾驶开发领域的领导者。
该公司正在使用自动驾驶汽车仿真蓝图进行全 3D 传感器仿真,以此优化自动驾驶汽车的测试和验证。研究机构 MITRE 也在与密歇根大学的 Mcity 测试设施联合部署该蓝图,创建一个全行业自动驾驶汽车验证平台。
Katana Studio 正在使用 Omniverse 空间流式传输工作流程为日产和大众汽车创建定制汽车配置器,使他们能够在沉浸式环境中设计和审核车型,同时改善客户决策流程。
面向企业的 XR 流式传输平台 Innoactive 借助该工作流为 Apple Vision Pro 增加了空间流式传输的平台支持。
借助该解决方案,大众集团能够以人眼分辨率进行设计和工程项目审查。Innoactive 还与药物生产加工和包装技术解决方案提供商 Syntegon 合作,使 Syntegon 的客户能够在建造定制设施前先检查和审核设施的数字孪生。
人工智能的时代正在英伟达的推动下,加速到来。
声明:本文由车市号作者撰写,仅代表个人观点,不代表网上车市。文中部分图片来源网络,感谢原作者。
竟然没评论,快去评论~~