智驾网
58179 2024-11-29
「今天智能驾驶整体上离盈利还有一定的距离,在交付过程当中,如果大家各方面资源和数据工具链没有对齐,往往会造成重复的投入,谁将来能够提升我的效率,有高性价比的交付,谁就能够走得更远,所以我们跟大卓的合作就是基于这样的认知,也是按这种方式进行推进的。」商汤绝影王晓刚表示其有意推动车企与AI企业建立一种新模式的合作。
文丨智驾网 王欣
编辑 | 雨来
端到端不够,世界模型也正成为智驾大战的基础设施。
11月28日,商汤绝影举办了自己的第一个 AI DAY,全面展示了其「驾-舱-云」三位一体的AGI产品体系与战略布局。
在此次活动中,商汤绝影首次推出了智能座舱大模型创新产品「A New Member For U」,以及「车云一体」的产品矩阵,涵盖了高速、城区以及泊车等全场景的高阶智驾和端到端智驾产品体系,并全新升级了「开悟」世界模型,以强化数据基础设施。
熟悉商汤绝影的人都知道,CVPR那篇现象级论文《Planning-oriented Autonomous Driving》让它上了岸。
自此,业界掀起了一场对UniAD这种感知决策一体化框架思路的激烈探讨,于是,各种监督式智驾、直觉智驾、两段式等华丽辞藻不断赋予端到端技术本身。
但做产品和发论文,到底是不同的。
01.
世界模型开悟来了
悄然间,世界模型已经站在智驾高地,被视为衡量一家车企智驾能力的新风向标。
商汤绝影在这次AI DAY发布的世界模型——开悟,便是最大看点之一。
而一个世界模型其最基础、最核心的能力是升级高质量视频数据。
通过模拟人类的认知过程,使机器系统能够理解和预测复杂环境中的未来情景,从而实现自主决策和行动。
其原理在于,人为地创造一个像大脑一样具备思考能力的智能体。
它可以理解真实世界中的物理法则和交通规则,在这个基础上准确的生成场景。
在真实的基础上,「开悟」生成的场景视频时间最长为 150 秒、分辨率可达 1080P、视角可以实现 11V,生成的数据可以做到更加逼真。
在发布会现场,「开悟」展示了一段生成视频案例,视频画面中晴朗天气下,汽车、路灯都是有影子的,而在雨天,积水的路面能够显示出卡车的倒影。
晴天下周边环境的投影、夜间车辆远近近光的投射,都是符合物理法则的真实呈现。
那么,有人问了,理解真实世界的物理法则,很容易吗?
其实很难。
此前,图灵奖得主Yann LeCun曾明确表示,基于文本提示生成的逼真视频并不代表模型真正理解了物理世界。之后他更是直言,像Sora这样通过生成像素来建模世界的方式注定要失败。
现在,依靠采集车、量产车等所提供的数据,越来越难以满足端到端智驾持续成长和迭代的需求,通过大模型生成仿真数据,用「真实数据+仿真数据」的合成数据训练是必然趋势。
商汤绝影正在构建一套量产智驾产品体系和世界模型深度融合的车云一体智驾新范式。
智能座舱层面,商汤绝影发布了「A New Member For U」(你的家庭新成员),号称让汽车拥有有趣的灵魂。
其背后的技术底座是商汤绝影的原生流式多模态大模型、车载类人记忆框架和持续运行框架。
绝影的「记忆框架」分为临时记忆、场景记忆和长期记忆三部分。
临时记忆能够快速捕捉车内外环境中的瞬时信息,比如车速、温度、光线变化等;场景记忆则动态管理用户当前的交互内容,比如导航历史、音乐偏好等;长期记忆则是一种自我迭代的能力,能从用户的长期使用中总结规律并不断优化。
这三者组成的记忆框架,支持毫秒级的动态记忆检索,覆盖人、车、物、环境四大类别,并涉及 100 多个记忆维度。
此外,商汤绝影还打造了能够持续推理的Always-on运行框架,能够将多模态感知到的信息与各种记忆相结合,进行高效的处理和反馈,做到时刻感知需求,主动为用户服务。
技术只是路径,商业化落地和量产才是所有工程师努力达到的结果。
02.
商汤绝影的商业化落地和量产智驾
商汤绝影透露的商业化进展显示:智驾、智舱产品上车数量超过350万辆,覆盖超过30家车企100多款车型。同时已经与超 30 家车企合作,覆盖 100 多款车型。
绝影的座舱大模型,已经上车小米SU7、智己、LEVC 380等车型;智驾产品的量产方案上,已落地3个品牌、6款车型,基于 CVPR 最佳论文 UniAD 打造的一段式端到端量产方案预计将在明年量产交付。
绝影目前公开的智驾量产方案上,有6款车,覆盖3个车企。
在本届AI DAY上,绝影展示了基于不同算力平台(如J6E、J6M、Orin)打造的全场景高阶智驾和端到端智驾产品体系;
分为3 个版本——
AD Pro:基于征程 6E 芯片打造,算力 80 TOPS。感知系统包括 7 个摄像头、多个雷达。
AD Max:基于征程 6M 芯片打造,算力 128 TOPS。感知系统包括 11 摄像头、多个雷达。
AD Ultra:采用一段式端到端技术,基于英伟达 Orin / Thor 芯片打造,算力超过 200 TOPS。感知系统包括 11 摄像头、多个雷达,支持激光雷达,支持点到点智驾、L3 级高速领航,最高支持端到端城区领航。
商汤绝影 200+TOPS的这套无图纯视觉的端到端方案,已经与大卓智能、东风汽车等达成战略合作,量产交付也正在推进中。而绝影的量产端到端智驾方案,预计明年四季度能够交付落地。
在通往AGI未来的路上,商汤科技联合创始人、首席科学家,商汤绝影CEO王晓刚也在探索一条全新的合作模式。
因为在AGI时代,用王晓刚的话说——单打独斗的车企和AI公司都很难脱颖而出。
绝影对于新合作模式的构想是,不再是一个简单的智舱或智驾模块化的供应商,而是和主机厂深度合作,成为一家分享商汤积累已久的AI大算力装置、云服务、工具链等能力的六边形战士。
「今天我们可以看到智能驾驶整体上离盈利还有一定的距离,也就是说,在交付过程当中,如果大家各方面资源和数据工具链没有对齐,往往会造成重复的投入,谁将来能够提升我的效率,有高性价比的交付,谁就能够走得更远,所以我们跟大卓的合作就是基于这样的认知,也是按这种方式进行推进的。」王晓刚说。
03.
「端到端的难点」搅动智驾市场格局
王晓刚曾用侦探小说比喻商汤绝影乃至整个行业面临和攻克的智驾端到端大模型难题。
往往,Who、How and Why,是一本侦探推理小说最大的乐趣,小说末尾,作者会问凶手到底是谁,预测凶手,并最终确认凶手。
这和智驾大模型的逻辑有相似之处:推理凶手,需要对整本书有完整的理解,凶手判断难度越大,故事越精彩,正如预测下一个Token,内容越丰富,信息越多,难度越大,需要上千亿参数的大规模模型去完成。
王晓刚曾言,端到端大模型是智能驾驶领域的「ChatGPT时刻」,通用能力和涌现能力极强。但真正的「端到端」大模型,实现难度很大。
更具体一点,可以说是难在实现一段式的端到端。
理想汽车智能驾驶副总裁郎咸朋也曾表示,尽管大家都在做端到端,但其中又存在着极大的区别:串联式端到端本质上还是传统思路,而如果是One Model的端到端,其中没有任何规则,依靠的就是高质量数据。
Momenta创始人曹旭东曾指出,感知端到端对于坠石、水坑等不好定义的障碍物,容易产生误判。而一段式端到端可以将感知和规控紧密联系在一起,学习未定义的物体。
从感知端到端、两段式端到端、模块化端到端到单一神经网络模型的One Model端到端,难度逐级递增,不同的企业,选择从不同的阶段切入,虽然都号称「端到端」,但做到单一端到端的玩家却极少。
因为,这足够考验企业是否具备足够的算力、实际的工程化能力和落地能力,这三道难题也是智驾供应商们闯关端到端的三重门。
迈过去了就是门,没迈过去就是槛儿。
端到端的确给了所有玩家上牌桌的机会,但每一项技术的进步也通常代表需要牺牲掉一批「不幸者」来继续推动。
这是快速拉开各个企业差距的催化剂,也是打开市场新格局的一次契机。
在回答媒体提问的所谓「地大华魔」(地平线、大疆车载、华为、Momonta)这样量产智驾头部玩家的格局时,绝影回应称:这样的评价体系已经成为过去式。
在行业推进量产的路上,研发范式已从规则驱动转变为数据驱动,所以商汤提出的观点是决胜不在车,不在端到端算法本身,而在云端的世界模型,通过实车采集和仿真生成「双轮驱动」的数据闭环,形成双轮驱动的车云一体。
当足够强悍的世界模型来训练端到端时,端到端的下限问题就解决了一半,这也是今年行业着重大力布局世界模型的根本所在。
王晓刚此前曾透露,商汤2019年的算力规模为700 PFLOPS,今年年底原计划18000 PFLOPS,但从现阶段的实际部署看,最终可以达到20000 PFLOPS。
「100万的数据,99%的数据都是比较简单的,剩下的1%是很难找的。」这是王晓刚的语录之一。
作为Call Back,王晓刚给出了具体的数据最新进展:
目前绝影智驾研发中20%的数据,都是由开悟世界模型生成。世界模型的另一个重要能力,就是场景预测生成。
在一块A100 GPU上,「开悟」平均每天可以生产大约2万个bundle,相当于100台路测车的数据采集能力,能通过对多种可能性预测,产生多样的自动驾驶场景及 Corner case,使训练数据分布更均匀。
而这样的GPU,商汤拥有超过5.4万块。
基于庞大的算力部署,商汤绝影能够以云侧、端云结合、端侧等全栈方式灵活部署多模态大模型,让商汤原生多模态能力快速落地智能汽车。
最后,商汤绝影还强调一点:「我们是走完全To B,没有任何主导C端整车意愿的产品策略。」
这些现象给行业的一番启示是,未来的车载大模型,车端的工程化会逐渐减弱,而后台的基础设施则会变得更重要。
【关注智能驾驶,关注智驾视频号】
声明:本文由车市号作者撰写,仅代表个人观点,不代表网上车市。文中部分图片来源网络,感谢原作者。
竟然没评论,快去评论~~