全部车市号

AWE2026:声网RTCx对话式AI 让硬件“能看会动”

趣味科技

2026-03-13

在3月12日开幕的2026年中国家电及消费电子博览会(AWE 2026)上,声网以两大重磅发布亮相——对话式 AI 开发套件 R 全系列产品 与“泛 IPC 实时交互+智能处理引擎”,并携数十款搭载其技术的明星硬件产品组,向业界展示了其决定硬件交互体验的关键角色。

从 AI 毛绒玩具到桌面情感机器人,从出海摄像头到 3D 打印机,基于人类自然语言的对话式 AI 与高可靠的实时传输能力,正成为连接数字智能与物理实体的主线。声网此次通过“开发套件迭代+行业解决方案升级”,为硬件厂商铺设了一条从“能听会说”到“能看会动”,从“看得见”到“能互动、会思考”的快车道。

开发套件一年三迭代:从“能听会说”到“能看会动”

要在物理世界实现真正的智能,硬件不仅需要大模型作为“大脑”,更需要一套实时交互的“神经系统”。过去一年,声网 R 系列开发套件以惊人的速度迭代:

2025年3月,声网发布对话式 AI 开发套件 R1,专注于解决实时全双工对话、背景降噪和智能打断。发布至今,R1 套件出货已达百万量级,被广泛应用于 AI 玩具、陪伴机器人等产品,成为行业内的标准参考方案之一。

2025年9月,针对移动化需求,声网联合紫光展锐、谨讯推出 R1-4G 开发套件,通过加入 4G 通信能力,赋予 AI 硬件无边界陪伴的属性,为智能穿戴和车载场景铺平了道路。

在本次 AWE 上,声网 R2 全场景 AI 机器人开发套件原型机首次亮相。R2 在继承全双工语音优势的基础上,新增了本地视觉识别与多自由度运动控制,实现了从“能听会说”到“能看会动”的关键跨越。它能“看懂”手势、识别人脸轨迹,甚至实现“走到你面前打招呼”或“转头注视说话者”这类充满生命感的本能反应。这种“被看见”和“被注视”的体验,让 AI 从一个简单应答的硬件,进化成了有灵性的陪伴者,为后续复杂场景落地提供了标准化的“技术基座”。

场景跃迁:从情感陪伴到具身智能,市场验证AI硬件爆发力

技术的演进最终落脚于用户体验的变迁。在声网展台上,这种变迁直观地表现为产品形态的进化。

早期的代表是珞博智能的芙崽 Fuzozo ,这款口袋里的 AI 毛绒宠物“618”预售10分钟破千单,月出货2万台,斩获主流电商平台 AI 玩具品类销量冠军。它凭借声网提供的流畅全双工对话能力,让用户第一次感受到——原来和机器聊天可以如此自然、无需唤醒、没有延迟,证明了 AI 硬件走出工具属性、进入情感维度的商业可行性。

而在 AWE 上亮相的陆卡卡,则代表了全新的物种。作为搭载 R2 套件的桌面级情感机器人,陆卡卡不再被动等待对话。当你走近它时,它会转头凝视你;当你指向某处,它能循声辨位。这种“被注视”的体验,将人机交互从“命令-响应”的机械流程,推进到了“感知-共鸣”的情感层面。

从芙崽到陆卡卡,是从“能听会说”到“能看会动”的跨越。随着运动控制算法与端侧多模态模型的进一步融合,具身智能将是声网的下一站。

开放的“基建”:AOSL开源,重塑芯片与硬件生态的协同逻辑

今年年初,声网宣布了一项具有行业战略意义的举措:将核心的硬件抽象层项目 AOSL在 GitHub 全面开源。AOSL 在操作系统、芯片与 RTC 传输层之间定义了一套标准接口,屏蔽了底层 FreeRTOS、Linux 与不同芯片型号之间的差异。对于芯片厂商而言,接入 AOSL 意味着其硬件从出厂即具备了“声网级”的实时互动能力。

本次 AWE 上声网首次展现了最新的开源生态,这种“开源底座+商业套件”的模式,正在吸引越来越多芯片伙伴加入生态,将硬件的创新模式从过去的“一次性定制”推向了“可复用、可扩展”的生态协作。

泛IPC解决方案首发:提供高可靠传输与端云协同AI能力

如果说对话式 AI 开发套件解决的是“如何让硬件更智能”的问题,那么声网同步发布的 “泛 IPC 实时交互+智能处理引擎”,则直面“如何让海量IoT设备在全球范围内稳定连接、实时交互”的刚需。

对于摄像头、扫地机器人、3D 打印机、宠物喂食器等设备,用户的期待早已不是“能远程看一眼”这么简单。他们希望:在海外也能秒速打开家里的监控;在弱网环境下扫地机依然听指挥;在宠物异常时第一时间收到提醒;在 3D 打印过程中实时掌控进度。这些期待的背后,是对实时交互能力与端云协同 AI 的双重考验。

声网该解决方案集成四大核心能力:

1、全球覆盖,秒见图

依托声网自研的 SD-RTN™(全球实时互动网络),覆盖200+国家和地区,特别针对东南亚、中东、北美及国内中小城市进行网络深度优化。建联成功率>99.9%,首帧出图毫秒级,全球范围实现“秒见图”,彻底告别黑屏焦虑。对于出海 IPC 厂商,这意味着在东南亚、中东等网络基础设施薄弱地区,设备首次激活成功率>99.9%,从源头降低退货风险。

2、弱网不断连,延迟稳定可控

基于声网音视频编解码专利算法,即使在80%音视频丢包的极端弱网环境下,依然能保障画面流畅与指令实时响应,设备5s连通率达到99.5%。扫地机移动到庭院角落、割草机穿行于花园边缘,依然保持连接控制,不会“失联乱撞”。

3、 端云协同AI,让设备“会思考”

打通实时传输链路与云端 AI 能力,实时链路上可自由加载各类垂直场景智能识别算法,覆盖宠物检测、人脸识别、行为分析、声音识别等场景。画面/声音在传输过程中同步完成AI分析,检测结果实时推送到用户端。设备厂商无需更换硬件,即可通过云端加载算法的方式,为存量设备增加增值服务。

4、多端互通+安全合规,为全球化扫清障碍

突破P2P方案通常限制2-4人的瓶颈,支持不限平台、不限人数的交互与观看。通过ISO/IEC 27001等系列认证,符合 GDPR、HIPAA、CCPA、COPPA 等全球法规要求。独特的传输技术确保设备内网 IP 不直接暴露公网,从链路层规避黑客攻击风险。

回顾这十年变迁,我们不难发现:无论是 APP 还是硬件,形态终将更迭,但人类通过最自然的语言与机器交互的诉求是永恒的。

当 AI 硬件从“功能机”向“情感机”、“智能体”进化,实时互动体验的优劣将成为决定产品生死的关键。作为全球实时音视频云服务的开创者,声网始终致力于为人与人、人与Agent、Agent 与 Agent 的多模态实时交互提供最佳体验。通过对话式 AI 开发套件的一代代升级、通过 AOSL 开源生态的构建、通过泛 IPC 解决方案的全球部署,声网正在将复杂的实时互动能力标准化、模块化,为整个行业铺设通往万物智联时代的底层通路。

声明:本文由车市号作者撰写,仅代表个人观点,不代表网上车市。文中部分图片来源网络,感谢原作者。

发表评论

请您注册或者登录车市社区账号即可发表回复

全部评论(0)

竟然没评论,快去评论~~