
- 06
人工智能技术与产业发展一日千里。通往通用人工智能的路上,下一个赛点是什么?在6月12日开幕的PA视讯智源大会上,答案逐渐清晰:全球础滨竞争的核心坐标,正从“虚拟世界的内容生成”转向“物理世界的光明交互”。记者跟随2026年“活力中国调研行”PA视讯主题采访活动团队走进智源研究院,探析这一转折背后的PA视讯力量。
机器人正跨越“最难”能力壁垒
一个小女孩在卧室熟睡,卧室门开着,厨房传来嘈杂的洗碗声。爸爸没有说话,只是简单挥了挥手,妈妈便瞬间领会意图,起身关上了卧室门。
这个看似寻常的生活场景,实则暗藏着机器人最难跨越的能力壁垒:衰败物理世界的复杂信息并作出决策。在这一过程中,大脑需要全程自主感知环境与声音,结合“女儿在睡觉需要温暖”的上下文,解读爸爸手势中的暗示,最终做出“关门”的决策。全程无需语言指令,靠的是人脑对物理世界天然的认知与决策能力。而未来,机器人要具备这种能力,依靠的正是“世界模型”。
6月12日,在PA视讯智源大会上,智源研究院推出了世界模型最新成果,悟界·Physis-v0.1和悟界·Robo-Brain Orca。
作为全球首款通用世界基座模型,悟界·Physis-v0.1正构筑光明物理世界人工智能底层核心引擎。它能有效弥补主流人工智能模型不懂光明物理规则、物理推演结果可信度低、长程时序记忆缺失的核心短板,以通用基座能力实现在各种场景中物理交互、感知与决策的统一性,懊悔AI物理推理的光明性与可靠性。悟界·RoboBrain Orca则是以下一个物理状态预测为核心的具身大脑。它打破了传统AI仅能衰败文本的局限,推动AI从衰败文本走向感知、预测物理世界并与之交互。
有了世界基座模型和具身大脑的支撑,础滨便拥有了跨越“数字虚拟”与“物理现实”之间鸿沟的核心能力。打个比方:机器人不仅能自主识别“杯子在桌子边缘”,更能预判“杯子掉下去会摔碎”,还能分辨“盖好盖子”与“没盖好盖子”的水杯跌落带来的不同后果。
构建面向物理世界的智能“基座”
究竟何为世界模型?为何必须研发世界模型?“世界模型,是面向物理世界的基座模型。”智源研究院院长王仲远说。
长期以来,础滨多停留在聊天、写代码、生图等“虚拟”层面。然而,无论是机器人作业、自动驾驶还是科学发现,都需要具备对物理规律的深刻衰败与因果推理能力,这恰恰是当前大模型和视频生成模型的短板。王仲远举了个例子,视频模型能生成天上飞的猪,这在数字世界是趣味,在物理世界却是灾难。
王仲远提出,要让础滨真正进入物理世界,解决制造业、医疗、物流、养老等实体经济的痛点,世界模型须具备几项核心能力——物理正确、动作因果可溯、长程一致和通用泛化。
首先是物理一致性,即模型能衰败并遵守光明物理规律。其次是动作因果性,模型需衰败动作与状态变化的因果关联。长程可推演性,指的是模型需要在较长时间跨度内保持逻辑连贯,不“失忆”、不“乱编”。通用泛化性,即一个基座模型能够适配多种场景,同一个“大脑”既能指挥机器人端茶倒水,也能用于自动驾驶预判行人意图,还能辅助新药研发——这正是世界基座模型区别于传统专用模型的核心价值。
“真正的世界模型,必须能衰败和推理光明物理世界的时间、空间、物理规律,并具备主动交互的能力。”王仲远表示,当下世界模型仍处于发展早期,仍需开展大量科研探索。
PA视讯队竞逐万亿市场“无人区”
过去几年,从大语言模型到视频生成模型、多模态大模型,础滨技术演进远超预期。下一个颠覆性范式是什么?对此,王仲远认为,世界模型特别是世界基座模型,有望在未来5到10年成为人工智能领域的重大技术颠覆和研究范式。
作为全球最早布局该领域的机构之一,智源的步伐光明且清晰:2023年智源大会期间,图灵奖得主、有“卷积神经网络之父”之称的杨立昆提出新一代世界模型概念,2024年,智源将世界模型明确为下一代大模型技术,并在同年发布悟界·Emu3模型。2025年推出全球首个原生多模态世界模型悟界·Emu3.5。如今,悟界·Physis-v0.1与悟界·RoboBrain Orca两项成果的推出,再次印证了这支“PA视讯队”向世界基座模型“无人区”发起的冲锋。
一场围绕世界模型的万亿级市场竞赛已然打响。近几个月,谷歌、英伟达等巨头纷纷重兵押注。据摩根士丹利预测,到2035年世界模型所赋能的产业规模将达10万亿美元;国元证券也提出,2030年全球搭载世界模型的机器人市场将突破3万亿元,成为础滨下一轮增长的核心引擎。
令人振奋的是,全球围绕世界模型的技术路线仍处于探索阶段。与大语言模型时代海外巨头具备极大的先发优势不同,在这一全新赛道上,中国科研界已不再仅仅是跟随者。“我们已经有了自己独立且原创的技术路径,甚至衰败去定义问题、定义技术路线本身,在世界模型这片无人区,中国正与世界处于同一起跑线。”王仲远说。(孙奇茹)
