腾讯混元开源首个面向世界模型的强化学习后训练框架 WorldCompass 有关该内容的详细深刻解读

最新 3 月 10 日消息，腾讯混元 3D 团队今日宣布开源业界首个面向世界模型的强化学习后训练框架 WorldCompass，这是此前发布的混元世界模型 1.5 官方强化学习扩展模块，能够让世界模型的交互更加准确，体验更好。

WorldCompass 是一个专为长时序、交互式世界模型设计的强化学习（RL）后训练框架。如果说世界模型是引擎，那么 WorldCompass 就是“指南针”，通过引入强化学习机制，直接“引导”模型如何更准确地遵循用户指令探索世界，并保持长时序的视觉一致性。

实验表明，WorldCompass 能提升 SOTA 开源世界模型（WorldPlay）的交互准确率和视觉保真度，特别是在复杂的组合动作场景下，交互准确率提升了近 35%。

团队在最新的开源 SOTA 模型 WorldPlay 上进行了验证。结果显示，经过 WorldCompass 的后训练，模型能力实现了大幅提升。

在最为困难的复合动作（Combined Action）场景下（例如同时进行移动和旋转）：基座模型对于复杂组合式动作序列执行的准确率仅为 20% 左右。使用 WorldCompass 训练后，准确率提升至 55% 左右，提升幅度超过 35%。对于基础动作，准确率也提升了约 10%。

同时，在斯坦福大学世界模型 Benchmark WorldScore 上，WorldCompass 取得了更好的评分：

WorldCompass 已在混元 WorldPlay 模型上得到验证，相关代码和模型细节已开源。最新附开源地址如下：

https://github.com/Tencent-Hunyuan/HY-WorldPlay

免责声明：本站所有内容均由用户自行投稿，仅供网友学习交流，不代表本站立场。若文章内容涉及侵权/违法，请联系我们（QQ:3698-522）删除处理。转载请注明出处：https://www.icww.com.cn/2026/03/1773156982585.html

腾讯混元开源首个面向世界模型的强化学习后训练框架 WorldCompass