在人工智能生成内容(AIGC)的内容生产方面,基于多模态大模型,快手的AIGC内容生成能力飞速提升。而在稍早前,智元机器人于3月初发布通用具身基座大模型GO-1,该大模型借助人类和多种机器(机器行业分析报告)数据,让机器人获得了革命性的学习能力,可泛化应用到各类环境和物品中,快速适应新任务、学习新技能。同时,还支持部署到不同的机器人本体,高效完成落地,并在实际的使用中持续快速进化。当前,行业竞争焦点已从参数规模转向应用效能,大模型的价值也正从实验室的各类技术指标向能否最终转化为实际生产力转变。与此同时,多家上市公司也在积极探索将多模态大模型引入到日常工作中。
多模态正在成为大模型行业发展的重要趋势。2025年,行业头部企业愈发强调多模态能力,这是一个自然的市场趋势。因为人工智能最终会走向线下,走向物理现实。在这一过程中,多模态的处理和思考能力就成为一种必然的趋势性需求。凭借全局记忆能力,“日日新V6”大模型打破了传统模型仅支持短视频的限制,可支持10分钟级视频全帧率解析。此外,“日日新V6”大模型还可以对视频的精彩内容进行智能剪辑输出,帮助用户保留珍贵瞬间。
全局记忆使得交互更加自然,例如能处理更长的视频段,并且能对视频有整体的理解和深度推理,从而实现更好的交互。为了有效利用高质量的AgiBot World数据集以及互联网大规模异构视频数据,增强策略的泛化能力,智元机器人提出了Vision-Language-Latent-Action(ViLLA)这一创新性架构。该架构由VLM(多模态大模型)+MoE(混合专家)组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作视频数据获得通用的动作理解能力,且MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力。
三者环环相扣,实现了利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛。此外,作为通用机器人策略模型,其能够在不同机器人形态之间迁移,快速适配到不同本体,群体升智。目前,已成功部署到智元多款机器人本体,将具身智能推上了一个新台阶。