
智元发布前沿成果ViLLA,全面开启具身智能崭新发展时代
2025 年 3 月 10 日,国内人工智能领域的领军企业智元科技,于北京国家会议中心隆重发布 “智元启元大模型”。这一成果意义非凡,它是我国首个面向复杂物理世界的通用具身智能基座模型,凭借突破性提出的 “Vision - Language - Latent - Action (ViLLA)” 融合架构,实现了中国在通用人工智能领域的重大技术跨越。
重构交互范式,实现多模态融合
与传统单模态大模型不同,启元模型借助三层异构神经网络,构建起感知决策闭环。视觉模块运用动态注意力机制,精准处理环境信息;语言引擎集成多轮对话上下文记忆,让交流更流畅;独创的 Latent Action 空间,能把抽象指令转化为可执行的动作序列。在实际测试中,面对 “整理杂乱书桌” 这样的指令,模型展现出强大的跨场景任务迁移能力,可自主规划路径、识别物品类别,并精准完成抓取与摆放,全程无需人工干预,真正实现了高效智能运作。
加速全场景落地,升级智能终端
基于启元基座开发的具身智能终端已步入规模化测试阶段。在工业质检领域,搭载该模型的机械臂表现卓越,零件缺陷识别准确率高达 99.7%,操作效率提升 3 倍。智能家居系统里,家庭服务机器人依靠三维语义理解,能完成 “擦桌子时避开装饰品” 等精细化动作。尤其在医疗护理场景中,经过专业数据训练的机器人,已能协助进行导诊分诊、操作康复器械等专业任务,为应对老龄化社会提供有力解决方案,让智能终端在各领域发挥更大价值。
产学研联动,构建生态壁垒
智元科技积极联合清华大学、中科院自动化所等科研机构,成立 “具身智能联合实验室”,并计划在年内开放百万级参数级的开源训练框架。公司 CEO 李峰透露,将持续投入超 20 亿元研发资金,年内推出支持多国语言、适配主流硬件的开发者套件,携手合作伙伴共同构建具身智能产业生态。随着国家 “新一代人工智能发展规划” 的深入推进,智元科技的这一突破有望大幅提升我国在通用人工智能赛道上的国际竞争力,推动行业迈向新高度。