Image
当前位置: CNMO > 人工智能 > 人工智能新闻 > 人工智能消息 > 正文

阿里发布Qwen3.5-Omni 多模态能力超越Gemini-3.1 Pro

CNMO 【原创】 作者:毛志超 2026-03-31 10:00
评论(0
分享

  【CNMO科技消息】近日,阿里发布千问新一代全模态大模型Qwen3.5-Omni,在音视频理解、识别、交互等215项任务中取得SOTA(性能最佳),超越Gemini-3.1 Pro,成为目前全球最强的全模态大模型之一。它还拥有极强的音视频理解与实时交互能力,能够对音视频内容生成详细且可控的结构化描述,可识别多达113种语言和方言。

阿里发布Qwen3.5-Omni 多模态能力超越Gemini-3.1 Pro

  据CNMO了解,Qwen3.5-Omni采用混合注意力MoE架构,在海量文本、视觉以及超过1亿小时的音视频数据上进行了原生多模态预训练,可实现图片、视频、语音、文字等全模态内容的输入与输出。其在音视频理解、跨模态推理、Agent方面实现了性能飞跃,在音视频理解、语音识别、多语种翻译、对话等215项第三方性能测试任务中取得SOTA。比如,在聚焦视听交互能力的DailyOmni、QualcommInteractive、Omni Cloze等测试中,Qwen3.5-Omni得分大幅领先Gemini-3.1 Pro;在检测嘈杂环境抗干扰能力的WenetSpeech测试中,Qwen3.5-Omni错误率远低于Gemini,识别准确率极高;在考察多语言语音生成质量的Multi-Lingual (30lang) 测试中,Qwen3.5-Omni同样显著优于Gemini-2.5-Pro-TTS。

阿里发布Qwen3.5-Omni 多模态能力超越Gemini-3.1 Pro

  目前,阿里云百炼已上新Qwen3.5-Omni的Plus、Flash、Light三种API,可广泛应用于短视频/直播平台、游戏、自媒体等行业。普通用户也可前往Qwen Chat免费体验,开发者和企业可通过阿里云百炼平台调用Qwen3.5-Omni模型,每百万Tokens输入不到0.8元。

分享
Image

加入收藏

网友评论 0条评论
用其他账号登录:
请稍后,数据加载中...
查看全部0条评论 >
火热围观
潮机范儿

Copyright © 2007 - 北京沃德斯玛特网络科技有限责任公司.All rights reserved 发邮件给我们
京ICP证-070681号 京ICP备09081256号 京公网安备 11010502036320号

Image