多模态推理的前沿成果！首个开源多模态推理模型问世

2024-12-27 18:52:52来源：智能制造网整理关键词：AI推理模型大模型推理阅读量：42382

导读：2024年12月25日，阿里云通义千问发布首个开源多模态推理模型QVQ-72B-Preview。QVQ展现出超预期的视觉理解和推理能力，在解决数学、物理、科学等领域的复杂推理问题上表现尤为突出。

　　人类的推理能力植根于语言思维和视觉记忆中，利用视觉理解增强大模型推理能力是AI技术的前沿探索之一。2024年12月25日，阿里云通义千问发布首个开源多模态推理模型QVQ-72B-Preview。QVQ展现出超预期的视觉理解和推理能力，在解决数学、物理、科学等领域的复杂推理问题上表现尤为突出。

　　一个月前(11月28日)，通义发布AI推理模型QwQ - 32B - Preview并斩获SuperCLUE的AI推理模型榜单「全球开源冠军」，评测数据显示，预览版本的QwQ，已展现出研究生水平的科学推理能力，在数学和编程方面表现尤为出色，整体推理水平比肩OpenAI o1。

　　QwQ(Qwen　with Questions)是通义千问Qwen大模型最新推出的实验性研究模型，也是阿里云首个开源的AI推理模型。阿里云通义千问团队研究发现，当模型有足够的时间思考、质疑和反思时，其对数学和编程的理解就会深化。

　　如今在Qwen2 - VL - 72B开源模型基础上，研发出QVQ - 72B - Preview。

　　QVQ-72B-Preview不仅在逻辑推理上更上一层楼，还巧妙地融合了视觉理解能力，使得AI在解析图像信息、结合上下文进行空间推理方面取得了显著进步。这一突破意味着AI在处理诸如视觉问答、图像识别与解释等复杂任务时，能够更加精准地把握细节，实现更加智能化、人性化的交互体验。

　　例如，在解析一张包含物理实验的图像时，QVQ不仅能准确识别出实验器材，还能基于视觉线索推断出实验步骤、预测实验结果，甚至对实验设计中可能存在的逻辑漏洞提出质疑。这种跨模态的推理能力，为教育、科研、工业设计等多个领域带来了革命性的变化，加速了知识的自动化处理和创新应用的步伐。

　　目前，QVQ-72B-Preview已在魔搭社区和HuggingFace等平台上开源，开发者可上手体验。截至目前，通义千问Qwen的衍生模型数突破7.8万个。

　　阿里云通义千问团队表示，QVQ-72B-Preview的发布只是冰山一角，他们正不断探索AI推理能力的极限，旨在构建一个更加全面、智能、适应未来需求的AI生态系统。随着技术的不断迭代与成熟，我们有理由相信，AI将在更多领域展现出超越人类想象的智慧之光，开启一个由技术与人类共同编织的智慧新时代。

上一篇：美丽江西研究院成立助力打造美丽中国“江西样板”

下一篇：2024年1-11月：农机配套小汽油机市场销量同比增长53.75%

我要评论

昵称

匿名

文明上网，理性发言。（您还可以输入200个字符)

表情

所有评论仅代表网友意见，与本站立场无关。

版权与免责声明：

凡本站注明“来源：智能制造网”的所有作品，均为浙江兴旺宝明通网络有限公司-智能制造网合法拥有版权或有权使用的作品，未经本站授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的，应在授权范围内使用，并注明“来源：智能制造网”。违反上述声明者，本站将追究其相关法律责任。

本站转载并注明自其它来源（非智能制造网）的作品，目的在于传递更多信息，并不代表本站赞同其观点或和对其真实性负责，不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、平台或个人从本站转载时，必须保留本站注明的作品第一来源，并自负版权等法律责任。如擅自篡改为“稿件来源：智能制造网”，本站将依法追究责任。

鉴于本站稿件来源广泛、数量较多，如涉及作品内容、版权等问题，请与本站联系并提供相关证明材料：联系电话：0571-89719789；邮箱：1271141964@qq.com。