人类的推理能力植根于语言思维和视觉记忆中,利用视觉理解增强大模型推理能力是AI技术的前沿探索之一。2024年12月25日,阿里云通义千问发布首个开源多模态推理模型QVQ-72B-Preview。QVQ展现出超预期的视觉理解和推理能力,在解决数学、物理、科学等领域的复杂推理问题上表现尤为突出。
一个月前(11月28日),通义发布AI推理模型QwQ - 32B - Preview并斩获SuperCLUE的AI推理模型榜单「全球开源冠军」,评测数据显示,预览版本的QwQ,已展现出研究生水平的科学推理能力,在数学和编程方面表现尤为出色,整体推理水平比肩OpenAI o1。
QwQ(Qwen with Questions)是通义千问Qwen大模型最新推出的实验性研究模型,也是阿里云首个开源的AI推理模型。阿里云通义千问团队研究发现,当模型有足够的时间思考、质疑和反思时,其对数学和编程的理解就会深化。
如今在Qwen2 - VL - 72B开源模型基础上,研发出QVQ - 72B - Preview。
QVQ-72B-Preview不仅在逻辑推理上更上一层楼,还巧妙地融合了视觉理解能力,使得AI在解析图像信息、结合上下文进行空间推理方面取得了显著进步。这一突破意味着AI在处理诸如视觉问答、图像识别与解释等复杂任务时,能够更加精准地把握细节,实现更加智能化、人性化的交互体验。
例如,在解析一张包含物理实验的图像时,QVQ不仅能准确识别出实验器材,还能基于视觉线索推断出实验步骤、预测实验结果,甚至对实验设计中可能存在的逻辑漏洞提出质疑。这种跨模态的推理能力,为教育、科研、工业设计等多个领域带来了革命性的变化,加速了知识的自动化处理和创新应用的步伐。
目前,QVQ-72B-Preview已在魔搭社区和HuggingFace等平台上开源,开发者可上手体验。截至目前,通义千问Qwen的衍生模型数突破7.8万个。
阿里云通义千问团队表示,QVQ-72B-Preview的发布只是冰山一角,他们正不断探索AI推理能力的极限,旨在构建一个更加全面、智能、适应未来需求的AI生态系统。随着技术的不断迭代与成熟,我们有理由相信,AI将在更多领域展现出超越人类想象的智慧之光,开启一个由技术与人类共同编织的智慧新时代。
版权与免责声明:
凡本站注明“来源:智能制造网”的所有作品,均为浙江兴旺宝明通网络有限公司-智能制造网合法拥有版权或有权使用的作品,未经本站授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:智能制造网”。违反上述声明者,本站将追究其相关法律责任。
本站转载并注明自其它来源(非智能制造网)的作品,目的在于传递更多信息,并不代表本站赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、平台或个人从本站转载时,必须保留本站注明的作品第一来源,并自负版权等法律责任。如擅自篡改为“稿件来源:智能制造网”,本站将依法追究责任。
鉴于本站稿件来源广泛、数量较多,如涉及作品内容、版权等问题,请与本站联系并提供相关证明材料:联系电话:0571-89719789;邮箱:1271141964@qq.com。