推广 热搜： 边框产量方形 pc材料工序投资税收分类 2022 低周疲劳冬季

阿里云通义千问开源第二代视觉语言模型 Qwen2-VL，基础性能全面提升

日期：2024-09-03 来源：网络整理作者：二手钢材网浏览：290 评论：0

核心提示：已上线阿里云百炼平台，用户可直接调用。但为了让模型能够更清楚地感知视觉信息和理解视频，团队在架构上进行了一些升级：使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息，赋予了语言模型强大的多模态处理和推理能力，能让模型更好地理解和建模复杂的多模态数据。

IT之家 9 月 2 日消息，阿里云通义千问今日宣布开源第二代视觉语言模型 Qwen2-VL，并推出 2B、7B 两个尺寸及其量化版本模型。同时，旗舰模型 Qwen2-VL-72B 的 API 已上线阿里云百炼平台，用户可直接调用。

_阿里云通义千问Qwen2-VL第二代视觉语言模型开源_阿里云通义千问Qwen2-VL第二代视觉语言模型开源

据阿里云官方介绍，相比上代模型，Qwen2-VL 的基础性能全面提升：

阿里云通义千问Qwen2-VL第二代视觉语言模型开源__阿里云通义千问Qwen2-VL第二代视觉语言模型开源

Qwen2-VL 延续了 ViT 加 Qwen2 的串联结构，三个尺寸的模型都采用了 600M 规模大小的 ViT，支持图像和视频统一输入。

但为了让模型能够更清楚地感知视觉信息和理解视频，团队在架构上进行了一些升级：

一是实现了对原生动态分辨率的全面支持。不同于上代模型，Qwen2-VL 能够处理任意分辨率的图像输入，不同大小图片将被转换为动态数量的 tokens，最小只占 4 个 tokens。这一设计模拟了人类视觉感知的自然方式，确保了模型输入与图像原始信息之间的高度一致性，赋予模型处理任意尺寸图像的强大能力，使得其可以更灵活高效地进行图像处理。

_阿里云通义千问Qwen2-VL第二代视觉语言模型开源_阿里云通义千问Qwen2-VL第二代视觉语言模型开源

二是使用了多模态旋转位置嵌入（M-ROPE）方法。传统的旋转位置嵌入只能捕捉一维序列的位置信息，M-ROPE 使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息，赋予了语言模型强大的多模态处理和推理能力，能让模型更好地理解和建模复杂的多模态数据。

阿里云通义千问Qwen2-VL第二代视觉语言模型开源__阿里云通义千问Qwen2-VL第二代视觉语言模型开源

此次 Qwen2-VL 开源的多款模型中的旗舰模型 Qwen2-VL-72B 的 API 已上线阿里云百炼平台，用户可通过阿里云百炼平台直接调用 API。

同时，通义千问团队以 Apache 2.0 协议开源了 Qwen2-VL-2B 和 Qwen2-VL-7B，开源代码已集成到 Hugging Face Transformers、vLLM 和其他第三方框架中。开发者可以通过 Hugging Face 和魔搭 ModelScope 下载使用模型，也可通过通义官网、通义 App 的主对话页面使用模型，IT之家附地址如下：

标签： a:0:6:4:d:a:7:2:8:7:8:9:9:f:7:2:e:1:1:2:d:b:7:c:4:f:b:b:e:6:8:a 7:f:1:f:0:a:8:f:4:3:1:a:b:2:5:e:6:e:

打赏

更多>同类资讯

0 条相关评论

• 滤芯PD/PDP130+2901300106阿托拉斯滤	• 滤芯PD130+2901200405滤芯DD25+阿托拉斯滤
• 不锈钢过滤器不锈钢压缩空气过滤器	• 304L不锈钢过滤器 316L不锈钢过滤器
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器
• JDG800给料机配件无极调速器摆线减速机	• GLD800/7.5给料机锰钢甲带柔性甲带片穿条
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器

阿里云通义千问开源第二代视觉语言模型 Qwen2-VL，基础性能全面提升

推荐资讯

推荐图文资讯

一艘一万吨的货船一般造价是多少钱？(组图)

英特尔与高通口水战：高通处理器能否挑战英

钢板重量怎么算？钢板理论重量计算公式是什

日照钢铁收购营口中板，中国制造业更是雄居

联发科 Helio G81-Ultra 处理器性能分析：4

有哪些钢材会被用来制造剑呢？这些钢材的优

资讯点击排行

热门标签

推荐视频

最新加入公司