阿里巴巴集团宣布开源最新研发的Qwen-Image图像生成模型,这是通义千问系列首个基础图像模型,该模型凭借在复杂文本渲染、国际化支持及图像编辑领域的突破性表现,开源首日便登顶Hugging Face热度榜第一。
复杂文本渲染:支持多行和段落文本生成,能清晰呈现细小文字,擅长中文和英文渲染。
精确图像编辑:支持风格迁移、对象增删改、细节增强、文字编辑和人物姿态调整,并保持图像自然和真实感。
通用图像生成:在通用图像生成方面支持多种艺术风格,从照片级写实场景到印象派绘画,从动漫风格到极简设计都能实现。
为锻造卓越的生成能力,团队构建了涵盖4大领域的十亿级图文数据集:
自然场景(55%):包含2300万张真实世界图片
设计素材(27%):集成18类商用级设计元素
人物图库(13%):覆盖200+国籍的多样化人像
合成数据(5%):通过可控渲染技术生成的高保真训练集
千问团队用大量定量与定性实验,验证了Qwen-Image在生成和编辑两方面的能力。在5000条提示、20万+次匿名对决的AI Arena中,Qwen-Image作为唯一开源模型跻身前三,领先GPT Image 1、FLUX.1 Pro等30分以上。
| Rank | Model | Creator | Arena Elo | # Appearances | Open Source |
|---|---|---|---|---|---|
| 1 | Imagen 4 Ultra Preview 0616 | 1059 | 10,707 | × | |
| 2 | Seedream 3.0 | ByteDance | 1027 | 10,659 | × |
| 3 | Qwen-Image | Alibaba | 1024 | 10,791 | √ |
| 4 | GPT Image 1 [High] | OpenAI | 988 | 10,434 | × |
| 5 | FLUX.1 Kontext [Pro] | Black Forest Labs | 960 | 10,387 | × |
| 6 | Ideogram 3.0 | Ideogram | 940 | 10,490 | × |
在其主打的中文文字生成场景,Qwen-Image单字渲染准确率达到58.3%。
| Model | Level-1 Acc | Level-2 Acc | Level-3 Acc | Overall↑ |
|---|---|---|---|---|
| Seedream 3.0 (Gao et al,2025) | 53.48 | 26.23 | 1.25 | 33.05 |
| GPT Image 1 High | 68.37 | 15.97 | 3.55 | 36.14 |
| Qwen-Image | 97.29 | 40.53 | 6.48 | 58.30 |
图像编辑任务上,Qwen-Image在GEdit、ImgEdit等榜单获得第一,深度估计与零样本新视角合成也能与闭源模型持平或更好。
技术报告的对比实验进一步凸显了模型性能优势:
图文协同能力:在书店橱窗案例中,Qwen-Image精准匹配书籍封面与标题文字,实现视觉元素有机统一。
文本渲染稳定性:面对复杂英文文本,主流模型出现明显乱码,而Qwen-Image与GPT Image 1(High)则保持清晰可辨的字符渲染。
材质表现力:执行冰箱贴生成任务时,竞品模型未能还原材质质感特性,Qwen-Image却在色彩饱和度与立体造型上高度契合提示词要求,展现卓越的物理属性理解能力。
Qwen-Image的诞生不仅填补了中文AI生成领域空白,更以“垂直深耕+开源普惠”路径重塑行业格局。
