阿里开源图像生成模型:Qwen-Image!精准搞定复杂字体排版,支持多艺术风格编辑!

阿里巴巴集团宣布开源最新研发的Qwen-Image图像生成模型,这是通义千问系列首个基础图像模型,该模型凭借在复杂文本渲染、国际化支持及图像编辑领域的突破性表现,开源首日便登顶Hugging Face热度榜第一。

  • 复杂文本渲染:支持多行和段落文本生成,能清晰呈现细小文字,擅长中文和英文渲染。

  • 精确图像编辑:支持风格迁移、对象增删改、细节增强、文字编辑和人物姿态调整,并保持图像自然和真实感。

  • 通用图像生成:在通用图像生成方面支持多种艺术风格,从照片级写实场景到印象派绘画,从动漫风格到极简设计都能实现。

为锻造卓越的生成能力,团队构建了涵盖4大领域的十亿级图文数据集:

  • 自然场景(55%):包含2300万张真实世界图片

  • 设计素材(27%):集成18类商用级设计元素

  • 人物图库(13%):覆盖200+国籍的多样化人像

  • 合成数据(5%):通过可控渲染技术生成的高保真训练集

千问团队用大量定量与定性实验,验证了Qwen-Image在生成和编辑两方面的能力。在5000条提示、20万+次匿名对决的AI Arena中,Qwen-Image作为唯一开源模型跻身前三,领先GPT Image 1、FLUX.1 Pro等30分以上。

Rank Model Creator Arena Elo # Appearances Open Source
1 Imagen 4 Ultra Preview 0616 Google 1059 10,707 ×
2 Seedream 3.0 ByteDance 1027 10,659 ×
3 Qwen-Image Alibaba 1024 10,791
4 GPT Image 1 [High] OpenAI 988 10,434 ×
5 FLUX.1 Kontext [Pro] Black Forest Labs 960 10,387 ×
6 Ideogram 3.0 Ideogram 940 10,490 ×

在其主打的中文文字生成场景,Qwen-Image单字渲染准确率达到58.3%。

Model Level-1 Acc Level-2 Acc Level-3 Acc Overall↑
Seedream 3.0 (Gao et al,2025) 53.48 26.23 1.25 33.05
GPT Image 1 High 68.37 15.97 3.55 36.14
Qwen-Image 97.29 40.53 6.48 58.30

图像编辑任务上,Qwen-Image在GEdit、ImgEdit等榜单获得第一,深度估计与零样本新视角合成也能与闭源模型持平或更好。

技术报告的对比实验进一步凸显了模型性能优势:

  • 图文协同能力:在书店橱窗案例中,Qwen-Image精准匹配书籍封面与标题文字,实现视觉元素有机统一。

  • 文本渲染稳定性:面对复杂英文文本,主流模型出现明显乱码,而Qwen-Image与GPT Image 1(High)则保持清晰可辨的字符渲染。

  • 材质表现力:执行冰箱贴生成任务时,竞品模型未能还原材质质感特性,Qwen-Image却在色彩饱和度与立体造型上高度契合提示词要求,展现卓越的物理属性理解能力。

Qwen-Image的诞生不仅填补了中文AI生成领域空白,更以“垂直深耕+开源普惠”路径重塑行业格局。

开源地址:https://huggingface.co/Qwen/Qwen-Image

AI
我的笔记