Qwen-Image - 200亿参数 AI 图像生成与文字渲染 | 吐司
Qwen-Image AI Image Generator
阿里通义实验室旗舰图像生成模型。基于革命性的 MMDiT(多模态扩散 Transformer)架构,拥有 200 亿参数,中英文文字渲染能力业界领先——开源模型中首个跻身 AI Arena 排行榜 Top 5。 Try it free now!
提示词画廊

A vintage Chinese movie poster for a noir detective film. The title "雾都追凶" is written in bold traditional calligraphy at the top. A detective in a trench coat walks through a rainy Shanghai alley in the 1940s, neon signs reflecting on wet cobblestones. Moody cinematic lighting with deep shadows.

A sleek product packaging design for premium matcha tea. The box features minimalist Japanese aesthetics with the text "KYOTO RESERVE" in elegant serif font and "抹茶" in delicate brushstroke calligraphy. Soft gradient from deep green to cream. Studio lighting on marble surface.

A photorealistic portrait of a young woman sitting in a sunlit café in Paris. She is reading a leather-bound book, with a cup of espresso beside her. Warm golden hour light streams through lace curtains, casting intricate shadow patterns on the table. Shallow depth of field, film grain texture.
核心能力
业界领先的文字渲染
Qwen-Image 在图像内文字渲染方面表现卓越——多行排版、段落语义、字体细节均精准还原。中英文文字以极高的保真度融入画面构图,而非简单叠加。
MMDiT 多模态架构
采用全新的多模态扩散 Transformer 架构,200 亿参数。双编码器系统将 Qwen2.5-VL 的深度语义理解与文字优化 VAE 的精细视觉细节相结合,在提示词理解方面远超传统 CLIP 方案。
全风格图像生成
从写实摄影到印象派油画,从动漫风格到极简设计——Qwen-Image 流畅适应各类创作风格。增强的人物真实感和纹理质量,有效减少"AI 感",生成自然、令人信服的画面。
智能图像编辑
不止于生成,Qwen-Image 支持强大的编辑能力——风格迁移、对象增删、细节增强、图内文字编辑,甚至人物姿态调整。支持多图输入的合成任务,并保持强一致性。
常见问题
Qwen-Image 是首个跻身 AI Arena 排行榜 Top 5 的开源模型,与闭源模型直接竞争。核心差异在于 200 亿参数的 MMDiT 架构和 Qwen2.5-VL 条件编码器,提供远超传统 CLIP 编码器的提示词理解能力。最突出的是其中英文文字渲染能力,在开源领域无出其右。

