官方代码结构已现 · 等待权重发布 · S3-DiT 架构

不仅是生成,更是
精准可控的图像编辑

Z-Image Edit 是阿里通义实验室(Tongyi-MAI)基于 Single-Stream DiT 架构研发的图像编辑模型。 相比 Flux 的过度艺术化和 SDXL 的结构不稳,它专注于“结构保真”“真实照片编辑”,旨在成为开源界的 Photoshop Generative Fill。

S3-DiT 架构
统一潜空间建模
6B 参数量
消费级显卡可跑
中英双语
原生中文指令理解
电商级真实
实拍数据微调

为什么我们需要 Z-Image Edit?

现有的开源模型本质上是“重绘模型”,而不是真正的“编辑模型”。

Flux Edit 的问题:乱改人脸

Flux 追求极致的艺术风格,这导致它会“重塑”面部结构。你只是想换个背景,Flux 却根据自己的审美把模特的脸给换了,甚至改变了原本真实的照片质感(变得太像 CG)。

SDXL Inpaint 的问题:结构崩坏

SDXL 的扩散范围往往难以精确控制。即使你画了 Mask,潜空间的扩散依然会影响周边区域,导致边缘模糊、光影断层,或者物体透视关系被破坏。

Z-Image Edit 的解法:结构锁死

Z-Image 引入了Mask-constrained Diffusion。它严格区分编辑区与保护区,非 Mask 区域像素级锁死。这让它能做到“换背景但不换脸”、“换衣服颜色但不改变褶皱”。

Capabilities

六大核心玩法预测

基于官方 Roadmap 及代码结构推断,Z-Image Edit 将覆盖以下高频真实场景。

物体替换 (Object Replace)

"把白鞋换成蓝鞋,但保留鞋面褶皱。"

这是电商最痛的需求。不同于 SDXL 容易把物体改变形,Z-Image Edit 能保持物体的透视关系和光影一致性。比如把桌上的马克杯换成玻璃杯,它不会丢失桌面的投影。

一键去路人 (Object Remove)

"Remove Anything. Keep Everything Else Untouched."

类似魔法橡皮擦,但更智能。它能理解背景纹理,移除电线杆、乱入的行人或水印后,自动补全区域的纹理和光线,且不破坏背景结构,边缘融合度远超传统 Inpaint。

背景更换 (Background Swap)

"人脸不变,只换环境。"

电商和自媒体神器。它能在完全锁定人物主体 (Identity Lock) 的情况下,将背景替换为“咖啡厅”或“纯色摄影棚”。发丝边缘处理自然,绝不会出现“抠图贴图感”。

智能扩图 (Outpainting)

"把 4:5 的照片扩展为 16:9 的壁纸。"

利用强大的 VAE 解码能力,向四周无限延伸画面。生成的扩展区域能完美继承原图的色彩、胶片颗粒感和光照方向,没有明显的“拼接缝”。

局部修复 (Inpainting Pro)

"修复老照片折痕,不给模特换脸。"

修复老照片缺损、去除衣服污点或修补拍摄瑕疵。依靠 Mask-guided 机制,它只修改你指定的区域,绝对不会像 Flux 那样“一修图就顺便给模特整了个容”。

氛围与风格调整

"让画面看起来更像黄昏。"

支持基于自然语言指令 (Instruction-based) 的微调。它不会破坏原图的几何结构(房子还是那个房子),仅仅调整色调和纹理氛围,比传统滤镜更智能。

深度对比:为什么选择 Z-Image Edit?

维度 Z-Image Edit (预测) SDXL Inpaint Flux Edit Photoshop GF
结构保真度 (Identity) ⭐⭐⭐⭐⭐ (极强,不改脸) ⭐⭐⭐ (易结构崩坏) ⭐⭐⭐⭐ (易改变特征) ⭐⭐⭐⭐⭐
中文语义理解 ⭐⭐⭐⭐⭐ (原生双语优化) ⭐ (基本不懂) ⭐ (不懂中文) ⭐⭐ (较弱)
真实感 / 去AI味 ⭐⭐⭐⭐⭐ (电商/实拍训练) ⭐⭐⭐ (强AI涂抹感) ⭐⭐⭐⭐ (艺术感太强) ⭐⭐⭐⭐⭐
边缘融合自然度 ⭐⭐⭐⭐⭐ (强 VAE 支撑) ⭐⭐ (常见糊边) ⭐⭐⭐ ⭐⭐⭐⭐⭐
开源与商用 ✅ (Apache 2.0 预期) ❌ (付费闭源)
Technical Deep Dive

技术揭秘:它是如何工作的?

根据 GitHub 代码 (`model.py`, `infer.py`) 及 Turbo 表现推断,Z-Image Edit 采用了先进的混合架构来解决传统 Diffusion 编辑的不稳定性:

  • 1

    Single-Stream DiT 架构

    不同于 U-Net,Z-Image 使用 Transformer 统一处理文本、图像潜空间和噪声。这意味着它对上下文 (Context) 的理解能力极强,能完美处理“物体与背景的物理关系”

  • 2

    Mask-constrained Diffusion (硬约束)

    这是解决“换背景脸变了”的关键。模型严格区分“编辑区”和“保护区”。在推理过程中,非 Mask 区域的像素被底层锁定,从根本上杜绝了对主体特征的意外修改。

  • 3

    高质量 VAE (纹理保留)

    Z-Image 配备的 VAE 解码器极其强大,能保留图像的微小纹理(如布料织纹、皮肤毛孔)。这避免了传统 SD Inpaint 常见的“糊边”现象,让编辑后的区域看起来像原生拍摄。

  • 4

    真实数据微调 (去 AI 味)

    训练集包含大量电商和真实生活照(而非仅仅是 AI 生成图或插画)。这让它天生适合处理照片级任务,生成的图片光影自然,没有油腻的“AI 塑料感”。

z_image_edit/inference_mock.py
from tongyi_mai import ZImageEdit
 
# 1. Load Model (6B Params)
model = ZImageEdit.load("z-image-edit-v1")
 
# 2. Define Task: Change Color, Keep Texture
result = model.edit(
    image=input_img,
    mask=cloth_mask,
    prompt="把T恤换成米白色,保留布料褶皱",
    strength=0.85,
    identity_lock=True # 关键:锁定非编辑区
)
 
result.save("output_ecommerce.png")

常见问题 (FAQ)

Z-Image Edit 适合电商卖家吗?对商品图片有帮助吗?

非常适合。这是 Z-Image Edit 最大的潜在爆发点。它可以做到:1) 一键换背景,比如把杂乱背景换成高端木纹桌面;2) 颜色替换,保留材质和光影,只换颜色,快速制作多色SKU图;3) 瑕疵修补,无需 PS 技巧也能修掉衣服褶皱或灰尘。

它真的能做到“换背景不换脸”吗?

是的。大多数 AI 模型(如 SDXL)换背景时会重绘人脸,导致“变样”。Z-Image Edit 采用了 Identity Preservation(结构保真) 技术,结合 Mask 约束,能锁定人物主体像素,只改变环境光影,非常适合小红书/IG 博主。

编辑之后的照片会不会有“AI味”?

Z-Image Edit 的设计目标就是低 AI 味。因为它的训练数据包含大量电商实拍和生活照片,而非全是 AI 生成图。所以它生成的纹理(如皮肤毛孔、布料质感)更接近真实相机拍摄,而不是油腻的 CG 风格。

可以本地部署吗?配置要求高吗?

预计可以。Z-Image Turbo 已经验证了 6B 参数模型可以在消费级显卡(如 RTX 30/40 系)上流畅运行。相比商业闭源模型(如 Photoshop GF),这也是 Z-Image Edit 最大的优势之一——私有化、免费、无 API 限制。