🎨
卡片 14

图像生成方式

从噪声到艺术的魔法,AI创造力的展现

生成模型 | 创造性AI

定义

图像生成是让AI根据特定输入(如文字描述、草图、噪声等)创造出全新图像的技术。当前主要有两种主流方法:生成对抗网络(GAN)和扩散模型(Diffusion Model)。

这些技术不仅能够生成逼真的图像,还能实现风格迁移、图像修复、超分辨率等多种创造性任务,是AI在艺术和设计领域的重要突破。

生成对抗网络

对抗学习的艺术

核心思想:两个神经网络相互博弈——生成器尝试创造逼真的假图像,判别器尝试区分真假图像。

G
D
G
  • 生成器:从随机噪声生成图像
  • 判别器:判断图像是真实还是生成
  • 对抗训练:两者在博弈中共同进步
  • 优点:生成图像质量高,训练稳定后效果好
  • 挑战:训练不稳定,模式崩溃问题

扩散模型

逐步去噪的创造

核心思想:通过学习从噪声中逐步恢复清晰图像的过程,实现从随机噪声到高质量图像的生成。

  • 前向过程:逐步向图像添加噪声
  • 反向过程:从噪声逐步去噪生成图像
  • 稳定训练:训练过程相对稳定
  • 优点:生成多样性好,可控性强
  • 挑战:生成速度相对较慢

生成对抗网络详解

GAN由Ian Goodfellow于2014年提出,被誉为"过去十年机器学习领域最酷的想法"。

StyleGAN

生成高质量人脸,控制生成属性

CycleGAN

无配对图像风格迁移

BigGAN

大规模高分辨率图像生成

Pix2Pix

图像到图像的翻译

GAN的局限性包括训练不稳定、模式崩溃(生成器只产生有限的几种样本)和评估困难等问题。

扩散模型详解

扩散模型基于物理中的扩散过程,在2020年后迅速崛起,成为图像生成的主流技术。

  • DDPM:去噪扩散概率模型,奠定理论基础
  • Stable Diffusion:在潜在空间进行扩散,大大降低计算成本
  • DALL-E 2:OpenAI的文本到图像生成系统
  • Imagen:Google的文本到图像模型,重视提示词理解
  • Midjourney:注重艺术性和创造性的图像生成

扩散模型通过U-Net架构预测每一步的噪声,逐步将随机噪声转化为有意义的图像,生成过程更加稳定可控。

技术对比

对比维度 生成对抗网络 (GAN) 扩散模型 (Diffusion)
基本原理 生成器与判别器对抗训练 逐步去噪的马尔可夫链
训练稳定性 不稳定,容易模式崩溃 相对稳定
生成速度 快,单次前向传播 慢,需要多步迭代
生成多样性 多样性有限 多样性好
可控性 较难控制生成属性 易于控制(通过提示词)
代表性模型 StyleGAN, CycleGAN Stable Diffusion, DALL-E

视觉化提示词

用于生成图像生成方式概念图的详细提示词:

"画面一分为二。左侧:两个机器人正在激烈博弈,一个是画家机器人(生成器),正在画布上创作猫的图像;另一个是鉴定师机器人(判别器),拿着放大镜仔细检查,头顶显示'真'或'假'的判定。两者之间有闪电般的能量流动。右侧:从一团混沌的彩色噪声雪花中,逐渐浮现出一只清晰的猫的图像,这个过程分为多个步骤展示,每一步噪声减少,细节增加,最终形成完美的猫图像。背景中有各种生成模型的架构图浮动。风格:对比构图,左侧为对抗性红色调,右侧为渐进性蓝色调,未来科技感,能量流动特效,动态捕捉。"