FLUX.1模型的发布迅速风靡全球,生成的图像质量超越了现有的开源模型,并且支持通过简单的操作进行微调,无需编程知识。Replicate 上已经发布了数百个公开的 Flux 微调,还有数千个私有的微调。
Flux 最令人兴奋的功能之一是它能够微调面部图像,而这一点在以前的开源图像生成模型(如 Stable Diffusion 或 SDXL)中是很难实现的。自 Dreambooth 以来,从仅几张训练图像中获得出色结果的微调方式再也没有如此简单。
本文详细介绍了如何在Replicate平台上使用自己的照片来微调FLUX.1图像训练一个自己的图像模型,可以使用你自己的照片生成各种风格的新的图像。如超级英雄、卡通角色或冒险者形象等。
关键步骤包括:
- 准备训练图片:至少10张高质量的、从不同角度和光线条件下拍摄的面部照片。
- 选择触发词:创建一个唯一的“触发词”,用于后续在提示文本中激活该模型。
- 创建并训练模型:在Replicate上上传图片和触发词,进行训练,过程大约需要20分钟。
- 生成图像:使用训练后的模型生成包含触发词的详细描述文本,即可生成与提示相关的图像。
步骤 0: 准备工作
在开始微调 FLUX.1 模型之前,你需要以下物品:
- 一个 Replicate 账户
- 几张自己的照片作为训练图片
- 2-3 美元,用于支付模型训练费用
步骤 1: 收集训练图片
你需要收集几张自己的照片进行训练,最好使用不同角度、光线条件和背景的照片,推荐至少 10 张高质量面部照片,但最少也需要 2 张。
图片要求:
- 支持格式:WebP、JPG、PNG
- 分辨率:建议使用 1024×1024 或更高分辨率
- 文件名:随意命名,文件名不影响训练
- 纵横比:图片可以是方形、横向或纵向
- 建议最少 10 张图片,图片越多,效果越好
- 选择多样化的图片,例如不同背景、服装、灯光、角度等
准备步骤:
- 将图片存放在一个文件夹中,例如名为
data
。 - 将该文件夹压缩成
.zip
文件,命名为data.zip
。
步骤 2: 选择唯一的触发词
在微调 FLUX.1 模型时,你需要选择一个唯一的触发词,后续会在图像生成提示文本中使用这个词。
photo of YOUR_TRIGGER_WORD_HERE looking super-cool, riding on a segway scooter
触发词要求:
- 选择触发词时,请注意以下几点:
- 它应该是独特的,比如
MY_UNIQ_TRGGR
。想象“个性车牌”,但不限长度。 - 它不应是任何语言中的现有词汇,如
dog
或cyberpunk
。 - 不要使用
TOK
,因为如果你想 将其与其他微调组合,它会发生冲突。 - 大小写无关紧要,但大写字母可以帮助你在提示词中将触发词与其他文本区分开来。
对于我的 zeke/ziki-flux 微调,我选择了
ZIKI
作为触发词。简短、独特且容易记住。确定好触发词了吗?记住它,你将在下一步中使用它。
- 它应该是独特的,比如
例如,作者在示例中使用了 “ZIKI” 作为触发词,你可以根据自己的喜好选择类似的唯一字符组合。
步骤 3: 创建并训练模型
接下来,你将在 Replicate 平台上上传训练图片并开始训练模型。你可以选择使用网页形式进行训练,或者通过 API 来自动化处理。
网页训练步骤:
- 访问 Flux 微调表单。
- 选择模型发布位置:你可以选择将微调后的模型发布为公共或私有。
- 上传训练图片:在
input_images
字段中,上传之前创建的data.zip
压缩包。 - 输入触发词:在
trigger_word
字段中,输入之前选择的唯一触发词。 - 选择训练步数:默认设置为 1000 步,少于此数量可能无法很好地学习图片中的概念,超过 1000 步则可能浪费时间和成本。
- 点击 Create training 开始训练。
步骤 4: 等待训练完成
训练过程非常快,但仍需几分钟。如果你使用十张图像和1000步,整个过程大约需要20分钟。利用这段时间起身离开电脑,伸展一下手脚,喝点水等。
回来后,你的模型应该就准备好了。
步骤 5: 使用网页生成图像
当训练完成后,你的微调模型已可以使用。通过网页表单输入提示语句,生成图像。
- 访问 Replicate 平台 的 web playground。
- 输入提示语:在提示中包含你之前设置的触发词。例如:
arduino
"photo of ZIKI looking super-cool, riding a segway scooter"
FLUX 模型对于详细的提示语效果更好,所以尽可能提供更多的描述。