PhotoMaker：利用多个输入图片创建人物ID表示来生成一致性人物图像

PhotoMaker 是由腾讯 ARC 实验室和南开大学 MCG-NKU 合作开发的一种高效个性化文本到图像生成方法，主要用于生成高质量的现实感人类照片。

PhotoMaker 旨在通过堆叠 ID 嵌入来生成逼真的人像照片。可以在几秒钟内完成个性化定制，无需额外的 LoRA 训练。该方法可以根据文本提示，生成符合描述的高质量人像图片，同时保持人物身份的特征。

通俗易懂来说就是它利用多个输入图片来创建一个统一的ID嵌入表示，这些嵌入向量包含了人物的各种特征（如面部特征、发型、表情等）。然后利用这个ID表示来生成图像，从而保持人物特征的一致性。该方法不仅速度快、质量高，还可以根据文字描述生成定制化的照片。

堆叠 ID 嵌入

堆叠 ID 嵌入是指将多个同一身份（ID）的人物照片的信息叠加起来，形成一个综合的身份表示。这种方法通过以下步骤实现：

举例解释

假设我们有一个名叫“李华”的人，我们收集了李华的多张照片，包括不同角度、不同表情的照片。然后我们通过以下步骤生成李华的个性化图像：

举个例子

假设你有几张朋友的照片：一张是在生日聚会上拍的，一张是在旅游时拍的，还有一张是在家庭聚会上拍的。每张照片都能提供一些朋友的独特信息。

通过堆叠这些照片的特征，PhotoMaker 可以生成一张新的照片，这张照片中的朋友不仅看起来像真实的朋友，还可能有你在描述中提到的特定特征，比如“戴着太阳镜的朋友”。这种方法不仅快速，而且生成的图像质量非常高，看起来就像是真实拍摄的一样。

通过给定照片，在给定的文字提示（即“conditioning prompts”）的指导下生成图像。

展示PhotoMaker在不同情境下生成图像的效果，通过展示不同的文字提示和对应生成的图像，让用户直观地了解系统的性能和多样化生成能力。

个性化生成：
- 高效生成：无需额外的模型调优过程，只需一次前向传递即可完成个性化图像生成。
- 身份保真：能够精确保持输入人物的身份特征，即使在多样化的生成条件下。
风格化生成：
- 多种风格：在保持人物身份特征的同时，可以生成具有不同风格（如绘画风格、漫画风格等）的图像。
- 风格转换：能够将人物从现实照片转换为各种艺术风格的图像。
  
  PhotoMaker 不仅具有生成逼真人像的能力，还可以在保留 ID 属性的同时进行风格化处理。
改变年龄或性别：
- 年龄变化：通过修改文本提示，可以生成不同年龄段的同一人物图像。
- 性别转换：可以实现人物性别的转换，同时保持其原有的身份特征。
身份混合：
- 多身份融合：能够将多个不同身份的特征融合，生成一个新的综合身份。
- 比例控制：通过控制输入图像的比例，可以调整生成图像中各个身份特征的权重。
  
  Support authors and subscribe to content
  This is premium stuff. Subscribe to read the entire article.
  Login if you have purchased
  
  加入会员
  加入会员查看更多会员内容和教程。
  超过1000+的会员内容，每天更新。
  开通会员