ULTRAEDIT 是一个大规模、自动生成的数据集,专门用于基于指令的图像编辑。 使得你可以通过自然语言描述的指令来对图像进行修改和编辑。这种方法允许用户用简单的文字描述他们想要的图像变化,而无需掌握复杂的图像编辑技能或使用传统的图像编辑软件。 <strong>UltraEdit 可以仅仅通过提示词即可实现对指定内容的图像编辑,而不改变图像其他部分,同时保持风格一致。</strong> 该数据集包含约400万个编辑样本,旨在提供更广泛和多样的图像编辑任务。ULTRAEDIT通过结合大语言模型(LLMs)和人类评估者的编辑示例,可以<strong>生成高质量和多样化的编辑指令</strong>,并基于真实图像生成源图像和目标图像,使得图像编辑更加直观、高效和便捷。 <strong><img class="aligncenter size-full wp-image-11191" src="https://img.xiaohu.ai/2024/07/pipeline-14.png" alt="" width="1400" height="908" />解决了什么问题?</strong> <ol> <li><strong>指令多样性不足</strong>: <ul> <li><strong>问题</strong>:现有的图像编辑数据集在生成编辑指令时存在多样性不足的问题,难以扩展到大规模数据。</li> <li><strong>解决方案</strong>:ULTRAEDIT结合LLM的创造力和人类评估者的示例,生成多样化的编辑指令,确保指令的广泛性和多样性。</li> </ul> </li> <li><strong>图像偏见</strong>: <ul> <li><strong>问题</strong>:由于获取大规模基于指令的图像编辑数据的挑战,许多现有研究采用文本到图像(T2I)模型生成源图像和目标图像,但这些模型可能存在隐性偏见,导致数据集不平衡。</li> <li><strong>解决方案</strong>:ULTRAEDIT使用来自COCO、NoCaps等多个真实图像数据集的高质量图像和图像标题对作为数据源,这些图像提供了更大的多样性和减少了偏见。</li> </ul> </li> <li><strong>缺乏区域编辑数据</strong>: <ul> <li><strong>问题</strong>:大多数现有数据集只考虑自由形式编辑,忽略了许多实际图像编辑场景中涉及的区域编辑。</li> <li><strong>解决方案</strong>:ULTRAEDIT通过自动生成编辑区域并使用修改后的修补扩散管道生成基于区域的编辑样本,显著提高了编辑性能。</li> </ul> </li> </ol> <h3><img class="aligncenter size-full wp-image-11192" src="https://img.xiaohu.ai/2024/07/dataset_compare.png" alt="" width="1812" height="818" />主要功能</h3> <h5>1. <strong>多样化的编辑指令生成</strong></h5> ULTRAEDIT 利用大型语言模型(LLMs)和人类评估者的示例生成多样化的编辑指令。这些指令涵盖了广泛的图像编辑类型,如添加对象、替换对象、变换场景、调整颜色等。 <ul> <li><strong>示例指令</strong>: <ul> <li>“将天空变成夜晚的星空”</li> <li>“在图片的右下角添加一只猫”</li> <li>“将人物的衣服颜色从红色变为蓝色”</li> </ul> </li> </ul> <h5><img class="aligncenter size-full wp-image-11193" src="https://img.xiaohu.ai/2024/07/example_big.png" alt="" width="1592" height="1999" />2. <strong>高效的图像编辑</strong></h5> 根据生成的指令,ULTRAEDIT 自动对图像进行编辑。这是通过扩散模型和其他图像生成技术来实现的,能够快速生成高质量的编辑图像。 <ul> <li><strong>编辑过程</strong>: <ul> <li>系统解析指令并确定需要编辑的图像区域。</li> <li>利用真实图像作为数据源,减少生成模型的偏见。</li> <li>通过扩散模型和提示到提示(P2P)控制生成编辑后的图像。</li> </ul> </li> </ul> <strong>具体编辑类型</strong> <table> <thead> <tr> <th>编辑类型</th> <th>描述</th> <th>示例</th> </tr> </thead> <tbody> <tr> <td>添加 (Add)</td> <td>在图像的特定位置插入新的对象或纹理</td> <td>在天空中添加一个UFO,在沙滩上添加一个沙堡</td> </tr> <tr> <td>全局变换 (Change Global)</td> <td>对整个图像进行修改以实现明显的效果</td> <td>将白天的场景变为夜晚,将晴天变为雨天</td> </tr> <tr> <td>局部变换 (Change Local)</td> <td>修改图像中的特定对象或纹理,只影响图像的一部分</td> <td>将一棵树的叶子变成秋天的颜色,将人物的衣服颜色从红色变为蓝色</td> </tr> <tr> <td>改变颜色 (Change Color)</td> <td>调整图像中的颜色</td> <td>将整个图像的色调变为黑白,将一辆红色的汽车变为蓝色</td> </tr> <tr> <td>全局转换 (Transform Global)</td> <td>平滑地将图像转换为不同的设置、场景或风格</td> <td>将一个现代城市场景转换为中世纪风格,将一个普通的房间转换为未来科技风格</td> </tr> <tr> <td>局部转换 (Transform Local)</td> <td>修改图像部分特征,同时保留其整体结构</td> <td>将一个人的发型从短发变成长发,将一栋建筑物的外墙材质从砖墙变为玻璃</td> </tr> <tr> <td>替换 (Replace)</td> <td>用指令中指定的对象替换图像中的现有对象</td> <td>将一只猫替换为一只狗,将一杯咖啡替换为一杯茶</td> </tr> <tr> <td>转变 (Turn)</td> <td>隐式改变对象、背景或纹理,通常没有特定的目标</td> <td>将雪景转变为樱花盛开的场景,将夏天的草地转变为秋天的落叶</td> </tr> <tr> <td>其他 (Others)</td> <td>包括文本编辑和数量更改等杂项编辑类型</td> <td>在图像中添加文本说明,将一群三个人变为五个人</td> </tr> </tbody> </table> <h5>3.区域编辑</h5> <ul> <li><strong>能力</strong>:支持基于特定区域的图像编辑。</li> <li><strong>实现</strong>:ULTRAEDIT 采用自动化的方法生成编辑区域,通过识别图像中的对象并根据编辑指令生成相应的编辑区域。这些区域通过修改后的修补扩散管道进行处理,生成高质量的区域编辑样本。</li> <li><strong>优势</strong>:支持精细的区域编辑,提供了更高质量的图像编辑效果,特别是在需要精确修改图像特定部分的任务中表现出色。</li> <li><strong>示例</strong>:在一张照片中仅修改人物的面部表情,而不影响背景或其他部分。</li> </ul> <h5><img class="aligncenter size-full wp-image-11190" src="https://img.xiaohu.ai/2024/07/下载-46-scaled.jpeg" alt="" width="1523" height="2560" />4. 高效的图像生成管道</h5> <ul> <li><strong>功能</strong>:高效的图像生成和编辑管道。</li> <li><strong>实现</strong>:ULTRAEDIT使用一种结合了噪声扰动和提示控制的图像生成管道。该方法利用真实图像作为锚点,通过常规扩散和提示到提示(P2P)控制生成源图像和目标图像。</li> <li><strong>优势</strong>:该管道能够高效生成高质量的图像编辑样本,减少了生成模型的偏见,并提高了生成速度。</li> <li><strong>示例</strong>:从一个基于噪声扰动的初始图像生成高质量的编辑图像。</li> </ul> <h5>5. 自动化大规模数据生成</h5> <ul> <li><strong>功能</strong>:大规模自动化数据生成。自动生成数百万条编辑指令和对应的编辑图像,大大提升了数据集的规模和实用性。</li> <li><strong>实现</strong>:ULTRAEDIT使用自动化的流程生成大量编辑样本,包括自由形式和基于区域的编辑数据。通过结合LLM和人类评估者的示例,生成多样化的编辑指令和目标图像。</li> <li><strong>优势</strong>:能够大规模生成高质量的图像编辑样本,显著提升了数据集的规模和多样性。</li> </ul> <h3>数据集特点</h3> ULTRAEDIT数据集包括两种编辑设置:自由形式编辑和基于区域的编辑。数据集由大约410万编辑样本组成,其中包括75.8万条唯一的编辑指令。 ULTRAEDIT 数据集包含 4108262 条基于指令的图像编辑数据,其中 4000083 条为自由形式编辑数据,108179 条为基于区域的编辑数据。该数据集涵盖了 9 种不同类型的编辑指令,是迄今为止公开发布的最大指令编辑数据集。 <strong>数据生成过程</strong> <ol> <li><strong>指令生成</strong>:结合LLM的创造力和人类评估者,生成高质量的编辑指令。</li> <li><strong>自由形式编辑样本</strong>:使用T2I模型生成源图像和目标图像,同时采用真实图像作为锚点,减少模型偏差。</li> <li><strong>基于区域的编辑样本</strong>:使用自动编辑区域提取方法生成区域编辑数据。</li> </ol> <img class="aligncenter size-full wp-image-11194" src="https://img.xiaohu.ai/2024/07/Jietu20240711-153906@2x.jpg" alt="" width="2350" height="1886" /> 项目地址:<a href="https://ultra-editing.github.io/" target="_blank" rel="noopener">https://ultra-editing.github.io/</a> 论文:<a href="https://arxiv.org/pdf/2407.05282" target="_blank" rel="noopener">https://arxiv.org/pdf/2407.05282</a> GitHub:<a href="https://github.com/HaozheZhao/UltraEdit" target="_blank" rel="noopener">https://github.com/HaozheZhao/UltraEdit</a> DEMO:<a href="https://huggingface.co/spaces/jeasinema/UltraEdit-SD3" target="_blank" rel="noopener">https://huggingface.co/spaces/jeasinema/UltraEdit-SD3</a> 工作流:<a href="https://github.com/ZHO-ZHO-ZHO/ComfyUI-UltraEdit-ZHO" target="_blank" rel="noopener">https://github.com/ZHO-ZHO-ZHO/ComfyUI-UltraEdit-ZHO</a> <img class="aligncenter size-full wp-image-11195" src="https://img.xiaohu.ai/2024/07/347404315-40d86c06-b6ee-4a72-a25b-fc470fa3a424.png" alt="" width="1107" height="622" /> <img class="aligncenter size-full wp-image-11196" src="https://img.xiaohu.ai/2024/07/347123760-b10be119-85a4-435b-b68c-cb5dc4b4f3b1.png" alt="" width="1873" height="1663" />