PaintsUndo是一个旨在模拟数字绘画行为的基础模型。你只需要通过输入静态图像,它就能帮你自动生成视频输出,展示了整个绘画的全过程。 不仅限于某一种类型的图像,PaintsUndo可以应用于各种不同类型的图像,生成相应的绘画过程视频。 该项目主要是为了研究和再现数字绘画中的绘画行为,从而为数字艺术创作提供新的工具和方法。 <h3>主要功能和特点</h3> <h5>1. 单帧模型(paints_undo_single_frame)</h5> <strong>功能</strong>:单帧模型通过输入一张图像和一个操作步骤数,输出该操作步骤数对应的图像。 <strong>工作原理</strong>: <ul> <li>假设一幅作品总共需要1000次人类操作(例如,每一次画笔的动作算一次操作)。</li> <li>操作步骤数是从0到999的整数,0表示最终完成的作品,999表示第一笔画在空白画布上的操作。</li> <li>用户输入最终的图像,并指定需要“撤销”多少次操作,模型会生成一个模拟撤销后的截图。</li> </ul> <strong>应用场景</strong>: <ul> <li>用户希望看到某一幅画在绘制过程中某一阶段的样子。</li> <li>帮助艺术家和学生理解绘画过程的各个阶段。</li> </ul> <h5>2. 多帧模型(paints_undo_multi_frame)</h5> <strong>功能</strong>:多帧模型通过输入两张图像,生成这两张图像之间的16帧中间帧。 <strong>工作原理</strong>: <ul> <li>接收两张输入图像,分别代表绘画过程中的两个阶段。</li> <li>模型在这两张图像之间生成16个过渡帧,显示从第一张图像过渡到第二张图像的连续过程。</li> </ul> <strong>应用场景</strong>: <ul> <li>制作动画,展示从草图到完成作品的动态过程。</li> <li>用于艺术创作中,显示不同阶段的转换。</li> </ul> <h5>3. 混合使用单帧和多帧模型</h5> <strong>功能</strong>:结合使用单帧模型和多帧模型,可以生成更长的绘画过程视频。 <strong>工作原理</strong>: <ul> <li>先使用单帧模型生成5-7个关键帧。</li> <li>再使用多帧模型在这些关键帧之间插值,生成更长、更连续的绘画过程视频。</li> </ul> <strong>应用场景</strong>: <ul> <li>制作更复杂、更长的绘画过程动画。</li> <li>用于教育和展示,帮助观众更好地理解绘画的完整过程。</li> </ul> <h3>效果演示</h3> <ol> <li><strong>绘画过程展示</strong>:输入静态图像后,PaintsUndo会生成对应的绘画过程视频,使用户能够看到从起始到完成的整个绘画过程。[video width="1910" height="1080" mp4="https://img.xiaohu.ai/2024/07/7月9日-2.mp4"][/video]</li> <li><strong>多样化输出</strong>:同一张静态图像可以生成多种不同风格和细节程度的绘画过程视频。[video width="1910" height="1080" mp4="https://img.xiaohu.ai/2024/07/pARIj72i-7月9日-21.mp4"][/video]</li> <li><strong>草图提取</strong>:能够从图像中提取不同精细度的草图,提供从粗略到极其粗略的多种草图版本。<img class="aligncenter size-full wp-image-11013" src="https://img.xiaohu.ai/2024/07/Jietu20240709-164551@2x-scaled.jpg" alt="" width="2560" height="1648" /></li> <li><strong>草图插值</strong>:可以利用外部生成的草图进行插值,创造出连续的绘画过程效果。[video width="1112" height="1080" mp4="https://img.xiaohu.ai/2024/07/079.mp4"][/video]</li> <li><strong>草图输入</strong>:支持将草图作为输入,生成详细的绘画过程视频。[video width="1910" height="1080" mp4="https://img.xiaohu.ai/2024/07/7月9日-22.mp4"][/video]</li> </ol> <h3>模型架构</h3> <ul> <li><strong>单帧模型架构</strong>: <ul> <li>基于Stable Diffusion 1.5架构,进行了不同的调度器、clip skip等修改。</li> <li>添加了操作步骤条件,使其能够根据撤销操作的次数生成相应的图像。</li> </ul> </li> <li><strong>多帧模型架构</strong>: <ul> <li>基于VideoCrafter家族的架构,进行了大幅修改和重新训练。</li> <li>包括5个主要组件:3D-UNet、VAE、CLIP、CLIP-Vision和图像投影。</li> </ul> </li> </ul> <h3>局限性</h3> 虽然PaintsUndo在模拟绘画行为方面有很大潜力,但它在一些方面也有局限性: <ul> <li><strong>逼真度有限</strong>:难以生成高度逼真的绘画内容。</li> <li><strong>复杂构图处理困难</strong>:面对复杂的图像构图时,生成效果可能不如预期。</li> <li><strong>特殊概念理解不足</strong>:在处理一些特定的概念和风格时,可能表现不够理想。</li> <li><strong>设计流程不主流</strong>:生成结果有时可能不符合一些主流的设计流程和标准。</li> </ul> GitHub:<a href="https://github.com/lllyasviel/Paints-UNDO" target="_blank" rel="noopener">https://github.com/lllyasviel/Paints-UNDO</a> 演示:<a href="https://lllyasviel.github.io/pages/paints_undo/" target="_blank" rel="noopener">https://lllyasviel.github.io/pages/paints_undo/</a>