画一本最简单的书怎么画


AI熙专栏是机器之心平台上的学术与技术交流栏目,自成立以来已经发布了超过两千篇学术文章,内容涵盖全球顶尖高校与企业的研究领域,为学术交流与传播搭建了有效的桥梁。我们诚邀各位拥有杰出研究成果的人士踊跃投稿,分享您的智慧与发现。投稿邮箱为:;。

接下来,让我们认识一下两位杰出的研究人才:宋亦仁,新加坡国立大学的ShowLab博士研究生,他的研究方向包括图像和视频生成以及AI安全性;黄施捷,新加坡国立大学的硕士二年级学生,目前在Tiamat AI担任算法工程师实习生,专攻视觉生成,他正在寻找2025年秋季的博士入学机会。

最近,AI生成工具领域迎来了一股新的热潮,lvmin团队推出的Paints-UNDO工具能够根据图片还原绘画过程,这一创新在AIGC社区引起了广泛关注。

让我们先来欣赏一下Paints-UNDO的演示Demo,感受一下它的神奇之处。

一个月前,包括NUS、SJTU和Tiamat等机构已经联合发表了一篇名为ProcessPainter的研究论文,该论文致力于解决类似的任务。尽管Paints-UNDO的技术报告尚未公布,但我们可以先一探究竟,了解ProcessPainter是如何实现这一目标的。

论文标题:ProcessPainter:从序列数据中学习绘画过程

论文链接:/pdf/2406.06062

代码链接:/nicolaus-huang/ProcessPainter

翻阅任何一本绘画教学书籍,你都会发现按照步骤进行的绘画指导。在生成式AI时代,去噪过程完成的图像生成与人类画家的绘画过程截然不同,AI的绘画过程无法直接应用于教学。

为解决这一问题,ProcessPainter通过训练时序模型,在合成数据以及人类画师绘画视频上进行了开创性研究,实现了让扩散模型生成绘画过程的功能。由于不同题材和画师的绘画过程存在巨大差异和风格迥异性,目前关于绘画过程的研究相对较少。论文作者在预训练的Motion Model基础上,通过在特定画师的少量绘画序列上训练Motion LoRA模型来学习画师的独特技法。

接下来我们将深入解读ProcessPainter的核心技术:

一、时序注意力机制(Temporal Attention)

这是ProcessPainter的核心创新点。绘画序列生成的关键在于整个序列是同一张图从抽象到具体的变化过程,前后帧在内容和构图上保持一致性及关联性。为实现这一目标,论文作者为Unet引入了来自AnimateDiff的时序注意力模块。该模块位于每一层扩散层之后,通过帧间自注意力机制来吸收不同帧的信息,确保整个序列的平滑过渡和连续性。实验证明这种训练策略可以在帧之间保持一致的绘画效果。由于绘画过程的特殊性——首帧通常是色块或线稿的简略形态而尾帧是完整画作——对模型训练提出了更高的要求。为此论文作者采取了预训练和细化训练的策略先用合成数据训练时序模块学习多种R(Stroke-Based Rendering)方法的逐步绘画过程再用艺术家的绘画过程数据训练Painting LoRA模型进行微调。

二、艺术品复制网络(Artwork Replication Network)

在绘画实践中我们更希望了解一幅作品是如何创作出来的以及如何通过细化达到预期的成品效果这就引出了两个任务:绘画过程的重建和补全。针对这两个任务都需要处理图像输入的问题论文作者提出了艺术品复制网络这一设计能够处理任意帧的图像输入并灵活控制绘画过程的生成。论文作者引入了ControlNet的变体来控制生成结果中的特定帧与参考图的一致性。通过这种方式实现了对绘画过程的精细控制。

三、合成数据集与训练策略

由于真实绘画过程数据获取难度较大数量有限无法支持大规模训练因此论文作者构建了用于预训练的合成数据集。合成数据采用三种方法生成:一是通过Learn to Paint产生半透明贝赛尔曲线笔触的绘画序列;二是通过自定义笔触使用Neural style painting生成油画风格和画风格的绘画序列;三是针对某些绘画特点如画和雕刻的分区域完成性质采用SAM(segment anything)和显著性检测方法逐个子区域添加内容从空白画布开始逐渐丰富内容从而合成绘画过程视频。在训练阶段论文作者首先在合成数据集上预训练了Motion Model然后冻结参数并训练Artwork Replication Network。在微调Painting LoRA模型时采用了逐步微调的策略确保模型的生成质量。在推理阶段ProcessPainter利用艺术品复制网络接收特定帧的参考输入确保生成的绘画序列中的帧与输入图像的高度匹配。

四、ProcessPainter的效果展示

在合成数据集上训练的ProcessPainter base model能够生成风格各异的绘画序列通过学习特定画师的少量绘画序列Motion LoRA能够模拟画师的独特风格和技法。通过指定参考图像ProcessPainter可以将完成的艺术品逆向解构为绘画步骤或者从半成品推演出完整的画作。这些技术组件的结合使得ProcessPainter不仅能够从文本生成绘画过程还能将参考图转换成绘画序列或补全未完成的画作。这无疑为艺术教育提供了新的工具同时也为AIGC社区开辟了新赛道。我们期待未来C