微软提出Control-GPT：GPT-4实现可控文本转图像生成

terry 2年前 (2023-09-23) 阅读数 69 #AI人工智能

转载自：机器之心|编辑：小舟、梓文

即使扩散模型再好，如何保证生成的图像准确且高质量？ GPT-4 可能会有所帮助。

文本到图像的生成在过去两年中取得了重大突破。从GAN到稳定扩散，图像生成的速度越来越快，生成效果也越来越好。然而，人工智能模型生成的图像在细节上往往不完美，并且使用自然语言指定物体的确切位置、大小或形状存在困难。为了生成准确、高质量的图像，现有方法通常依赖于广泛的即时工程或手动创建图像草图。这些方法需要大量的手工工作，因此效率很低。

最近，加州大学伯克利分校（UC Berkeley）和微软研究院的研究人员从编程的角度思考了这个问题。目前，用户能够使用大型语言模型更好地控制代码生成，这使得本研究看到了编写程序来控制生成图像的细节（包括物体的形状、大小、位置等）的可能性。基于此，本研究提出利用大语言模型（LLM）的代码生成功能来实现可控的文本到图像的生成。

使用GPT-4进行可控文本到图像生成

论文地址：https://arxiv.org/abs/2305.18583

这项研究提出了一种简单有效的PT利用LLM的力量根据短信生成草图。 Control-GPT 的工作原理是首先使用 GPT-4 生成 TikZ 代码形式的草图。如下图1（c）所示，根据精确的文本指令绘制程序草图，然后导入Control-GPT。 Control-GPT 是稳定扩散的一种变体，它接受附加数据，例如参考图像、分割图等。这些草图充当扩散模型的参考点，使它们能够更好地理解空间关系和特定概念，而不是仅仅依赖文本消息。这种方法消除了快速设计和草图绘制过程中人为干预的需要，并提高了扩散模型的可控性。

我们来看看Control-GPT方法的具体细节。

方法

对于图像生成，训练过程中的一个主要挑战是缺乏包含调整后的文本和图像的数据集。为了应对这一挑战，本研究将现有实例分割数据集（例如 COCO 和 LVIS）中的实例掩码转换为多边形表示，类似于 GPT-4 生成的草图。

该研究随后构建了一个包含图像、文本描述和多边形草图以及微调的 ControlNet 的三元数据集。研究发现，这种方法有助于更好地理解 GPT 生成的草图，并可以帮助模型更好地遵循文本中的说明。

ControlNet 是扩散模型的一种变体，需要额外的输入条件。本研究使用 ControlNet 作为基本图像生成模型，并通过编程草图和接地令牌的路径对其进行扩展。

框架

如下图2所示，在Control-GPT中，首先GPT-4会根据文本描述生成TikZ代码形式的草图，并输出物体在图像中的位置。然后，该研究使用 LATEX 编译 TikZ 代码，将草图转换为图像格式，然后将编程草图、文本描述和对象位置接地符号输入经过调整的 ControlNet 模型，最终生成合格的图像。

使用 GPT-4 生成的草图训练 ControlNet 是必要的，因为预训练的 ControlNet 无法理解生成的草图，无法将其转换为真实图像。为了查询 GPT-4，该研究要求用户按照下面的示例提示进行操作，这会导致 GPT-4 请求 TikZ 片段的结构化输出，以及关联对象的名称和位置。然后，该研究使用 GPT-4 的输出来编译草图图像并获得基础标记。

LLM画草图时的准确性如何

Control-GPT 的准确性取决于LLM在生成草图时的准确性和可控性。因此，本研究对LLM在素描生成方面的表现进行了对标。实验结果表明，GPT 系列模型在草图生成方面显着优于 LLaMa 等开源模型，并且 GPT-4 在遵循文本指令方面显示出惊人的高准确率（约 97%）。

本研究对Control-GPT和一些经典模型的生成结果进行了手动评估。结果表明，当图像中包含两个不相关的稀有物体的组合时，部分模型的生成效果较差，而 Control-GPT 的生成效果相对较好，如下表 2 所示：

查询LLM s ，生成一个 TikZ 片段来描述给定的文本，然后检查 Kongfz p 的性能。如下表 1 所示，GPT 系列的大多数片段都编译为有效的草图，而 LLaMA 和 Alpakka 的输出要么为空，要么为空不可执行。在 GPT 系列的模型中，最新的 GPT-4 在生成有效草图的 95 次搜索中仅失败了 3 次，在遵循文本指令方面成功率约为 97%。 ChatGPT 是 GPT-3.5 的 RLHF 微调版本，其性能明显低于原始 GPT-3.5。在设置过程中，可能需要在聊天功能和代码生成之间进行权衡。

在下面的图 4 中，研究人员提供了 GPT 系列模型的视觉草图示例。尽管生成的草图不如图像那么真实，但它们通常可以捕获语义并正确推理对象的空间关系。生成的草图通常可以通过简单的代码正确处理令人惊讶的对象形状。

下图中的最后一行显示了GPT-4的错误情况，即模型无法生成物体的形状，而GPT-3.5可以提供正确的草图。 GPT-4在草图生成方面的高精度给我们的启发是，它可以用来提高图像生成模型的可控性。

实验

基于Visor数据集，研究人员在各种实验设置中评估了Control-GPT，以测试其在空间条件、物体位置和大小方面的可控性。他们还将评估扩展到更多对象和部署外消息。大量实验表明Control-GPT可以极大地提高扩散模型的可控性。

定量评价结果见下表3。可以看出，Control-GPT模型可以在给定的规格下更好地控制物体的大小和位置。与对物体位置和大小几乎没有控制的稳定扩散模型（SD-v1.5）相比，Control-GPT 将整体精度从 0% 提高到 14.18%。与开箱即用的 ControlNet 相比，Control-GPT 在所有指标上也实现了更好的性能，总体提高了从 8.46% 到 4.18%。这些结果证明了我们的LLM集成框架在更精细和精确控制图像生成过程方面的潜力。