Code前端首页关于Code前端联系我们

QQ AI绘画大模型技术揭秘——QQGC

terry 2年前 (2023-09-23) 阅读数 67 #AI人工智能

2022年以来,AIGC概念迅速出圈,并迅速形成产业生态系统,成为继PGC、UGC之后的数字内容创作新形态。 QQ影像中心提出了自主研发的AI绘画技术解决方案——QQGC。在这篇文章中,作者 Fuchen和Kongzi将介绍QQGC大模型基础训练的实践和探索。

01,背景

2022年以来,随着DALLE2、ChatGPT等技术的开拓性发展,AIGC开始了快速爆发式增长。内容生产从专业生成内容(PGC)发展到用户生成内容(UGC),进入人工智能生成内容(AIGC)时代。其中,AI绘画的运用,随着生成技术的不断完善、开源社区的推动以及大量的商业化探索,已经成为未来最有希望落地和广泛应用的技术方向,注入新的活力。能量投入数字创作内容。

QQ AI绘画大模型技术揭秘——QQGC

基础大模型作为AIGC生态系统的最底层,发挥着重要作用。为此,QQ影像中心提出了自主研发的QQGC-AI绘画技术解决方案。本文将分析现有的text2Image技术方案及其在AI绘画中的应用。绘制大型模型等探索及相关技术实施事宜。

1.1 扩散模型

扩散模型是近几年出现的生成模型,比如OpenAI的GLIDE、DALLE2、Google的Imgen、Parti等,它们都是利用扩散模型管道来完成高质量图像的生成。

扩散模型通常包括两个过程,从信号逐步到噪声的扩散过程和从噪声到信号逐步的逆过程。 这两个过程在复杂数据分布和简单噪声分布之间建立了双向连接。从数据分布到先验分布是一个预定义的噪声添加过程。通过按照预设规则逐渐合并数据和噪声,将复杂分布转换为简单分布。

扩散模型的逆过程是:将原始数据和噪声混合的数据输入到模型中,模型预测其中的噪声(或原始数据),逐渐降低模型中样本的噪声先前的分配以达到目标。将简单分布的样本转换为数据分布的样本。

QQ AI绘画大模型技术揭秘——QQGC

与GAN和VAE相比,Diffusion Model解决了训练冲突导致的训练不稳定问题,具有更高的生成质量和多样性。

1.2 DALLE 2

DALLE 2 是 OpenAI 发布的 text2image 算法。该算法在之前的GLIDE生成模型的基础上显着提高了生成性能。首次将text2image算法提升到可用水平,并获得社会认可。受到社会各界的广泛关注。

DALLE 2 沿用了 OpenAI 之前的 GLIDE 模型的技术路线。 GLIDE模型中,选择Transformer模型来提取文本特征,并使用扩散模型作为图像生成模型进行端到端训练。 DALLE 2 在此基础上,选择CLIP模型作为文本-图像桥梁。整体可以分为以下几个部分:

以前的模型:使用CLIP文本嵌入作为输入来预测要生成的图像的CLIP图像嵌入;解码器模型:输入CLIP图像嵌入来预测64分辨率的小图像; Upsampler模型:输入64分辨率的小图像,通过两步超分辨率将图像超分辨率到1024分辨率;

QQ AI绘画大模型技术揭秘——QQGC

按上述方式使用 CLIP 模型。它像一座桥梁,很好地连接了各部分的任务。对于每项任务,训练难度都大大降低。并采用CLIP作为著名的预训练模型,可以很好地提取文本图像特征,解决文本转换器在端到端训练中能力不足的问题。

1.3 稳定扩散

稳定扩散模型是 Stability Company 发布的开源 text2image 模型。该模型基于潜在扩散模型,结合了DALLE2和Imagen方法的优点。使用CLIP文本嵌入作为模型输入来预测VAE的潜在空间,然后通过VAE解码获得原始分辨率大小。

QQ AI绘画大模型技术揭秘——QQGC

通过替换CLIP语言模型和无分类引导,Stable Diffusion取得了非常好的效果。并且由于其流程相对简单,不需要超级评分作为后处理过程,大大降低了培训和部署成本。

很多社区和公司在Stable Diffusion的基础上改进并衍生出了自己的模型,这使得text2image跳出了循环,衍生出了很多不同的生成技术和玩法。 ? 更强的文本特征提取:

通过DALLE2、Stable Diffusion等模型的增强方案可以看出,语言模型特征提取在图像生成过程中至关重要。包括Google的Imagen、Nvidia的ediff等解决方案都尝试引入越来越强大的文本特征等语言模型,实现了效率的显着提升;

训练数据要求较低的技术框架:

高质量的文本-图像链接数据要求文本能够很好地描述图像,并且图像必须具有足够高的质量。收集比收集单独的高质量图像(或文本)要困难得多。因此,需要尽可能解耦Vincent图任务,减少数据采集要求,让训练更容易收敛;

更简单、更便宜的训练部署:

稳定扩散模型之所以能快速突破圈子,在于它相对轻量级的技术方案,通过减少诸如此类较大计算的步骤,大大降低了训练和部署的成本。作为超级得分。这在当今降本增效的环境下显得更为重要;

基于上述分析,我们提出以下技术架构。核心主要包括两部分:前级模型和解码器模型。在几乎不需要额外计算的情况下,它可以显着优于稳定的开源扩散模型,达到DALLE2等一线text2image模型的水平。

QQ AI绘画大模型技术揭秘——QQGC

2.2 之前的模型

经过实验,我们发现直接通过CLIP文本嵌入插入稳定扩散的方案在图像和文本的一致性方面存在明显的缺陷。因此,我们参考了DALLE2的模型设计思想,将文本嵌入->图像的一阶段思想分为文本嵌入->图像嵌入->图像两个阶段,并添加了一个早期的模型作为映射从文本特征域到图像特征域。 ,可以显着降低训练难度,提高生成效果。同时,为了提高提取文本特征的能力,我们还集成了T5语言模型作为特征提取模型,以实现更强的语义理解能力。

2.3 解码器模型

解码器模型的输入是CLIP图像嵌入,输出图像是。在实现方面,我们重用了稳定扩散管道,并将稳定扩散条件从CLIP文本嵌入替换为CLIP图像嵌入。

在训练解码器模型的过程中,不需要涉及文本数据,只需要收集高质量的图像数据。同样,在训练Prior模型时,更多关注的是训练数据中图像和文本数据的语义匹配程度,而图像和文本对中的图像质量并不高。这样就拆解并减少了训练高质量文森图模型的数据收集要求。

2.4 训练加速方案

如何在有限的资源和成本下快速高效地训练大型text2image模型? 这是一项非常具有挑战性的任务。加速训练的核心是消除整个训练流程中的性能缺陷,提高数据密度和效率。为此,我们主要从以下几个方面进行了加速改进。

  • 提高数据效率:

Text2image训练依赖于海量数据。与传统的 CV 作业相比,数据量增加了几个数量级。有必要为大数据设计一个高效的数据加载器,解决数据读取的缺点。 。这里我们选择tar包形式的数据组织方式,将数据分层存储,每10K数据将100M数据打包到一个tar包中。这样就降低了读取数据的难度。 data shuffle等操作仅在该级别的tar包中执行。

QQ AI绘画大模型技术揭秘——QQGC

  • 提高数据密度/效率:

提高训练速度最有效的方法是尽可能提高数据密度,即在GPU上部署更大的batch size。我们采用了 FP16 半精度训练、激活检查点和 ZeRO(零冗余优化器)闪存注意力算子优化等方法,显着降低了内存占用,将单卡的批量大小提升了 8 倍,训练速度提升至 4 倍。

QQ AI绘画大模型技术揭秘——QQGC

  • 降低通信成本:

部署分布式多机训练时,由于模型参数较多,多机之间的耗时通信往往是模型训练的瓶颈。我们采用GPU RDMA网络直连通信来保证基本的网络通信性能。我们通过梯度积累和优化工作来减少通信量并节省通信成本。经过上述优化后,我们可以在64卡集群上快速训练超过2B参数的模型。

03。结果展示

3.1 Text2Image

我们在COCO-30k上评估了FID和CLIP评分指标的性能,结果达到了相同的SOTA水平。

QQ AI绘画大模型技术揭秘——QQGC

以下是部分自研机型的代际效应。它们可以用作通用大型模型来生成不同物体、风格和抽象概念的非常高质量的图像。

QQ AI绘画大模型技术揭秘——QQGC

以下是一些在语义契合度和美观度方面远远超越StableDiffusion模型的模型生成效果示例:

QQ AI绘画大模型技术揭秘——QQGC

3.2 图像变化

解码器模型可以基于CLIP嵌入来重建图像。以下是使用我们训练好的解码器模型重建各种图像的示例:

QQ AI绘画大模型技术揭秘——QQGC

可以看到,无论是艺术绘画还是具有复杂肢体的自然图像,包括其他人(Parti 和 DALLE2)生成的复杂图像,我们的Decoder 两个模型都能重构、还原各自的魅力,在语义层面非常接近。证明我们训练的解码器模型具有很强的恢复Clip图像嵌入的能力。只要 Prior 模型能够生成与直接描述相匹配的剪辑图像嵌入,将两者结合起来就可以得到强大的 Vincentian 图模型。

3.3 img2img 整合原始图像的语义信息

稳定扩散 除了用于生成文本图像之外,img2img 还可以通过用带有噪声的图像替换部分扩散过程来实现。用于噪声的图像通常也称为遮罩图像。然而,基于稳定扩散实现的img2img仅使用输入图像的噪声添加结果,常常面临在保留更多原始图像信息和保持提示对应效果之间的权衡。由于QQGC-AI绘画模型将生成步骤分为两步,因此在解码器的图像生成过程中,可以利用pad图像的噪声添加结果来融合pad图像的语义特征和提示对应的特征达到原始图像的融合。 img2img 用于图形语义信息。

例如,使用以下提示:

两个女人站在一起,手牵着手,肖像,优雅,复杂,数字绘画,artstation,概念艺术,平滑,锐利焦点,插图,konstantin korovin 的艺术和daniel f. gerhartz 和 john howe

调用 QQGC-AI 模板模型完成 Vincent 图任务:

QQ AI绘画大模型技术揭秘——QQGC

和 Stable Diffsuion 实现的 img2img 一样,QQGC-AI 模板模型也可以给出 pad 图,在Prior生成的状态 在矢量控制下实现基本img2img:

QQ AI绘画大模型技术揭秘——QQGC

可以注意到,由于这个基本img2img根本没有考虑原始图像的语义信息,它只使用了原始图像的结构(色块) ,导致生成的图像只保留了一些右侧女子头发区域为黑色的信息被完全忽略,但是该区域是头发的语义信息被完全忽略了,而​​生成的图像变成黑色袖子。

要整合原始图像的语言信息,可以将提示对应的图像的嵌入与原始图像的嵌入混合,然后使用解码器将混合后的图像转换为图像。这样就实现了img2img,它集成了原始图像的语义信息:

QQ AI绘画大模型技术揭秘——QQGC

3.4 CLIP矢量编辑

由于两阶段模型提供了两个域的良好解耦,我们可以直接在CLIP Embedding中进行矢量编辑domain 来达到对图片进行精细修改的效果,下图展示了通过编辑向量实现精确去除水印文字甚至添加水印的能力:

QQ AI绘画大模型技术揭秘——QQGC

同时让模型生成的内容更加健康积极向上,主题更加优美,当输入文本中含有血腥、色情等描述时,还可以在传播过程中控制CLIP嵌入,达到生成更真、善、美内容的目的。 ? 、更低的模型训练和部署成本,并支持更复杂、丰富的编辑控制操作等特性。

QQGC基础大模型将作为基础模型在AIGC技术的实现中发挥重要作用。 QQ影像中心还推出了基于QQGC大模型的小世界“魔幻工作室”功能。在后台接听**“QQ”**,体验人工智能。

可以根据用户的自由输入直接生成高质量的生成结果:

QQ AI绘画大模型技术揭秘——QQGC

同时业界非常热衷于在不同风格和场景的生成图像中保留身份属性和更强的生成控制能力。我们将继续探索,并将在以后的活动中推出。

版权声明

本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

热门