Code前端首页关于Code前端联系我们

谷歌新AI模型可一键试衣服、换衣服，细节不变姿势随意变

terry 2年前 (2023-09-23) 阅读数 102 #AI人工智能

【新智元介绍】谷歌新AI模型直接解决了穿衣两大难题—— up AI - 在保留衣服细节的同时，你可以随意改变位置。以后再做恐怕会更容易！

一键换装，由 Google 提供支持！

这款AI试衣模特TryOnDiffusion，你只需要提供一张全身照和一张礼服模特照片，就可以知道你穿上衣服会是什么样子。

主要焦点是真相。那么，真人版的奇迹暖暖是什么呢？

通常会有很多AI换装。谷歌的AI模型有何突破？

项目地址：

关键是他提出了一个基于扩散的框架来统一两个Parallel-Unet。

以前这个模型的主要挑战是如何保留衣服的细节，让衣服变形，适应被摄者不同的姿势和体形，不至于感觉不一致。

之前的方法不能同时做到这两点。要么只能保留服装的细节，但无法处理姿势和形状的变化，要么可以改变姿势，但服装的细节会丢失。

而且由于 TryOnDiffusion 结合了两个 UNet，因此它可以将衣服的细节保存在单个网络中，并为衣服做出重要的姿势和身体变化。

可以看到角色身上衣服的变形非常自然，衣服的细节也还原得很好。

话不多说，让我们看看谷歌的“AI试衣”有多强大！

利用AI生成试穿图像

特别是，虚拟试穿（VTO）可以向顾客展示衣服在各种形状和尺寸的真实模特身上的样子。

在试穿虚拟衣服时，有许多微妙但重要的细节，例如悬垂、折叠、紧贴、拉伸和皱纹效果。

现有技术，例如几何曲线，可以剪切和粘贴衣服图像，然后将其变形以适应身体轮廓。

但是有了这些功能，衣服就很难很好地适应身体，而且会出现一些视觉上的缺陷，比如错误的褶皱，会让衣服看起来变形、不自然。

因此，Google 研究人员致力于从头开始重现服装的每个像素，以生成高质量的逼真图像。

所使用的技术是一种新的基于Diffusion的AI模型，TryOnDiffusion。

扩散是向图像中逐渐添加额外的像素（或“噪声”），直到难以察觉，然后消除噪声，直到以完美的质量重建原始图像。

像 Imagen 这样的文本到图像模型使用来自 LLM 大语言模型的扩散和文本，它可以仅根据输入文本生成逼真的图像。

扩散是逐渐向图像添加额外像素（或“噪声”）直至其变得无法识别，然后消除噪声直至以完美质量重建原始图像的过程。

在 TryOnDiffusion 中，您不使用文本，而是使用一对图像：一张衣服图像（或穿着衣服的模特）和一张模特图像。

每张图像都被发送到自己的神经网络（U-net），并通过称为“交叉注意力”的过程相互共享信息，以生成穿着裙子的模特的新真实图像。

基于图像的Diffusion技术和交叉注意力技术的结合是该AI模型的核心。

VOT功能可以让用户对适合体型的模型给予最高的效果。

大量高质量的数据训练

为了让VTO功能能够提供最真实的效果，帮助用户选择衣服，Google对这个AI模型进行了大量的训练。

然而，Google 没有使用大型语言模型进行训练，而是使用 Google 购物图。

该数据库拥有全球最完整、最新的产品、卖家、品牌、评论和库存数据。

Google 使用多对图像来训练模型。每个图像对都包含穿着两种不同姿势的衣服的模特的图像。

例如，一张穿衬衫的人的照片站在旁边，另一张照片站在前面。

谷歌的特殊扩散模型将图像输入到自己的神经网络（U-net）以产生输出：穿着衬衫的模特的真实图像。

在这对训练图像中，模型学习将侧身姿势中的裙子形状与前向姿势中的图像相匹配。

反过来也是如此，直到它可以从各个角度产生一个穿着衣服的人的逼真图像。

为了获得更好的结果，Google 使用数百万个不同服装和人物的随机图像对重复此过程多次。

结果就是文章开头图所示的效果。

总之，TryOnDiffusion不仅保留了衣服的细节，还适应了新模特的身材和姿势。谷歌的技术实现了这两点，而且效果是相当明显的。

技术细节

给定一张显示模特身体的图像和另一张显示另一个模特穿着某件衣服的图像，TryOnDiffusion 的目标是生成一张显示该人身上衣服的图像。在身体上可以看到特定的视觉效果。

解决这个问题最关键的难点是在保持真实的服装细节的同时，对服装进行适当的变形以适应不同模特之间姿势和体型的变化。

以前的方法侧重于保留服装细节，但无法有效处理姿势和形状变化。

两者都可以根据所需的体型和姿势进行准确渲染，但缺乏服装细节。

Google 提出了一种基于扩散的架构，将两个 UNet（称为 Parallel-UNet）合并为一个。谷歌可以将服装的细节存储在单个网络中，并对服装进行清晰的姿势和合身效果。身体变化。

Parallel-UNet的主要思想包括：

1）通过交叉注意力机制隐式地为衣服创建褶皱；

2）将褶皱和服装角色结合为一个统一的过程，而不是两个独立的任务序列。

实验结果表明，TryOnDiffusion 在定性和定量上都达到了最先进的性能水平。

具体实现方法如下图所示。

在预处理步骤中，从人物图像中分割出目标人物以创建“无衣服的RGB”图像，从服装图像中分割出目标服装，并计算人物和服装图像的姿势。

此信息输入被带到 128 × 128 Parallel-UNet（关键步骤）以创建 128x128 拟合图像，该图像进一步作为输入与拟合条件输入一起发送到 256 × 256 Parallel-UNet。

Parallel-UNet 256×256 输出随后被发送到标准超分辨率扩散以创建 1024×1024 图像。

128×128 Parallel-UNet处理的结构和流程，是上述所有流程中最重要的，如下图所示。

将 RGB 图像和与服装无关的声音插入顶部的 people-UNet。

由于两个输入均已像素化，因此在 UNet 处理开始时，两个图像会直接沿通道维度合并。

由于两个输入都是像素化的，因此我们在 UNet 处理开始时直接在通道维度中将它们组合起来。

在底部插入分成衣服-UNet的衣服图像。

通过交叉注意力将服装特征集成到目标图像中。

为了保存模型参数，Google 研究人员在 32×32 上采样后提前停止了 Garment-UNet。至此，people-UNet中最后一个交叉注意力模块已经完成。

人物和服装姿势首先加载到线性层中以分别计算姿势嵌入。

然后通过注意力机制将姿势嵌入集成到person-UNet中。

此外，它还用于使用 FiLM 在所有尺度上调制两个 UNet 的特征。

与主流技术的比较

用户调查研究：对于每组输入图像，15名普通用户选择了他们认为最好的4种替代技术之一，或者选择了“难以区分”。 TryOnDiffusion 优于其他技术。

下图从左到右分别是“输入、TryOnGAN、SDAFN、HR-VITON、Google 方法”。

限制

但是，TryOnDiffusion 有一些限制。

首先，如果预处理过程中分割图和估计存在错误，Google 的方法可能会出现衣服泄漏缺陷。

幸运的是，这种准确性近年来有所提高，并且这种情况并不经常发生。

其次，衣服上不加入RGB来展示身材也不好，因为有时只能保留部分身份。

例如，在这种情况下，纹身将不可见，某些肌肉结构也将不可见。

第三，训练和测试数据集通常具有干净且均匀的背景，因此无法确定该方法在更复杂的背景上如何执行。

第四，我们不能保证衣服合身，我们只注重试穿的视觉效果。

最后，本研究重点关注上半身。谷歌尚未对全身贴合效果进行实验，未来会对全身效果进行进一步的研究。

版权声明

本文仅代表作者观点，不代表Code前端网立场。
本文系作者Code前端网发表，如需转载，请注明页面地址。

上一篇：构建chatgpt：从环境配置到模型训练下一篇：GPT模型tokenization（词元化）的工作原理揭晓

相关文章

Microsoft TypeScript 开发人员解释为什么他们选择 Go 而不是 Rust、C#

微软的 Anders Hejlsberg 解释说，选择 Go 作为其 TypeScript 编译器端口是因为它的原生代码...

TypeScript

7个月前 (04-14) 315阅读 #AI人工智能
人工智能时代投资软技能的重要性

我会摆好我的摊位，让你知道我仍然是人工智能怀疑论者。哎呀，我很多时候仍然在谈论“人工智能”时用引号括起来。然...

人工智能

10个月前 (01-14) 495阅读 #AI人工智能
4GB/8GB/16GB RAM 足够用于 Windows 11 吗？

Windows 11 使用多少 RAM？4GB、8GB 或 16GB RAM 对于 Windows 11 来说足够吗？M...

Windows 11

2年前 (2024-01-26) 631阅读 #AI人工智能
谷歌的新人工智能搜索功能正在改变移动用户（包括iOS）的游戏规则

想用谷歌搜索一些东西吗？只需拍照即可获得人工智能生成的响应。谷歌正试图利用其在搜索引擎领域的主导地位在人工智能（AI）竞...

人工智能搜索

2年前 (2024-01-24) 701阅读 #AI人工智能
这个人工智能只需看几张照片就能找到你的位置

安全的社交媒体做法包括不发布展示个人信息（例如车牌号、街道名称或门牌号）的照片。但如果我告诉你，生成式人工智...

Google

2年前 (2024-01-22) 697阅读 #AI人工智能

发表评论:取消回复

◎欢迎参与讨论，请在这里发表您的看法、交流您的观点。