Bell：深度学习算法应用于实时视频通信

terry 2年前 (2023-09-23) 阅读数 254 #AI人工智能

众所周知，深度学习在实时视频通信系统中有很多应用。比如我们用它来做超分辨率，可以达到更好的效果；我们用它来恢复图像也可以获得更好的效果。如果我们谈论挑战，在支持移动终端的应用程序中，我们必须考虑复杂性的限制。它应该是一个真正可以在移动平台上运行的小型模型，并且功耗和CPU比率应该被适当限制。。另外，要在相对充足的数据集中取得更好的学习效果，这样泛化能力就强。

让我们简单分享一下结果。传统算法获得的效果通常是模糊的。通过基于深度学习的算法，我们可以恢复更多的细节，甚至创造一些细节。

从某个角度来看，我们现在可以在 iPhone 6 GPU 上将 480x360 扩展到 960x720，最高可达 120fps，这可以更有效地控制复杂性。

我们使用生成对抗网络来实现超分辨率。生成对抗网络在过去两三年变得非常流行。在人工智能学习算法的学术会议上，近两年超过2/3的论文都是与生成对抗网络相关。生成对抗网络通常包括生成器和鉴别器。生成器试图模拟真实数据并像真实数据一样欺骗判别器，使判别器认为生成的数据是真实的并且与真实数据的分布一致。判别器的任务正好相反。你应该尽力让你创建的数据无法通过测试。标准越高，失败的可能性就越大。因此，生成器和判别器在相互冲突中共同前进，最终达到判别器无法分辨对错的地步。

生成器采用随机分布（Z 噪声），并将其传递到生成器以生成看起来与真实物体非常相似的图像。下图清楚地显示了接近真实数据的生成器分布。绿色是该模型生成的分布。在冲突的中间，真实的数据逐渐到达了黑线的分布。 Z就是我所说的。例如，随机变量可以产生期望的结果。从公式来看，生成器实际上做了一件事。它最大化了判别者犯错误的可能性，这就是歧视。这些设备无法区分是非，也无法识别它们正在创建的东西是错误的，因此它们一定会犯错误。

这个判别器首先最大化真实数据正确的概率，最小化生成器正确的概率我刚才提到的冲突，也可以用公式来写。这个判别器的最佳解有一个数学解，就是获得纳什均衡。将这两个生成器和判别器结合起来就是价值函数的最大最小优化。

这是什么？为了通过鉴别器的测试，该生成器会找到一些更容易生成的模式。所以训练完之后，比如说它会以很大的概率生成1，因为1很容易通过，是一条垂直线，所以说某个学习生成器从这个意义上来说，它会很聪明。它会尝试学习最容易学习的例子，并生成更多易于判断的例子。这就是生成器所做的事情，但这不是理想的情况。

从另一个图看，比如分布是均匀圆，生成器最终可以收敛到某个地方，而且会一直收敛到某个地方，一直通过。因为判别器总是通过，所以网络的状态最终会收敛到这样的状态。生成器很难生成这种具有不同组的多模态分布。我们称这种现象为模式崩溃。

您面临哪些具体挑战？我简单说一下我们如何缓解这种模型崩溃，即防止生成器陷入智能状态并欺骗判别器。第二个是给定卷积神经网络，它的表现如何，学习能力有多强。换句话说，给定一个深度学习任务，深度卷积神经网络可以有多小并且仍然可以获得更好的结果？

为了减少崩溃模式的可能性，首先通常需要增加局部限制，要求生成器不仅要操纵判别器，还要使噪声输入看起来像真实样本。在这种情况下，它与实际样品不会有太大差异。类似于在损失函数中添加项，生成的项必须与目标相同，即监督学习。

换个角度看，其实深度学习神经网络是多种多样的。该流形是一个拓扑空间，可以将流形同胚映射到N维实数空间。同胚映射是什么意思？即，正向映射和反向映射是连续的。让我简单解释一下这个概念。例如，三维空间中的表面是二维流形。从编码的角度来看，它可以对应于潜在空间。潜在空间是二维的，前向映射是降维。这是一个编码过程，或者说在分类问题中我们会尝试在潜在空间中更好地分类。另一方面，从潜在空间移动到流形是一个生成器，这是一个解码过程，将简化的数据恢复到所需的形式。

该表面位于三维空间中，称为环境空间。 Wasserstein 设计了一个生成对抗网络，实际上有很多层，达到了十层网络。您需要做的是放置两个高斯分布：一个在零点，一个在 40 × 40 点，并研究该分布。这个深度学习网络有多达十层无法学习。当它收敛时，它显示为一个橙色的点，这是最终的收敛状态。当数据分布具有多个簇或多峰混合分布时，流形对于生成对抗网络来说是一个挑战。

什么是卷积神经网络？让我们看一下基于修正线性单元 (ReLU) 的卷积神经网络，它可以被视为分段线性映射。我们看到常用的活动函数实际上是分段线性的，无论它们是有参数的还是随机的。，都是分段线性映射。

所以这个流形被这个分段线性映射分成了很多子空间和很多小立方体，这样这个流形经过编码器之后就变成了很多小空间，都是分段线性的，是多个小多面体。

你怎么知道这个模型是如何崩溃的？当编码器E将流形M映射到潜在空间E(M)时，分布往往非常不均匀。在这种不均匀的单一分布中很难进行分类或控制。我提出一个问题，我们可以引入另一个潜在空间，它可以映射到Z，并与生成器G G * T结合，可以将这个Z分布映射回具有更好且均匀分布的流形，因此无论分类如何，控制采样点一定是比较容易的。丘成桐教授等人做了一些分析工作，并使用最好质量的映射来重新映射我提到的立方体。

如果不做最好质量的映射，直接应用解码器，就会出现问题。在编码域进行均匀采样（一般都是有规律的，比如均匀性是我们最能控制的，不均匀的东西就很难控制好），然后我在编码域的图像上进行重叠，而这个例子如果直接使用生成器（也是解码器）重建点，恢复这些点并将它们放入原始图像中，可以看到头部非常罕见。这种稀疏性可以使用编码后潜在空间中的这些点来理解。采用均匀采样点解码，很难达到磁头均匀恢复的效果，这也是塌陷模式的一种。

如果添加这个最佳质量的传输映射，请在这个Z隐藏空间中进行均匀采样，然后恢复它。正如现在提到的，通过将最佳质量的映射与生成器相结合，恢复的效果将是均匀的。可以看出，质量会更好，因此这种最优质量映射可以使在均匀分布的潜在空间中的控制变得非常容易。

丘成桐教授等人发现，解码器和编码器在数学上通过封闭公式相关。简单来说，只要一个存在，另一个就可以被打倒。这在数学上是有保证的。有了这个结论，在使用深度学习时，只要训练其中一个，就可以通过几何计算恢复另一个，而无需训练另一个，无需担心数据。但现实中，在高维空间中重现最佳质量的映射是很困难的，而且在有限的计算资源下基本上不容易做到。因此，它并没有完全消除我们对深度神经网络的理解。

这里有一个问题，这种最佳质量的映射也可以通过深度神经网络来学习。自然出现的第二个问题是，我们应该学习两次吗？我们可以一起学习这个复合映射吗？显然这是一个非常实际的问题：有两个模型组合成一个模型。

让我们从另一个角度看一下塌陷模型。这种观点可能更有意义。例如，三维空间中存在二维表面，并且每个点都有切平面。对于更标准的流形，这个切平面必须是二维平面。当这个二维平面退化为零维度的线偶点时，那么模型崩溃肯定会发生。因为当它退化为一条线时，无论其他坐标轴在法向量方向上如何变化，都不会影响结果。这是一个折叠模型。当它退化到零维度时尤其如此。

我们可以在损失函数中添加另一个惩罚项。该惩罚项表示与单位矩阵的差异。此项被添加到损失函数中。它试图使切空间满秩而不退化为一维或零维。这也可以有效减少塌陷模式的发生。这是关于这个问题的另一种观点。

下一个问题是，如果卷积神经网络基于修正分段线性激活函数（ReLU），它的学习效果如何？换句话说，给定一个任务，我们的神经网络可以设计多小来完成该任务？我希望它仍然限制复杂性而不是开放探索。这可以为我们探索移动设备上的深度学习算法提供一些指导原则。

我现在已经说过编码器和解码器都是分段线性函数。解码器将立方体分成更小的块。立方体越多，您可以填充的间隙就越多。这种近似的质量决定了编码器和解码器的最终结果。影响。这很容易理解。如果曲线用一条线段或四条线段来逼近，那么四条线段总是更好，甚至用更多的线段来逼近无穷大。当然，这对原始曲线有一定的限制，比如曲面是否是凸的等等。

此校正的复杂性（分段映射复杂性）是近似能力的度量。它被定义为N维时间和空间上连通子集的最大数量。每个连接子集上的线性编码器。说白了，就是分段线性的。这体现了该解码器的功能。 K+2层的深度卷积神经网络由可以表示的最复杂的分段线性映射来表示。

每组不同的参数定义一组分段线性函数。当然，参数不同，能力也不同。然后得出结论：深度神经网络的复杂度是有上限的。这是一个很好的结论。如果我们知道我们要学习的任务复杂度高于这个上限，我们的深度神经网络就会设计得太小，肯定无法很好地学习。学习不好的症状有很多，比如泛化能力差。无论你训练多少样本，你能学到的分布与真实数据的分布不一致，并且是有偏差的。我们可以想象，在实际应用中，会存在一些无效的数据。

同时，它也有一个下限。下界的理解比较简单。特定权重是最小化网络复杂性的权重。

这样一来，深度卷积神经网络的表示能力就有了上限和下限，基本回答了我提出的问题。我有一些经验。一是因为它需要拓扑空间中的同胚映射。这个限制实际上是一个强限制。事实上，我们只能学习一些比较简单的拓扑结构，无法学习非常复杂的东西，或者只能学习一部分又一部分。很棒，但是很难了解全局。最佳质量的映射可能会有所帮助，但在高维空间中计算这些最佳质量的映射非常困难。第三个结论是，给定一个深度卷积神经网络，可以在输入环境空间中找到流形，并且该神经网络无法学习分布。我们有一定的方法来缓解崩溃模式；我们有一定的方法来限制算法的复杂度，从而可以决定神经网络的复杂度。

钟胜，现任声网首席科学家，毕业于北京大学数学系，获学士、博士学位，曾任马里兰大学自动化研究中心博士后。发明专利约100项。他是MPEG/JVT（H.264）和INCITS的关键成员，IEEE成员，发表学术论文30余篇，涵盖模式识别、视频编解码、计算机视觉等技术领域。曾任美国博通公司高级首席科学家、技术总监，华亚微电子公司技术副总裁，海信集团芯片公司总经理。

作者：声网
来源：掘金