Code前端首页关于Code前端联系我们

AI音频合成的基本原理是什么?你明白吗?

terry 2年前 (2023-09-23) 阅读数 68 #AI人工智能

人工智能的席卷趋势已蔓延到各种模式。音响作为其中的重要形式之一,也逐渐问世了许多产品和型号。但你知道音频合成的基本原理吗?我们来看一下。

1。定义

形成声音的结构包括音素、音节、音素、语素等。音频生成是这些基本单元的预测和组合,并通过频谱或波形的方法进行合成。该策略生成与 匹配的声波

语音合成的本质是通过研究句子的结构和关系来预测声学特征并恢复声波形状的过程。声音+音频结合后,我们可以得到常见的歌曲、读书等形式。当前一代

音频包括:基于文本的idepo合成(文本语音)、不同语言之间的语音转换,使用语音到语音转换)、基于视觉内容(图像)的语音描述

或视频)),并且产生旋律、音乐等。

2.发展历史

随着计算机技术的发展,以“文本分析-声学模型-声码器”为基本结构的音频生成、语音合成方法已经逐渐形成。

基于该结构模块的替换或优化,音频生成的主要技术经历了三个阶段:拼接合成阶段、参数合成阶段、端到端合成阶段

1。小波拼接语音合成

顾名思义,小波拼接的方法就是将句子中的音素、音节、单词等进行标记和分割,在现有语音数据库中查找基本单元,组合合成语音。 。

最后,需要录制大量音频来覆盖所有音节、音素等。数据库中的录音(样本)越多,最终合成的音频效果就越好。

  • 优点:基于真人录制的声音音质更好,听起来更真实。
  • 缺点:拼接效果取决于语音数据库的数据量,必须录制大量语音才能保证覆盖范围;词语之间的过渡生硬且不太自然。

AI音频合成的基本原理有哪些?你是否了解?

2。参数化语音合成技术

参数化合成方法主要利用数学方法从现有声音数据中对声学特征参数进行建模,建立文本序列与语音特征之间的映射关系,产生参数化合成器。

训练好的模型对输入数据进行分词、分句、节奏分析等,映射出合适的声学特征,然后声学模型(声码器)合成音频。

  • 优点:原始录音数据量小;流利和自然单词之间的协作过渡。
  • 缺点:音质有损失,不如拼接波;机械感强,噪音大。

AI音频合成的基本原理有哪些?你是否了解?

3。端到端语音合成技术

端到端语音合成技术是目前最常见的技术。它使用方法来学习神经网络并使用编码器注意机制-解码器声学模型(Encoder-Attention-Decoder)允许直接输入文本或语音字符。

中间是黑匣子部分,最后带出频谱和声波来合成音频,简化了复杂的语言分析部分和特征提取过程。

端到端合成大大降低了对语言知识的要求,可以实现多种语言的语音合成。通过端到端合成音频,效果进一步优化,变得更加自然,更接近真人的效果。

现在语音制作领域应用广泛、效果优良的产品都是基于端到端合成框架来实现的。模型性能和应用能力的提升逐渐成为主流。

  • 优点:对语言知识的要求降低;合成的音频自然,接近人声,效果好;与参数合成一样,它几乎不需要录音。
  • 缺点:黑盒模型,合成音频无法手动调整;复杂的合成任务需要更多的资源。

AI音频合成的基本原理有哪些?你是否了解?

当前的开源模型正在不断更新。当今最流行的端到端综合模型包括Tacotron2Transformer-TTSWavLM其他模型。

3。影响应用能力的关键因素

AI音频合成的基本原理有哪些?你是否了解?

4。输入类型

AI音频合成的基本原理有哪些?你是否了解?

5。效果指标

1。 MOS 评分

定义:请一些行业专家对您的合成音频效果进行评分。分数范围为 1 至 5,最终分数为平均值。

这是一个相对主观的评级,没有具体的评级标准。基于个人对音色的喜好,对合成音频内容场景的掌握和对语音合成的理解是高度相关的。

mos值虽然是一个比较主观的测试方法,但也有一些可以看到的标准。比如合成音频中,多音字的发音,当前场景中数字如何分配,英文如何播音,节奏​​方面,单词是否一起播音,是否有重音。按压的地方,以及该地方是否有休息的地方。其合理性和音色是否适合当前场景?都可以作为得分或失分时的依据。

2。 ABX测试

定义:众所周知的AB测试,在同一场景中选择相同的文字和声音,使用不同的模型合成来比较哪个更好,这也做出了主观评估。 。

但是有一定程度的比较。哪种模型更适合当前场景,合成效果更好。

3。其他指标

围绕清晰度自然度音频相似度。 以中文为例,其他一些指标包括PER(拼音-不包括音调错误率,越低越好)、PTER(拼音-包括音调错误率,越低越好)、Sim(真人语音。)等式,越高越好)等。

6. 应用场景

AI音频合成的基本原理有哪些?你是否了解?

1.文本语音合成(TTS)

目前技术发展比较成熟,市场上已有多家公司推出(科大讯飞、出门问问、SPEED等),已开发出商业产品,主要聚焦应用场景为AI语音合成

AI音频合成的基本原理有哪些?你是否了解?

AI音频合成的基本原理有哪些?你是否了解?

AI音频合成的基本原理有哪些?你是否了解?

虚拟真人主播

2。声音迁移/声音克隆(SVC)

流行的“AI Stefanie”就是音色克隆的代表之一。只需要特定训练集的几次录音即可将输入的文本或语音转换为目标模型的音色

现在一些商业产品正在尝试推广此功能。

AI音频合成的基本原理有哪些?你是否了解?

AI音频合成的基本原理有哪些?你是否了解?

现在有支持个人训练的开源模型,只需满足硬件限制(显存6GB以上的NVDIA显卡,Windows系统)。

比如比较主流的模型so-vits-svc部署后可以直接通过webui进行训练。

github仓库地址:so-vits-svc/README_zh_CN.md at 4.1-Stable·svc-develop-team/so-vits-svc·GitHub

音频合成的知识介绍就到此结束了,有兴趣的同学可以尝试模型练习声音克隆来了解更多,实践出真知~

本文引用数据来源:

易管千帆:https://qianfan.analysys.cn/

来源:白金星星

版权声明

本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

热门