HiFi

百科大全

更新时间：2025-10-05 09:17:4632

admin管理员组
文章数量:1794759

HiFi

会议：2020 NIPS
单位：韩国KAKAO
作者：Jungil Kong， Jaehyeon Kim
文章主页
开源代码

使用心得：
- hifigan的收敛速度和效果都比PWG要好一点；
- hifigan预测真实值表现良好，但是和声学模型接在一起之后有电音（杂音），主要是两个系统的mismatch(真实mel-spec和预测的mel-spec之间的差异）
- 2的解决方法：声学模型预测的更精准一些；vocoder用一些predict-mel训练，增强泛化性。
  
  文章目录
  - - abstract
    - HiFi-GAN
    - - 生成器结构
      - MSD: multi-scale discriminator
      - MPD：multi-period discriminator
      - 目标函数
    - experiments
    - - ablation study
      - unseen speaker的泛化

abstract

motivation:在推理时间 & 生成高保真音质方面均作出改进

观点：modeling periodic patterns of an audio is crucial
结果：22.05k的单人音频生成质量和录制语音接近；优点全CNN网络，前向推理速度非常快

HiFi-GAN

包括一个生成器和两个判别器（multi-scale & multi-period)，

生成器结构

ConvTranspose：输入mel-spec，通过卷积上采样到和wav采样点同等长度；
multi-receptive field fusion (MRF) module：res-block conv，作者设置了四种不同长度的生成器，可通过调节参数实现合成效率 & 生成质量的平衡。

MSD: multi-scale discriminator

因为MPD是对信号重采样为不同的周期（离散点进行判断），因此加入MSD对连续点语音进行判别；
MSD包含三个子判别器：对连续的语音采样点进行建模，分别建模原始语音，✖️2 average-pooled audio，✖️4 average-pooled audio。是对平滑后波形的判断。

MPD：multi-period discriminator

- motivation：语音由不同的周期信号组成，重建语音数据需要对不同的周期模式进行建模。
对不连续的采样点进行建模，设置素数【2，3，5，7，11】为不同的period，按照period将音频采样点reshape为二维信号，然后用卷积单独处理周期重采样后的信号。
如上图所示：可以看成大周期sin signal+小周期sin signal，不同的采样间隔建模到不同周期的信号。

目标函数

Feature Matching Loss：衡量判别器对于真实样本和生成样本预测的结果偏差

experiments

对比1:LJSpeech的效果，baseline选择官方开源的WaveNet，WaveGlow，MelGAN
对于unseen speaker的泛化效果：VCTK数据集，9个人作为unseen speaker，剩下的用于训练WaveNet，WaveGlow，MelGAN， hifigan
为了对比合成质量和合成速度，分别设置三组参数V1，V2，V3，参数量依次越来越小；

ablation study

MPD模块对结果的改善最显著

unseen speaker的泛化

本文标签： HIFI

版权声明：本文标题：HiFi 内容由林淑君副主任自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.xiehuijuan.com/baike/1710491423a569925.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

写会百科网

HiFi

HiFi

文章目录

abstract

HiFi-GAN

生成器结构

MSD: multi-scale discriminator

MPD：multi-period discriminator

目标函数

experiments

ablation study

unseen speaker的泛化

更多相关文章

经典HIFI耳机IE80音质怎么样

HiFi耳机报价及图片大全

hifi耳机什么牌子比较好

最值得买的HIFI声卡推荐

每周HIFI② ：穿越40年时光，传奇Hifi耳机DT880

HiFi

发表评论

推荐文章

C语言函数：编程世界的魔法钥匙（1）

对AIGC行业的看法

【C++学习】模板初阶&amp;&amp;STL简介

NASA：GES DISC 的 ATMOS L1 光谱和运行日志 V3 (ATMOSL1)大气痕量分子光谱（ATMOS）1 级产品

nexus Artifact upload failed Repository with ID thirdparty does not allow updating artifacts

热门文章

8.25题目：多少场上王者

Java复习【知识改变命运】第一章

剖析C语言字符串函数

COM开发中的Win32 SDK头文件、宏定义和HRESULT

Python考试基础知识

C#开源的两款功能强大的录屏神器

Excel POI设置自适应宽度和poi创建excel表格的代码DEMO,泛型对象T extends OrdeInfoVo赋值

泛型模板化设计使用

杂谈c语言——6.浮点数的存储

Oracle 轻松migrate至 MariaDB

最新文章

Linux系统之jobs命令的基本使用

手把手教学！简单上手“AI复活”技术

单细胞Seruat和h5ad数据格式互换(R与python)方法学习和整理

JVM专题

学会5个图表，让数据分析简洁高效

写“藤”的作文1200字

有关于进步的作文

幼儿园见习报告

语数英寒假作业上册答案五年级

伊索寓言经典语词句摘抄

【C++学习】模板初阶&&STL简介