【亚博提款规则】中国科学技术大学副教授凌震华:基于表征解耦的非平行语料话者转换|CCF-GAIR2020

本文摘要:按:今年8月2日至9日,全世界人工智能技术和智能机器人高峰会(CCF-GAIR2020)在深圳市完满举办。

按:今年8月2日至9日,全世界人工智能技术和智能机器人高峰会(CCF-GAIR2020)在深圳市完满举办。CCF-GAIR2020高峰会由中国计算机学会(CCF)举办,、香港科技大学(深圳市)协同筹办,鹏城实验室、深圳人工智能技术与智能机器人研究所承办。从二零一六年的学产融合,17年的产业链落地式,2018年的竖直细分化,今年的人工智能技术40周年,高峰会一直着眼于打造出中国人工智能技术和智能机器人行业经营规模较大 、规格型号最大、跨界营销较广的学术研究、工业生产和理财平台。8月8日,在由深圳人工智能技术学好、CCF视频语音会话与听觉系统专业承办的「最前沿语音识别技术」盛典上,我国科技进步高校电子技术与信息内容科学系副教授职称凌震华干了名为《基于表征解耦的非平行语料话者转换》的主题风格演说。

凌震华副教授职称凌震华副教授职称关键研究领域包含视频语音信号分析和自然语言理解解决。主持人与参加多种自然科学基金、我国关键产品研发方案、安徽视频语音重点等科研课题,已论文发表100余篇,毕业论文总计被引4000多次,获国家科技进步奖二等奖和IEEE信号分析学好最好青年人创作者毕业论文奖。

在BlizzardChallenge国际性语音识别技术性测评、VoiceConversionChallenge国际性语音转换技术性测评等主题活动中数次得到 检测指标值第一名。凌震华副教授职称现为电气设备电子工程师学好(IEEE)高級vip会员、中国计算机学会语音听觉与会话专业委员会、我国应用语言学会语音学联合会学术委员会委员会、全国各地人机对战语音通讯学术会常设机构联合会委员会。

2014-2018年曾任IEEE/ACMTASLP刊物副编写。在演说中,凌震华副教授职称关键从语音转换所根据的语料库种类考虑,详细介绍了平行语料库下完成语音转换的技术性演化全过程,并从而拓宽到非平行语料库下的语音转换。

在其中在平行语料库标准下,传统式语音转换根据GMM(高斯函数混和模型)完成。二零一三年后深度神经网络技术性被导入语音转换每日任务,根据产生式训炼的深层神经元网络(GenerativeTrainedDeepNeuralNetwork,GTDNN)等模型陆续被明确提出。但是不论是GMM還是DNN,都遭遇源与总体目标视频语音帧两端对齐全过程中出現的出现偏差的原因和不科学难题。近些年明确提出的序列到序列(seq2seq)语音转换方式能够合理改进这一难题,提高变换视频语音的当然度与相似性。

进一步,凌震华副教授职称提到了在非平行语料库标准下的语音转换,并表明这类情景普遍现象于具体运用中,也更有难度系数。根据非平行数据信息结构平行数据信息,及其分离出来视频语音中的文字与话者定性分析,是完成非平行语音转换的两根关键技术性方式。

接着,凌震华副教授职称关键详细介绍了所明确提出的根据特点解耦的序列到序列语音转换方式,该方式在序列到序列模型架构下完成视频语音中文字相关内容和话者相关内容的分离出来,获得了好于传统式逐帧解决方式的非平行语音转换品质,贴近应用同样经营规模平行数据信息的序列到序列语音转换实际效果。最终,凌震华副教授职称表明:我们在开展语音转换的全过程中,序列到序列建模方法在时间调节、长时关联性模型等层面有其优点,可是将该方式从平行数据信息标准营销推广到非平行数据信息标准存有挑戰。特点解耦是处理这一难题的重要途径,根据序列到序列架构下的模型构造与损失函数设计方案能够获得相对性单独的文字与话者定性分析,进一步完成非平行数据信息标准下的高品质语音转换。

下列是凌震华副教授职称在CCF-GAIR2020「最前沿语音识别技术」盛典中的演说內容全篇,对其开展了不更改本意的整理出来:感谢你们,今天我的汇报题型是《基于表征解耦的非平行语料话者转换》。以前诸位教师早已详细介绍了语音识别技术行业的多个科学研究每日任务,如语音识别技术、视频语音分离出来与提高等。话者变换是一种视频语音形成的每日任务,另外这一每日任务也和讲话人的身份证信息有关——以前详细介绍的语音识别技术是以视频语音中鉴别真实身份,而话者变换是对视频语音中身份证信息的操纵和调节。

我的研讨会紧紧围绕三个一部分开展:话者变换的每日任务界定;平行语料库和非平行语料库的话者转换规则;根据定性分析解耦的非平行语料库话者转换规则。话者变换,又被称为语音转换,英语名叫VoiceConversion,指的是对源讲话人的视频语音开展解决,使它听起来贴近总体目标音标发音人,另外维持视频语音內容不会改变。对比于人工智能算法行业的面部更换工作中,如Deepfake等,话者变换是对视频语音数据信号中的讲话人身份证信息开展解决,其主要用途包含游戏娱乐化运用和人性化的语音识别等。

另外,真实身份的密名化、一致化也会应用到话者变换技术性。话者变换技术性历经了从标准方式到统计分析模型的发展史。

目前的根据统计分析模型的话者转换规则,其变换全过程一般包含三个关键流程:源讲话人语音录入后,最先历经声码器从视频语音数据信号中提取声学特点,如梅尔谱、基频等;进一步根据声学模型P(Y|X)开展由源讲话人声学特点X到总体目标讲话人声学特点Y的投射;投射获得的声学特点最终根据声码器重新构建视频语音数据信号。今日大家详细介绍的內容关键紧紧围绕正中间的统计分析声学模型进行。在针对话者变换每日任务的情况详细介绍后,下边主要详细介绍平行语料库和非平行语料库标准话者变换每日任务的差别、关键方式,及其大家做了的一些有关工作中。那麼什么叫平行语料库?在训炼环节,假如源和总体目标2个讲话人诵读过一样的文字,就可以获得她们中间的平行语料库。

根据平行语料库,能够立即创建变换模型叙述2个讲话人声学特点中间的投射关联。在变换环节,键入新的源讲话人响声,就可以根据变换模型开展总体目标讲话人声学特点的预测分析。在深度神经网络出現以前,在平行语料库语音转换中,最經典的方式是根据高斯函数混和模型的方式。

其基础的对策是,2个讲话人视频录制了平行语料库后,充分考虑两人的声音速度、间断等不一致产生的声学特点序列长短差别,必须先运用动态性時间整齐(DTW)优化算法开展序列的两端对齐,获得同长的X序列和Y序列。然后,将每一个時刻的源讲话人声学特点与总体目标讲话人声学特点开展拼凑,进一步训炼获得2个音标发音人声学特点的联合概率模型P。进一步,大家由P能够计算出P(Y|X)。在变换的情况下大家就可以把源讲话人的声学特点X送至模型中,将总体目标音标发音人声学特点Y预测分析出去。

应用的预测分析规则包含最少均方误差和最大似然可能等。但是,根据GMM声学模型的语音转换品质還是不尽人意。一方面变换的音色不足高,响声听起来有机械设备感;二是和总体目标人的相似性不足好。

这种都和声学模型的精密度不够有关系。对于之上难题,自二零一三年刚开始,深度神经网络被广泛运用与语音转换的每个技术性阶段,如特点表明、声学模型、声码器等。今日重点关注的是声学模型,即怎样更强的模型P。

如今来详细介绍大家初期所科学研究的一种根据深层神经元网络的语音转换方式,该方式应用的是逐帧变换的DNN声学模型。因为将DNN模型立即用以源讲话人声学特点到总体目标讲话人声学特点的投射,并根据传统式MMSE规则开展模型主要参数升级,所获得的特性提高比较有限。因而,大家设计方案了一种产生式训练法,用以训炼语音转换DNN模型主要参数。其构思是,先训炼2个受到限制玻尔兹曼机模型,将X和Y各自投射到相对性紧凑型、高效率的二值定性分析;随后再创建一个双重想到记忆力模型,叙述2个音标发音人二值定性分析间的联合概率;最终组成RBM和BAM,产生DNN模型,该模型主要参数已不必须根据MMSE规则的主要参数升级。

试验结果显示,该模型比照GMM在主观性品质上具备显著优点。无论是前边说到的GMM模型還是DNN模型,叙述的全是帧到帧的投射关联,在模型训炼环节都离不了帧两端对齐流程。两端对齐的全过程免不了造成一些两端对齐的出现偏差的原因与不科学的地区,这会危害语音转换的实际效果。此外,那样的帧到帧投射模型不可以变换时间。

而具体情况是有些人讲话较为快,有些人讲话较慢,如何把讲话人的声音速度特性反映出去呢?之后,大家遭受序列到序列神经元网络在翻译机器、语音识别技术、语音识别等行业的运用启迪,将序列到序列模型导入话者变换,以改进之上难题。大家的对策是运用融合注意力机制的伺服电机-视频解码器模型,立即创建键入源讲话人声学特点序列与总体目标音标发音人声学特点序列中间的变换关联,正中间不用两端对齐实际操作,能够完成针对时间的操纵和调节。

将序列到序列模型用以话者变换每日任务,遭遇序列长短较长、信息量比较有限等艰难。因而我们在模型总体设计上也干了一些目的性的考虑到。

它是大家设计方案的模型构造。模型键入除开从源讲话人视频语音中获取的声学特点序列外,还拼凑了运用语音识别技术声学模型获取的文字有关特点,以帮助序列两端对齐。

模型輸出就是以总体目标讲话人平行句子中获取的声学特点序列。在其中輸出与键入序列长短并不一致。模型选用融合注意力机制的伺服电机-视频解码器构造。为了更好地减少序列长短太长针对模型的危害,我们在伺服电机中应用了金字塔结构的递归神经元网络,以确保两端对齐实际效果。

下列是试验結果。图上横坐标轴是真正总体目标讲话人视频语音的时间,纵坐标是变换后的视频语音时间。假如语音转换模型有比较好的时间调节实际效果,那麼数据信息点应当落在直线上。

图上翠绿色点所显示的是传统式逐帧转换规则的結果,从这当中能够看得出源与总体目标音标发音人中间明显的声音速度差别。鲜红色点相匹配的是所明确提出的序列到序列语音转换方式,能够看得出其获得了优良的时间变换实际效果。进一步,大家来讨论非平行语料库标准下的语音转换。这是一个更有趣味性的每日任务。

因为许多 情况下大家必须应用现有数据信息搭建话者变换系统软件,因而非平行数据信息标准在具体运用中普遍现象。现有的非平行语料库语音转换大致有两个构思:根据非平行数据信息结构平行数据信息。构造方法包含语音识别、帧选择等。

CycleGAN神经元网络模型还可以归于该类方式。分离出来视频语音中的文字与话者定性分析。包含运用语音识别器获取语素后验概率的方式,及其根据自编码器与变分自编码器的方式等。

以VoiceConversionChallenge2018国际性话者变换测评为例子。其包含2个每日任务,主每日任务是平行数据信息标准,辅每日任务是是非非平行数据信息标准。大家对于本次测评,设计方案完成了根据PPG的语音转换方式。

该方式运用语音识别技术模型从源话者视频语音中获取短板特点做为话者不相干的文字內容定性分析,另外运用总体目标讲话人数据信息创建文字內容定性分析到声学特点的投射模型。因为该投射模型对于每一个总体目标讲话人各自创建,因而不用平行语料库就可以完成。在VCC2018测评結果中,大家递交的参检测系统在2个每日任务上均获得了变换视频语音当然度与相似性指标值的第一名,在其中当然度均值建议分做到四分,相似性做到80%之上。

最终我再介绍一下大家最近进行的根据序列到序列模型架构的非平行语音转换方式的科学研究工作中。尽管前边详细介绍的VCC2018方式能够获得不错的非平行语音转换实际效果,可是其仍存有一些不够。比如,根据语音识别器获取的文字內容定性分析中无法确保不带有讲话人基本信息、语音识别技术模型和变换形成模型沒有协同训炼、仍选用帧到帧投射的模型架构等。因而,大家明确提出了一种根据定性分析解耦的序列到序列非平行语音转换方式。

该方式在序列到序列模型架构下,能够完成针对视频语音中文字相关内容和话者相关内容的合理分离出来。其核心内容如下图所示。在训炼环节,运用鉴别伺服电机和话者伺服电机各自获取视频语音中的文字和话者有关定性分析。

另外大家根据训炼规则的设计方案确保这二种定性分析独立同分布,不容易纠缠不清。在训炼全过程中,大家也会运用视频语音相匹配的转写文字。

从转写文字中获取的信息内容能够为从视频语音中获取文字定性分析出示合理参照。在生成环节,根据组成从源讲话人视频语音中获取的文字定性分析,及其总体目标讲话人的话者定性分析,能够完成从源讲话人视频语音到总体目标讲话人视频语音的变换。全部的模型构造如下图所显示,由文字伺服电机、鉴别伺服电机、话者伺服电机、輔助支持向量机、视频解码器共五个关键控制模块组成。

在其中鉴别伺服电机和视频解码器相近与语音识别技术与语音识别模型,均选用融合注意力机制的伺服电机-视频解码器构造。文字伺服电机用以从转写文字中获取文字定性分析。

视频解码器能够接受来源于鉴别伺服电机或是文字伺服电机的輸出,融合话者伺服电机得出的话者定性分析,开展声学特点的重新构建。輔助支持向量机用以完成与鉴别伺服电机的对抗学习,以确保鉴别伺服电机获取的文字定性分析中不带有讲话人基本信息。因为時间缘故,各控制模块实际的模型构造已不一一进行详细介绍。

之上各控制模块在训炼环节协同提升。为了更好地完成合理的定性分析解耦,大家共设计方案了7种损失函数用以具体指导模型主要参数升级,包含语素归类损害、话者定性分析损害、比照损害、抵抗训炼损害、重新构建损害等。下列是一些试验結果。从客观性测评結果中能够看得出,比照CycleGAN和VCC2018二种非平行语音转换方式,大家明确提出的方式能够获得最优化的梅尔倒谱失帧及其清浊裁定不正确。

在变换时间出现偏差的原因上,所提方式因为选用了序列到序列模型架构,也明显好于别的二种方式。在主观性测评中,大家所明确提出的非平行语音转换方式,也获得了贴近序列到序列平行语音转换的特性。汇报总结內容,序列到序列话者转换规则在时间调节、长时关联性模型等层面有其优点,但
是将该方式从平行数据条件营销推广到非平行数据条件存有挑戰。特点解耦是处理这一难题的重要途径,根据序列到序列架构下的实体模型构造与损失函数设计方案能够获得相对性单独的文字与话者定性分析,进一步完成非平行数据条件下的高品质语音转换。

另一方面,目前得话者转换技术性还遭遇一些挑戰,包含跨语系转换、低质量数据情景、可控性转换、即时转换等,这种全是事后非常值得进一步深入分析的內容。之上就是我的详细介绍,感谢你们!原创文章内容,没经受权严禁转截。详细信息见转截注意事项。

本文关键词:亚博提款能秒到账,亚博提款规则,亚博提款安全有保障

本文来源:亚博提款能秒到账-www.setuptext.com

相关文章