查看原文
其他

声音“克隆”要多久?仅需一句话,快速复刻你的声音

AISpeech 思必驰 2023-09-02


“车辆已启动,走着。”

“开了挺长时间了,歇会吧,也让我歇会。”


在漫长的行车路程中,明星导航语音包因其独有的音色为我们带来了很多欢乐。这些搞笑的明星音色正是通过声音复刻制作而成。


近期,思必驰推出一句话复刻功能,用户仅需录制一句话,即可体验“克隆”后的声音。目前,声音复刻技术可应用于导航播报、讲故事、新闻播报、短视频配音等场景。


点击下方音色,猜猜哪个是复刻音色?


答案

点击下方空白处获得答案

A复刻 B真人


仅需一句话,“克隆”你的声音 

“声音复刻”是语音合成技术(TTS ,Text To Speech)的个性化应用。在传统的声音复刻过程中,往往需要耗费大量时间。


此前,思必驰DUI平台上线声音复刻技术,基于多年累积的多说话人的声学特征,将新数据输入既有的模型参数里进行迁移学习和精调,通过10句录音等少量语料,就可训练出高相似度的声音模型。


本次思必驰推出一句话复刻,用户仅需录制一句约二三十字的话,便可进行声音复刻,大大减小了对语音样本量的需求,进一步缩短了声音复刻的时间。

想要体验声音复刻的小伙伴,可以扫描上方小程序二维码,进入“小驰慧听”小程序,点击“声音复刻”栏目,输入一句话,即可“克隆”自己的声音。该小程序自带环境检测以及录制的音频质量检测,保障音频输入的质量,最大化还原用户的声音。


那么,思必驰一句话复刻具有怎样的特点呢?


●低数据量需求:

在声音复刻过程中,首先对录音进行降噪处理,然后对基础大模型局部更新参数,并提取该说话人的发音特征,使得在极少量数据的情况下仍能抓取该说话人的音色和发音习惯。因此,用户仅需输入一句约二三十字的话,即可进行声音复刻,相比以往更加便捷高效。


●无需音频标注:

在声音复刻过程中,无需开发人员进行音频标注,简化了复刻流程,提高了复刻效率,降低了成本。


●首帧延时小于300ms:

声音复刻需要经过模型训练和语音合成两个过程。目前,思必驰对声音进行模型训练仅需5分钟左右。首帧延时,即用户点击“合成”按钮到听到自己合成声音的时间,该时间小于300ms,大大提高了用户体验。


此外,思必驰支持全链路接入,仅使用一套SDK就可完成全部资源的使用,简单快捷。



声音复刻,让你的声音无处不在

我们曾幻想可以利用科技“克隆”一个自己,替自己完成低效的工作,那么,被“克隆”后的声音又可以帮助人类完成哪些工作呢?目前,声音复刻可应用于车载导航、儿童故事机、新闻播报、短视频配音、智能客服等,让你的声音在不同的场景中发挥出力量。

在儿童故事机场景中,通过复刻家长的声音,可以用儿童熟悉的亲人音色讲故事,让儿童时刻感受到父母的声音陪伴,同时将家长的时间解放出来。


在新闻播报场景中,复刻儿女的声音进行新闻播报,可以陪伴远在老家的父母,缓解父母的孤独感。


在车载导航中,家人朗读录制固定的文本,可以快速合成个性专属个人语音包。在每日上班途中,让家人的声音时刻相伴。


短视频配音场景中,声音复刻可以帮助视频创作者快速完成配音,提高内容生产效率。


在智能客服场景中,可以减少话务员的工作量,将话务员从重复的语音问答中解放出来。


声音复刻是语音合成(TTS)的子领域,是TTS的个性化应用。思必驰在语音合成领域已有多项核心专利加持。思必驰语音合成方法及系统(发明专利,专利号: ZL 2020 1 0706916.4)、基于隐马尔科夫模型的统计语音合成方法及装置(发明专利,专利号:ZL2015 1 0272044.4)、带有韵律的语音合成方法及系统(发明专利,专利号: ZL 2020 1 1643693.8)、语音合成模型训练方法和语音合成方法(发明专利,专利号: ZL 2020 1 1454223.7)等关键性技术获得国家专利。


目前,思必驰 “声音复刻”技术服务,支持男声、女声、童声的复刻,支持中、英文文本,支持UTF-8等多种文本格式,支持SSML标签控制。同时,该服务支持8k、16k、32k等多种采样率,以及mp3、wav、pcm等多种音频格式……


未来,思必驰将持续提升语音技术,为用户提供更高效便捷的语音服务,推进智能语音在各行各业的落地,为社会带来更有温度的技术服务。




—如有合作意向,请发邮件—

marketing@aispeech.com




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存