2023年7月12日下午7点12分,在B站20多万观众粉丝的见证和祝福下,这位来自哔哩哔哩的世界首位中文虚拟歌手洛天依迎来了自己十一周年的生日会。除了一如既往温暖治愈的歌声外,此次洛天依与观众互动交流时音色活泼的流畅语音也受到粉丝们的特别关注。
自洛天依出道至今,她的说话交流均是通过歌声合成引擎语调或是真人配音来完成制作。而生日会直播里高度流畅的语音,也被观众们普遍认为是高水平的AI语调校。其实大家有所不知的是,今年生日会洛天依的说话发声是由全新的方式——人工智能语音技术创造而成。接下来,一起探秘天依背后的“幕后团队”是如何帮助虚拟歌手进化出更自然的说话能力!
作为首位中文虚拟歌手,洛天依独特的治愈歌声音色受到了粉丝和大众的广泛喜爱。今年,Vsinger和哔哩哔哩鸣实验室联手为洛天依定制打造AI语音声库。与业界标准化AI语音不同的是,天依AI语音不仅在音色上高度还原了她标志性的歌声音色,也在合成效果上平衡了电子机械感和拟人自然感。这样极具突破挑战的设计,帮助天依延续了她独树一帜的音色,也让她的AI发声效果更吻合虚拟歌手的设定。
哔哩哔哩鸣实验室的方案与通用AI声库制作流程不同的是,洛天依的声音本身也是由技术生成的,而非人类自然产生的声音,所以不能像大多数声音定制的方案一样,简简单单通过数据采集来定制声线。
想要得到洛天依说话音频,可以利用洛天依歌声声库,使用Vocaloid等音频合成软件,按照真人说话的韵律规则,手动调出洛天依说话音频,俗称语调。这个方法虽然能还原音色,但是会有很多局限性。这个方案需要调教师有较高水平的语调校的经验,即使这样也通常很难调教出自然流利的语音内容,而且也很难量产。
为了保持说话音色和唱歌音色的高度一致,并使说话显得自然流畅,采取了一系列优化。首先,在对洛天依歌声声库进行深入研究和分析的基础上,定制了一版专门的AI语音模型。该方案在保证内容完整性和音频自然度的同时,能更好地解耦音色、音高和语义等信息。通过将这些要素分开,能更好地捕捉到洛天依独特的音色特征,从而高度还原了洛天依的音色。
在模型训练过程中,哔哩哔哩鸣实验室以洛天依歌声声库作为主要的数据源,为了增加模型的泛化能力和适应性,通过使用多个音色的说话、唱歌数据,让模型学习到不同发音人之间学习到音色、语义、唱腔等差异和关联,从而提高模型对于说话和唱歌声音的理解和转换能力。使得在保留洛天依唱歌声线的前提下,可以流利自如的进行语言表达。
在基础特征上使用了哔哩哔哩自研语音识别大模型来提供语义信息,同时也加入了诸如呼吸音的非语义信息来丰富效果。在保证说话与唱歌音色保持高度一致的前提下,也实现了能灵活按需调整语调、语速、语气等效果,从而使得声音更加自然生动。此外,为了输出更高质量的洛天依语音,也引入两类不同的判别器,进一步提高了合成音频与目标音频音色的相似度以及合成音频的音质。
同样,在2023年举办的BML和BW洛天依线下展演中,也使用了AI语音声库。除了洛天依,另一位Vsinger虚拟歌手言和也因哔哩哔哩鸣实验室的技术支持,而首次在今年十周年生日会直播上通过AI语音发声交流,相信未来会有更多内容与大家互动。
以洛天依AI语音为契机,看到了人工智能语音技术为虚拟歌手赋予真实的发声能力。在未来,或许能见证AI语音为创作开启更多无限可能,为观众带来更多听觉震撼,更多的感动与共鸣!