Tuesday, September 24, 2019

一点点小想法

基于Kate winslet VC的想法
当数据量充足时
用Decoder to phoneme再synthesis to speech的方法已经可以做出比较好的VC或者TTS系统了
那么有什么方法可以甄别真实的录音和转换的语音吗?

一个方法是借鉴图片里的水印
对像素进行微小扰动
隐藏在图片里不影响肉眼对图片的理解
但是可以滤波器提取水印
那么我们可不可以在转换后的语音中加入声纹水印
同样不干扰听感
而且对于一些扰动,比如negation, shift, 滤波等有足够的鲁棒性
应该是比较有意思的课题

No comments:

Post a Comment