基于Kate winslet VC的想法
当数据量充足时
用Decoder to phoneme再synthesis to speech的方法已经可以做出比较好的VC或者TTS系统了
那么有什么方法可以甄别真实的录音和转换的语音吗?
一个方法是借鉴图片里的水印
对像素进行微小扰动
隐藏在图片里不影响肉眼对图片的理解
但是可以滤波器提取水印
那么我们可不可以在转换后的语音中加入声纹水印
同样不干扰听感
而且对于一些扰动,比如negation, shift, 滤波等有足够的鲁棒性
应该是比较有意思的课题
当数据量充足时
用Decoder to phoneme再synthesis to speech的方法已经可以做出比较好的VC或者TTS系统了
那么有什么方法可以甄别真实的录音和转换的语音吗?
一个方法是借鉴图片里的水印
对像素进行微小扰动
隐藏在图片里不影响肉眼对图片的理解
但是可以滤波器提取水印
那么我们可不可以在转换后的语音中加入声纹水印
同样不干扰听感
而且对于一些扰动,比如negation, shift, 滤波等有足够的鲁棒性
应该是比较有意思的课题
No comments:
Post a Comment