-
-
7什么是声纹?它会被模仿导致识别设备误判吗? 声纹是生物识别特征的一种,是在说话人发声时提取出来的,可以作为说话人的表征和标识,能与其他人相互区别的语音特征,以及基于这些特征或参数所建立的语音模型的总称。 声纹识别又称为说话人识别,是从说话人发出的声音频谱图中提取身份特征信息和声纹特征,再把声信号转换成电信号,用计算机通过相关算法进行比对识别的技术。 清华大学信息技术研究院教授郑方说,语音信号之所以被形
-
401.人机交互必须要先唤醒吗? 语音交互流程被划分为五个环节 – 唤醒、响应、输入、理解、反馈。其中唤醒是每一次用户与语音产品交互的第一个接触点,唤醒环节的体验在整个语音交互流程中至关重要,它的体验好坏将直接影响用户对产品的“第一印象”。就目前市面上常见的语音交互产品来说,一个眼神或者一个动作还不能引起它的注意,因此需要定义一个将产品从待机状态切换到工作状态的词语,即所谓的“唤醒词”。比如“小度小度”“若
-
2声纹识别由三部分组成:特征,模型,得分。 特征方面: MFCC/PLP感知线性预测/FBank等短时频谱特征; D-vector (谷歌2014年提的) Deep feature / Bottleneck feature /Tandem feature (三者不是并行关系,可以搜关键词查看相关论文) 模型方面: GMM-UBM JFA (Joint Factor Analysis) GMM-UBM i-vector Supervised-UBM i-vector DNN i-vector (2014年微软Yun Lei等人提的) 得分方面: SVM(早期与GMM-UBM一起使用最为后端分类器) Cosine Distance (CDS) LDA PLDA 当然,随着神经网络的发展和训练数据的庞大