语音识别芯片也叫语音识别IC,与传统的语音芯片相比,语音识别芯片最大的特点就是能够语音识别,它能让机器听懂人类的语音,并且可以根据命令执行各种动作,如眨眼睛、动嘴巴(智能娃娃)。除此之外,语音识别芯片还具有高品质、高压缩率录音放音功能,可实现人机对话。
语音识别芯片所涉及的技术包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
嵌入式语音识别系统都采用了模式匹配的原理。录入的语音信号首先经过预处理,包括语音信号的采样、反混叠滤波、语音增强,接下来是特征提取,用以从语音信号波形中提取一组或几组能够描述语音信号特征的参数。特征提取之后的数据一般分为两个步骤,第一步是系统“学习”或“训练”阶段,这一阶段的任务是构建参考模式库,词表中每个词对应一个参考模式,它由这个词重复发音多遍,再经特征提取和某种训练中得到。第二是“识别”或“测试”阶段,按照一定的准则求取待测语音特征参数和语音信息与模式库中相应模板之间的失真测度,最匹配的就是识别结果。
LD332X系列语音识别芯片的工作原理:
LD3320提供的语音识别技术,是基于“关键词语列表”的识别技术:ASR(Autospeechrecognition)技术。
语音识别芯片完成的工作就是:把通过MIC输入的声音进行频谱分析-》提取语音特征-》和关键词语列表中的关键词语进行对比匹配-》找出得分最高的关键词语作为识别结果输出。
语音识别芯片能在两种情况下给出识别结果:
1)外部送入预定时间的语音数据后(比如5秒钟的语音数据),芯片对这些语音数据运算分析后,给出识别结果
2)外部送入语音数据流,语音识别芯片通过端点检测VAD(voiceacTIvitydetecTIon)检测出用户停止说话,把用户开始说话到停止说话之间的语音数据进行运算分析后,给出识别结果
对于第一种情况,可以理解为设定了一个定时录音(比如为5秒钟),芯片在5秒钟后,会停止把声音送入识别引擎,并且根据已送入引擎的语音数据计算出一个识别结果。
对于第二种情况,需要了解VAD的工作原理:
VAD(VoiceAcTIvityDetecTIon)技术是在一段语音数据流中,判断出哪个时间点是人声的开始,哪个时间点是人声的结束。判断的依据是,在背景声音的基础上有了语音发音,则视为声音的开始。而后,检测到一段持续时间的背景音(比如600毫秒),则视为人声说话结束。
通过VAD判断出人声说话的区域后,语音识别芯片会把这期间的声音数据进行识别处理后,计算出识别结果。
需要说明的是,除了以上两种情况外,语音识别算法无法“主动”地判断出是否识别出了一个结果。这是因为,在计算的过程中的任何时刻,语音识别器都会对已送入识别芯片的声音数据进行分析,并根据匹配程度为识别列表中的关键词语进行打分,最匹配的打分最高。但是,由于识别算法不知道用户后面是否还继续说语音,所以无法“主动”地判断已经识别出一个结果。
比如,识别列表中有两个关键词语分别是“李晓”和“李晓明”,当用户说到“晓”这个音节时,在识别芯片内部是“李晓”的得分最高,但此时识别芯片是无法给出识别结果。随着用户说出“明”音节后,“李晓明”则成为得分最高。此时,用户停止说话,或者是定时录音已到,使得识别芯片可以判断出用户已经停止说话了,才能给出识别结果是“李晓明”。
按照使用者的限制而言,语音识别芯片可以分为特定人语音识别芯片和非特定人语音识别芯片。
特定人语音识别芯片
特定人语音识别芯片是针对指定人的语音识别,其他人的话不识别,须先把使用者的语音参考样本存入当成比对的资料库,即特定人语音识别在使用前必须要进行语音训练,一般按照机器提示训练2遍语音词条即可使用。
非特定人语音识别芯片
非特定人语音识别是不用针对指定的人的识别技术,不分年龄、性别,只要说相同语言就可以,应用模式是在产品定型前按照确定的十几个语音交互词条,采集200人左右的声音样本,经过PC算法处理得到交互词条的语音模型和特征数据库,然后烧录到芯片上。应用这种芯片的机器(智能娃娃、电子宠物、儿童电脑)就具有交互功能了。
非特定人语音识别应用有的是基于音素的算法,这种模式下不需要采集很多人的声音样本就可以做交互识别,但是缺点是识别率不高,识别性能不稳定。
按照说话方式的连续性,语音识别芯片又可分为非连续语音识别和连续语音识别。
非连续语音识别芯片
对于非连续语音来说,识别所说的每一个字必须分开辨认,要求说完每个字后都要停顿。
连续语音识别芯片
连续语音识别可以一般自然流利的说话方式来进行人性化的语音识别,但由于关系到相连音的问题,很难达到好的辨认效果。