《The Application of Hidden Markov Models in Speech Recognition》论文学习
ABSTRACT:
隐马尔可夫模型(HMMs)为时变谱向量序列建模提供了一个简单有效的框架。因此,目前几乎所有的大词汇量连续语音识别(LVCSR)系统都是基于HMM的。虽然基于HMM的大词汇量连续语音识别的原理很简单,但是直接应用的话,会造成非常低的准确率并且对于改变操作环境的敏感度特别差。这篇综述的目的是首先提出基于HMM的LVCSR系统的核心架构,然后描述实现最先进性能所需的各种改进。这些改进包括特征投影、改进的协方差建模、鉴别参数估计、自适应和归一化、噪声补偿和多通道系统组合。文章最后以广播新闻与新闻产业的LVCSR为例进行了分析
对话记录,以说明所描述的技巧。
INTRODUCTION:
自动连续语音识别有很多潜在的应用,包括命令、听写、转译等等。而所有语音识别系统的核心都由一组统计模型组成,这些模型代表了被识别语言的各种声音。因为语音有时序结构并且能被编码为一组横跨音频范围的谱向量的序列,隐马尔可夫模型为建造这种模型提供了一种很自然的框架。虽然过去十多年的基本框架没怎么重大变化,但是在这个框架中开发的详细建模技术已经发展的贼复杂。上世纪80年代受限于计算能力,语音识别系统停留在离散词说话者依赖的大词汇系统或者全词小词汇说话者独立应用。在九十年代初期,关注点转到了连续非特定人识别。
Architecture of an HMM-Based Recogniser:
大型连续性语音识别器最主要的组件如下图:
语音信号作为输入从麦克风被转换成固定尺寸的声学向量的序列
Y
1
:
T
=
y
1
,
y
2
,
.
.
.
,
y
T
Y_{1:T} =y_1,y_2,...,y_T
Y1:T=y1,y2,...,yT,这个过程就是特征抽取。解码器随后寻找最佳匹配的词汇
W
1
:
L
=
w
1
,
w
2
,
.
.
.
,
w
L
W_{1:L} =w_1,w_2,...,w_L
W1:L=w1,w2,...,wL的序列,生成最可能的
Y
Y
Y,也就是编码器试图找到
w
^
=
a
r
g
m
a
x
w
P
(
w
∣
Y
)
(
2.1
)
\hat{w}= \mathop{argmax}\limits_w {P(w|Y )} (2.1)
w^=wargmaxP(w∣Y)(2.1)。但是直接建模
P
(
w
∣
Y
)
P(w|Y)
P(w∣Y)很困难,使用贝叶斯规则将2.1公式转换为
w
^
=
a
r
g
m
a
x
w
p
(
Y
∣
w
)
P
(
w
)
(
2.2
)
\hat{w}= \mathop{argmax}\limits_w{p(Y |w)P(w)} (2.2)
w^=wargmaxp(Y∣w)P(w)(2.2),
P
(
Y
∣
w
)
P(Y|w)
P(Y∣w)的可能性由声学模型决定,
P
(
w
)
P(w)
P(w)的可能性由语言模型所决定。(在实际应用中,声学模型是不归一化的,语言模型通常是由经验确定的常数和添加一个词插入惩罚,即在对数域中,总似然被计算为
l
o
g
P
(
Y
∣
w
)
+
α
l
o
g
(
P
(
w
)
)
+
β
∣
w
∣
log P(Y |w) + αlog(P(w)) + β|w|
logP(Y∣w)+αlog(P(w))+β∣w∣,其中
α
α
α的范围通常是
8
−
20
8-20
8−20,而
β
β
β的范围通常是
0
−
20
0-20
0−20。声学模型所代表的声音的基本单位是音素,例如,"bat"是由因素
/
b
/
/
a
e
/
/
t
/
/b/ /ae/ /t/
/b//ae//t/,英语需要这样的40个音素。对于任何给定的
w
w
w,相应的声学模型通过连接音素模型来合成单词,如发音字典所定义的那样。这些音素模型的参数是由语音波形及其正字法转录组成的训练数据估计的。语言模型通常是一个
N
−
g
r
a
m
N-gram
N−gram模型,其中每个单词的概率只取决于它的
N
−
1
N- 1
N−1祖先。通过统计适当文本语料库中的n元组来估计n元组参数。解码器通过使用修剪来搜索所有可能的单词序列,以删除不可能的假设,从而保持搜索的可处理性。当到达话语的末尾时,输出最有可能的词序列。另外,现代解码器可以生成包含最可能假设的紧凑表示的格。
以下部分将更详细地描述这些流程和组件。