かくれ‐マルコフモデル【隠れマルコフモデル】
隠れマルコフモデル
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2023/04/05 03:07 UTC 版)
隠れマルコフモデル(かくれマルコフモデル、英: hidden Markov model; HMM)は、確率モデルのひとつであり、観測されない(隠れた)状態をもつマルコフ過程である。
- ^ Baum, L. E.; Petrie, T. (1966). “Statistical Inference for Probabilistic Functions of Finite State Markov Chains”. The Annals of Mathematical Statistics 37 (6): 1554–1563. doi:10.1214/aoms/1177699147 2023年4月5日閲覧。.
- ^ Baum, L. E.; Eagon, J. A. (1967). “An inequality with applications to statistical estimation for probabilistic functions of Markov processes and to a model for ecology”. Bulletin of the American Mathematical Society 73 (3): 360. doi:10.1090/S0002-9904-1967-11751-8. Zbl 0157.11101 .
- ^ Baum, L. E.; Sell, G. R. (1968). “Growth transformations for functions on manifolds”. Pacific Journal of Mathematics 27 (2): 211–227. doi:10.2140/pjm.1968.27.211 2011年11月28日閲覧。.
- ^ Baum, L. E.; Petrie, T.; Soules, G.; Weiss, N. (1970). “A Maximization Technique Occurring in the Statistical Analysis of Probabilistic Functions of Markov Chains”. The Annals of Mathematical Statistics 41 (1): 164–171. doi:10.1214/aoms/1177697196. JSTOR 2239727. MR287613. Zbl 0188.49603.
- ^ Baum, L.E. (1972). “An Inequality and Associated Maximization Technique in Statistical Estimation of Probabilistic Functions of a Markov Process”. Inequalities 3: 1–8.
- 1 隠れマルコフモデルとは
- 2 隠れマルコフモデルの概要
- 3 概要
- 4 構成
- 5 推測
- 6 具体例
- 7 ビタビアルゴリズム
隠れマルコフモデル
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/12/24 03:55 UTC 版)
音声信号は、断片的あるいは短時間の定常信号と見ることができ、隠れマルコフモデル(Hidden Markov Model、HMM)が適用可能である。すなわち、10ミリ秒程度の短時間でみた場合、音声信号は近似的に定常過程と見なすことができる。従って、音声を多くの確率過程のマルコフ連鎖と考えることができる。 また、隠れマルコフモデルによる音声認識は自動的にトレーニングされ、単純で計算量もそれほど多くない。音声認識について考えられる最も簡単な設定では、隠れマルコフモデルは10ミリ秒ごとに例えば13次元程度の実数値ベクトルを出力するだろう。このベクトルはケプストラム係数から成る。ケプストラム係数は短時間の信号のフーリエ変換にコサイン変換を使って、その第一(最大)係数を取り出したものである。隠れマルコフモデルは、それぞれの観測されたベクトルの尤度を与える対角共分散のガウス分布の混合ともいうべき確率分布を持つ傾向がある。各単語や各音素はそれぞれ独自の出力分布を持つ。単語列あるいは音素列に関する隠れマルコフモデルは、個々の単語や音素の隠れマルコフモデルを連結したものとなる。 これらが隠れマルコフモデルを使用した音声認識技術の概念である。音声認識システムにはこれ以外にも様々な技術を使用している。語彙の多いシステムでは、音素について文脈依存性を考慮する。また、話者間の違いや録音状況の違いを正規化するために、ケプストラムの正規化が行われる。他にも話者正規化の試みとして、男女間の正規化のための声道長正規化 (VTLN) や、より不特定多数の話者に対応するための最尤線形回帰 (MLLR) がある。
※この「隠れマルコフモデル」の解説は、「音声認識」の解説の一部です。
「隠れマルコフモデル」を含む「音声認識」の記事については、「音声認識」の概要を参照ください。
- 隠れマルコフモデルのページへのリンク