実際と課題
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/07/03 14:01 UTC 版)
音声認識システムの研究開発にはコンピュータが普及しだした1970年代から21世紀初頭の現在まで、長年にわたって莫大な資金と優秀な人材が投入されてきたが、成功して普及したものはほとんどなく、デジタル技術によって生み出された3次元映像に代表されるアニメーション映画や、動画、静止画、音楽の記録と再生といった技術分野は、その後、大きな産業となっているのと比べれば大きな違いがある。 話者を限定して、「ディクテーション」と呼ばれる事前のトレーニングを行う方式の音声認識システムでは、日本語では理想的な環境下では80%の認識率が達成できるとされている。それらのトレーニングを積まない場合60%が限度である。語彙を限定してトレーニングを必要としないシステムでは、不特定多数の話者の音声を認識できるが語彙が少ないために利用範囲は限定される。同音異義語が少ない欧米系の言語では90%の認識率があると評価されている 。 個人向けに市販されている音声認識ソフトでは、静かな部屋でユーザーがヘッドセットを使い、単語を区切るなどのいくつかのコツを知っていれば十分実用的な認識率を示す。ただし屋内であっても背後で大声の会話がなされる環境や、屋外などの騒音のある環境では認識が困難である。また、個人のレベルで使用することを想定しているため、対応する語彙が限られ業務用語はカバーされていない。さらに、複数の話者による発声や、音声認識向けと意識していない、例えばインタビューや会議などの発声を認識するのは困難である。 企業向けでは、大規模語彙と複数の不特定話者に対応した会議などの議事録作りに使えるより高価なソフトも販売されており[要出典]、カセットテープやICレコーダの聞き起こしに比べ効率的に作業を行うことができる。
※この「実際と課題」の解説は、「音声認識」の解説の一部です。
「実際と課題」を含む「音声認識」の記事については、「音声認識」の概要を参照ください。
- 実際と課題のページへのリンク