音声認識
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/03/06 01:37 UTC 版)
音声認識(おんせいにんしき、英: speech recognition)は声がもつ情報をコンピュータに認識させるタスクの総称である[1]。ヒトの(天然)音声認識と対比して自動音声認識(英: Automatic Speech Recognition; ASR)とも呼ばれる[2]。
- ^ 大辞泉
- ^ "automatic speech recognition (ASR)" Li (2020). Recent Advances in End-to-End Automatic Speech Recognition. arxiv:2111.01690
- ^ 例: フィラー(「あー」「えっと」)の除去
- ^ Garofolo, et. al. CSR-I (WSJ0) Complete LDC93S6A. Linguistic Data Consortium, 1993a. LDC link.
- ^ "vq-wav2vec Gumbel + BERT base 0.93" Baevski, et al. (2019). vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations. arxiv:1910.05453
- ^ "The TIMIT corpus of read speech is designed to provide speech data for acoustic-phonetic studies and for the development and evaluation of automatic speech recognition systems." Data - Linguistic Data Consortium. 2022-07-03閲覧.
- ^ "vq-wav2vec, Gumbel + BERT small 9.64" Baevski, et al. (2019). vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations. arxiv:1910.05453
- ^ Brodbeck, Christian; Bhattasali, Shohini; Cruz Heredia, Aura A. L.; Resnik, Philip; Simon, Jonathan Z.; Lau, Ellen (2021-07-03) (英語). Parallel processing in speech perception with local and global representations of linguistic context. doi:10.1101/2021.07.03.450698 .
- ^ a b c 野澤哲生著 『多数の人の声を一度に聞き分ける聴覚センサ』 日経エレクトロニクス 2008年9月22日号 115-123頁
- ^ “Mac で音声コントロールを使う”. Apple Support. 2021年4月8日閲覧。
- ^ “マイクロソフト、AIと音声認識のニュアンスを2兆円超で買収へ”. CNET Japan (2021年4月13日). 2021年4月13日閲覧。
- ^ ASCII.jpデジタル用語辞典. “PlainTalkとは”. コトバンク. 2021年4月9日閲覧。
- ^ “机からキーボードが消える日”. ニューズウィーク日本版(1991年11月7日号). TBSブリタニカ. (1991-11-7). pp. 64-65.
- ^ 成田一『パソコン翻訳の世界』講談社
- ^ Wall Street Journal
- ^ 綾加, 川俣. “「『らんま1/2』の現場は、私だけが落ちこぼれでした」声に特徴がなく、アフレコでは失敗ばかり…それでも井上喜久子が“人気声優”になれたワケ”. 文春オンライン. 2022年10月21日閲覧。
音声認識と同じ種類の言葉
- 音声認識のページへのリンク