音声合成LSIとは？わかりやすく解説

音声合成LSI（おんせいごうせいエルエスアイ）とは、自然言語による音声出力の処理を行うLSIである。

汎用DSPに近いものから、専用アナログICに近いものまでいろいろあるが、この記事では、主に家電製品などに組み込まれ、使用者に製品の動作状況を知らせるためのヒューマンマシンインターフェースとして用いられたものについて扱う。かつては、単純なコマンドベースの、アナログ的な音声合成手法にもとづくものが多かったが、近年ではROMの大容量化（コストパフォーマンス向上）などにより、あらかじめ録音された音声データを基にディジタル信号処理を行い出力するようなものも多い。

歴史

コンピュータ用に市販された初めての音声合成システムは、1976年のCompu-Talker CT-1($398.00)である。コンピュータ用の増設ボードとして登場したが、当時は各社のコンピュータのハードウェアに互換性がなく、汎用品として使用することができなかったため、あくまで電子部品の一つという扱いであった。

一般に音声合成が広まったのは、1978年に発売されたテキサスインスツルメンツ社のSpeak & Spellsという知育玩具の商業的成功によるところが大きい。この製品の当時の販売価格は日本で1万円程度と安価であったため、人気を博した。数十年前の製品であるが、現在でもミュージックシーンで人気があり、実機は高値で売買されている。

また、当時米国で普及していたパソコンであるApple IIに、音声合成LSIを搭載した製品が販売されていた。これらの製品はいずれも英語圏で開発されており、出力言語は英語であった。

かつて、日本国内ではセイコーエプソンや沖電気工業が音声合成LSIが製造していたが既に生産終了となっている。セイコーエプソンは現在でも多言語化や多機能化を図った音声合成・音声認識LSIを製造している。また、アクエストがAVRマイコンに音声合成エンジンを書き込んだマイコンベースの音声合成LSIを発売しており、秋月電子通商などで購入が可能。

電子音による音声合成方式

古くは、様々な周波数や長さから成る電子音の複雑な合成を行って、限られた記憶容量しか持たない電子機器の音声出力などに使われた。鼻にかかったようなアクセントが特徴的な音声を出力するこの方式のLSIは、PC-6001mkIIなどの8ビットパソコンにも搭載された。今日でも旧式の自動販売機に、このLSIを持つ製品が残されている。

この合成電子音を用いる方式の場合、母音と子音・アクセントをコマンド類で制御できるため、動作させるためのデータを少なくでき、また制御も簡単であったため、処理能力や記憶容量に制約のあるマイコン機器に組み込むのに適していた。1970年代後半から1980年代にかけて、ハイテクさをアピールし、他社製品との差別化を図りたい日本の各家電メーカーは多機能化の一環として、競って「しゃべる家電」を市場投入した。

しかしアクセントを強弱で表現する英語の音声出力には十分実用的であったものの、アクセントを音程で表現する日本語等では言語を正確に表現することができなかったため、若干聞き取りづらい音声出力しか行えず、日本では次第に「コンピュータ声」として敬遠され、廃れていった。

デジタル録音方式

合成電子音方式に代わって登場したのが、あらかじめ文またはフレーズことにデジタル録音した音声を必要な数だけ用意し、再生時にそれらをつなぎ合わせて発話するデジタル録音方式（単位選択型音声合成方式）である。内蔵されたROMに記録・標本化された音声データをパーツとして必要なぶんだけ選択のうえ連結して発声させる方式である。デジタル録音方式は、あらかじめ録音されたフレーズを順次繋いで発声させる方式であることから発声させる内容に強い制限を受け（用意されたフレーズしか発声できない）、合成電子音方式と比較して発声そのものの汎用性に乏しかった。しかしながらその欠点もLSIの微細化と記憶素子の低廉・大容量化により、あらかじめ用意できる音声データを多く用意することができ、また用途に合わせた定型文を録音させた仕様のLSIチップが大量生産されるようになるにつれて解消された。またLSIの記憶素子にフラッシュメモリーを使用することで任意のメッセージを追加で録音可能なものも存在する。

録音音声により発声する方式は、当初こそ記憶容量の問題から音声データのビットレートが低く、「感度の悪いラジオ」程度に聞き取りづらいものであったが、次第に記憶容量が増え、またデータ圧縮方式が改良されるにつれて、美しく明瞭な音声の発声が可能になった。今日ではコストダウンも進み、定型文の発話内容で良い分野、例として玩具類、自動販売機、キャッシュディスペンサー等で使用される音声アナウンスのみならず、音質がクリアであることから構内放送等のチャイム音（俗にいうウェストミンスターの鐘）においても同方式を用いて電子的に録音された音が用いられ、また、信頼性の高さから人命に関わる火災報知器の避難を促す音声ガイドにもこれらのLSIが利用されている。

音声合成

→音声合成の技術的側面については「音声合成」を参照

現在ではパソコンを用いて録音された音声や文章を読み上げるさせることができるが、これらは音声合成LSIを内蔵せず、汎用性の高いCPUを使ってデジタル録音データのファイルから音声を再構成したり、文章を解析してイントネーションなどの傾向を分析し、ソフトウェア内で音声を合成して発声させている。この方式は高度な処理能力を必要とするため、性能に限りのあるLSIで実現することは困難だが、現在のパソコンであれば十分な処理能力を持つため、音声合成LSIを凌ぐ機能を実現することが可能となっている。

ことこれらでは、より自然な発声が行えるよう様々なアルゴリズムが開発・利用されており、2000年代においては処理能力の向上したパソコンで、音程を付けて歌う製品も流通している。

外部リンク

アクト・ブレイン　音声合成LSI - 規則音声合成機能を1チップに集約
アクエスト音声合成LSI AquesTalk pico LSI『ATP3011F4』 - 1チップ音声合成

この項目は、工学・技術に関連した書きかけの項目です。この項目を加筆・訂正などしてくださる協力者を求めています（Portal:技術と産業）。

音声合成LSIとは？わかりやすく解説