デジタル オーディオ 【digital audio】
デジタルオーディオ
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/11/20 05:39 UTC 版)
この記事には参考文献や外部リンクの一覧が含まれていますが、脚注による参照が不十分であるため、情報源が依然不明確です。 |
デジタルオーディオ (digital audio) とは、デジタル信号として表現された音である。
録音再生、保存、伝送する過程で、アナログ信号である音声データを数値に変換(標本化・量子化=アナログ-デジタル変換 )してデジタルデータとして記録保存し、再生時にデジタル-アナログ変換 (DA変換) してアナログ信号に変換してからスピーカーなどによって音として再生する。これらはデジタルな音響信号処理の一種である。
デジタルオーディオにおいて使用されるデジタル信号変換方式として、パルス符号変調(PCM、マルチビットデジタル)およびΔΣ変調(いわゆる1ビットデジタル)がある。
概要
従来のアナログオーディオの再生機器はカートリッジを含むレコードプレーヤーやテープデッキなどがある。各記録媒体(レコード盤や磁気テープなど)における音声保存は連続した信号(レコード盤なら溝の幅や深さ)の強弱であり、電気信号への変換はカートリッジや磁気ヘッドで行うが、その信号は電圧の連続した強弱となり、その能力は信号と雑音の比(S/N比)およびダイナミックレンジにより左右される。但し、再生周波数に関しては機器の作り込み等の品質に左右され、人間の可聴周波数域の最高値約20kHzを遙かに超える場合がある。
デジタルオーディオではデジタル信号で音声情報が記録される。デジタル信号は、元のアナログ信号の信号レベルと信号周波数に応じた情報を有しているものの、その能力は量子化ビット数およびサンプリングレートにより左右される。CDの場合、量子化ビット数は16ビットでダイナミックレンジは96dBとなり、サンプリングレートは44.1kHzと定められ、人間の可聴周波数域の最高値約20kHzまでの記録を賄える。
デジタルオーディオの記録媒体の利点としては、理屈上は繰り返し使用や複製、経年による劣化しないことが挙げられる。アナログ録音を記録するレコードや磁気テープは溝の摩耗や磁気強度の劣化による影響が避けられないが、デジタル信号は0と1の数字の羅列であり、記録を読み取れさえすれば音質に影響はないとされる。
データ量
デジタルオーディオのデータ量はビットレートとオーディオ長で規定される。最もシンプルには量子化ビット数、サンプリングレート、チャンネル数そしてオーディオ長の積となる。例えばステレオCD形式で74分間あるデジタルオーディオは、
16 [bit] × 44.1k [/s] × 2 × 74*60 [s] = 1,411 [kbps] × 74*60 [s] = 約650 [MB]
で約650メガバイトとなる。ハイレゾオーディオでは量子化ビット数を24ビット以上に、サンプリングレートを96kHz以上としてダイナミックレンジ・周波数帯域を大幅に拡張した結果、CD音源と比べて3倍以上のデータ量になる。
データ量の削減を目的としてデータ圧縮(MP3やOpus (音声圧縮)といった非可逆圧縮、FLAC等の可逆圧縮)がしばしば行われる。音声符号化を参照。
データ形式
同じデジタルオーディオが様々な機器で効率良く再生できるように音声ファイルフォーマットが存在している。音声符号化も参照。
単位
アナログ信号と同様に、音圧はデシベルを用いた表現を単位とすることが多い。
- dBFS : Full Scale(最大値=最大ビット)を基準としたdB(デシベル)による相対レベル値。16bit量子化している場合は-xdB ~ 0dBで表現される。
- dBSPL: Sound Pressure Level(20 μPa)を基準としたdB(デシベル)によるレベル値。
- peak値基準/dBSPL(peak)
- rms値基準/dBSPL(rms)
ストレージ技術
- 特定形状のメディアストレージを有するもの
※メディア形状が規格で決まっている
- コンパクトディスク(CD)
- デジタルオーディオテープ(DAT)
- ミニディスク(MD)
- デジタルコンパクトカセット(DCC)
- DVDオーディオ
- スーパーオーディオCD(SACD)
- 様々な音声ファイルフォーマットに対応するもの
- ハードディスク・レコーダー (内蔵HDD、SSDも使用可)
- ICレコーダー (リニアPCMレコーダーやDSDレコーダーを含む。内蔵不揮発メモリ、CF・SDカードなど)
- デジタルオーディオプレーヤー (内蔵不揮発メモリ、SDカードなど)
- PCオーディオ (PC内蔵HDD・SSD、外付けHDD、NAS、CD、メモリーカードなど様々な記憶媒体使用可)
- ネットワークオーディオ (内蔵HDD、外付けHDD、NASなど様々な記憶媒体使用可)
- スマートフォン、タブレットなど (内蔵不揮発メモリ、SDカードなど)
歴史
業務用のデジタル録音機器は1970年代に登場した(PCMプロセッサーの項を参照)。記録媒体はNTSC規格準拠のビデオデッキ(VTR)が流用された。NTSCビデオ信号の1水平ラスタ内にオーディオ信号6サンプル(3サンプル×ステレオ2チャンネル)を記録し、Uマチックやベータマックスのようなヘリカルスキャン方式のVTRがヘッド切替えに要する垂直ブランキング期間を使わないようにして、1秒間に記録できるサンプル数は
- 30(NTSCフレームレート)×525(フレーム当たり水平ラスタ数)×3(ラスタ当たり片チャネルサンプル数)×14/15(垂直ブランキング)=44,100
となり、サンプリングレートは44.1kHzと決定された(実際にはNTSCのカラーフレームレートは30×1000/1001なので正確なサンプリングレートは44.056kHz)。日本コロムビアの開発した業務用4ヘッド・バーティカルスキャン方式VTRを使ったシステムは、ヘッドの切替えが水平ブランキングと同期できるので上記計算の「14/15」の部分がなく、サンプリングレートは47.25kHzであった。
なおNHKはFM全国放送の中継としてサンプリングレート32kHzを以前から使用しており、また記録媒体の進歩によりVTRから脱却しNTSCのフレーム・ラスタレートなどに執着する必要が無くなったので、のちのDAT、DVD、衛星放送などではもう少しオーディオ信号帯域の広い48kHzのサンプリングレートが多く使われ、「ハイレゾ」では96kHzや192kHzも使われるが、犬に聴かせるには意味があっても、15~20kHzと言われる人間の可聴帯域にはオーバースペックかもしれない。これらの異なるサンプリングレート間の変換は、データにデジタルフィルタリング演算を施すことにより実現できる。
量子化ビット数は、当時すでに電話回線などでμ折れ線(8bit、8kHz)などの非直線圧縮が使われていたが、当時の技術の実用限界だった16ビット直線量子化(1/65,536分解能、96dB)が一切の圧縮なしで採用された。
民生用のデジタルオーディオ再生機器は、1982年にコンパクトディスク(CD)として初めて登場し、メディアとプレーヤーが発売開始された。
1987年以降、民生用のデジタル録音機器としてDATやMD、DCC、CD-R/RWなどが登場した。
1990年代以降、パーソナルコンピュータ(PC)の普及に伴ってPCそのもの(内蔵・付属のHDDやCD-R)に音楽データを記録保存して再生することも行われるようになった。(PCオーディオの項も参照)ただし、当時はHDD等のPC関連の記録保存媒体の容量がリニアPCMデータをそのまま保存するほどには大きくはなかったため、MP3などの非可逆圧縮フォーマットによる記録保存が主流となった。また、圧縮音声フォーマットも各団体・企業のマーケティング上の思惑もあって、AACやWMA、ATRACなど様々なフォーマットが乱立し、A社の製品では再生できてもB社の製品では再生できないといった問題も発生した。
1999年にはSuper Audio CD(SACD)およびDVD-Audioが規格化され、民生用デジタルオーディオもハイレゾ化されていった。
2000年代以降、iPodなどの携帯用デジタルオーディオプレーヤーが普及し、2010年代に普及しだしたスマートフォンがその機能を担うようになり、低価格帯のものはコモディティ化していった。一方で売価10万円を超えるような高価格帯のハイレゾ対応品も多く登場した。
デジタルデータをパケットに分割した上で、インターネットへ流し、エンドユーザー側の記憶装置等にバッファリングを行い、音響再生する技術は発展しており、インターネット・ブラウザーに標準搭載されるアプリケーション・インターフェースでほぼ再生は可能になっている。音響だけではなく、映像やコンテンツも末端へ描写やアクションをかけたりすることができている。
参考資料・参考リンク
- デジタルオーディオの基礎から応用(1):デジタルオーディオで押さえるべき基本 ~その特徴を再確認しよう~(2012年4月23日 ITmedia)
- オーディオ入門 ( Audio Seminar ) デジタルとアナログ - @ジャズ
- 連載:IT因縁話「ビデオ信号が決めたCDのスペック(1)~PCMという記録方式~」 - APPREVIEW(2014年3月17日 寺島情報企画)
関連項目
- 録音
- 録音再生機器
- デジタル音響システム
- 音声ファイルフォーマット
- ハイレゾリューションオーディオ
- デジタルオーディオプレーヤー(携帯音楽プレーヤーのデジタル・オーディオに特化したもの)
- ICレコーダー(携帯型の録音に特化した機器)
- ストリーミング(インターネット上の通信)
デジタルオーディオ
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2020/11/04 15:16 UTC 版)
音響においては、デジタルフィルタでよく見られる周期的リミットサイクルの解消に役立つ。ランダムノイズは一般にリミットサイクルが作りだす倍音よりも聴取し難い。音質面から説明すると、「デジタル臭い」と表現される硬質な音の傾向を緩和することが出来る。具体的には、サ行の声が耳に刺さらなくなる様な変化が起きる。 Audio Engineering Society (AES) の学会誌に掲載された Lipshitz と Vanderkooy の論文で、様々な確率密度関数 (PDF) をディザ信号(ノイズ)として使ったときの差異を指摘し、音響におけるディザ信号の最適レベルについて論じている。ガウス雑音を使って歪みを解消するには、方形PDFや三角形PDFよりも高いレベルを必要とする。三角形PDFによる雑音は歪みを解消するのに低いレベルで済む。 アナログシステムでは信号は「連続」だが、PCMデジタルシステムでは信号の振幅は固定個の値に制限される。これを量子化と呼ぶ。振幅の値は離散的であり … ディザを使わすに量子化した信号では量子化によって生じる歪みが残る。 … それを防ぐには信号に「ディザ」を施す必要がある。ディザリングは倍音などの好ましくない歪みを数学的に除去するもので、代わりに一定のノイズを付与する。 たとえばSACDなどに収められる量子化ビット数(ビット深度)24ビットのデータがあるのにたいしてCDのデータは16ビットである。16ビットはCDの規格の数字であり、制作工程では24ビットで処理されていたとしてもCDに収録するためのマスターの段階では16ビットにしなければならない。プレイヤーが再生するデータも16ビットである。この規格の枠内で高品位化を図る手法のひとつとして、量子化ビット数の多い(たとえば24ビットの)データを16ビットに変換する際に、ディザリングをおこなう、という手法がある。 16ビットの正弦波 16ビット深度で量子化された正弦波 6ビットに変換した音 ディザを施さずに6ビットに変換したもの。音色が違って聞こえる。 これらの音声や映像がうまく視聴できない場合は、Help:音声・動画の再生をご覧ください。 ある量子化ビット数のデータを異なるビット数に変換する方法はいくつかある。目的のビット数の標本単位に収まらずしてはみ出る元データの部分を刈り除く切り捨て(truncation)、また、はみ出ることになる部分を近い値に直してでも保持する丸め(round)などがある。しかしこれらの処方は、前節で述べられている誤差の周期化・周波数成分化およびそれによるノイズの発生をもたらしかねない。例えば次のような波形データを表す値があるとする。 1 2 3 4 5 6 7 8 たとえば、この波形が有する数値を 20% 縮小する(波形の構成値すべてに 0.8 をかける)と、次のような値が得られる。 0.8 1.6 2.4 3.2 4.0 4.8 5.6 6.4 量子化ビット数が、整数の桁のぶんしかなかったら、これを整数に改めなくてはならない。「切り捨て」を適用した場合には次のようになる。 0 1 2 3 4 4 5 6 切り捨ての代わりに「丸め」(四捨五入)を適用した場合には次のとおりである。 1 2 2 3 4 5 6 6 いずれの処方でも、元データの数値に対していくらかの誤差がある。そしてその誤差はまた回帰的である。正弦波のような反復的な波形についてこの現象を考えるとわかりやすい。そのような波形を標本化し、量子化する場合、元となるデータに含まれる 2.4 や 6.4 という値にたとえば「切り捨て」を適用して 2 などにするために生じる 0.4 の差分は、元データの波形の周波数と標本化周波数の積の周波数で、周期的に再起することになる(この例の場合、元データが 5 である 4.0 の量子化には差分が発生しない)。音を生じさせるのが物質の周波的運動である以上、デジタイズの際に起こるこの周期的な誤差は周波数成分の一つとして音に化ける。そしてこれを耳が歪みとして受け取ることになる。 量子化誤差のこのような問題を根本から回避することは不可能である。2 桁の数値 (4.8) が「切り捨て」や「丸め」などによって 1 桁の数値(4 または 5)に変換される過程で誤差は必ず生じる。ただし、数値を量子化する仕方に何らかの工夫を加えて誤差の周期的発生すなわち差分の周波数化・ノイズ化を防ぐことは可能である。すなわち、量子化における誤差が本来の信号・波形の周期とは連関しないようにするのである。 一策として、たとえば2桁の値 4.8 を処理するにあたって、あるときは 5 に、またあるときには 4 に、というように「切捨て」と「丸め」をランダムに適用することが考えられる。「長い目」で見ればこれは 4 と 5 との間に現れる平均的な数値として周波数成分化することになる。しかしそれでも周期的な誤差すなわちノイズの元は十分には取り除かれない。4 や 5 という値は本来の 4.8 にたいして常に 0.2 や -0.8 といった誤差を繰り返し生むわけである。 値 4.8 を処理する別の策としては、「五回に四回は 5 に丸め、残り一回を 4 に切り捨てる」というものがある。「長い目」で見ればこれは前述の処方の結果(4 と 5 の間の平均値)よりも本来の 4.8 にごく近しい数値の周波数化をもたらす。しかしこれでも問題の周期的な誤差・ノイズの元を解決し尽くしたことにはならない。5 に丸めた四回分の本来値、そして 4 に切り捨てた一回分の本来値、これらは依然として誤差であり、またそれは当策の五回周期という原理に従って繰り返すことになるわけである。 問題は、一定の処理が周期的に繰り返されてしまうことにある。ならば処理をランダム化すればいい、という解決案が最終的には出てくる。80% の比率で 5、20%の比率で 4、という構成を全体として保持しながら、元の 4.8 という数値が 4 あるいは 5 に変換されるところのパターンをランダム化すれば、誤差の周期化・周波数成分化は妨げられ、ノイズの発生は抑えられるわけである。 また、最終的な量子化における誤差( 4.8 が 5 になったのであれば -0.2 )を覚えておき、次以降の確率を調整する、という誤差を拡散させる手法もある。この手法には、全体的な再現性を上げるかわりに局所的な再現性が下がる、というトレードオフがある。 0 から 0.9 までの乱数(0.6、0.4、0.5、0.3、0.7 など)を交えて目的の値 4.8 を処理すれば、20%中は 4 (0 と 0.1 の場合)、80%中は 5、と量子化されながらも、どちらに切り捨てられ丸められるかは乱数によって無作為化される。そして、前節で述べられているように、非周期的なノイズは周期的なノイズよりもヒトの耳にたいして優しく、我々はこれを自然な歪みとして感受することになる。
※この「デジタルオーディオ」の解説は、「ディザ」の解説の一部です。
「デジタルオーディオ」を含む「ディザ」の記事については、「ディザ」の概要を参照ください。
「デジタルオーディオ」の例文・使い方・用例・文例
デジタルオーディオと同じ種類の言葉
- デジタルオーディオのページへのリンク