ディザ
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2020/11/04 15:16 UTC 版)
デジタルオーディオ
音響においては、デジタルフィルタでよく見られる周期的リミットサイクルの解消に役立つ。ランダムノイズは一般にリミットサイクルが作りだす倍音よりも聴取し難い。音質面から説明すると、「デジタル臭い」と表現される硬質な音の傾向を緩和することが出来る。具体的には、サ行の声が耳に刺さらなくなる様な変化が起きる。
Audio Engineering Society (AES) の学会誌に掲載された Lipshitz と Vanderkooy の論文で、様々な確率密度関数 (PDF) をディザ信号(ノイズ)として使ったときの差異を指摘し、音響におけるディザ信号の最適レベルについて論じている[8][9]。ガウス雑音を使って歪みを解消するには、方形PDFや三角形PDFよりも高いレベルを必要とする。三角形PDFによる雑音は歪みを解消するのに低いレベルで済む。
たとえばSACDなどに収められる量子化ビット数(ビット深度)24ビットのデータがあるのにたいしてCDのデータは16ビットである。16ビットはCDの規格の数字であり、制作工程では24ビットで処理されていたとしてもCDに収録するためのマスターの段階では16ビットにしなければならない。プレイヤーが再生するデータも16ビットである。この規格の枠内で高品位化を図る手法のひとつとして、量子化ビット数の多い(たとえば24ビットの)データを16ビットに変換する際に、ディザリングをおこなう、という手法がある。
ある量子化ビット数のデータを異なるビット数に変換する方法はいくつかある。目的のビット数の標本単位に収まらずしてはみ出る元データの部分を刈り除く切り捨て(truncation)、また、はみ出ることになる部分を近い値に直してでも保持する丸め(round)などがある。しかしこれらの処方は、前節で述べられている誤差の周期化・周波数成分化およびそれによるノイズの発生をもたらしかねない。例えば次のような波形データを表す値があるとする。
1 2 3 4 5 6 7 8
たとえば、この波形が有する数値を 20% 縮小する(波形の構成値すべてに 0.8 をかける)と、次のような値が得られる。
0.8 1.6 2.4 3.2 4.0 4.8 5.6 6.4
量子化ビット数が、整数の桁のぶんしかなかったら、これを整数に改めなくてはならない。 「切り捨て」を適用した場合には次のようになる。
0 1 2 3 4 4 5 6
切り捨ての代わりに「丸め」(四捨五入)を適用した場合には次のとおりである。
1 2 2 3 4 5 6 6
いずれの処方でも、元データの数値に対していくらかの誤差がある。そしてその誤差はまた回帰的である。正弦波のような反復的な波形についてこの現象を考えるとわかりやすい。そのような波形を標本化し、量子化する場合、元となるデータに含まれる 2.4 や 6.4 という値にたとえば「切り捨て」を適用して 2 などにするために生じる 0.4 の差分は、元データの波形の周波数と標本化周波数の積の周波数で、周期的に再起することになる(この例の場合、元データが 5 である 4.0 の量子化には差分が発生しない)。音を生じさせるのが物質の周波的運動である以上、デジタイズの際に起こるこの周期的な誤差は周波数成分の一つとして音に化ける。そしてこれを耳が歪みとして受け取ることになる。
量子化誤差のこのような問題を根本から回避することは不可能である。2 桁の数値 (4.8) が「切り捨て」や「丸め」などによって 1 桁の数値(4 または 5)に変換される過程で誤差は必ず生じる。ただし、数値を量子化する仕方に何らかの工夫を加えて誤差の周期的発生すなわち差分の周波数化・ノイズ化を防ぐことは可能である。すなわち、量子化における誤差が本来の信号・波形の周期とは連関しないようにするのである。
一策として、たとえば2桁の値 4.8 を処理するにあたって、あるときは 5 に、またあるときには 4 に、というように「切捨て」と「丸め」をランダムに適用することが考えられる。「長い目」で見ればこれは 4 と 5 との間に現れる平均的な数値として周波数成分化することになる。しかしそれでも周期的な誤差すなわちノイズの元は十分には取り除かれない。4 や 5 という値は本来の 4.8 にたいして常に 0.2 や -0.8 といった誤差を繰り返し生むわけである。
値 4.8 を処理する別の策としては、「五回に四回は 5 に丸め、残り一回を 4 に切り捨てる」というものがある。「長い目」で見ればこれは前述の処方の結果(4 と 5 の間の平均値)よりも本来の 4.8 にごく近しい数値の周波数化をもたらす。しかしこれでも問題の周期的な誤差・ノイズの元を解決し尽くしたことにはならない。5 に丸めた四回分の本来値、そして 4 に切り捨てた一回分の本来値、これらは依然として誤差であり、またそれは当策の五回周期という原理に従って繰り返すことになるわけである。
問題は、一定の処理が周期的に繰り返されてしまうことにある。ならば処理をランダム化すればいい、という解決案が最終的には出てくる。80% の比率で 5、20%の比率で 4、という構成を全体として保持しながら、元の 4.8 という数値が 4 あるいは 5 に変換されるところのパターンをランダム化すれば、誤差の周期化・周波数成分化は妨げられ、ノイズの発生は抑えられるわけである。
また、最終的な量子化における誤差( 4.8 が 5 になったのであれば -0.2 )を覚えておき、次以降の確率を調整する、という誤差を拡散させる手法もある。この手法には、全体的な再現性を上げるかわりに局所的な再現性が下がる、というトレードオフがある。
0 から 0.9 までの乱数(0.6、0.4、0.5、0.3、0.7 など)を交えて目的の値 4.8 を処理すれば、20%中は 4 (0 と 0.1 の場合)、80%中は 5、と量子化されながらも、どちらに切り捨てられ丸められるかは乱数によって無作為化される。そして、前節で述べられているように、非周期的なノイズは周期的なノイズよりもヒトの耳にたいして優しく、我々はこれを自然な歪みとして感受することになる。
ディザリングを施すべき場合
ビットレートを減らす処理をするときは、ディザリングを施すべきである。米Apogee Electronics(英語版記事)が開発し、同社のDAコンバーターに搭載されていたUV22というディザ技術は音楽業界内では有名であり、 デジタル・オーディオ・ワークステーション向けに単体のプラグイン化され、デファクトスタンダード的な存在となっている。
様々なディザ
RPDF は "Rectangular Probability Density Function"(方形確率密度関数)の略で、サイコロと同じ役目を果たす。任意の数が同等の無作為な確率ででる。
TPDF は "Triangular Probability Density Function" (三角形確率密度関数)の略で、2個のサイコロと同じ役目を果たす。数の合計の出現確率はそれぞれ異なり、以下のようになる:
- 1/1 = 2
- 1/2 2/1 = 3
- 1/3 2/2 3/1 = 4
- 1/4 2/3 3/2 4/1 = 5
- 1/5 2/4 3/3 4/2 5/1 = 6
- 1/6 2/5 3/4 4/3 5/2 6/1 = 7
- 2/6 3/5 4/4 5/3 6/2 = 8
- 3/6 4/5 5/4 6/3 = 9
- 4/6 5/5 6/4 = 10
- 5/6 6/5 = 11
- 6/6 = 12
この場合、7 が他の 2 から 12 よりも確率が高く、このような確率の分布を称して「三角形」と呼んでいる。
ガウシアンPDF は無限個のサイコロと等価である。確率の分布は釣鐘型を描き、これをガウス分布と呼ぶ。ガウシアンPDFによるディザは自然の大気雑音やテープヒスなどのノイズに最も近い。
色つきディザ(Colored Dither)はホワイトノイズとは異なるため、フィルター付きディザとも呼ばれる。オーディオ機器の帯域特性に合わせるためにエネルギーを下げるように、高い周波数ほど大きなエネルギーを持ったノイズを使用する。
ノイズシェーピングもディザと同様の手法であるが、ランダム化よりもオーディオストリームにおいて誤差拡散のリアルタイム処理に重点を置いたフィードバック型の処理である。
- ^ Ken C. Pohlmann (2005). Principles of Digital Audio. McGraw-Hill Professional. ISBN 0-07-144156-5
- ^ William C. Farmer (1945). Ordnance Field Guide: Restricted. Military service publishing company
- ^ Granino Arthur Korn and Theresa M. Korn (1952). Electronic Analog Computers: (d–c Analog Computers). McGraw-Hill
- ^ Thomas J. Lynch (1985). Data Compression: Techniques and Applications. Lifetime Learning Publications. ISBN 978-0-534-03418-4
- ^ Lawrence G. Roberts, Picture Coding Using Pseudo-Random Noise, MIT, S.M. thesis, 1961 online
- ^ Lawrence G. Roberts (February 1962). “Picture Coding Using Pseudo-Random Noise” (abstract). IEEE Trans. Information Theory 8 (2): 145–154. doi:10.1109/TIT.1962.1057702 .
- ^ L. Schuchman (December 1964). “Dither Signals and Their Effect on Quantization Noise” (abstract). IEEE Trans. Communications 12 (4): 162–165. doi:10.1109/TCOM.1964.1088973 .
- ^ Lipshitz, Stanley P; Vanderkooy, John; Wannamaker, Robert A. (November 1991). “Minimally Audible Noise Shaping”. J. Audio Eng. Soc. 39 (11): 836–852 2009年10月28日閲覧。.
- ^ Vanderkooy, John; Lipshitz, Stanley P (December 1987). “Dither in Digital Audio”. J. Audio Eng. Soc. 35 (12): 966–975 2009年10月28日閲覧。.
- ^ Mastering Audio: The Art and the Science by Bob Katz, pages 49–50, ISBN 978-0-240-80545-0
- ^ Ulichney, Robert A (1994年). “Halftone Characterization in the Frequency Domain”. 2012年7月20日閲覧。
- ^ a b c d e Crocker, Lee Daniel; Boulay, Paul & Morra, Mike (1991年6月20日). “Digital Halftoning”. Computer Lab and Reference Library. 2007年9月10日閲覧。 Note: this article contains a minor mistake: “(To fully reproduce our 256-level image, we would need to use an 8x8 pattern.)” The bold part should read “16x16”.
- ^ Silva, Aristófanes Correia; Lucena, Paula Salgado & Figuerola, Wilfredo Blanco (2000年12月13日). “Average Dithering”. Image Based Artistic Dithering. Visgraf Lab. 2007年9月10日閲覧。
- ^ Ulichney, Robert A (1993年). “The void-and-cluster method for dither array generation”. 2012年7月19日閲覧。
- 1 ディザとは
- 2 ディザの概要
- 3 デジタルオーディオ
- 4 デジタル画像とイメージ処理
- 5 光ファイバーシステム
- ディザのページへのリンク