MQAの技術的な面を調べてみた。

最近、対応機器が増えてきたり、MQA-CDなんてCDに応用した製品が出てきたようでデジタル・オーディオ・フォーマットのMQA https://www.hires-music.jp/mqa/ についての記事を目にすることがまた多くなってきた。(例えば、https://www.phileweb.com/review/article/201805/24/3042_2.html
しかし、このMQA、Webの記事等を見ても、技術的に今一つ良くわからない。概要はなんとなくわかるものの、意図的に技術の詳細には触れていないように思われ、個人的には、どうにもしっくりこなかった。特に基本的なところでも疑問点がいくつもあった。
そこで、重い腰を上げて、ちょっとMQA関係者(特に開発者のBob Stuart氏)の書いた論文や特許文献をググって調べてみた。

MQAに関する疑問点のまとめ

さて、詳細は技術的にちょっと込み入ったところもあるので、先に結論と言うか、私が疑問に思った点で、分かったことを書いておく。

Q. MQAはロスレス(可逆圧縮)なの?ロッシー(非可逆圧縮)なの?
A. これは明確にロッシー。聴感上の影響が出ないようにかなり工夫してあるが、ロッシーなのは間違いない。(可聴域に関してもビット数を減らしてリサンプリングしているので、情報量は減っている。可聴域外の高域だけ見るとリサンプリングした後はロスレスの場合もあるが、全体としてロッシー。)
MQA社は、彼らの主張する実質的なロスレスのことをロスレスと呼んでいる。例えば、文献[1]に見られるように、彼らの文書中のロスレスという言葉は、一般的な意味でのロスレスではない場合があるので注意が必要だ。

Q. MQAデコーダが無くても再生出来るそうだけど、その場合でもメリットがあるって本当?
A. MQA社が主張するブレ、ボケを少なくする技術は、ある程度効きそうなので、効果はあるのかもしれない(推測)。
明らかに言えるのは、可聴域の情報量は落ちているので、総合的に効果があるかどうかは、これらのメリット/デメリットのトレードオフの問題かと思われる。

Q. 時間的ブレ、ボケを低減する技術とオーディオ折り紙って関係する技術なの?
A. 二つの技術はそれぞれ独立した技術。ブレの方は、サンプリングレート変換等でデジタルフィルタを使用した時にその悪影響を低減する技術なので、主にエンコード時の前処理(又は、DACの前のデコーダ)で使う技術。オーディオ折り紙はエンコード/デコード処理そのもの。使おうと思えばそれぞれ独立に使える。

Q. オーディオ折り紙って結局、ダウンサンプリングじゃないの?それに、下位ビットに高域の信号が本当にロスレスで格納できるの?
A. いくつかバリエーションがあるようだが、代表的な方法としては、ダウンサンプリング+高域信号と可聴域の低域信号への帯域分割、低域信号のビット数を減らしリサンプリング+ノイズシェーピング、下位ビットへの高域信号のロスレスまたはロッシーな圧縮による埋め込み、と言うもののよう。後述する文献では96KHz/24bit -> 48KHz/24bitに変換する場合であれば、多くの場合、帯域分割された高域信号は24bit中の下位の8bit信号にロスレスで圧縮できるとのこと。
ただ、MQAでは使える情報量に応じていくつかバリエーションがあり、例えば、16bitに変換するものは、上位13bitを可聴域をリサンプリングしたPCM、下位3bitを非可逆圧縮した高域成分に割り当てているようだ。(MQA-CDはこのパターンと思われる。)
なお、オーディオ折り紙については、ベースとなる先行研究がある(後述)。

Q. 時間的ブレ、ボケを低減する技術の説明を読んでも効果が書かれているだけで、今ひとつピンとこない。サンプリング周期より短い時間分解能を謳ってるけど、原理的に無理では?
A. この点に関しては、今回の調査でも今ひとつ分からなかったところ。MQA社の主張では、最近の音響心理学等の成果によると従来考えられていたより人間の聴覚の時間分解能は高く、5-8μsあるとのこと。このため、サンプリングレート変換(以下”SRC釤)等でデジタルフィルタを使用すると本来の音より時間的に前に発生する音である「プリリング」が音質に与える影響が大きいとのこと。今回の調査では、MQA社の文献から特殊なデジタルフィルタを使うことにより、このプリリングの影響を抑える技術を発見した。ただこれは、MQA社の説明とやや矛盾がある。(詳細は後述。)サンプリング周期より短い時間分解能をうたっている点については良くわからないが、サンプリング周期より短い時間分解能というのは、確かに原理的に無理なので、おそらく、プリリングやポストリングの影響を10μsターゲットに抑えようという意味ではないかと思われる。

今回の調査で見つけた情報

では次に、今回見つけた情報(文献等)を示そう。
[1] Stuart, B., Howard, K., About MQA (Master Quality Authenticated), JAS Journal, 2015, Vol. 55, No.6, http://www.jas-audio.or.jp/jas_cms/wp-content/uploads/2015/12/201511-045-057.pdf
MQAのコンセプトについて解説した日本語の論文。MQA社(関係者)の日本語による解説としては、これが一番詳しい。

[2] Stuart, J. R., Craven, P., A Hierarchical Approach to Archiving and Distribution, AES Convention: 137 (October 2014) Paper Number: 9178, http://www.aes.org/e-lib/browse.cfm?elib=17501
MQAのコンセプトについて解説した英語の論文。MQA社(関係者)による解説としては、これが一番詳しいと思われる。

[3] JP2018-503296A(WO2016087583A1) https://www.j-platpat.inpit.go.jp/web/PU/JPA_H30503296/51E65AE9871F0F3640A3587D04B4E43B
MQAの時間的ブレ、ボケを低減する技術に関連すると思われる特許文献

[4] JP2015-519615A(JP6264699B2)(GB2503110A) https://www.j-platpat.inpit.go.jp/web/PU/JPA_H27519615/4E2592853EBF9817225E20ADA48FA86B
MQAのオーディオ折り紙に関連すると思われる特許文献

[5] KOMAMURA M, Wide-Band and Wide-Dynamic-Range Recording and Reproduction of Digital Audio, JAES Volume 43 Issue 1/2 pp. 29-39; February 1995
[6] JP1993-290509A https://www.j-platpat.inpit.go.jp/web/PU/JPA_H05290509/AE610761A293AD4504A1ACE8870D4D55
MQA社がオーディオ折り紙の参考にした、パイオニア(当時)の駒村 光弥氏による論文と特許文献

[7] Calderbank A. R., et. al., Wavelet Transforms That Map Integers to Integers, APPLIED AND COMPUTATIONAL HARMONIC ANALYSIS, 5, 332 – 369 ( 1998 ), https://www.sciencedirect.com/science/article/pii/S1063520397902384
オーディオ折り紙で用いられている「リフティング」技術に関する論文

MQAについてのおさらい

さて、本題に入る前に、整理のためWeb等で見かけるMQAの概要について簡単に復習しておこう。
MQAは"Master Quality Authenticated”の略で、単なるフォーマットというよりは、「全録音/再生行程を包括した技術=哲学」だそうだ[1]。そして、MQAは2つの技術的特徴からなる、と説明されている。1つ目は、時間的なボケ・ぶれを減らす技術、2つ目は、「オーディオ折り紙」と呼ばれる、独自の圧縮技術だ。
まず、1つ目の特徴(ブレ・ボケ低減)に関して。MQA社によると、現代のデジタルオーディオの様々な工程で使われているデジタルフィルタは、時間の滲みや、時間のボケを増加させるが、これは最近の研究では、以前考えられていたより音質に与える影響が大きい、とのこと。1つ目の特徴は、このブレ等を改善するという。時間分解能としては、現在のところ10μsをターゲットとしている、という。
そして、2つ目の特徴(オーディオ折り紙)は、例えば、48KHzのレートのデータにPCMで96KHz相当の音質のデータを記憶することができ、かつ、MQA非対応機器でも再生可能であるオーディオフォーマットを実現する、というものだ。

オーディオ折り紙

では、この中のオーディオ折り紙から見ていこう。これは、前述の通り[4]の文献に対応するようだ。
概要としては、上のPhilewebの記事のとおりで、例えば元データとして、96KHz/24bitのリニアPCMハイレゾデータがあった場合、それを半分のサンプルレートの48KHz/16bitにダウンサンプル、ノイズシェーピング+リサンプリングし、一方で48KHzより高い高域のデータを可逆(ロスレス)圧縮して、48KHz/24bitの下位8ビットに格納するというもの。(バリエーションとして、高域を非可逆(ロッシー)圧縮することもある。)高域データの圧縮方法を適切に選らべば、下位ビットに格納されたそのデータをPCMデータとして再生しても、微小な楽音と関係のないノイズになるので、デコードせずに再生しても音質に与えるデメリットは少ない。また、高域の情報量はそもそも少ないため、ほとんどの場合、48KHz/8bitでも充分ロスレス圧縮は可能、とのことらしい。

デコーダ及びエンコーダの一例(文献[4]より)。この例では、96KHz/24bitのデータを13bitにリサンプリングしてから、48KHzを境に帯域分割し、低域はそのまま、高域は3bitへのロッシー圧縮と、その3bitのロッシー圧縮の誤差を考慮した8bitへのロスレス圧縮を組み合わせている。リサンプリングしているので完全なロスレスではないが、リサンプリング後の信号に関しては、簡易な(16bitしか扱えない)デーコダの場合は、高域はロッシーな伸張を、24bit対応のフルのデコーダの場合は、高域はロスレスで再生できるようになっている。MQA-CDはおそらく、この上位16bitを用いた簡易版のエンコード・デコードになるのではないかと思われる。


ただ、このオーディオ折り紙は、90年代に(当時)パイオニアの駒村光弥氏の開発した技術[5], [6]がベースになっていて、オーディオ折り紙はこれを現代的に改良したものとも言えそうだ。駒村氏の文献によると、元データのサンプリングレートが96KHz/16bitの場合、帯域分割により、0-24KHzの信号と24-48KHzの信号に帯域分割し、0-24KHzの信号はノイズシェーパを通して、48KHz/15bitにリサンプリング、24-48KHzの信号は、ADPCMで2bitのデータに変換し(24KHz/2bitのADPCMとなる)、両者を合成して16bitのデータを作成するという。
ここで、リサンプリングする際にノイズシェーパを使用するのがポイントらしく、ノイズシェーパを上手く設計することにより、ノイズが目立つ帯域の(再)量子化ノイズを減らし、耳の感度の悪い高域にノイズを追いやることができるとのこと。ただし、この駒村氏の文献では、24KHz以上の高域データは、サンプリングレート24KHz/2bitのADPCMデータに変換されるので、かなり割り切った圧縮と言える。当時の技術の限界だったのだろうけれど。
これに対し、MQA社の[4]では下位ビットにロッシー、ロスレス両方の圧縮パターンをうまく組み合わせて、使えるビット深度やデコーダの性能に合わせて、高域の再現度を比較的低いものからロスレスまで対応できるように工夫されている。ここがオーディオ折り紙の実装上のひとつの要と思われる。
それともう一つ、文献[4]は実装上かなり有効な改良がなされており、リフティング[7]と言う手法を使い、奇数番目のデータと偶数番目のデータを並列に処理(インターリーブ)することにより簡易かつ高速に帯域分割や、その他の信号処理が行えるような工夫がしてある。
(この辺の実装上の改良は、個人的にはエレガントでかつ現実的。大分、作り込まれている印象を受けた。)

時間的なボケ・ぶれを減らす技術

次に1つめの時間的なボケ・ぶれを減らす技術だが、今回調査した範囲では、[3]の文献が一番関係が深そうだ。MQA社の幾つかの説明にも見られるように、現代のデジタル音源制作にはサンプリングレートコンバータ(SRC)が使われる場合が多く、このSRC処理に伴って発生する「プリリング」(「プリレスポンス」とも)をMQA社は問題視している。この文献の技術の基本的考え方は、プリリングがフィルタのナイキスト周波数周辺に発生することを利用して、その帯域のみ遅延させるフィルターを通すことにより、プリリングを時間的に後ろにずらし、その影響を少なくする、というもののようだ(そのかわり、ポストリングは長くなるけれど、これは音響心理学上、あまり問題にならない、とのこと。)従来技術として、ナイキスト周波数周辺の信号を低減するデジタルフィルタというアイディアがあったが、これには副作用があるので、さらに改良したのがこの技術、とのことのようだ。
実施例には幾つかのバリエーションがあり、一つは先のナイキスト周波数周辺をカットするフィルタの位相特性を変更して、位相を後ろにずらし、ナイキスト周波数周辺の信号を低減しつつ、時間的にも遅らせるというもの。もう一つは、周波数特性は(ほぼ)変えず(オールパスフィルタ)、時間軸上でナイキスト周波数周辺の信号を遅延させるというもの。文献[3]には割と具体的なフィルタのパラメータとその特性の説明が比較的詳細に記載されている。

文献[3]に記載されたナイキスト周波数周辺をカットするフィルタ(3次IIRフィルタ)(従来技術。最小位相フィルタ)の周波数特性。(下記の最大位相フィルタも周波数特性は同じ。)

最小位相フィルタの伝達関数複素平面表示。零点(○)が単位円内のナイキスト周波数付近に、極(×)が単位円内にある。

最小位相フィルタを改良した最大位相フィルタの伝達関数複素平面表示。零点(○)が単位円外のナイキスト周波数付近に、極(×)は最小位相フィルタと同じ位置にある。これにより、ナイキスト周波数付近の信号を減衰しつつ位相を遅らせるフィルタとなっている、とのこと。

上がArcam FMJ DV139プレーヤーのインパルス応答。下が上記従来技術のフィルタによって処理されたArcamのインパルス応答。プリリングが抑制されている。

上が従来技術の最小位相フィルタ、下が最大位相フィルタのインパルス応答(上の図のスケール10倍とのこと)。「最大位相フィルタは、メインパルスの直前の下への振れを最小位相フィルタに対して4dB低減し、他のプリレスポンスを6dB以上低減することを示している。」とのこと。ポストリングは重畳されているので、逆に増えてはいるようだ。(以上文献[3]より引用。)


では、これらのフィルタをどう使うかなのだが、マスタ段階で既にSRCされている場合は、マスタ自体が既にプリリングを含むので、このフィルタを用いてプリリングの影響を低減してから、その後の処理を行う、というのが一つの使い方。もう一つは、DAC側で使用するもの。文献[3]からは今ひとつよく判らなかったが、おそらく、DACチップに外付けでSRC(デジタルフィルタ)を使用している場合など、デジタルフィルタのアルゴリズムをこの技術を適用したものに変更する、という使い方のようだ。適切なフィルタはDACのハードウェア依存になるため、MQAのデコーダは当初ハードウェアだけ(現在はAudirvanaなど、ソフトのデコーダもある)だったのは、PC上のソフトウェアではこのDAC側の処理ができないから、という事情も絡んでいるのかもしれない。
さて、ではこれがMQAの時間的ブレ、ボケを低減する技術そのものであるか?というとちょっとその点は不明である。文献[1]等では、ポストリングも60μsぐらいで収束しているが、文献[3]の図では、縦軸に単位がなく、横軸の単位はサンプル数とあり、この波形が正確には何を表しているのか、今ひとつ不明。まぁ、おそらくは図に対応するのだとは思うが。。。
文献[1]に記載のMQAの周波数特性とインパルス応答。スローロールオフ的なナイキスト周波数(この場合は48KHz)を減衰する位相遅延フィルタのように見える。


また、文献[3]には、明らかに時間分解能(のターゲット)が10μs云々という記載はない。文献[3]ではサンプリング周波数96KHzのデータを一旦48KHzにしているので、最終的にアップサンプリングして96KHzに戻しているとはいえ、時間分解能が元に戻ることはない。20μsほどの時間分解能のはず。今回調査して発見できなかった技術が、MQAには使われている可能性もなくはないのだが。(というのが、今回の調査で今ひとつ判らなかった点。)


以上がMQAについて簡単に調べてみた結果である。疑問点が少しは解消されただろうか?この記事が、皆さんの、MQAの技術としての評価や、実際の音源や再生システムについての評価の際の判断材料の一助となれば幸いだ。(MQAについての個人的な意見は、この記事ではあえて触れない。ただ、マーケティング上の要請は理解するものの、MQA社には、混乱を招くような説明や用語の使い方は避けていただきたい、とだけ書いておく。)