音声圧縮 とは?ページ内リンク ↓ウィキペディア(Wikipedia)記事 ↓Yahoo!知恵袋音声圧縮(英: Audio compression)とは、音声ファイルのサイズを削減する目的で設計されたデータ圧縮の一種である。音声圧縮アルゴリズムは、「オーディオコーデック」として実装される。汎用データ圧縮アルゴリズムは音声データには適さず、オリジナルの87%以下に圧縮できることがほとんどなく、リアルタイムの再生にも適さない。そのため、音声向けの可逆圧縮アルゴリズムや非可逆圧縮アルゴリズムが生み出された。非可逆圧縮アルゴリズムは圧縮率が非常に高く、一般の音響機器によく使われている。 出典: 『ウィキペディア(Wikipedia)』 関連商品
藤原 洋 /
最安値(新品): ¥ 2,200
最安値(中古): ¥ 1,657
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
目次 |
記憶媒体と通信帯域幅は年々コストが低くなっているため、音声ファイルを永久的に保管するための形式として、Monkey's Audio、FLAC、Shorten などの可逆圧縮フォーマットがよく使われるようになってきている。特にレコーディングエンジニアやオーディオマニアが可逆圧縮フォーマットをよく使う。圧縮率は汎用の可逆データ圧縮と同程度(オリジナルの50%から60%)である。次世代DVD向けに Dolby TrueHD のような可逆圧縮フォーマットも登場している。
音声の全てのデータを保持しつつ、大幅な圧縮率を達成することは困難である。そもそも、実世界で録音された音声は非常に複雑で、圧縮技法のひとつであるパターンの繰り返しの検出が困難である。画像の場合もコンピュータグラフィックスよりも実世界の写真の方が圧縮しにくいのと同じである。ただし音声の場合、コンピュータが生成した音も非常に複雑な波形を含み、多くの圧縮アルゴリズムでは圧縮が難しい。これは、音声波形がそのままでは単純化するのが難しく、人間の耳で行われているように周波数領域に(必要なら可逆に)変換してやる必要があるためである。
また、音声の標本化された値は非常に素早く変化するため、汎用のデータ圧縮アルゴリズムでは音声をうまく扱えず、同じバイト列が何度も繰り返されることもほとんどない。[-1 1]フィルタによる畳み込みは、スペクトルを若干ホワイトノイズ化(平坦化)する傾向があり、そのため可逆圧縮のエンコーダで利用される。その場合、デコーダが逆の操作を行って元の信号を復元する。FLAC、Shorten、TTA といったコーデックは、信号の周波数スペクトルを推定するのに線形予測法を用いる。エンコーダでは、その予測の逆を行って周波数スペクトルのピークを小さくすることでホワイトノイズ化し、デコーダは線形予測法をそのまま使って元の信号を再構築する。
可逆オーディオコーデックは音質には問題がないため、有用性は以下の観点で判断される。
非可逆音声圧縮は、様々な場面で使われている。MP3プレイヤーやコンピュータのような直接的な利用だけでなく、DVDビデオでの音声圧縮、デジタルテレビでの音声圧縮、インターネット上のストリーミングメディア、衛星ラジオやケーブルラジオなどで使われている。非可逆圧縮は重要でないデータを捨てているため、可逆圧縮よりも遥かに圧縮率が高い(オリジナルの5%から20%)。
非可逆音声圧縮の開発には音響心理学の成果が応用されている。すなわち、人間の聴覚は全ての音声データを認識しているわけではない。多くの非可逆圧縮ではまず、知覚されないと思われる音、すなわち人間の耳には聞こえにくい音を識別し、知覚的冗長性を減らす。典型例としては、高周波数成分や大きな音と同時に鳴っている小さな音などである。それらの音は正確度を減じて符号化されるか、全く符号化されない。
このような聞こえない音の除去はビット数削減効果はそれほど大きくない。非可逆圧縮での圧縮の大部分はそれとは相補的なノイズシェーピングという現象によるものである。信号を符号化するビット数を減らすと、S/Nが悪化する。音響心理学に基づいた非可逆圧縮では、このような増大したノイズを知覚されないように「隠す」技法が重要である。これは例えば、高周波数成分に割り当てるビット数を削減することでなされる。そのようにするのは、元の情報に高周波数成分が少ないからではなく、人間の耳が低い周波数しか知覚できないからである。それによってノイズが隠蔽され、知覚されなくなる。
知覚モデルに基づく冗長性削減でも十分な圧縮率が得られない場合、さらなる非可逆圧縮が必要となる。音源によっては、そうしても音質の低下を感じないこともある。例えば、人間の話し声は音楽よりも圧縮可能である。非可逆圧縮の多くはデータレートを調整・設定可能であり、例えばビット毎秒で表現する。さらなる圧縮においても人間の聴覚モデルに基づいて、音の重要性を判断して圧縮していく。実際の聴覚モデルは様々で、それぞれ特定の用途に特化している。帯域幅や記憶容量によって、非可逆圧縮した結果の音質は様々だが、一般に明らかな音質低下はユーザーに敬遠される。
非可逆圧縮によってデータは失われ、伸張しても復元できないので、音声ファイルの保管には好まれないこともある。従って、普段は非可逆圧縮を使っていても、保管には可逆圧縮を使いたいという場合もある。また、圧縮技術は日々進化しているため、新たな高品質の非可逆圧縮法が登場した場合、その新たな方式で圧縮したファイルを作るにはオリジナルの音声データが必要となる。非可逆圧縮された音声データを伸張して別の非可逆圧縮方式で圧縮すると、どんどん音質が低下していく。
知覚的に不要な音声信号内の部分を特定するため、多くの非可逆圧縮アルゴリズムでは時間領域の標本波形を変換領域にコンバートするため、修正離散コサイン変換 (MDCT) などを使う。一般に周波数領域に変換すると、周波数成分ごとに可聴性を考慮してビットが割り当てられる。周波数成分の可聴性は、まずマスキングしきい値を計算し、それ未満の音は人間には知覚されないと判断する。
マスキングしきい値の計算には、絶対可聴しきい値と同時マスキングの原理を使い、場合によっては経時マスキングも利用する。等ラウドネス曲線を使って各周波数成分の重み付けも行うことがある。このような脳も含めた人間の聴覚モデルに基づいた現象群を心理音響モデルと呼ぶ。
別の非可逆圧縮方式として、線形予測符号 (LPC) が人間の話し声(スピーチ)向けに使われている。この場合、音源(LPCに基づいた人間の話し声など)を量子化する前にホワイトノイズ化(平坦化)を行う。
非可逆圧縮アルゴリズムの性質から、伸張と再圧縮を繰り返すたびに音質が低下する。従って、編集過程で一時保存する際の方式としては適切でない。一方、リスニングのみの目的で利用する場合には、それなりの音質を保ったまま劇的にファイル容量を削減できる。
非可逆オーディオコーデックの有用性は、以下の観点で判断される。
非可逆圧縮フォーマットは、ストリーミングやリアルタイムでの利用(携帯電話網での音声のデジタル転送時など)が多い。そのため、データは流れに沿って即座に伸張される必要があり、全データの転送完了後に伸張するといった手法は採用できない。オーディオコーデックは必ずしもストリーミング用途に使えるわけではないので、ストリーミング用に設計されたコーデックを選ばなければならない。
データのエンコード/デコードに使われる手法によってレイテンシが異なる。コーデックによっては、比較的長い期間のデータを解析して効率を最適化するため、レイテンシが大きくなる。アルゴリズムの本質的なレイテンシは重要である。例えば、電話のように双方向のデータ転送(音声のやりとり)がある場合、遅延が大きくなるとサービス品質に致命的な問題を生じる。
圧縮の速度はアルゴリズムが実施する操作の回数に比例するが、レイテンシは1ブロックの音声を処理するまでに解析する標本数に比例する。最小ケースでは、レイテンシは0である(例えば、単純にビット深度を小さくする場合)。LPC のような時間領域のアルゴリズムもレイテンシは小さく、そのために電話でのスピーチ圧縮でよく使われる。MP3などのアルゴリズムでは、周波数領域の心理音響モデルを実装して多数の標本を解析するため、レイテンシは 23ミリ秒程度になる(双方向通信で使えば46ミリ秒になる)。
スピーチ圧縮は、音声圧縮の重要なカテゴリである。人間の耳を近似した知覚モデルは、話し声と音楽では若干異なる。扱わなければならない周波数の範囲が、話し声の方が音楽よりずっと狭くてすみ、波形もそれほど複雑でない。結果として、スピーチは低ビットレートで高い音質の符号化が可能である。
これは、一般に次のような手法を組み合わせることで実現される。
スピーチ圧縮の初期のアルゴリズムとして、A-lawアルゴリズムとμ-lawアルゴリズムがある(→G.711)。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||
PageRank5以上の相互リンク
・相互リンクスクエア
(PageRank 5)
・相互リンク インプロス
(PageRank 5)
→便利!NINJA TOOLS
→FC2検索
用語
Wikipedia
YouTube
![]() |
![]() |
![]() |
![]() |
![]() |
|
![]() |
![]() |