「データを圧縮する」ってどういうこと?


データの圧縮

スマートフォンで大容量のファイルもやり取りする時代。
「データを圧縮して小さくしてから送る」と言うのは割りと一般的になってきた。

Zip、MPEG、MP3、JPEG…
これらは、日常会話でも飛び出すぐらいに普及したが、本来はデータ圧縮の様々なやり方の名称だ。

しかし「データを圧縮する」とはどういうことか。
なぜ小さくできるのか?

今日はかんたんに概念を書いてみる。

もとに戻せる「可逆圧縮」

圧縮には可逆圧縮と不可逆圧縮の大きく2種類がある。
難しいことは置いておいて、とりあえず元に戻せる圧縮である、「可逆圧縮」の概念を書く。

りんごが並んでいるのを早く電話で伝えるには..

まず、りんごが並んでいることをイメージする。
あなたは電話で、これを相手に口頭で伝えるとしよう。

「並んでいるのは、りんご、りんご、りんご、りんご、りんご」
と伝えるのと、
「りんごが5つ」
と伝えるのでは、
どちらも結果的に、相手には「5つのりんごが並んでいる」ことは伝わる。

しかし、「りんご、りんご、りんご..」のほうが文字数が多く遅い。
「りんご5つ」と言うほうが短くて早い。

圧縮率が高いパターン

実はこれが可逆圧縮の考えかた。
「りんご、りんご、りんご、りんご、りんご」と言う文章を、「りんご5つ」と言う文章に置き換えて記録し直すことで、データ量が短くなる。

データを受け取った側では、「りんご5つ」の文章を「りんご、りんご、りんご、りんご、りんご」に戻して、本来の文章を得る。
この元に戻すのが、圧縮の反対、「解凍」(展開、伸張)である。

もう少し専門的には、コンピュータが扱うデータは、0と1の組み合わせなので、11111を1*5にするようなイメージ。

圧縮でいつも軽くなるとは限らない

しかし、いつも単純に短くはならない。
圧縮しても軽くならない場合もある。

例えば、りんごとみかんが交互に並ぶパターン。

左から順に読む方式だと
「りんご、みかん、りんご、みかん、りんご」
である。

これを個数に置き換える方式だと、先ほどは「りんご5個」にできたが、今回は、
「りんご1個、みかん1個、りんご1個、みかん1個、りんご1個」
となってしまう。

このように、データの並び方によっては圧縮する方式のほうが長くなることもある。

圧縮率が低いパターン

だから様々な圧縮方式が出てくる

圧縮する対象のデータによって、短く軽くなったり、あまり軽くならなかったりする。

だから世の中には様々な圧縮方式があり、テキストデータに強い圧縮、動画に強い圧縮など、向き不向きがあって、それぞれが使い分けられている。

画像ならJPEG、PNG、動画はMPEG、音楽はMP3と言った具合に。

今回はかなり大雑把に圧縮をイメージ化してみた。

今後、データを圧縮するときに、待ち時間を示すダイアログが表示され、じーっと圧縮されるのを眺める時がもしあったら。
パソコンが頑張ってりんごとみかんを数えているのだと想像してみてはどうでしょう。

 

———————–
映像作家コジロウ
「今、素晴らしいものを映像で未来にのこす」
お仕事のご用命は、お気軽にメールしてください
映像制作、コンサルティングなど
Mail : repondreyou1@gmail.com
Web : http://fdsa-life.jp
FB : Facebookページ
YT : Youtubeチャンネル
Webメディア : やっとみつけた、弥富

当ブログの記事文章、画像、動画等の一切は無断転載禁止です。
引用は自由にどうぞ。

———————–