私のファイルに含まれる多くの非冗長(実際の)情報を測定しようとしています。これをエントロピーの量と呼ぶ人もいます。
もちろん標準のp(x)log {p(x)}はありますが、シャノンはチャネルを介して送信するという観点からのみ考慮していたと思います。したがって、式にはブロックサイズが必要です(たとえば、ビット単位で8)。大きなファイルの場合、この計算はほとんど役に立ちません。シンボル間の短距離から長距離への相関は無視されます。
二分木とZiv-Lempelメソッドがありますが、これらは本質的に高度に学術的であるように見えます。
圧縮率もエントロピーの尺度と見なされますが、圧縮の程度に下限はないようです。私のファイルhiss.wavの場合、
- 元のhiss.wav = 5.2 MB
- シャノン公式によるエントロピー= 4.6 MB
- hiss.zip = 4.6 MB
- hiss.7z = 4.2 MB
- hiss.wav.fp8 = 3.3 MB
hiss.wav内に存在するエントロピーの量を測定する合理的に実行可能ないくつかの方法はありますか?