ウィキペディアによると:
非公式には、アルゴリズム情報理論の観点から、文字列の情報内容は、その文字列の最短の自己完結型表現の長さに相当します。
「有用な情報」の類似した非公式の厳密な定義は何ですか?「有用な情報」がより自然な、またはより基本的な概念として扱われないのはなぜですか。単純に、純粋にランダムな文字列には定義上ゼロの情報が含まれている必要があるため、標準の定義では最大の情報があると考えられるという事実を回避しようとしています。
ウィキペディアによると:
非公式には、アルゴリズム情報理論の観点から、文字列の情報内容は、その文字列の最短の自己完結型表現の長さに相当します。
「有用な情報」の類似した非公式の厳密な定義は何ですか?「有用な情報」がより自然な、またはより基本的な概念として扱われないのはなぜですか。単純に、純粋にランダムな文字列には定義上ゼロの情報が含まれている必要があるため、標準の定義では最大の情報があると考えられるという事実を回避しようとしています。
回答:
ここでの中心的な概念はコルモゴロフの複雑さ、より具体的に圧縮性です。圧縮性の直感的な感覚を得るために、2つの文字列を考えると、どこ。させて B ∈ B * B = { 0 、1 }
1010 1010 1010 、および
0110 0111 1001 。
なお、。または情報量をどのように定量化できますか?古典的な情報理論について考えると、一般に、長さ文字列を送信するには平均でビットかかります。ただし、長さ特定の文字列を送信するために必要なビット数を言うことはできません。A B n n n
なぜランダムな文字列の情報量はゼロではないのですか?
よく見ると、実際にであることがわかります。ただし、構造に明らかなパターンがある場合、少なくとも場合よりもランダムであると思われ、感じていると言うのははるかに困難です。我々はパターンを見つけることができるので、、我々は簡単に圧縮することができ未満でそれを表すビット。同様に、パターンを検出するのは簡単ではないため、それほど圧縮することはできません。したがって、はよりも多くの情報があると言えます。さらに、長さランダムな文字列 B A A A 16 B B A n n圧縮できる方法がないため、最大の情報を持ち、ビット未満で表現します。
では、有用な情報とは何ですか?
以下のために有用な情報、はい、チューリングマシンの使用の定義があり。の有用な情報は次のです。X ∈ B *
ここで、は、チューリングマシン自己制限エンコーディングの長さを示します。表記法はそれを通常、あるのコルモゴロフ複雑性表し及びの条件コルモゴロフ複雑性所与。
ここで、は含まれる有用な情報の量を具体化します。私たちが尋ねることができるのは、そのようなが要件を満たすものの中から選択することです。問題は、最短プログラム分離することでの部分に番目の適切な表す。これは実際には、最小記述長(MDL)を生み出したまさにその考えです。
「役に立つ」を定義するのが難しいからかもしれません。高度に構造化された情報豊富なメッセージあり、メッセージに対して最大で係数で圧縮できるとします。直観的に、とには同じ量の有用な情報が含まれています。実際、通常の定義に従って同じ量の情報が含まれています。次に、と同じ長さのの接頭辞を想像してください。よりも有用な情報が含まれてはならないため、しか含まれません。ただし、より「ランダム」であるので、圧縮できますが、は圧縮できません。したがって、「有用な」情報を圧縮率に関連付けようとすると、次のパラドックスが発生する可能性があります。メッセージのプレフィックスは、メッセージ全体よりも高い「有用な」情報を持ち、矛盾しているように見えます。
それほど正式ではない観点からは、「ランダム」という言葉から自分を切り離すと役立つと思います。真にランダムなビットのセットは実用的な意味で情報を保存しないのは正しいからです。(名前のセットを暗号化し、暗号化された値を送信すると、コルモゴロフの複雑さが非常に高くなる可能性がありますが、名前を理解する助けにはなりません)。
しかし、このように考えてください。外国語のウェブサイト(スウェーデン語など、あなたが話さないと仮定する)を見ると、多かれ少なかれランダムに見えるでしょう。単語にはある程度の順序がありますが、それほど多くはありません。ただし、123456123456123456123456 ...などのようなテキストを含むWebページを見ると、よりすばやく理解できます。スウェーデン語を話さないと、スウェーデン語のWebページで「最初の6つの数字が連続して繰り返される」に相当すると言われたとしても、おそらくそれをもっと活用できるでしょう。Webサイトには同じ情報が含まれていますが、ランダムに見えます。そして、同じ情報を保存しているにもかかわらず、スペースの量については、スウェーデンのウェブページよりも効率が低いと理解しています。この情報は「有用」ではないかもしれません。なぜなら、
「情報」の概念は普遍的なものであるため、ランダムに見える(つまり役に立たない)ビットは、他の誰かに大量の情報を保存する可能性があります。情報の測定は、文字列の固有のプロパティであることが意図されており、あなたにとって意味のあるものと意味のないもの、解釈できるものとできないものに依存することはできません。
役に立つかもしれないもう一つの(より技術的な)ポイントは、私がここで少し不誠実であることです。ジュホが指摘するように、情報は誰がそれを解釈するかに関して定義されます。スウェーデン語のWebページは情報の伝達手段としてはまったく役に立たないかもしれませんが、スウェーデン語を話す人は大量の情報があることに気付くかもしれません。定義にはこれが反映されています。しかし、数学から、このウェブサイトをあなたに伝えるための最短の(スペースにとって最も有益な)ウェブページとスウェーデン語を話す人にそれを伝えることができる最短のウェブページとの違いは、加法定数によってのみ異なり得ることを学ぶことができます。どうして?あなたにとって、非スウェーデン語話者として、理解できるページを保存する最も短い方法は「最初の6つの整数が順番に繰り返される」からです。これはスウェーデン語よりもかなり長いかもしれません。
しかし、スウェーデン語を話せたとしても、長さから加算定数を削減することしかできません!どうして?スウェーデン語-英語の辞書をいつでも購入できるからです。そうすれば、スウェーデン語の非常に短いWebページがあなたにとって理にかなっています。確かに、辞書がある場合にのみ意味がありますが、辞書の長さは一定です。したがって