応用データサイエンスにおける情報理論の利用


9

今日、ジェームスストーンの「情報理論:チュートリアルの紹介」という本に出会い、少しの間、応用データサイエンスにおける情報理論の使用範囲について考えました(まだこのあいまいな用語に慣れていない場合は、IMHOデータサイエンスが栄光のバージョンであるデータ分析を考える)。情報理論に基づくアプローチ方法、および測定法、特にエントロピーが、さまざまな統計手法とデータ分析手法のもとで重要に使用されていることをよく知っています。

しかし、私は、応用社会科学者が理論の数学的起源を深く掘り下げることなく、それらの概念、手段、およびツールをうまく選択して適用するために必要な知識の範囲/レベルに興味があります。上記の本(または他の同様の本-お気軽にお勧めします)または一般的な文脈で私の懸念に対処するかもしれない、あなたの回答を楽しみにしています。

また、他の(より多くの)従来の統計的アプローチ頻出主義者およびベイジアン)との関連で(比較して)情報理論とその概念、アプローチ、方法、および測定について説明する印刷物またはオンラインソースのいくつかの推奨事項にも感謝します。


2
おそらく、ツリーを構築するときに、エントロピーを使用する最も有名で「適用された」ケースの1つが発生します。アルゴリズムが分割されるときの可能性の1つは、情報ゲインメトリックを取得することです。これは、トップレベルとダウンレベルの間のエントロピーの差です。詳細はこちらen.wikipedia.org/wiki/Information_gain_in_decision_trees
D.Castro

@ D.Castro:コメントをありがとうございます-私はそのケースを認識しています(そして、この正確なトピックに関する回答を、ここクロス検証済みまたはデータサイエンスSEサイトに投稿しました)。私は主題のより包括的な報道/議論を望んでいます。
Aleksandr Blekh 2015

1
私にとって、そして大部分は、地理的な大陸だけでなく、訓練されている分野または分野の問題です。私の見解では、純粋な機械学習の物理学者、数学者、および実践者は、たとえば統計学者、経済学者、または量的金融アナリストよりも、情報理論に深く触れる可能性がはるかに高くなります。さらに、ヨーロッパで訓練を受けた人々のためにこれを2倍にします。つまり、ヨーロッパ人はITに精通している可能性がはるかに高くなります。ただし、統計学習のモデルの出現により、米国のデータサイエンティストのモデルは変化しています。
マイクハンター

@DJohnson非常に細かい点ですが、イギリスとおそらく他の地域ではIT ==情報技術です。そうでなければあなたの印象は私のものに似ています。
Nick Cox

@NickCoxおかげで、あなたの主張は米国にも当てはまります。それは長めのコメントであり、スペースが許せば、私は単語をスペルアウトしたでしょう、あるいは、もっと早い段階で頭字語の意味を紹介したでしょう。
マイクハンター

回答:


4

質問の最初の部分:データサイエンティストは情報理論を知る必要がありますか?答えはごく最近までないと思います。気が変わった理由の1つは、ノイズです。

多くの機械学習モデル(確率的かどうかにかかわらず)は、エンコーディングと変換プロセスの一部としてノイズを使用します。これらのモデルの多くでは、モデルの変換された出力をデコードした後にノイズが影響する確率を推測する必要があります。これは情報理論の核心部分だと思います。それだけでなく、ディープラーニングでは、KLダイバージェンスは、情報理論からも使用される非常に重要な指標です。

質問の2番目の部分:最良の情報源は、David MacKayの情報理論、推論および学習アルゴリズムです。彼は情報理論から始め、それらのアイデアを推論とニューラルネットワークの両方に取り入れます。PdfはDaveのWebサイトで無料で、講義はオンライン提供されています。


3
それは素晴らしい本です。興味のある方はen.wikipedia.org/wiki/David_J._C._MacKay
Nick Cox

回答ありがとうございます(+1と受け入れられる可能性があります。包括的な回答がすぐに表示されない場合)。参照のための特別な感謝。私がこれまでほとんど忘れられていた、しかし重要なこの質問に出くわしたことに驚いています。:-)
Aleksandr Blekh 2016

面白いですね。質問をあきらめてはいけません。NIPS2016に参加した後、KLダイバージェンスとエンコーダーへのノイズの影響に関するすべての話を見ました。
アンボディ16
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.