タグ付けされた質問 「information-theory」

通信に使用されるものでも、抽象的な意味で定義されるものでも、チャネルの情報伝達容量を決定するために使用される数学/統計のブランチ。エントロピーは、情報理論家が確率変数の予測に伴う不確実性を定量化するための手段の1つです。

2
確率としての相互情報量
ジョイントエントロピーに関する相互情報: 0≤I(X,Y)H(X,Y)≤10≤I(X,Y)H(X,Y)≤1 0 \leq \frac{I(X,Y)}{H(X,Y)} \leq 1 「XからYに情報を伝達する確率」と定義されますか? 世間知らずで申し訳ありませんが、私は情報理論を学んだことがなく、その概念を理解しようとしています。


3
情報理論の中心極限定理
情報理論CLTの最も単純な形式は次のとおりです。 ましょう平均でIIDさ、分散。ましょう正規化された和の密度であると標準ガウス密度です。次に、情報理論CLTは、がいくつかのnに対して有限である場合、D(f_n \ | \ phi)\ to 0はn \ to \ infty。0 1 f n ∑ n i = 1 X iX1,X2,…X1,X2,…X_1, X_2,\dots000111fnfnf_n∑ni=1Xin√∑i=1nXin\frac{\sum_{i=1}^n X_i}{\sqrt{n}}ϕϕ\phiN D (F N ‖ φ )→ 0 、N → ∞D (fん∥ φ )= ∫fんログ(fん/ ϕ)dバツD(fn‖ϕ)=∫fnlog⁡(fn/ϕ)dxD(f_n\|\phi)=\int f_n \log(f_n/\phi) dxんnnD (fん∥はφ )→ 0D(fn‖ϕ)→0D(f_n\|\phi)\to 0n → ∞n→∞n\to \infty 確かに、この収束は、ある意味では、文献で確立されている収束、分布の収束、L1L1L_1メトリックでの収束よりも「強力」です。これは、Pinskerの不等式( …

2
カードの2つのデッキ間の相関関係?
オーバーハンドカードシャッフルをシミュレートするプログラムを作成しました。 各カードには番号が付けられ、スーツCLUBS, DIAMONDS, HEARTS, SPADESは2から10までのランクで、ジャック、クイーン、キング、エースの順になります。したがって、2つのクラブの数は1、3つのクラブの数は2 .... Ace of Clubsは13 ... Ace of Spadesは52です。 カードがどのようにシャッフルされているかを判別する方法の1つは、シャッフルされていないカードと比較して、カードの順序が相関しているかどうかを確認することです。 つまり、私はこれらのカードを持っているかもしれませんが、比較のためにシャッフルされていないカードがあります: Unshuffled Shuffled Unshuffled number Shuffled number Two of Clubs Three of Clubs 1 2 Three of Clubs Two of Clubs 2 1 Four of Clubs Five of Clubs 3 4 Five of Clubs Four of …

3
次元削減は常にいくつかの情報を失いますか?
タイトルが言うように、次元削減は常にいくつかの情報を失いますか?たとえばPCAを考えてみましょう。私が持っているデータが非常に少ない場合、「より良いエンコーディング」が見つかると思います(これはどういうわけかデータのランクに関連していますか?)何も失われません。

1
相互情報量の計算方法は?
私は少し混乱しています。誰かが2項間の相互情報を計算する方法を説明できますか? D O C U M E N T 1D O C U M E N T 2D O C U M E N T 3』Wh y』111』Ho w』101』W時間のE N』111』WH E R E』100′Why′′How′′When′′Where′Document11111Document21010Document31110 \begin{matrix} & 'Why' & 'How' & 'When' & 'Where' \\ Document1 & 1 & 1 & 1 & …

3
Matlabでの相互情報量を使用した特徴選択
これらの講義ノート(5ページ)で説明されているように、相互情報のアイデアを機能選択に適用しようとしています。 私のプラットフォームはMatlabです。経験的データから相互情報量を計算するときに私が見つける1つの問題は、数値が常に上向きにバイアスされることです。Matlab CentralでMIを計算するために約3〜4種類のファイルを見つけましたが、独立したランダム変数を入力すると、それらはすべて大きな数値(> 0.4など)を示します。 私は専門家ではありませんが、MIを計算するために単に結合密度と限界密度を使用する場合、MIは定義上正であるため、プロセスにバイアスが導入されるという問題があるようです。相互情報を正確に推定する方法について実用的なアドバイスはありますか? 関連する質問は、実際には、実際にMIを使用して機能を選択する方法ですか。MIは理論上無制限なので、しきい値をどのように考案するかは私には明らかではありません。または、人々は単にMIによって機能をランク付けし、上位kの機能を採用しますか?

2
コンポーネントの数を選択するために、PCAフィットの品質を評価するための適切なメトリックは何ですか?
主成分分析(PCA)の品質を評価するための適切なメトリックは何ですか? このアルゴリズムをデータセットで実行しました。私の目的は、機能の数を減らすことでした(情報は非常に冗長でした)。保持される差異の割合は、保持する情報量の良い指標であることを知っています。冗長な情報を削除し、そのような情報を「失った」ことを確認するために使用できる他の情報メトリックはありますか?

2
仮説検定と総変動距離対カルバック・ライブラー分岐
私の研究では、次の一般的な問題に遭遇しました。同じドメイン上に2つの分布PPPとQQQがあり、それらの分布からのサンプルが多数(ただし有限)あります。サンプル独立して同一これら二つの分布のいずれかから分配される(分布が関係してもよいが:例えば、QQQの混合物であってもよいPPP。およびいくつかの他のディストリビューション)帰無仮説は、試料から来ることであるPPP、代替仮説はことですサンプルはからのものQQQです。 分布PPPと知って、サンプルのテストでタイプIとタイプIIのエラーを特徴づけようとしていQQQます。特に、私はPPPと知識に加えて、もう1つのエラーを制限することに興味がありQQQます。 私が求めている質問の関係についてmath.SE上の全変動距離の間にPPPとQQQ仮説検定には、私は受け入れたことの答えを受けました。その答えは理にかなっていますが、問題に関連するため、総変動距離と仮説検定の関係の背後にあるより深い意味に心を包むことができませんでした。したがって、私はこのフォーラムを利用することにしました。 私の最初の質問は次のとおりです。全体の変動は、タイプIとタイプIIのエラーの確率の合計にバインドされていますか?本質的に、サンプルがいずれかの分布によって生成された可能性があるゼロ以外の確率がある限り、エラーの少なくとも1つの確率はゼロ以外でなければなりません。基本的に、仮説テスターが信号処理をどれほど行っても、間違いを犯す可能性を回避することはできません。そして、総変動はその正確な可能性を制限します。私の理解は正しいですか? タイプIとIIのエラーと基になる確率分布とQの間には、KLダイバージェンスという別の関係もあります。したがって、私の2番目の質問は次のとおりです。KLダイバージェンスバウンドは、特定の仮説検定法(対数尤度比法の周りに多く出てくるように思われる)にのみ適用できますか、それともすべての仮説検定法に一般的に適用できますか?すべての仮説検定法に適用できる場合、なぜそれが合計変動限界と非常に異なるように見えるのですか?動作は異なりますか?PPPQQQ そして私の根底にある質問は、私がどちらかのバウンドを使用する必要がある所定の一連の状況がありますか、それとも純粋に便利な問題ですか?ある拘束を使用して、他の拘束を使用して結果をいつ導出する必要がありますか? これらの質問が些細なものである場合はお詫び申し上げます。私はコンピュータサイエンティストです(つまり、これは私には空想的なパターンマッチングの問題のようです:))。しかし、私はこの仮説テストのすべてを学び始めたばかりです。必要に応じて、質問を明確にするために最善を尽くします。

2
正常モデルと二項モデルでは、事後分散は常に前の分散よりも小さいですか?
またはそれを保証する条件は何ですか?一般に(通常モデルと二項モデルだけでなく)この主張を破った主な理由は、サンプリングモデルと以前のモデルの間に不整合があるためだと思いますが、他に何があるでしょうか。私はこのトピックから始めているので、簡単な例に本当に感謝しています

2
相互情報量を計算するときのビンの数
相互の情報を使用して、2つの変数AとBの関係を定量化したいと思います。それを計算する方法は、観測値をビニングすることです(以下のPythonコードの例を参照)。ただし、どのビンの数が妥当かを決定する要因は何ですか?計算を高速にする必要があるので、単純に多くのビンを使用して安全側にすることはできません。 from sklearn.metrics import mutual_info_score def calc_MI(x, y, bins): c_xy = np.histogram2d(x, y, bins)[0] mi = mutual_info_score(None, None, contingency=c_xy) return mi

3
入力が条件付きで独立している場合、超平面はデータを最適に分類します-なぜですか?
ディープラーニングと情報ボトルネック原理と呼ばれる論文では、著者はセクションII A)で次のように述べています。 単一ニューロンは、入力空間超平面のみを実装できるため、線形的に分離可能な入力のみを分類します。入力が条件に依存しない場合、超平面はデータを最適に分類できます。u = w h + bu=wh+bu = wh+b これを示すために、彼らは以下を導き出します。ベイズの定理を使用すると、次のようになります。 (1)p(y|x)=11+exp(−logp(x|y)p(x|y′)−logp(y)p(y′))p(y|x)=11+exp(−logp(x|y)p(x|y′)−logp(y)p(y′))p(y|x) = \frac{1}{1 + exp(-log\frac{p(x|y)}{p(x|y')} -log\frac{p(y)}{p(y')})} ここで、、入力されるYはクラスであり、Y '(私は、仮定予測クラスであり、Yは'定義されていません)。続けて、彼らは次のように述べています:xxxyyyy′y′y'y′y′y' (2)p(x|y)p(x|y′)=∏Nj=1[p(xj|y)p(xj|y′)]np(xj)p(x|y)p(x|y′)=∏j=1N[p(xj|y)p(xj|y′)]np(xj)\frac{p(x|y)}{p(x|y')} = \prod^N_{j=1}[\frac{p(x_j|y)}{p(x_j|y')}]^{np(x_j)} ここで、は入力次元で、nはわかりません(ここでも、両方とも未定義です)。シグモイドアクティベーション関数σ (u )= 1のシグモイドニューロンを考えるNNNnnnσ(u)=11+exp(−u)σ(u)=11+exp(−u)\sigma(u) = \frac{1}{1+exp(-u)}uuuwj=logp(xj|y)p(xj|y′)wj=logp(xj|y)p(xj|y′)w_j = log\frac{p(x_j|y)}{p(x_j|y')}b=logp(y)p(y′)b=logp(y)p(y′)b=log\frac{p(y)}{p(y')}hj=np(xj)hj=np(xj)h_j=np(x_j) w,b,hw,b,hw,b,h (1)ベイズの定理を使用してどのように導出されますか? nnn hj=np(xj)hj=np(xj)h_j=np(x_j) yyyy′y′y'

1
ニューラルネットワークは効率的なコーディングを使用していますか?
私の質問は、効率的なコーディングに関するウィキペディアのページで概説されている効率的なコーディング仮説とニューラルネットワーク学習アルゴリズムとの関係に関係しています。 効率的なコーディング仮説とニューラルネットワークの関係は何ですか? 効率的なコーディング仮説に明確に触発されたニューラルネットワークモデルはありますか? それとも、すべてのニューラルネットワーク学習アルゴリズムは、少なくとも暗黙的に効率的なコーディングに基づいていると言えるでしょうか。

1
応用データサイエンスにおける情報理論の利用
今日、ジェームスストーンの「情報理論:チュートリアルの紹介」という本に出会い、少しの間、応用データサイエンスにおける情報理論の使用の範囲について考えました(まだこのあいまいな用語に慣れていない場合は、IMHOデータサイエンスが栄光のバージョンであるデータ分析を考える)。情報理論に基づくアプローチ、方法、および測定法、特にエントロピーが、さまざまな統計手法とデータ分析手法のもとで重要に使用されていることをよく知っています。 しかし、私は、応用社会科学者が理論の数学的起源を深く掘り下げることなく、それらの概念、手段、およびツールをうまく選択して適用するために必要な知識の範囲/レベルに興味があります。上記の本(または他の同様の本-お気軽にお勧めします)または一般的な文脈で私の懸念に対処するかもしれない、あなたの回答を楽しみにしています。 また、他の(より多くの)従来の統計的アプローチ(頻出主義者およびベイジアン)との関連で(比較して)情報理論とその概念、アプローチ、方法、および測定について説明する印刷物またはオンラインソースのいくつかの推奨事項にも感謝します。

2
log(p(x、y))はどのようにして点ごとの相互情報を正規化しますか?
私は点ごとの相互情報の正規化された形式を理解しようとしています。 npmi=pmi(x,y)log(p(x,y))npmi=pmi(x,y)log(p(x,y))npmi = \frac{pmi(x,y)}{log(p(x,y))} なぜ対数結合確率は、点ごとの相互情報を[-1、1]の間に正規化するのですか? ポイントごとの相互情報は次のとおりです。 pmi=log(p(x,y)p(x)p(y))pmi=log(p(x,y)p(x)p(y))pmi = log(\frac{p(x,y)}{p(x)p(y)}) p(x、y)は[0、1]によって制限されるため、log(p(x、y))は(、0]によって制限されます。log(p(x、y))は、分子ですが、正確にはわかりません。また、エントロピー思い出しますが、正確な関係はわかりません。h=−log(p(x))h=−log(p(x))h=-log(p(x))

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.