タグ付けされた質問 「maximum-entropy」

最大エントロピーまたは最大値は、情報理論から導き出された統計的原理です。(いくつかの制約の下で)エントロピーを最大化する分布は、制約が与えられた場合、「最大の情報を提供しない」と考えられています。最大エントロピーは、事前の選択、サンプリングモデルの選択、実験の設計など、複数の目的に使用できます。

6
確率分布が均一なときにエントロピーが最大化されるのはなぜですか?
エントロピーはプロセス/変数のランダム性の尺度であり、次のように定義できることを知っています。ランダム変数X∈X∈X \in set AAA :- H(X)=∑xi∈A−p(xi)log(p(xi))H(X)=∑xi∈A−p(xi)log⁡(p(xi))H(X)= \sum_{x_i \in A} -p(x_i) \log (p(x_i)) . In the book on Entropy and Information Theory by MacKay, he provides this statement in Ch2 Entropy is maximized if p is uniform. Intuitively, I am able to understand it, like if all datapoints in set AAA …

3
時間パラドックスのシャリジのベイジアン後方矢印のエントロピーに基づく反論?
で、この論文、有能な研究者コスマ・シャリッチは完全に主観的ベイズビューを受け入れるために、1にも(エントロピーの流れによって与えられた)時間の矢が実際に行くべきであると非物理的な結果受け入れなければならないと主張している後方を。これは主にETジェインズによって提唱され、一般化された最大エントロピー/完全に主観的なベイジアンの見解に反論する試みです。 以上でLessWrong、多くの貢献者は、非常にフォーマルな意思決定理論の基礎としてベイズ確率理論的にも主観的ベイズアプローチに興味を持って強いAIに向けた足がかりさエリエゼル・ユードコウスキーがあり、共通の貢献者であり、私が最近読んでいたこのポストをするときI このコメントに出くわしました(元の投稿のページでは、そのすぐ後にいくつかの他の良いコメントがあります)。 YudkowskyのShaliziへの反論の有効性について誰でもコメントできますか。簡単に言えば、ユドコフスキーの論拠は、推論エージェントが信念を更新する物理的メカニズムには作業が必要であり、したがってシャリジが敷物の下で掃除している熱力学的なコストがあるということです。別のコメントで、ユドコフスキーはこれを擁護し、次のように述べています。 「システム外の論理的に全知の完全な観測者の視点をとる場合、「確率」と同様に「エントロピー」の概念はほとんど意味がありません-統計熱力学を使用して何かをモデル化する必要はありません。波動方程式。」 確率論者や統計力学はこれについてコメントできますか?私はシャリジとユドコフスキーのどちらの地位に関する権威からの議論についてもあまり気にしませんが、ユドコフスキーの3つのポイントがシャリジの記事を批判する方法の概要を見たいです。 FAQガイドラインに準拠し、これを具体的に回答可能な質問にするために、ユドコフスキーの3つのステップの引数を取り、それら3つのステップが仮定や派生に反論する3つのステップを示す具体的な項目別の回答を求めていることに注意してください一方、シャリジの論文でユドコフスキーの議論が扱われている場所を示しています。 シャリジの記事は、本格的な主観的ベイジアン主義を擁護できないという鉄に覆われた証拠として宣伝されていることがよくあります...観察されているもの(つまり、実際の物理学すべて)と相互作用する観察者に。しかし、Shaliziは素晴らしい研究者なので、この議論の重要な部分を理解していない可能性が高いため、セカンドオピニオンを歓迎します。

3
最大エントロピー分布の統計的解釈
最大エントロピーの原理を使用して、さまざまな設定でいくつかの分布を使用することを正当化しました。ただし、最大エントロピーの情報理論的な解釈とは対照的に、統計を定式化することはまだできていません。言い換えると、エントロピーを最大化すると、分布の統計的特性について何が示唆されるのでしょうか? 誰かに出くわしたり、最大の統計的解釈を自分自身で発見したりしました。情報には訴えず、確率論的な概念にのみ訴えるエントロピー分布? そのような解釈の例として(必ずしも真とは限らない):「RVのドメイン上の任意の長さLの間隔(単純化のために1-d連続と仮定)では、この間隔に含まれる最大確率は最小化されます。最大エントロピー分布による。」 したがって、「情報量」やその他のより哲学的なアイデアについての話はなく、確率的な意味合いだけがあります。

4
スケールパラメーターの弱く有益な事前分布
私は、スケールがどうあるべきかについて大まかな考えを持っているが、わからないという言い方をしたいときに、スケール正規分布の事前分布として対数正規分布を使用しました(正規分布、t分布など)。それについて多く。その使用は直感的に理にかなっているので使用しますが、他の人が使用するのを見たことはありません。これに隠れた危険はありますか?



2
与えられた平均と標準偏差の正の連続変数の最大エントロピー確率密度関数とは何ですか?
一次モーメントと二次モーメントが与えられた場合、正の連続変数の最大エントロピー分布は何ですか? たとえば、ガウス分布は、その平均値と標準偏差が与えられた場合の無制限変数の最大エントロピー分布であり、ガンマ分布は、その平均値とその対数の平均値が与えられた場合の正変数の最大エントロピー分布です。

1
ジャックナイフの現代的な用途はありますか?
質問: ブートストラップはジャックナイフよりも優れています。ただし、パラメータ推定から不確実性を特徴付けるための唯一の、または少なくとも実行可能なオプションがジャックナイフである場合があるのではないかと思っています。また、実際の状況では、ブートストラップに比べて偏り/不正確なジャックナイフがどのように発生し、ジャックナイフの結果は、より複雑なブートストラップが開発される前に予備的な洞察を提供できますか? コンテキスト: 友人がブラックボックス機械学習アルゴリズム(MaxEnt)を使用して、「プレゼンスのみ」または「ポジティブのみ」の地理データを分類しています。一般的なモデル評価は、通常、相互検証とROC曲線を使用して行われます。しかし、彼女はモデルの出力を使用して、モデル出力の単一の数値記述を導き出し、その数値の周りの信頼区間を求めています。Jackknifingは、この値に関する不確実性を特徴付ける合理的な方法のようです。各データポイントはマップ上の一意の場所であり、置換で再サンプリングできないため、ブートストラップは関連しているようには見えません。モデリングプログラム自体は、最終的に彼女が必要とするものを提供できる可能性があります。ただし、jackknifingが役立つかどうか/いつに興味があるのでしょうか。

3
周辺カウントのみが与えられた同時分布の最尤推定量
ましょうpx,ypx,yp_{x,y} 2つのカテゴリ変数の同時分布であるX,YX,YX,Yと、x,y∈{1,…,K}x,y∈{1,…,K}x,y\in\{1,\ldots,K\}。セイnnnのサンプルは、この分布から引き出されたが、我々は唯一の、すなわちのために、限界カウントを与えられているj=1,…,Kj=1,…,Kj=1,\ldots,K: Sj=∑i=1nδ(Xi=l),Tj=∑i=1nδ(Yi=j),Sj=∑i=1nδ(Xi=l),Tj=∑i=1nδ(Yi=j), S_j = \sum_{i=1}^{n}{\delta(X_i=l)}, T_j = \sum_{i=1}^{n}{\delta(Y_i=j)}, S j、T jが与えられた場合のの最尤推定量は何ですか?これは知られていますか?計算的に実行可能ですか?ML以外にこの問題に対する他の合理的なアプローチはありますか?px,ypx,yp_{x,y}Sj,TjSj,TjS_j,T_j

2
時系列の予測可能性を判断する方法は?
予測者が直面している重要な問題の1つは、特定の系列 を予測できるかどうかです。 Peter Cattによる「予測可能性の先験的指標としてのエントロピー」というタイトルの記事を偶然見つけました。この記事では、近似エントロピー(ApEn)を使用して 、所定の時系列を予測できる相対的な指標を決定しています。 記事は言う、 「ApEn値が小さいほど、一連のデータの後に類似データが続く可能性が高いことを示します(規則性)。逆に、ApEnの値が大きいほど、類似データが繰り返される可能性が低いことを示します(不規則性)。したがって、値が大きいほど、不規則性が高くなります。 、ランダム性、システムの複雑さ。」 そして、ApEnを計算するための数式が続きます。これは、相対的な意味で予測可能性を評価するために使用できる数値を提供するため、興味深いアプローチです。近似エントロピーの意味がわかりません。詳しく読んでいます。 呼ばれるパッケージがありpracmaにRそれはあなたがAPENを計算することができますが。説明のために、3つの異なる時系列を使用してApEn数を計算しました。 シリーズ1:有名なAirPassenger時系列-非常に確定的であり、簡単に予測できるはずです。 系列2:太陽黒点の時系列-非常に明確に定義されていますが、系列1よりも予測しにくいはずです。 シリーズ3:乱数このシリーズを予測する方法はありません。 したがって、ApEnを計算する場合、シリーズ1はシリーズ2よりも少なく、シリーズ3は非常に少ないはずです。 以下は、3つのシリーズすべてのApEnを計算するRスニペットです。 library("pracma") > series1 <- approx_entropy(AirPassengers) > series1 [1] 0.5157758 > series2 <- approx_entropy(sunspot.year) > series2 [1] 0.762243 > series3 <- approx_entropy(rnorm(1:30)) > series3 [1] 0.1529609 これは私が期待したものではありません。ランダムシリーズは、明確に定義されたAirPassengerシリーズよりも数が少ないです。乱数を100に増やしても、明確に定義されたシリーズ2 / Sunspot.yealryシリーズよりも少ない次の結果が得られます。 > series3 <- approx_entropy(rnorm(1:100)) > series3 [1] …

1
既知の平均絶対偏差の最大エントロピーを持つ分布はどれですか?
平均絶対偏差などの他の指標とは対照的な標準偏差の使用に関するハッカーニュースの議論を読んでいました。それで、最大エントロピーの原理に従うとしたら、分布の平均と絶対絶対偏差しかわからない場合、どのような分布を使用するのでしょうか。 それとも、中央値と中央値からの平均絶対偏差を使用する方が理にかなっていますか? Grechuk、Molyboha、Zabarankinの論文「General Envimation Measures with General Deviation Measures」で最大のエントロピー原理を見つけたのですが、私が知りたい情報があるようですが、それを解読するには少し時間がかかります。

1
短い質問:なぜこれが本当なのですか? 長い質問: 非常に単純に、私はこの最初の方程式を正当化するものを理解しようとしています。私が読んでいる本の著者(必要な場合はここに示しますが、必須ではありません)は次のように主張しています。 ガウスに近いという仮定のため、次のように書くことができます。 p0(ξ)=Aϕ(ξ)exp(an+1ξ+(an+2+12)ξ2+∑i=1naiGi(ξ))p0(ξ)=Aϕ(ξ)exp(an+1ξ+(an+2+12)ξ2+∑i=1naiGi(ξ)) p_0(\xi) = A \; \phi(\xi) \; exp( a_{n+1}\xi + (a_{n+2} + \frac{1}{2})\xi^2 + \sum_{i=1}^{n} a_i G_i(\xi)) ここで、p0(ξ)p0(ξ)p_0(\xi)は、一連の期待値(単純な数)のみを観察した場合に、最大エントロピーを持つ観察データのPDFです。。。nci,i=1...nci,i=1...nc_i, i = 1 ... n、ここでci=E{Gi(ξ)}ci=E{Gi(ξ)}c_i = \mathbb{E}\{G_i(\xi)\}、およびϕ(ξ)ϕ(ξ)\phi(\xi)は、標準化されたガウス変数、つまり平均0、単位分散のPDFです。 このすべてが起こっているのは、PDF、単純化するための出発点として上記の方程式を使用することであり、私は彼がどのようにそれを行うかを取得しますが、私は彼が上記の方程式を正当化する方法を取得しません。出発点。p0(ξ)p0(ξ)p_0(\xi) 私は、誰も難読化しないように簡潔にするよう努めましたが、詳細が必要な場合はコメントでお知らせください。ありがとう!

1
既存の多入力最大エントロピー分類器から最大エントロピーマルコフモデルを作成する
私は最大エントロピーマルコフモデル(MEMM)の概念に興味をそそられ、品詞(POS)タガーにそれを使用することを考えています。現在、私は従来の最大エントロピー(ME)分類器を使用して、個々の単語にタグを付けています。これは、前の2つのタグを含む多くの機能を使用します。 MEMMは、ビタビアルゴリズムを使用してマルコフチェーンを通る最適なパスを見つけます(つまり、各単語の個々の最適値ではなく、文のタグの完全な最適セットを見つけます)。それについて読むと、これは素晴らしい優雅さとシンプルさを持っているようです。ただし、各ステージは前のステージの「結果」にのみ依存しています(つまり、マルコフチェーンに従って)。 ただし、私のMEモデルでは、前の2つの段階(つまり、前の2つの単語のタグ)を使用しています。私には2つの可能なアプローチがあるようです: 従来のビタビ実装と同様に、1つ(前の)ステージに従って保存されたパスのセットを使用します。私のME分類器は、これとその前の「凍結」ステージ(検討中のパスに凍結)を使用して伝達関数を生成します。 または、2つのステージを追跡するアルゴリズムを記述します。これはより複雑であり、各伝達関数(つまり、MEモデルからの)は1つのステージではなく、前の2つのステージに依存するため、真のマルコフモデルではなくなります。 2つ目はより複雑になりますが、2つ目はより正確になります。 私は、文献検索でこれの例をまだ見つけていません。試されましたか?2段階のアプローチにより、全体的な精度が向上しましたか?

1
最大エントロピー分布は、与えられた周辺分布と一致していますか?
一般に、既知の限界分布と一致する多くの結合分布ます。P(X1=x1,X2=x2,...,Xn=xn)P(X1=x1,X2=x2,...,Xn=xn)P(X_1 = x_1, X_2 = x_2, ..., X_n = x_n)fi(xi)=P(Xi=xi)fi(xi)=P(Xi=xi)f_i(x_i) = P(X_i = x_i) これらの共同分布の中で、周辺の積をとることで生成される積は、エントロピーが最も高いものですか?∏ifi(xi)∏ifi(xi)\prod_i f_i(x_i) 私は確かにこれが真実であると信じていますが、実際に証拠を見たいと思います。 私はすべての変数が離散的である場合に最も興味がありますが、連続的な場合の製品測定値に関連するエントロピーについての解説にも興味があります。

1
サポートベクターマシン(SVM)はロジスティック回帰のゼロ温度限界ですか?
SVMはロジスティック回帰のゼロ温度限界であると述べた知識のある友人と最近、簡単な議論がありました。理論的根拠には、限界ポリトープとフェンシェル双対性が含まれていました。フォローできませんでした。 SVMがロジスティック回帰のゼロ温度限界であるというこの説明は正しいですか?もしそうなら、誰かが議論を説明できますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.