タグ付けされた質問 「identifiability」

2
モデルの識別可能性とは何ですか?
識別できないモデルの場合、データはモデルパラメーターへの複数の異なる割り当てによって生成されると言えます。Cassella&Berger 2nd ed、セクション11.2の例のように、すべてを識別できるようにパラメーターを制限できる場合があることを知っています。 特定のモデルが与えられた場合、それが識別可能かどうかをどのように評価できますか?

2
クラスタリングのディリクレプロセス:ラベルの扱い方
Q: Dirichletプロセスを使用してデータをクラスタリングする標準的な方法は何ですか? Gibbsサンプリングを使用すると、サンプリング中にクラスターが表示され、消えます。また、事後分布はクラスターの再ラベル付けに対して不変であるため、識別可能性の問題があります。したがって、どちらがユーザーのクラスターであるかを言うことはできませんが、2人のユーザーが同じクラスターに属していると言えます(つまり、p (c私= cj)p(c私=cj)p(c_i=c_j))。 クラスの割り当てを要約して、がポイントiのクラスター割り当てである場合、c i = c jだけでなくc i = c j = c j =になるようにできます。。。= c z?c私c私c_i私私ic私= cjc私=cjc_i=c_jc私= cj= cj=。。。= czc私=cj=cj=。。。=czc_i=c_j=c_j=...=c_z これらは私が見つけた選択肢であり、それらが不完全または見当違いだと思う理由です。 (1)DP-GMM + Gibbsサンプリング+ペアベースの混同行列 クラスタリングにディリクレプロセスガウス混合モデル(DP-GMM)を使用するために、著者がギブスサンプリングを使用した密度推定のためのDP-GMMを提案するこの論文を実装しました。 クラスタリングのパフォーマンスを調査するために、彼らは次のように述べています。 コンポーネントの数は[MCMC]チェーンで変化するため、チェーン全体で同じコンポーネントに割り当てられる各データペアの頻度を示す混同マトリックスを作成する必要があります。図6を参照してください。 短所:これは実際の「完全な」クラスタリングではなく、ペアワイズクラスタリングです。実際のクラスターを知っており、それに応じてマトリックスを配置しているため、この図は見栄えがします。 (2)DP-GMM + Gibbsサンプリング+何も変化しないサンプル 私は検索してきましたが、ギブスサンプラーを使用してディリクレプロセスに基づいてクラスタリングを行うと主張する人がいます。たとえば、この投稿では、クラスターの数または平均のいずれにも変化がなくなったときにチェーンが収束し、そこから要約を取得すると考えています。 短所:私が間違っていなければ、これが許可されているかどうかわかりません: (a)MCMC中にラベルが切り替えられる場合があります。 (b)定常分布であっても、サンプラーは時々クラスターを作成できます。 (3)DP-GMM + Gibbsサンプリング+最も可能性の高いパーティションのサンプルを選択 この論文では、著者は次のように述べています。 「バーンイン」期間の後、IGMMの事後分布からの偏りのないサンプルをギブスサンプラーから引き出すことができます。ハードクラスタリングは、このようなサンプルを多数描画し、クラスインジケーター変数の結合尤度が最も高いサンプルを使用することで見つけることができます。M. Mandelによって作成された修正IGMM実装を使用します。 短所:これが割り当てをサンプリングするだけのCollapsed Gibbs Samplerでない限り、計算できますが、周辺のp (c)は計算できません。(代わりに、最高のp (c、θ …

1
softmax関数の定義
この質問はstats.stackexchange.com/q/233658でフォローアップします クラス{0、1}のロジスティック回帰モデルは P(y=1|x)=exp(wTx)1+exp(wTx)P(y=0|x)=11+exp(wTx)P(y=1|x)=exp⁡(wTx)1+exp⁡(wTx)P(y=0|x)=11+exp⁡(wTx) \mathbb{P} (y = 1 \;|\; x) = \frac{\exp(w^T x)}{1 + \exp(w^T x)} \\ \mathbb{P} (y = 0 \;|\; x) = \frac{1}{1 + \exp(w^T x)} 明らかにこれらの確率の合計は1ですを設定することにより、ロジスティック回帰を次のように定義することもできます。w=β1−β0w=β1−β0w = \beta_1 - \beta_0 P(y=c|x)=exp(βTcx)exp(βT0x)+exp(βT1x)∀c∈{0,1}P(y=c|x)=exp⁡(βcTx)exp⁡(β0Tx)+exp⁡(β1Tx)∀c∈{0,1} \mathbb{P} (y = c \;|\; x) = \frac{\exp(\beta_c^T x)}{\exp(\beta_0^T x) + \exp(\beta_1^T x)} \quad \forall \; c …

2
ニューラルネットワークモデルの識別可能性
ほとんどのニューラルネットワークトポロジ/アーキテクチャが識別できないことは非常に直感的です。しかし、フィールドでよく知られている結果は何ですか?識別可能性を許可/防止する単純な条件はありますか?例えば、 非線形活性化関数と複数の非表示層を持つすべてのネットワークは識別できません 3つ以上の非表示ユニットがあるネットワークはすべて識別できません またはこれらのようなもの。注:これらの条件が識別可能性を妨げると言っているのではありません(ただし、これらは私にはかなり良い候補のようです)これらは、「単純な条件」で私が意味するものの単なる例です。 質問を絞り込むのに役立つ場合は、フィードフォワードおよび繰り返しアーキテクチャのみを検討してください。それでも不十分な場合は、MLP、CNN、RNNのうち少なくとも1つのアーキテクチャをカバーする回答で満足します。私はWebをざっと見て回りましたが、私が見つけた唯一の議論はRedditに関するもののようです。さあ、人々、私たちはRedditよりもうまくやることができます;-)

1
パラメータの問題の特定
私は常に計量経済学における同定の本質を理解するのに苦労しています。パラメータ(たとえば、)は、その(結合)分布を見るだけでパラメータの値を推測できる場合に識別できると述べています。単純な場合には、ここで、、我々はその状態でき、我々がその分散ことがわかっている場合に同定される。しかし、でが不明なパラメータではどうでしょうか。とを識別できますか? Y=B1X+UE[U]=0、E[U| X]=0、B1、VR( B)>0E[U| X]=B1θ^θ^\hat{\theta}y=b1X+uy=b1X+uy=b_1X+uE[ u ] = 0 、E[ u | x ] = 0E[u]=0,E[u|x]=0E[u]=0,E[u|x]=0b1b1b_1Va r (b^)> 0Var(b^)>0Var(\hat{b})>0E[ u | バツ] = aE[u|X]=aE[u|X]=aaaaaaab1b1b_1 モデルを(および)に展開して、b_1、b_2、b_3が識別されていることを示す場合は、次のようにします。 3つのパラメーターすべての分散がゼロより大きいことを簡単に述べる必要がありますか?D ∈ { 0 、1 } E [ U | X 、D ] = 0 b 1、b 2、b 3Y= b0+ b1バツ+ b2バツD = uY=b0+b1X+b2XD=uY=b_0+b_1X+b_2XD=uD ∈ …

1
非線形回帰問題における識別可能性
次のモデルで作業しているとします yi=α(1−exp(−βti))+γ(1−exp(−δti))+εiyi=α(1−exp⁡(−βti))+γ(1−exp⁡(−δti))+εiy_i = \alpha(1-\exp(-\beta t_i))+\gamma(1-\exp(-\delta t_i)) + \varepsilon_i。 ゼロで平均IIDガウスであり、私はのベストフィット値見つけようとしている。εiεi\varepsilon_iα,β,γ,δα,β,γ,δ\alpha,\beta,\gamma,\delta 具体的には、これはRHSの第1項と第2項に従って時間とともに成長する2つの亜種を含む一部の細菌種の総量のモデルであると言いますが、ここでは総個体数のみを測定します。注:これは実際の設定ではありませんが、質問には十分です。 たとえば、常にとを交換するだけで、正確に同じ密度/尤度を取得できるため、モデルは通常の意味で識別できません。αα\alphaγγ\gamma ご想像のとおり、これでMCMCを実行すると、ひどく広い事後検定が行われ、非線形最小二乗アプローチは初期の推測に非常に敏感です-尤度関数には大きなプラトーがあります。 この段階では、より良い実験計画はオプションではありません。明らかに、亜種を個別に測定することが最良のオプションです。 この問題で私ができることはありますか、それともより良い実験デザインが唯一の選択肢ですか?

1
統計モデルが「識別」されているかどうかはどうすればわかりますか?
私の計量経済学の教授は、クラスで「識別された」という用語を使用しました。フォームのデータ生成プロセスを検討しています Y=β0+β1X+UY=β0+β1X+UY = \beta_0 + \beta_1 X + U どこ XXX 確率変数であり、 UUUランダムなエラー項です。私たちの回帰直線は、Y=β0^+β1^XY=β0^+β1^XY = \hat{\beta_0}+\hat{\beta_1}X 彼は「識別された」の次の定義を与えた: β0β0\beta_0、β1β1\beta_1されている識別データセットならば{Xn}∞i=1{Xn}i=1∞\lbrace X_n\rbrace_{i=1}^{\infty} 固有の値を「固定」するのに十分な情報が含まれています β0β0\beta_0、β1β1\beta_1 彼は「情報」とは何か、また「ピン留め」が何を意味するのかを彼が指定していないので、私はこの定義に不満です。 コンテキストのビット 私たちの演習の1つで、 E[UX]=α≠0E[UX]=α≠0\Bbb E[UX] = \alpha \ne 0。私の教授によると、これはモデルを「識別可能」にするために必要な「外因性」と呼ばれる仮定に違反しています。 具体的には、彼の講義ノートによると、 外因性の仮定:エラー項はリグレッサと無相関です、またはCov(Un,Xnk)=0Cov⁡(Un,Xnk)=0\operatorname{Cov}(U_n,X_{nk}) = 0 すべてのために k=1,2,3...,Kk=1,2,3...,Kk = 1,2,3...,K。の仮定によってE(Un|Xn1,Xn2,...,XnK)E(Un|Xn1,Xn2,...,XnK)\Bbb E(U_n|X_{n1},X_{n2},...,X_{nK})、これは次のように書き直すことができます Cov(Un,Xnk)=E(UnXnk)=0Cov⁡(Un,Xnk)=E(UnXnk)=0\operatorname{Cov}(U_n,X_{nk}) = \Bbb E(U_nX_{nk}) =0 すべてのために k=1,2,3...,Kk=1,2,3...,Kk = 1,2,3...,K それは私たちの問題のようです、彼はこの外因性の仮定が失敗した場合、モデルを特定できない理由を理解させようとしています。うまくいけば、これは彼がその用語をどのように使用しているかについての回答者にコンテキストを与えることができます。 私の質問 誰かが彼が「情報」と「ピン留め」によって何を意味するのかを明確にすることができますか?または、より良い定義をまとめて与えます。 …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.