情報を借りるとはどういう意味ですか?


11

ベイジアン階層モデルでの情報の借用や情報の共有についてよく話します。これが実際に何を意味するのか、そしてそれがベイジアン階層モデルに固有のものであるのかどうかについて、正直な答えを得ることができないようです。私はある種のアイデアを得ました。階層内のいくつかのレベルは共通のパラメーターを共有しています。しかし、これが「情報の借用」にどのように変換されるのかはわかりません。

  1. 「情報を借りる」/「情報を共有する」という言葉は人々が捨てたいと思う流行語ですか?

  2. この共有現象を説明する、閉じた形式の後継者の例はありますか?

  3. これはベイジアン分析に固有のものですか?一般に、「情報の借用」の例を見ると、それらは単なる混合モデルです。たぶん私は昔ながらの方法でこのモデルを学びました、しかし私はどんな共有も見ません。

私は方法についての哲学的議論を始めることに興味はありません。この用語の使用に興味があります。


1
あなたの質問2.については、このリンクが光っているかもしれません:tjmahr.com/plotting-partial-pooling-in-mixed-effects-models
Isabella Ghement

ここで答えの中に情報理論についてのいくつかの言及を見たいと思います。
シャドウトーカー

回答:


10

これは、特に経験的なベイズ(EB)に由来する用語です。実際、この用語が指す概念は、真のベイズ推定には存在しません。元々の用語は「借用の強さ」でした。これは1960年代にジョンチューキーによって造られ、1970年代と1980年代のスタインのパラドックスとパラメトリックEBに関する一連の統計記事でブラッドリーエフロンとカールモリスによってさらに普及しました。現在、多くの人々が「情報の借用」または「情報の共有」を同じ概念の同義語として使用しています。混合モデルのコンテキストで聞こえるかもしれない理由は、混合モデルの最も一般的な分析にはEB解釈があるためです。

EBには多くのアプリケーションがあり、多くの統計モデルに適用されますが、常に(多くの場合は独立している)ケースがあり、それぞれのケースで特定のパラメーター(平均や分散など)を推定しようとしているというコンテキストがあります。ベイジアン推論では、各ケースの観測データとそのパラメーターの事前分布の両方に基づいて、パラメーターについて事後推論を行います。EB推論では、パラメーターの事前分布はデータケースのコレクション全体から推定され、その後、ベイズ推論と同様に推論が進みます。したがって、特定のケースのパラメーターを推定する場合、そのケースのデータと推定された事前分布の両方を使用し、後者は「情報」または「強度」を表します

これで、EBに「借用」がある理由がわかりますが、真のベイズにはありません。真のベイズでは、以前の分布はすでに存在しているため、物乞いしたり借りたりする必要はありません。EBでは、事前分布は観測されたデータ自体から作成されています。特定のケースについて推論する場合、そのケースから観測されたすべての情報と、他の各ケースからの少しの情報を使用します。次のケースについて推論するために移動するときに情報が返されるので、それは「借用された」だけであると言います。

EBの概念と「情報の借用」は、統計ゲノミクスで頻繁に使用されます。各「ケース」は通常、遺伝子またはゲノムの特徴です(Smyth、2004; Phipson et al、2016)。

参考文献

エフロン、ブラッドリー、カールモリス。統計におけるスタインのパラドックス。Scientific American 236、いいえ。5(1977):119-127。http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf

スミス、GK(2004)。マイクロアレイ実験における差次的発現を評価するための線形モデルおよび経験的ベイズ法。遺伝学および分子生物学第3巻、第1条、第3条 における統計的応用http://www.statsci.org/smyth/pubs/ebayes.pdf

Phipson、B、Lee、S、Majewski、IJ、Alexander、WS、およびSmyth、GK(2016)。堅牢なハイパーパラメーター推定は、超可変遺伝子から保護し、差次的発現を検出する能力を向上させます。応用統計の年報 10、946-963。 http://dx.doi.org/10.1214/16-AOAS920


1
この解釈は正しいとは思いません。たとえば、混合効果モデルは情報を借用しますが、従来のベイジアンコンテキストで分析できます
Cliff AB

1
@CliffAB混合モデル分析を掘り下げると、分析は実際のベイズではなく、事実上常に経験的なベイズであることがわかります。もちろん、ほとんどの著者は区別しないため、実際のEBであるときに、ベイズをしているとほとんどの著者は言うでしょう。真のベイズ混合モデル分析の例を示すことができると思われる場合は、ぜひお勧めします。
ゴードンスミス2018

1
@CliffAB少数のケースでは、真のベイズ分析が混合モデル(MCMCやWinbugsなど)に使用される場合、「情報を借用する」という用語の使用はIMOとは関係ありません。テューキーとエフロンが「借りる」とはどういう意味かは確かに反対です。
ゴードンスミス2018

1
@CliffAB brmsがベイジアンパッケージであることには同意します。そのため、「情報を借りる」という用語がbrmsのドキュメントに表示されていません。
ゴードンスミス2018

1
単純なベイジアンモデルでは「情報を借りる」ことはできませんが、マルチレベルモデルでは可能ですが、この分野でより一般的な用語は「部分的なプーリング」だと思います。ここでは A.ゲルマンから、この古典的な議論があります。一般的に、混合効果モデルが「情報を借用する」という考えを受け入れた場合、ベイジアン混合効果がそうではないとどのように言えるかわかりません。事前情報は、借りた情報ののレベルに表示されます。混合効果モデル情報を借用しないと言っている場合、それはあなたの主張に対する私の混乱を説明しています。
Cliff AB

5

複数のグループの平均を推定するような単純な問題を考えます。モデルがそれらを完全に無関係なものとして扱う場合、各平均について得られる唯一の情報は、そのグループ内の情報です。モデルがそれらの平均をある程度関連しているものとして扱う場合(一部の混合効果タイプのモデルなど)、他のグループからの情報が特定のグループの推定を通知(正規化、共通平均に向かって縮小)するため、推定はより正確になります。これが「情報の借用」の例です。

概念は、信頼性に関連する保険数理業務で発生します (その意味での借用は式で明示されていますが、必ずしも「借用」という特定の用語ではありません)。これは、少なくとも1世紀前まで遡ります。明確な前兆は19世紀半ばまでさかのぼります。たとえば、Longley-Cook、LH(1962)を参照してください。信頼性理論の紹介PCAS、49、194-221。

こちらがホイットニー、1918年(Theory of Experience Rating、PCAS、4、274-292):

たとえば、ここには、明らかに機械工場として分類されるリスクがあります。したがって、他の情報がない場合、マシンショップレート、つまりこのクラスのすべてのリスクの平均レートを偽装する必要があります。一方、リスクには独自の経験があります。リスクが大きい場合、これはクラスの経験よりも危険に対するより良いガイドになるかもしれません。いずれにしても、リスクが大きいか小さいかにかかわらず、これらの要素は両方とも証拠としての価値があり、両方を考慮する必要があります。難しさは、一般に証拠が矛盾しているという事実から生じます。したがって問題は、それぞれに適切な重みを与える基準を見つけて適用することです。

ここでは借用という用語はありませんが、グループレベルの情報を使用してこのマシンショップについて私たちに知らせるという概念は明確にそこにあります。[この状況に「借用力」と「借用情報」が適用され始めると、概念は変更されません。]


1
借用が何をするかを明確に説明しているので、私はこの例に感謝しますが、より正確な定義を探しています。
EliK 2018

正確な不正確の定義、直感的な用語?グループ間でパラメータを関連付けることで分散を減らすという観点から定義することもできますが、そうすることで概念のもっともらしい使い方を簡単に除外できます
Glen_b -Reinstate Monica

不正確な直感が実際の定義を持っているかどうかは、私にはわかりませんでした。
EliK 2018

3

σR2

σR2σR2

σR2σR2σRσR2。データの情報が少ないほど、以前の情報が重要になります。まだ行っていない場合は、数人の被験者だけで混合効果モデルをシミュレートすることをお勧めします。Frequentistメソッドからの推定がどれほど不安定であるか、特に1つまたは2つの外れ値のみを追加した場合は驚くかもしれません... この問題はGelmanらによるベイジアンデータ分析でカバーされていると思いますが、残念ながら、一般に公開されていないため、ハイパーリンクはありません。

最後に、マルチレベルモデリングは、最も一般的ですが、混合効果だけではありません。パラメータが事前分布やデータだけでなく、他の未知のパラメータによっても影響を受けるモデルは、マルチレベルモデルと呼ぶことができます。もちろん、これは非常に柔軟なモデルのセットですが、ゼロから作成し、Stan、NIMBLE、JAGSなどのツールを使用して、最小限の作業で適合させることができます。モデリングは「誇大広告」です。基本的に、有向非巡回グラフとして表すことができる任意のモデルを作成できますそして、すぐにそれを適合させます(妥当な実行時間があることを前提としています)。これにより、従来の選択肢(つまり、回帰モデルパッケージ)よりもはるかに多くの能力と潜在的な創造性が得られますが、新しいタイプのモデルに合わせるためにRパッケージ全体をゼロから構築する必要はありません。


答えてくれてありがとう。明確にするために、私はマルチレベルモデリングを「誇大宣伝」とは示唆していませんでした。「情報の借用」が正確な意味を持っているのか、それともその言葉が単に誇大宣伝なのかを尋ねていました。
EliK 2018

@EliK:正確な意味があるかどうかはわかりません。ゴードン・スミスは、正確な意味と考えられるもの、つまり経験的ベイズを提供しますが、現在一般的に使用されている用語の見方は、その意味に適合していないようです。個人的には、それは単なる誇大宣伝用語ではないと思います。これは、固定効果モデルよりも混合効果モデルを使用する動機ですが、これは標準の回帰モデルフレームワークだけにとどまりません。多くの人々は、より正確な「混合効果モデリング」ではなく、あいまいな「マルチレベルモデリング」を、今はよりファッショナブルだからと言っていると思います。
Cliff AB

誇大広告はMLの論文やブログにあると思いますが、マルチレベルモデルを実装するにはベイジアンモデルが必要だと主張されています。私は実際の例に興味があります-交差検証された正則化モデル(予測用)と比較します
seanv507

価値があるのは、ベイジアンに代わる唯一の方法は、最尤法です。これは、事前分布が均一なベイジアンです。だから、それは本当に間違っているわけではありません。
シャドウトーカー

1
@shadowtalker:ベイジアンに対するMLEメソッドを検討する場合、ベイジアンという言葉は基本的に統計上無意味です。ただし、これはMLの文献で見られるいくつかの間違いと一致しています。
Cliff AB、

2

機械学習にタグを付けたので、推論ではなく予測に興味があると思います(@Glen_bの答えに同調していると思いますが、このコンテキスト/ボキャブラリーに翻訳しているだけです)。

この場合、それは流行語です。グループ変数を持つ正則化線形モデルは情報を借用します。個々のレベルでの予測は、グループ平均と個々の効果の組み合わせになります。l1 / l2正則化について考える1つの方法は、グループエラーが個々の変数よりも多くのサンプルに影響を与えるため、グループエラーを削減するための係数コストを割り当てることです。個々の変数に対するグループ効果。

十分なデータのある個々のポイントの場合、個々の効果は「強力」になり、データの少ないポイントの場合、効果は弱くなります。

これを確認する最も簡単な方法は、L1正則化と、同じ効果を持つ同じグループの3人の個人を検討することです。正則化されていない問題には無限の数の解がありますが、正則化は一意の解を与えます。

3つの個体をカバーするには1つの値しか必要ないため、すべての効果をグループ係数に割り当てると、l1ノルムが最も低くなります。逆に、すべての効果を個々の係数に割り当てると、最悪、つまり、効果をグループ係数に割り当てるl1ノルムの3倍になります。

階層は必要な数だけ持つことができ、相互作用は同様に影響されます。正則化は、まれな相互作用ではなく、主変数に効果をプッシュします。

ブログ tjmahr.com/plotting-partial-pooling-in-mixed-effects-models。– @IsabellaGhementによってリンクされた借用力の見積もりを提供します

「この効果は、収縮と呼ばれることもあります。収縮がより極端な値であるほど、より合理的で平均的な値に引き寄せられるためです。lme4ブックでは、Douglas Batesが収縮[name]の代替手段を提供しています。」

「収縮」という用語は、否定的な意味合いを持つ場合があります。John Tukeyは、このプロセスを、個々の被験者の互いからの「借用力」の推定値と呼ぶことを好んだ。これは、混合効果モデルの基礎となるモデルと厳密に固定された効果モデルの根本的な違いです。混合効果モデルでは、グループ化因子のレベルは母集団からの選択であり、結果として、ある程度特性を共有することが期待できると想定しています。その結果、混合効果モデルからの予測は、厳密に固定効果モデルからの予測に比べて減衰します。


特定の種類の推論でなければ、予測とは何ですか?
シャドウトーカー

0

このトピックについて私が特に有益だと思う別の情報源は、David RobinsonのIntroduction to Empirical Bayesです。

彼の実行例は、野球選手が彼に投げられた次のボールを何とか打つことができるかどうかの例です。重要なアイデアは、プレイヤーが何年も前から存在している場合、彼がどれほど能力があるかについてかなり明確な絵を持っているということです。

逆に、リーグでプレーを始めたばかりのプレーヤーは、実際の才能の多くをまだ明らかにしていません。したがって、彼の最初の数回のゲームで特に成功または失敗した場合、少なくともある程度は幸運または不運が原因である可能性が高いため、彼の成功確率の推定値を全体的な平均に調整することは賢明な選択のようです。

マイナーな点として、「借用」という用語は、借用したものをある時点で返却する必要があるという意味では使用されていないようです;-)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.