癌の発生率に関連するモデリングの例を示したいと思います(Johnson and Albert 1999と同様)。それはあなたの興味の最初と3番目の要素に触れます。
したがって、問題はさまざまな都市のがん発生率を予測することです。さまざまな都市の人々と癌で亡くなった人々の数データがあるとしましょう。癌の割合を推定したいとします。それらをモデル化するにはさまざまな方法があり、それぞれに問題があることがわかります。継承ベイズモデリングがいくつかの問題をどのように克服できるかを見ていきます。
1. 1つの方法は、個別に推定を行うことですが、スパースデータの問題に悩まされ、低場合のようにレートを過小評価することになります。X 、I θ I N 、I θ I θ I θ I X 、I〜B I N (N I、θ I)θ I〜BのE T (、B )、P (D 、θ 、η | N )= p (η )∏ n (x i | NN私バツ私θ私
N私
2.スパースデータの問題を管理するもう1つの方法は、すべての都市に同じを使用してパラメーターを結合することですが、これも非常に強力な仮定です。
3.したがって、実行できることは、すべてのがいくつかの点で似ているが、都市固有のバリエーションもあることです。したがって、すべてのが共通の分布かられるようにモデル化できます。セイと
フル関節分布は次のようになりここで、です。を推測する必要がありますθ私
θ私θ私バツ私〜BのI N (N私、 θ私)θ私〜B用のE のT A (、B )
η = (、B )η θ I η θ Ip (D 、θ 、η| N)= p (η)∏Ni = 1B i n (x私| N私、 θ私)B e t a (θ私| η)η= (a 、b )ηデータから。それが定数に固定されている場合、情報は間を流れず、条件に依存しません。しかし、を未知数として扱うことにより、データの少ない都市がデータの多い都市から統計的強度を借りることができます。
主なアイデアは、ハイパーパラメーターの不確実性をモデル化するために、ベイズ分布を増やし、事前分布を事前分布に設定することです。これにより、この例では間の影響の流れが可能になります。θ私η
θi