「ターゲットの最尤期待値」とは何ですか?


15

Mark van der Laanの論文を理解しようとしています。彼は、バークレーの理論統計学者であり、機械学習と大きく重複する問題に取り組んでいます。私にとっての問題の1つは(深い数学に加えて)、完全に異なる用語を使用して使い慣れた機械学習アプローチを説明することが多いことです。彼の主な概念の1つは、「ターゲットを絞った最尤予測」です。

TMLEは、交絡因子が存在する場合でも効果を推定できるように、非制御実験からの打ち切り観測データを分析するために使用されます。同じ概念の多くが他のフィールドの他の名前の下に存在することを強く疑いますが、私はまだそれを何かに直接一致させるほど十分に理解していません。

「計算データ分析」とのギャップを埋める試みはこちらです:

データサイエンスの時代への突入:対象を絞った学習と、統計と計算データ分析の統合

そして、統計学者の紹介はこちらです:

ターゲット最尤ベースの因果推論:パートI

2番目から:

この記事では、複数の時点での介入の因果効果の特定のターゲット最尤推定量を開発します。これには、損失ベースのスーパー学習を使用して、G計算式の未知の因子の初期推定値を取得し、その後、各推定因子にターゲットパラメーター固有の最適変動関数(最も好ましいパラメトリックサブモデル)を適用することが含まれます。最尤推定で変動パラメーターを推定し、初期因子のこの更新ステップを収束まで繰り返します。この反復ターゲット最尤更新ステップにより、結果の推定結果の因果効果は、初期推定量が一貫していれば一貫しているという意味で二重ロバストになり、または、最適な変動関数の推定量は一貫しています。介入する因果グラフのノードの条件付き分布が正しく指定されている場合、最適な変動関数が正しく指定されます。

彼の用語では、「スーパー学習」とは、理論的に健全な非負の重み付けスキームを使用したアンサンブル学習です。しかし、「各推定因子にターゲットパラメーター固有の最適変動関数(最も好ましくないパラメトリックサブモデル)を適用する」とはどういう意味ですか。

または、3つの明確な質問に分けて、TMLEには機械学習の類似点がありますか、「最も好ましいパラメトリックサブモデル」とは何か、他の分野の「変動関数」とは何ですか。


1
用語がなじみのない理由の1つは、TMLEの目標が平均的な治療効果を予測することであり、予測ではなく因果推論であることです。TMLEに関する論文で「スーパー学習者」を読んだとき、著者はアンサンブルモデルを構築するためにRのSuperLearnerパッケージから用語を借りたと思いました。
ロバートF

回答:


24

ファンデルラーンは、既存のアイデア(スーパーラーナーなど)の新しい名前を発明する傾向があることに同意しますが、TMLEは私の知る限りそれらの1つではありません。それは実際には非常に賢いアイデアであり、私は機械学習コミュニティから似たようなものを見たことはありません(私はただ無知かもしれませんが)。アイデアは、セミパラメトリック効率の推定方程式の理論に基づいています。これは、統計学者がMLの人々よりもはるかに考えていると思うものです。

本質的にはこれです。仮定真のデータ発生機構であり、興味がである特定の機能Ψ P 0。このような関数に関連付けられるのは、多くの場合、推定式ですP0 ΨP0

φYθ=0

ここで、によっていくつかの方法で決定されたP、及び識別するための十分な情報が含まれていΨをφは、このようなことになりますE P φ Y | θ = 0。たとえば、この方程式をθで解くことは、すべてのP 0を推定するよりもはるかに簡単です。この推定式は、効率的な任意の効率的な推定量という意味で、Ψ P 0この式を解くものと漸近的に等価です。θ=θPPΨφEPφYθ=0θP0ΨP0(注:ヒューリスティックを説明しているだけなので、「効率的」という用語は少し緩いです。)このような推定式の背後にある理論は非常にエレガントで、この本は標準的な参照です。ここで、「最も好ましくないサブモデル」の標準的な定義を見つけることができます。これらは、ファンデルラーンが発明した用語ではありません。

ただし、一般に、機械学習手法を使用してを推定しても、この推定式は満たされません。見積もり、たとえば、密度P 0は、おそらくはるかに困難推定するよりも、本質的に困難な問題であり、Ψ P 0が、機械学習技術は、典型的には、先に行くと推定されますP 0をいくつかとP、その後、プラグインを使用します推定値Ψ P。ファンデルラーンは、この推定量を標的にされていないとして批判し、したがって非効率的である可能性があります-おそらく、P0P0ΨP0P0P^Ψ(P^)一貫性があります!それでも、van der Laanは機械学習の力を認識しており、興味のある効果を推定するには最終的に密度推定が必要になることを知っています。しかし、彼はP0自体の推定については気にしません。密度推定は、Ψを取得する目的でのみ行われます。nP0Ψ

TMLEのアイデアは、初期密度推定値で開始することであるPとし、このような新しいモデルを考慮してください。p^

p^1,ϵ=p^exp(ϵ φ(Yθ))p^exp(ϵ φ(yθ)) dy

ここで、は変動パラメーターと呼ばれます。ϵで最尤法を実行します。それがある場合であることを起こる場合ε = 0が MLE、次いで一つが容易こと誘導体とることによって確認することができ、pは、効率的な推定式を解き、ひいては推定する効率的であるΨを一方、εは0 MLEで、我々は新しい密度推定していたp 1よりも良好なデータをフィットP それはより高い可能性を持っているように、すべての後、我々は、MLEをしましたが)。次に、この手順を繰り返して、ϵϵϵ=0p^Ψϵ0p^1p^

p^2,ϵp^1,ϵ^exp(ϵ φ(Yθ).

といったように、限界内で効率的な推定式を満たす何かが得られるまで続きます。


1
A:はい、TMLEにこの入門を参照- 「ラーンは、既存のアイデアのための新しい名前を発明する傾向があるDER私はバンの同意」biostats.bepress.com/ucbbiostat/paper252をラーンデア・バンを意味する「ランダムに粗大化」を使用した場合、交換可能性と「実験的治療の割り当て(ETA)の仮定」が陽性を意味する。:-)それは私たちの分野ではひどく珍しいことではありません。データサイエンティストは、リコール、精度、A / Bテストなどの用語を使用します。これらの用語は、大学で感度、陽性的中率、仮説テストとして学習しました。
ロバートF

2
@RobertF CARは、HeitjanとRubinによるものであり、MARの一般化です。RubinはMARを発明し、潜在的な結果のフレームワークも普及させました。そのため、CARを無視可能性/交換可能性タイプの仮定のキャッチオールとして使用することは、私にとって公平なことです。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.