ロジスティック回帰はノンパラメトリック検定ですか？

15

最近、メールで次の質問を受け取りました。以下に回答を掲載しますが、他の人の考えを聞くことに興味がありました。

ロジスティック回帰をノンパラメトリック検定と呼びますか？私の理解では、データが正規分布していないため、単にテストにノンパラメトリックのラベルを付けるだけでは不十分です。前提条件の欠如と関係があります。ロジスティック回帰には仮定があります。

hypothesis-testing logistic nonparametric

— ジェロミー・アングリム
ソース

7

（+1）記録のために、そして質問の主張に対する対抗点として、私は、ノンパラメトリック法を「仮定の欠如」として定義する（または特徴付ける）信頼できる参照を知りません。 すべての統計手順は仮定を行います。ほとんどのノンパラメトリック手順は、実際に、基礎となる確率分布について制限的な定量的仮定を行いますが、これらの仮定は、可能な状態を有限次元実多様体の構造を持つ集合に絞り込みません。

— whuber

線形ロジスティック回帰（あなたが書いた答えに基づいて暗黙的と思われる）について話している場合、これはもちろんパラメトリックモデルですが、ノンパラメトリックな滑らかな関数を使用して共変量効果を近似する場合、例場合、推定確率にパラメトリックな制約はありません。

関数として。これはロジスティックリンクについてのみ当てはまりません。同じ論理が、あらゆる可逆リンク機能に適用されます。

\log (\frac{P (Y_{i} = 1 | X_{i} = x)}{P (Y_{i} = 0 | X_{i} = x)}) = f (x)

$\log \left( \frac{ P(Y_i = 1 | X_i = x) }{P(Y_i = 0 | X_i = x) } \right) = f(x)$

x

$x$

— マクロ

ここで関連する質問をします。GLMのいくつかのケース（ロジスティックモデルなど）がノンパラメトリックテストを提供しているという感覚が得られ始めています。Wassermanの本を見ていきますが、（覚えていない限り）彼の作品の原理と発見のいくつかについては意見の相違があります。

— AdamO

19

ラリーワッサーマンは、「有限数のパラメーターでパラメーター化できる」分布のセットとしてパラメトリックモデルを定義しています。（p.87）対照的に、ノンパラメトリックモデルは、有限数のパラメーターでパラメーター化できない分布のセットです。

したがって、その定義によれば、標準ロジスティック回帰はパラメトリックモデルです。ロジスティック回帰モデルは、パラメーターのセットが有限であるため、パラメトリックです。具体的には、パラメーターは回帰係数です。これらは通常、各予測変数に1つずつと定数に対応します。ロジスティック回帰は、一般化線形モデルの特定の形式です。具体的には、ロジットリンク関数を使用して、二項分布データをモデル化します。

興味深いことに、ノンパラメトリックロジスティック回帰を実行することは可能です（たとえば、Hastie、1983）。これには、スプラインまたは何らかの形式のノンパラメトリックな平滑化を使用して、予測子の効果をモデル化することが含まれる場合があります。

参照資料

Wasserman、L.（2004）。すべての統計：統計的推論の簡潔なコース。スプリンガー出版。
ヘイスティ、T。（1983）。ノンパラメトリックロジスティック回帰。SLAC PUB-3160、6月。PDF

— ジェロミー・アングリム
ソース

モデルは分布のセットですか？重要なものがそこにありません。

— rolando2

質問をして自分で答えるのは普通ですか？

1

@fcopが推奨されます。blog.stackoverflow.com/2011/07/...

— Jeromy Anglim

わかりません、わかりませんでした

心配ない。私にとって、このサイトの主なポイントは、将来の回答を探すときに他の人が発見するリソースを作成することです。独自の回答を提供することは、すべてのことに役立ちます。

— ジェロミーアングリム16年

16

ロジスティック回帰はテストではありません。ただし、ロジスティック回帰により、テストが行われなかったり、いくつかのテストが行われたりする場合があります。

それは正常ではないので、ノンパラメトリックなものにラベルを付けるだけでは不十分であるということは非常に正しいです。指数関数族を明示的にパラメトリックと呼ぶので、通常、ロジスティック回帰（およびポアソン回帰とガンマ回帰など）をパラメトリックと見なしますが、特定のロジスティック回帰が可能な引数を受け入れる場合もありますノンパラメトリック（または、少なくとも漠然と手の波状の意味で、準「パラメトリック」のみ）と見なされます。

回帰がノンパラメトリックと呼ばれる可能性のある2つの感覚に関する混乱に注意してください。

$x$ $y$ $x$

$y$ $x$

両方の感覚が使用されますが、回帰に関しては、実際には第2の感覚がより頻繁に使用されます。

それはですまた、両方の意味でノンパラメトリックすることができますが、難しい（十分なデータで、私は、例えば、テイルローカルに重み付き線形回帰を合うことができます）。

GLMの場合、ノンパラメトリック重回帰の2番目の形式にはGAMが含まれます。その2番目の形式は、Hastieが一般的に動作しているという意味です（そしてその下で彼はその引用で動作しています）。

— Glen_b -Reinstate Monica
ソース

3

上記の答えに少し追加するかもしれない1つの有用な区別：Andrew Ngは、機械学習に関するスタンフォードのCS-229コースの教材から、講義1でノンパラメトリックモデルであることの意味を発見的に示しています。

そこにはNgが言う（pp。14-15）：

$\theta_{i}$ $\theta_{i}$ $h$

これは複雑さの概念を直接注入するので、これを考えるのに便利な対照的な方法だと思います。ノンパラメトリックモデルは、より多くのトレーニングデータを保持する必要があるため、本質的にそれほど複雑ではありません。これは、トレーニングデータを有限パラメーター化された計算に圧縮することで、トレーニングデータの使用を削減していないことを意味します。効率性や公平性、または他のプロパティのホストのために、パラメータ化することができます。ただし、パラメータ化を控えて大量のデータを保持できる場合は、パフォーマンスが向上する可能性があります。

— エリー
ソース

0

ロジスティック回帰はパラメトリック手法だと思います。

これは、Wolfowitz（1942）[Additive Partition Functions and a Class of Statistics Hypotheses The Annals of Mathematical Statistics、1942、13、247-279]から役立つかもしれません。

「問題に陥るさまざまな確率変数の分布関数[注：複数!!!]は、既知の関数形式であると想定され、推定およびテスト仮説の理論は、仮説の推定およびテストの理論です。、数が有限の1つ以上のパラメーター。その知識により、さまざまな分布関数が完全に決定されます。この状況を簡潔にするためにパラメトリックケースと呼び、分布の関数形式が不明である反対の状況をノンパラメトリックケースとして示します。

また、これについてかなり頻繁に議論されたことを聞いて、私はネーター（1984）[ノンパラメトリック：初期の印象と記憶The American Statistician、1984、38、173-178]が面白いと感じました。

「ノンパラメトリックという用語は、理論上の統計学者にとって歴史的な意味と意味を持つかもしれませんが、応用統計学者を混乱させるだけです。」

— AndyF
ソース

0

HastieとTibshiraniは、線形回帰がf（X）の線形関数形式を想定しているため、線形回帰はパラメトリックアプローチであると定義しています。ノンパラメトリックメソッドは、f（X）の形式を明示的に想定していません。これは、モデルから計算されたfの推定値に基づいて、ノンパラメトリック法がモデルに適合することを意味します。ロジスティック回帰では、p（x）= Pr（Y = 1 | X = x）が確立されます。ここで、確率はロジスティック関数によって計算されますが、そのようなクラスを分離するロジスティック境界は想定されず、LRもノンパラメトリックであることを確認します

— フアン・サモラ
ソース