最近、メールで次の質問を受け取りました。以下に回答を掲載しますが、他の人の考えを聞くことに興味がありました。
ロジスティック回帰をノンパラメトリック検定と呼びますか?私の理解では、データが正規分布していないため、単にテストにノンパラメトリックのラベルを付けるだけでは不十分です。前提条件の欠如と関係があります。ロジスティック回帰には仮定があります。
最近、メールで次の質問を受け取りました。以下に回答を掲載しますが、他の人の考えを聞くことに興味がありました。
ロジスティック回帰をノンパラメトリック検定と呼びますか?私の理解では、データが正規分布していないため、単にテストにノンパラメトリックのラベルを付けるだけでは不十分です。前提条件の欠如と関係があります。ロジスティック回帰には仮定があります。
回答:
ラリーワッサーマンは、「有限数のパラメーターでパラメーター化できる」分布のセットとしてパラメトリックモデルを定義しています。(p.87)対照的に、ノンパラメトリックモデルは、有限数のパラメーターでパラメーター化できない分布のセットです。
したがって、その定義によれば、標準ロジスティック回帰はパラメトリックモデルです。ロジスティック回帰モデルは、パラメーターのセットが有限であるため、パラメトリックです。具体的には、パラメーターは回帰係数です。これらは通常、各予測変数に1つずつと定数に対応します。ロジスティック回帰は、一般化線形モデルの特定の形式です。具体的には、ロジットリンク関数を使用して、二項分布データをモデル化します。
興味深いことに、ノンパラメトリックロジスティック回帰を実行することは可能です(たとえば、Hastie、1983)。これには、スプラインまたは何らかの形式のノンパラメトリックな平滑化を使用して、予測子の効果をモデル化することが含まれる場合があります。
ロジスティック回帰はテストではありません。ただし、ロジスティック回帰により、テストが行われなかったり、いくつかのテストが行われたりする場合があります。
それは正常ではないので、ノンパラメトリックなものにラベルを付けるだけでは不十分であるということは非常に正しいです。指数関数族を明示的にパラメトリックと呼ぶので、通常、ロジスティック回帰(およびポアソン回帰とガンマ回帰など)をパラメトリックと見なしますが、特定のロジスティック回帰が可能な引数を受け入れる場合もありますノンパラメトリック(または、少なくとも漠然と手の波状の意味で、準「パラメトリック」のみ)と見なされます。
回帰がノンパラメトリックと呼ばれる可能性のある2つの感覚に関する混乱に注意してください。
両方の感覚が使用されますが、回帰に関しては、実際には第2の感覚がより頻繁に使用されます。
それはですまた、両方の意味でノンパラメトリックすることができますが、難しい(十分なデータで、私は、例えば、テイルローカルに重み付き線形回帰を合うことができます)。
GLMの場合、ノンパラメトリック重回帰の2番目の形式にはGAMが含まれます。その2番目の形式は、Hastieが一般的に動作しているという意味です(そしてその下で彼はその引用で動作しています)。
上記の答えに少し追加するかもしれない1つの有用な区別:Andrew Ngは、機械学習に関するスタンフォードのCS-229コースの教材から、講義1でノンパラメトリックモデルであることの意味を発見的に示しています。
そこにはNgが言う(pp。14-15):
これは複雑さの概念を直接注入するので、これを考えるのに便利な対照的な方法だと思います。ノンパラメトリックモデルは、より多くのトレーニングデータを保持する必要があるため、本質的にそれほど複雑ではありません。これは、トレーニングデータを有限パラメーター化された計算に圧縮することで、トレーニングデータの使用を削減していないことを意味します。効率性や公平性、または他のプロパティのホストのために、パラメータ化することができます。ただし、パラメータ化を控えて大量のデータを保持できる場合は、パフォーマンスが向上する可能性があります。
ロジスティック回帰はパラメトリック手法だと思います。
これは、Wolfowitz(1942)[Additive Partition Functions and a Class of Statistics Hypotheses The Annals of Mathematical Statistics、1942、13、247-279]から役立つかもしれません。
「問題に陥るさまざまな確率変数の分布関数[注:複数!!!]は、既知の関数形式であると想定され、推定およびテスト仮説の理論は、仮説の推定およびテストの理論です。 、数が有限の1つ以上のパラメーター。その知識により、さまざまな分布関数が完全に決定されます。この状況を簡潔にするためにパラメトリックケースと呼び、分布の関数形式が不明である反対の状況をノンパラメトリックケースとして示します。
また、これについてかなり頻繁に議論されたことを聞いて、私はネーター(1984)[ノンパラメトリック:初期の印象と記憶The American Statistician、1984、38、173-178]が面白いと感じました。
「ノンパラメトリックという用語は、理論上の統計学者にとって歴史的な意味と意味を持つかもしれませんが、応用統計学者を混乱させるだけです。」
HastieとTibshiraniは、線形回帰がf(X)の線形関数形式を想定しているため、線形回帰はパラメトリックアプローチであると定義しています。ノンパラメトリックメソッドは、f(X)の形式を明示的に想定していません。これは、モデルから計算されたfの推定値に基づいて、ノンパラメトリック法がモデルに適合することを意味します。ロジスティック回帰では、p(x)= Pr(Y = 1 | X = x)が確立されます。ここで、確率はロジスティック関数によって計算されますが、そのようなクラスを分離するロジスティック境界は想定されず、LRもノンパラメトリックであることを確認します