回帰分析と曲線近似の違い


17

可能であれば例を使って、回帰分析と曲線近似(線形および非線形)の実際の違いを説明してもらえますか?

どちらも2つの変数間の関係(従属と独立)を見つけようとし、提案されているモデルに関連するパラメーター(または係数)を決定しようとするようです。たとえば、次のようなデータセットがある場合:

Y = [1.000 1.000 1.000 0.961 0.884 0.000] 
X = [1.000 0.063 0.031 0.012 0.005 0.000]

誰もがこれら2つの変数間の相関式を提案できますか?これら2つのアプローチの違いを理解するのが困難です。他のデータセットで答えをサポートしたい場合、それは適合しにくいと思われるので大丈夫です(おそらく私だけのために)。

上記のデータセットは、受信者動作特性(ROC)曲線のおよび軸を表します。ここで、は真陽性率(TPR)、は偽陽性率(FPR)です。xy xyyx

特定のFPR(またはその逆)のTPRを推定するために、これらのポイントの中で、曲線を近似するか、元の質問に従って回帰分析を行っていますが、まだ定かではありません。

まず、2つの独立変数(TPRとFPR)の間にこのような曲線近似関数を見つけることは科学的に受け入れられますか?

第二に、実際のネガティブなケースと実際のポジティブなケースの分布が正規でないことを知っている場合、そのような関数を見つけることは科学的に受け入れられますか?


1
用語は、(残念ながら)異なる人々によって、異なるコンテキストで異なる方法で使用されます。人々が彼らを区別している例をリンク/提供できますか?
GUNG -復活モニカ

それが私が理解しようとしていることであり、それらがどのように違い、どのようにそれらを区別できるかです。
アリスルタン

1
結構ですが、誰かが違うと言われたのですか?
GUNG -復活モニカ

2
このサイトでは、回帰とは考えられない意味で「曲線近似」を使用している人がいます。たとえば、一部の人は、密度の推定をヒストグラムへの「曲線適合」の形式と見なしています。
whuber

回答:


22

統計的思考の科学と回帰曲線適合の間には明確で一貫した区別があるとは思いません。

限定なしの回帰は、線形回帰と最小二乗推定を意味します。それは他の感覚やより広い感覚を排除するものではありません。実際、いったんロジット、ポアソン、負の二項回帰などを許可すると、何らかのモデルが回帰ではないものを見ることは難しくなります。

曲線あてはめは、文字通り、平面上または少なくとも低次元の空間に描くことができる曲線を示唆しています。回帰はそれほど制限されておらず、複数の次元空間で表面を予測できます。

曲線近似では、線形回帰および/または最小二乗を使用する場合と使用しない場合があります。それは、多項式(べき級数)または正弦と余弦のセットの適合、または他の方法で、パラメーターの関数型を線形に適合させるという重要な意味で線形回帰として実際に修飾することを指します。実際、非線形回帰も回帰である場合の曲線近似。

カーブフィッティングという用語は、軽par的、軽、的、軽c的または軽miss的な意味で使用することができます(「ちょうどカーブフィッティングです!」)、または(ほぼ完全に反対)特定の物理的(生物学的、特定の種類の初期動作または制限動作に一致するように論理的根拠または調整されたもの(例:常に肯定的、片方向または両方向に制限、単調、変曲、単一ターニングポイント、振動など)。

ここでのいくつかのファジーな問題の1つは、同じ関数形式が、ある状況ではせいぜい経験的であり、他の状況では優れた理論になる可能性があるということです。ニュートンは、発射体の軌道は放物線であり、二次方程式によって自然に適合することができると教えましたが、社会科学における年齢依存性に適合する二次関数は、多くの場合、データの曲率に一致する単なるファッジです。指数関数的減衰は、放射性同位体の非常に優れた近似であり、中心からの距離に応じて土地の価値が低下する方法については、あまりにも狂気ではない推測です。

あなたの例は、私から明確な推測を得ません。ここでのポイントの大部分は、非常に小さなデータセットであり、変数が何であるか、または変数がどのように動作するかについての情報がまったくないため、モデル形式を提案することは無責任または愚かである可能性があるということです。おそらく、データは(0、0)から急激に上昇してから(1、1)に近づくか、何か他の値になるはずです。教えてください!

注意。回帰も曲線近似も、単一の予測変数または単一のパラメーター(係数)に限定されません。


2
「曲線適合」とは、私にとって何か理論的(例えば、低音)を意味します。エコノミストは、曲線近似の一部の使用法に似ているように聞こえる、理論上の関数近似を「グラフ作成」と呼ぶことがあります。正しく理解されたとき、私はそれ(例えば、低)が長所と短所の両方を持っていると思います。ただし、誰かがどのように用語を明確に意味せずに意味したのかを知ることは困難です。
GUNG -復活モニカ

1
@gungいくつかの自然科学(および不自然な科学)で、同様の部分的、部分的、深刻な使用法があると思います。問題の1つは、十分なパラメーターを指定すると、多くの余地があることです。ARIMAだけでなく、データが示唆するところでは正弦波の用語とステップ、ランプ、スパイクを許可する時系列モデルを思い出します。
ニックコックス

2番目に@gung、カーブフィッティングには少なくともノンパラメトリックな意味があります。
クリストフハンク

1
@ChristophHanckこれに「ノンパラメトリック」を入れないでください!議論はすでに泥だらけです!
ニックコックス

1
@gung:スムージングスプラインとRKHSメソッドを一般に「曲線近似」のバックボーンと考えると、「曲線近似」は「回帰」よりもはるかに理論的だと感じます。(この回答のためNickCoxに+1)
usεr11852は回復モニック言う

8

@NickCoxの優れた回答(+1)に加えて、このやや曖昧な用語のトピックに関する主観的な印象を共有したいと思いました。2つの用語のやや微妙な違いは次の点にあると思います。一方では、常にではないにしても、回帰はしばしば分析解を意味しますリグレッサーへの言及は、パラメーターを決定することを意味するため、分析解に関する私の議論です)。一方、カーブフィッティングは必ずしも分析解を生成することを意味するものではなく、IMHOが探索的アプローチとして使用されることがあります。


2
分析的なソリューションを備えたものは、探索的な理由でも使用できませんか?私はあなたが作っている反対を得るとは思わない。
アメーバは2015

@amoeba:探索的研究にも分析ソリューションを使用できます。ただし、私が指摘しているのは、問題の用語の最も一般的な 暗黙の本質についてです。
アレクサンドルブレフ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.