ロジスティック回帰は、従来の関数ではない曲線をどのように生成できますか？

15

ロジスティック回帰の機能がどのように機能するのか（または単に全体として機能するのか）について、根本的な混乱があると思います。

関数h（x）が画像の左側に見られる曲線を生成するのはどうですか？

これは2つの変数のプロットですが、これら2つの変数（x1およびx2）も関数自体の引数です。1つの変数の標準関数が1つの出力にマッピングされることは知っていますが、この関数は明らかにそれを行っていません。

私の直感では、青/ピンクの曲線は実際にこのグラフにプロットされるのではなく、グラフの次の次元（3番目）の値にマップされる表現（円とX）です。これは推論に誤りがあり、何かが欠けているだけですか？洞察/直感に感謝します。

logistic data-visualization function

— サム
ソース

8

軸のラベルに注意してください。どちらのラベルもことに注意してください。

y

$y$

— マシュードゥルーリー

3

「伝統的な機能」とは？

— whuber

@matthewDrury私はそれを理解しており、これは2D X / Oを説明しています。私はプロットされた曲線がどこから来るのか尋ねています

— サム

19

これは、上にオーバーフィットの一例であるアンドリュー・ウによってコースMLにコーセラ二つの特徴で分類モデルの場合真の値はによって象徴されている、と及び決定境界であります高次の多項式項を使用して、トレーニングセットに正確に合わせます。 $(x_1, x_2)$ $\color{red}{\large \times}$ $\color{blue}{\large\circ},$

説明しようとする問題は、境界決定線（青の曲線）が例を誤分類することはありませんが、トレーニングセットから一般化する機能が損なわれるという事実に関連しています。Andrew Ngはさらに、正則化がこの効果を緩和できることを説明し、マゼンタ曲線をトレーニングセットにあまり厳密ではない決定境界として描き、一般化する可能性が高くなります。

あなたの特定の質問に関して：

私の直感では、青/ピンクの曲線は実際にこのグラフにプロットされるのではなく、グラフの次の次元（3番目）の値にマップされる表現（円とX）です。

、2つのカテゴリがあります。そこには、高さ（三次元）がありませんと意思決定ラインのショーは、モデルがそれらを分離する方法と。より単純なモデルで $(\large\times$ $\large\circ),$

h_{θ} (x) = g (θ_{0} + θ_{1} x_{1} + θ_{2} x_{2})

$h_\theta(x)=g\left(\theta_0 + \theta_1 \, x_1 + \theta_2 \, x_2 \right)$

決定境界は線形になります。

おそらく、あなたはこのようなことを心に留めているでしょう、例えば：

5 + 2 x - 1.3 x^{2} - 1.2 x^{2} y + 1 x^{2} y^{2} + 3 x^{2} y^{3}

$5 + 2 x - 1.3 x^2 -1.2 x^2 y + 1 x^2 y^2 + 3 x^2 y^3$

ただし、仮説最初の質問のロジスティックアクティベーションには関数があることに注意してください。そのため、およびのすべての値に対して、多項式関数は「活性化」を受けます（多くの場合、OPのようなシグモイド関数など、必ずしもそうではありませんが、非線形（例えばRELU））。有界出力として、シグモイド活性化は確率的解釈に役立ちます。分類モデルの考え方は、特定のしきい値で出力にまたはというラベルが付けられるというもの事実上、連続出力はバイナリ $g(\cdot)$ $x_1$ $x_2$ $\large \times$ $\large($ $\large \circ).$ 出力。 $(1,0)$

重み（またはパラメーター）とアクティベーション関数に応じて、フィーチャプレーンの各ポイントは、カテゴリまたはいずれかにマッピングされます。この標識は、または正確でなくてもよい：試料中の点により描かれたときに正しいなりと予測ラベルにOPの対応上の画像平面上に。平面の領域間の境界を標識、それらの隣接領域は、標識。それらは、1つの線、または「島」を分離する複数の線にすることができます（Tony Fischettiの一部によってこのアプリで遊んで自分で見てください $(x_1,x_2)$ $\large \times$ $\large \circ$ $\color{red}{\large \times}$ $\color{blue}{\large \circ}$ $\large \times$ $\large \circ$ R-bloggersのこのブログエントリ）。

ウィキペディアの決定境界に関するエントリに注目してください。

2つのクラスを持つ統計分類問題では、決定境界または決定面は、基礎となるベクトル空間をクラスごとに1つずつ、2つのセットに分割する超曲面です。分類子は、決定境界の一方の側のすべてのポイントを1つのクラスに属し、他方の側のすべてのポイントを他のクラスに属していると分類します。決定境界は、分類器の出力ラベルがあいまいな問題空間の領域です。

実際の境界をグラフ化するための高さコンポーネントは必要ありません。一方、あなたは、シグモイド活性値をプロットしている場合（範囲と連続その後、グラフを可視化するために第三の（「高さ」）コンポーネントが必要です。 $∈[0,1]),$

あなたが紹介したい場合は意思決定のための表面Dの可視化を、上でこのスライドをチェックヒューゴLarochelleによるNNの上のオンラインコースニューロンの活性化を表します。 $3$

$y_1 = h_\theta(x)$ $\mathbf W$ $(\Theta)$ $\Theta$

複数のニューロンを結合して、これらの分離する超平面を追加および減算して、気まぐれな形状にすることができます。

これは普遍近似定理にリンクしています。

— アントニ・パレラダ
ソース

1

+1は常にあなたの答えを読むことを楽しみます。決定平面をプロットと交差させることができればさらに良いかもしれません。上と下を表示します。

— ハイタオデュ

これをどうもありがとう。私はまだ曲線自体について何か小さなものを見逃しているように感じます-これは決定境界が実際に「描かれている」のではなく、Andrew Ngのx1とx2の値のしきい値を示す方法であると言うことです仮説を×またはeitherにしますか？私の混乱の一部は、そもそもその曲線がどのように関数になる可能性があるからだと思いますが、今ではそうではないことに気付きました。

— サム

1

@AntoniParelladaこれは素晴らしいです、私は今、区別を見ています。助けてくれてありがとう。

— サム

0

この質問に答えるヘビーデューティーの数学者がいます。予測子X1およびX2の値と、予測された正の値と予測された負の値を分離する「決定境界」線を含む、ここに示すような図を見たことはありません。（または、予測された結果と実際の結果のマップですか？）しかし、マップしたい対象の予測子が2つしかない限り、有用です。
マゼンタの線は予測されたポジティブと予測されたネガを分離しているように見えますが、濃い青のラインはすべてのポジティブを含んでいます。これは通常、ロジスティック回帰の場合です。モデルは、ケースの100％未満の結果を正しく予測します（そして、いくつかの誤検知や誤検知を予測します）。
ロジスティック回帰を実行し、データセット内の個々のケースごとに関数h（x）を生成させることができます。これは、すべての被験者を使用したロジスティック回帰モデルに基づいて、その被験者の予測変数に基づいて各被験者の陽性結果の予測尤度または確率を与える、0から1までの各被験者の傾向スコアを生成します。傾向スコアのカットオフが0.5以上の場合は結果が得られ、0.5未満の場合は結果が得られないと予測されます。ただし、たとえば、ロジスティック回帰分析に入力されたすべての入力変数に基づいて、何らかの結果の診断予測モデルを作成するために、このカットオフレベルを適切に調整できます。たとえば、カットオフを0.3に設定できます。次に、予測結果と実際の結果の2X2テーブルを作成し、このカットオフレベルに基づいてモデルの感度、特異度、偽陽性率および偽陰性率を決定できます。これにより、より多くの情報が提供され、グラフで使用される2つの変数の制限から解放されます。モデルに合理的に収まる数の予測子を使用して、実際の結果と予測結果の2X2テーブルを作成できます。ロジスティック回帰ではカテゴリ（yes-no）の結果が使用されるため、2X2テーブルの各セルは、行と列の基準を満たす被験者の数にすぎません。モデルに合理的に収まる数の予測子を使用して、実際の結果と予測結果の2X2テーブルを作成できます。ロジスティック回帰ではカテゴリ（yes-no）の結果が使用されるため、2X2テーブルの各セルは、行と列の基準を満たす被験者の数にすぎません。モデルに合理的に収まる数の予測子を使用して、実際の結果と予測結果の2X2テーブルを作成できます。ロジスティック回帰ではカテゴリ（yes-no）の結果が使用されるため、2X2テーブルの各セルは、行と列の基準を満たす被験者の数にすぎません。
提供するグラフでは、おそらく0.5のカットオフを想定しています。これはソフトウェアの一般的なデフォルトです。高く調整すると（たとえば0.65に）、行内にすべてのOが含まれる可能性がありますが、モデルによって結果が得られると予測されるいくつかの誤検出（Oであると思われるX）もあります興味。（またはカットオフスコアをより低く調整し、より多くの偽陰性を持つようにします）。
これがお役に立てば幸いです。

— ジェリー
ソース