ロジスティック回帰とパーセプトロンの違いは何ですか?


30

Andrew Ngの機械学習に関する講義ノートを読んでいます。

このノートでは、ロジスティック回帰とパーセプトロンを紹介しています。パーセプトロンについて説明している間、注記では、ロジスティック回帰に使用されるしきい値関数の定義を変更するだけであると述べています。その後、パーセプトロンモデルを分類に使用できます。

したがって、私の質問は-これを指定する必要があり、パーセプトロンを分類手法と見なす場合、ロジスティック回帰とは正確には何ですか?クラスの1つに属するデータポイントの確率を取得するためだけに使用されますか?


いい質問です。特にNNの理解は非常に複雑な場合があるため、NNの説明を開始する方法は非常に重要です。私の答えを検討してください。
プロスティ

回答:


22

要するに、ロジスティック回帰には、MLでの分類器の使用を超える確率的な意味合いがあります。ここでロジスティック回帰についての注意事項があります

ロジスティック回帰の仮説は、線形モデルに基づくバイナリ結果の発生の不確実性の尺度を提供します。出力の間漸近的に制限されると、および基礎となる回帰直線の値を有する場合に、線形モデルにそのような依存、ロジスティック方程式は、提供分類のための自然なカットオフポイント。ただし、の実際の結果に確率情報を捨てるという代償を払っています。、これは多くの場合興味深いものです(たとえば、収入、クレジットスコア、年齢などが与えられた場合のローンデフォルトの確率)。1 0 0.5 = e 0010時間ΘTX=E Θ T X0.5=e01+e0h(ΘTx)=eΘTx1+eΘTx

パーセプトロン分類アルゴリズムは、重みの間の内積に基づいた、より基本的な手順です。例が誤分類されるたびに、内積の符号はトレーニングセットの分類値(および)と対立します。これを修正するために、サンプルのベクトルは、重みまたは係数のベクトルから反復的に加算または減算され、要素が徐々に更新されます。111

ベクトルの例では、特徴または例の属性はであり、アイデアは次の場合に例を渡すことです。xdx

1dθixi>thesholdまたは...

1 - 1 0 1hバツ=符号1dθバツ閾値。ロジスティック回帰のおよびとは対照的に、符号関数の結果はまたはになります。1101

しきい値は、バイアス係数吸収されます。式は次のとおりです。+θ0

、H X = 符号θ T X hバツ=符号0dθバツ、またはベクトル化:。hバツ=符号θTバツ

誤分類されたポイントはになります。これは、が負の場合、とのドット積が正(同じ方向のベクトル)になることを意味します。または、内積は負(逆方向のベクトル)になりますが、は正になります。 Θは、xはN 、Y N Y N符号θTバツynΘバツnynyn


同じコースのデータセットでこれら2つの方法の違いに取り組んでいます。2つの別々の試験のテスト結果は、大学への最終合格に関連しています。

決定境界はロジスティック回帰で簡単に見つけることができますが、パーセプトロンで得られた係数はロジスティック回帰とは大きく異なりますが、結果への関数の単純な適用により、分類アルゴリズムと同じくらい良い。実際、2回目の反復で最大精度(いくつかの例の線形不可分性によって設定された制限)に達しました。係数のランダムなベクトルから開始して、回の反復が重みを近似したときの境界分割線のシーケンスは次のとおりです。10符号10

反復回数の関数としての分類の精度は急速に向上し、でプラトーに達し、上のビデオクリップで最適に近い決定境界に到達する速さが一貫しています。学習曲線のプロットは次のとおりです。90

ここに画像の説明を入力してください


使用されるコードはこちらです。


5

ここで混乱が生じる可能性があります。パーセプトロンはもともと、伝達関数としてステップ関数を持つニューラルネットワークのみを指していました。もちろんその場合、違いはロジスティック回帰がロジスティック関数を使用し、パーセプトロンがステップ関数を使用することです。一般に、両方のアルゴリズムで同じ決定境界が得られます(少なくとも1つのニューロンパーセプトロンの場合)。しかしながら:

  1. パーセプトロンのパラメーターベクトルは、ロジスティック回帰によって導出されたものと比較して、任意にスケーリングできます。パラメーターベクトルのスケーリングは同じ境界を定義しますが、ロジスティック回帰によって計算される確率は正確なスケーリングに依存します。
  2. もちろん、ステップ関数からの出力は、あらゆる種類の確率として解釈することはできません。
  3. ステップ関数は微分できないため、ロジスティック回帰に使用されるものと同じアルゴリズムを使用してパーセプトロンをトレーニングすることはできません。

場合によっては、パーセプトロンという用語は、伝達関数としてロジスティック関数を使用するニューラルネットワークを指すためにも使用されます(ただし、これは元の用語に準拠していません)。その場合、ロジスティック回帰と「パーセプトロン」はまったく同じです。もちろん、パーセプトロンでは、ロジスティック伝達関数を使用して複数のニューロンをすべて使用することができます。これは、ロジスティック回帰の積み重ねと多少関連します(同じではありませんが、類似しています)。


2

ロジスティック回帰を使用してパーセプトロンを構築できます。ロジスティック回帰では、ロジスティック関数を使用して、指定された入力から出力を作成します。ロジスティック関数は、0〜1のスムーズな出力を生成するため、しきい値となる分類器にするためにもう1つ必要です。もちろん、パーセプトロンは、ロジスティックだけでなく、他の機能的な形式で構築できます

ロジスティック回帰により、次のようなモデルが生成されます 回帰部分係数を推定する方法です。ロジスティック部分はの関数形式です

yバツ1バツ2|b=eb0+b1バツ1+b2バツ21+eb0+b1バツ1+b2バツ2
b1b2b3eバツ1+eバツ

あなたは計算したら与えられた入力はおよびパラメータ、あなたが出力するので、これは0または1であるかどうかを決定する必要があり 0と1だから、間の任意の数であり、あなたはスレッショルド必要君となるように、のために、およびのための。X B Y Y Y = 0 、Y X | B < Y Y = 1つのY X | B Yyバツ|bバツbyYy=0yバツ|b<Yy=1yバツ|bY


1

同じロジスティック変換モデルのパラメーターを推定することにより、両方とも回帰を適用しています。凸関数の特性によれば、パラメーターの値は、それらを推定するために選択する方法にかかわらず同じです。以前の回答から引用するには:

ロジスティック回帰は、ベルヌーイ分布の平均の関数を線形方程式としてモデル化します(平均はベルヌーイイベントの確率pに等しくなります)。ロジットリンクを平均(p)の関数として使用することにより、オッズの対数(log-odds)を分析的に導出し、いわゆる一般化線形モデルの応答として使用できます。予測に加えて、これにより、因果推論でモデルを解釈できます。これは、線形パーセプトロンでは達成できないものです。

パーセプトロンは、wxの逆ロジット(ロジスティック)関数を使用し、モデルとそのパラメーターのどちらにも確率的仮定を使用しません。オンライントレーニングでは、モデルの重み/パラメーターについてまったく同じ推定値が得られますが、p値、信頼区間、および基礎となる確率モデルが不足しているため、それらを因果推論で解釈することはできません。


1

トレーニングの観測値が特徴ベクトルであり、対応するラベルがます。表記を簡単にするために、各ベクトル末尾にを追加しましょう。パーセプトロンアルゴリズムは、確率的部分勾配降下法を使用して、最適化問題を解くと解釈できます 最適化変数はです。この観点から、バツ1バツNRny1yN{11}1バツ

(1)最小化する1N=1N最大yβTバツ0
βRn+1パーセプトロンアルゴリズムとロジスティック回帰の違いは、パーセプトロンアルゴリズムが異なる目的関数を最小化することです。(最尤推定によるロジスティック回帰の導出はよく知られています。この記事では、パーセプトロンアルゴリズムの解釈に焦点を当てています。)

問題(1)の目的関数は、として記述できます。ここで、 劣勾配でベクトルである 確率的部分勾配降下の各エポック(ステップサイズ)は、トレーニング観測をスイープします。そして、番目の観測について、更新を実行します 1Nβ

β=最大yβTバツ0
β
g={0もし yβTバツ0(そう y そして βTバツ 同じ記号を持っている)yバツさもないと。
t>0
ββtg={βもし y そして βTバツ 同じサインを持っているβ+tyバツさもないと。
これがパーセプトロンアルゴリズムの反復であることを認識します(学習率)。t


0

Andrew Ngは、「ロジスティック回帰」という用語をバイナリ分類問題を解決するためのモデルとして使用しました。

あなたが論文で見たように、彼は実際にモデル自体を描くことはありません。

バケツにいくつかの詳細を追加して、彼が講義をどのように構築したかについての推論を見つけることができます。

「ロジスティック回帰」に使用されるモデルは、0〜1の範囲のカスタム入力数と1つの出力を持つ単一レベルの知覚です。

90年代に最も評価されていた活性化関数はS字型活性化関数であり、バックアップとして優れた数学的理論があります。

これは、Andrew Ngが使用しているモデルです。この関数の範囲は0〜1です。

また誘導体s'(x) = s(x)(1−s(x))s(x)シグモイド活性化関数です。

エラー関数では、L2を使用しますが、一部の論文では他の関数を使用する場合があります。

要約すると、「ロジスティック回帰」を検討する場合は、シグモイド活性化関数、入力のカスタム数、および単一出力を備えた単一レベルの知覚のみを考慮してください。


いくつかの注意事項:シグモイド活性化関数には何も問題はありませんが、浮動小数点演算の場合、ReLUは現在隠れ層を支配していますが、近い将来に(または他のいくつかの演算ユニット)シグモイド活性化関数をテーブルに戻す可能性があります。

個人的には、ReLU関数を使用したより単純なモデルを使用して、SLP(単一レベルパーセプトロン)を説明します。これは、今日ではより使用されているためです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.