多変量線形回帰vsニューラルネットワーク?


54

場合によっては、多変量線形回帰を使用してニューラルネットワークと同様の結果を得ることができ、多変量線形回帰は非常に高速で簡単です。

ニューラルネットワークは、どのような状況で多変量線形回帰よりも良い結果を出すことができますか?

回答:


28

ニューラルネットワークは、原則として、非線形性を自動的にモデル化できます(普遍近似定理を参照)。線形回帰の変換(スプラインなど)を使用して明示的にモデル化する必要があります。

警告:隠れ層やニューロンを追加しても無害に見えるため、過剰適合の誘惑は回帰よりもニューラルネットワークで(さらに)強くなる可能性があります。そのため、サンプル外の予測パフォーマンスに注意してください。


OK。私の頭の中の質問は、入力データを2次および3次の項で拡張することで、どの程度まで同様の動作を再現できるのでしょうか?
ヒューパーキンス

3
実際には、適切に変換された回帰変数を使用して、必要に応じて(およびその逆に)近似的にNNを近似できます。ただし、二次方程式や三次方程式よりも優れた実践はスプラインです-ハレルの教科書「回帰モデリング戦略」を心からお勧めします。
S. Kolassa -復活モニカ

OK。変換されたデータの線形回帰の場合、トレーニング時間がより速くなると仮定するのは合理的ですか?それともトレーニング時間はほぼ同じですか?変換されたデータの線形回帰のソリューションには、単一のグローバルな最大値がありますか、それともニューラルネットワークの場合のように、ローカルな最小値がたくさんありますか?(編集:入力がどのように変換されても、線形回帰の解は設計行列の疑似逆数に何かを掛けたものであり、常に一意または特異なのでしょうか?)
ヒューパーキンス

2
もちろん、トレーニング時間は入力ディメンション(少数/多数の観測、少数/多数の予測子)に依存します。線形回帰は、単一の(疑似)逆関数(はい、変換されたリグレッサが保持されている場合でも一意性/特異性)を伴いますが、NNは通常、反復的な方法でトレーニングされますが、反復は行列の反転を伴わないため、各反復が高速になります-通常過剰適合を防ぐために設計された基準に基づいてトレーニングを停止します。
S. Kolassa -復活モニカ

1
@Yamcha:普遍的な近似定理の私の理解は、原理的に次元は問題ではないということです。(もちろん、これは漸近的な結果です。NNが微調整された多項式回帰よりも優れているためには、膨大な量のデータが必要になると思います。ディープラーニングのように聞こえ始めます...)
Sコラッサ-モニカの復活

16

線形回帰に言及します。これは、同様の高速最適化アルゴリズムを持つロジスティック回帰に関連しています。分類の問題などでターゲット値に境界がある場合、ロジスティック回帰を線形回帰の一般化として表示できます。

ニューラルネットワークは、元の入力のロジスティック回帰よりも厳密に一般的です。これは、非表示ノードがスキップ層ネットワーク(入力と出力を直接接続する接続)に対応するためです。0

ような機能を追加する場合、これは単一の非表示レイヤー内のいくつかの非表示ノードに重みを選択することに似ています。シグモイドを使用してような関数をモデル化するには、複数の隠されたニューロンが必要になる場合があるため、厳密には対応はありません。ニューラルネットワークをトレーニングするとき、隠された重みを入力する独自の隠れた重みを見つけることができます。また、さらに時間がかかり、一貫性がない場合があります。追加の機能を備えたロジスティック回帰の近似から始めて、入力から非表示の重みをゆっくりとトレーニングできます。これは、最終的に追加の機能を備えたロジスティック回帰よりも優れているはずです。問題に応じて、トレーニング時間はごくわずかであるか、法外に長い場合があります。 1 1 x 3x311x3

中間戦略の1つは、ニューラルネットワークを初期化し、入力から非表示への重みを修正する場合と同様に、多数のランダムノードを選択することです。* -to-outputウェイトの最適化は線形のままです。これは、極端な学習マシンと呼ばれます。少なくとも元のロジスティック回帰と同様に機能します。


1
「中間戦略の1つは、ニューラルネットワークを初期化するときと同様に、多数のランダムノードを選択し、入力から非表示の重みを修正することです。*から出力への重みに対する最適化は線形のままです。」=>この場合、解の単一のグローバル最大値があることを意味しますか?
ヒューパーキンス

1
ランダムな非表示ノードの一般的なランダム選択の場合、はい。
ダグラスザーレ

2
素晴らしい投稿-[LR、LogR、NN、ELM]のコンテキストを提供します。LogRがスキップレイヤーNNであるというコメントは、指摘された後は明らかなように見えますが、素晴らしい洞察です。
javadba

3

線形回帰は、線形分離可能なデータを分離することを目的としています。はい、追加の3次多項式を使用できますが、その方法で、目的関数の構造を定義してから、データに関するいくつかの仮定を再度示しました。ニューラルネット。一般に、所有するデータの線形セパレーターを作成する入力レイヤーと、非表示レイヤーと、一部のクラスと最後のレイヤーの境界となる領域、またはこれらすべての領域のORがあります。そのようにして、あなたが持っているすべてのデータを非線形の方法で分類することができます。また、これらのプロセスはすべて、内部で学習した重みと定義された関数で行われます。さらに、線形回帰の特徴数を増やすことは、「次元の呪い」とは反対です。さらに、一部のアプリケーションでは、出力として定数よりも確率的な結果が必要です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.