単純な線形回帰の場合は勾配降下法


9

単純な線形回帰のパラメーターを見つけるための勾配降下法について説明しているWebサイトは多数あります(ここにそのうちの1つがあります)。グーグルはまた彼らの新しい(公開された)MLコースでそれ説明している

しかし上ウィキペディア、パラメータを計算するには、次の式が供給されてい

α^=y¯β^バツ¯β^=Σ=1バツバツ¯yy¯Σ=1バツバツ¯2

また、scikit-learnのLinearRegression関数には、n_iter_他の多くの学習関数のように(反復回数)属性がありません。これは、勾配降下法が使用されていないことを示唆していると思いますか?

質問:

  1. 単純な線形回帰の勾配降下法を説明しているWebサイトは、最も基本的なMLモデルでその概念を教えるためにそうしているだけですか?ウィキペディアの公式は、ほとんどの統計ソフトウェアがパラメーターの計算に使用するものですか(少なくともscikit-learnは勾配降下法を使用していないようです)。
  2. 多重線形回帰には通常何が使用されますか?
  3. 他の方法よりもパラメーターを見つけるために勾配降下法が通常使用される統計学習モデルのタイプは何ですか?つまり、経験則はありますか?

回答:


8
  1. 線形降下は、勾配降下の概念を導入する方法として一般的に使用されます。

  2. QR分解は最も一般的な戦略です。SVDとコレスキー分解は他のオプションです。線形回帰モデルの係数を見つけるには勾配降下法が必要ですかを参照してください

特に、作成した方程式は、数値の条件付けが不十分であることを証明したり、計算にコストがかかる可能性があることに注意してください。QR因数分解は、条件付けの問題の影響を受けにくく(免疫力はありません)、高額ではありません。

  1. ニューラルネットワークは、勾配降下法の応用の最も顕著な例ですが、唯一の例とはほど遠いものです。反復的な更新を必要とする問題のもう1つの例は、ロジスティック回帰です。これは直接的な解決ができないため、通常はニュートンラフソンを使用します。(ただし、GDまたはそのバリアントも使用される場合があります。)

あなたが提供したリンクで、#3:「正規方程式」は、私の質問の方程式を参照していますか?そうでない場合、これらの方程式の専門用語は何ですか?
オリバーアンジェリル

1
@OliverAngelil「正規方程式」は、通常の最小二乗最適化問題の1次条件である方程式の線形システムの専門用語です。
Matthew Gunn

では、予測変数が1つしかない場合、統計ソフトウェアで「正規方程式」が使用されますか?n = 100の場合、scikit-learnで通常の方程式とLinearRegression関数を使用すると、(小数点以下6桁まで)同一のb0およびb1係数が得られます。私は混乱していますが、リンクの#3には、「通常の方程式」は「ひどい」アイデアであると記載されていますか?
オリバーアンジェリル

1
小数点以下6桁で十分です。
オリバーアンジェリル

2
@anu非反復的な方法でロジスティック回帰を解決するには、非線形方程式系を最小化する必要があります。一般的に、これは難しいです!この状況は、Abel-Ruffiniの定理に類似しています(5次多項式の根の代数的解はありません)。システムを正確に解く直接計算法がないだけです。IIRC、これについては、ロジスティック回帰に関するElements of Statistical Learningの章説明しています。stats.SEのどこかにスレッドがあると思われますが、良いスレッドを見つけるのに苦労しています。
Sycoraxは、モニカを復活させると
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.