* 100万*の係数/独立変数を使用して多変量回帰分析を実際に実行しますか?


18

私は機械学習の学習に少し時間を費やしています(再帰はごめんなさい:)、多変量線形回帰の場合、回帰係数を計算するための直接方程式の解法よりも勾配降下法を選択するという経験則に興味をそそられることはありませんでした。

経験則:特徴の数は、(係数/独立変数を読み取る)の間にある場合又は百万を超えると、勾配降下で行く、計算逆他の行列は汎用ハードウェア上でかなり扱いであり、したがって、コンピューティング係数は直接十分に機能するはずです。100001000000

計算上言えば、トレードオフ/制限があります。しかし、統計的な観点から、これほど多くの係数を持つモデルを実際に計算できますか?大学院の多変量線形回帰クラスを覚えている場合、独立変数は従属変数に非常に無視できる影響を与えるか、その分布がデータについての仮定に従わない可能性があるため、あまり多くの独立変数を使用しないように注意しました。「多くのIV」を考えるように心を広げたとしても、何百万も考えたことはありませんでした。

質問:

  • これは本当に起こりますか、それとも理論的な問題ですか?
  • 100万個のIVを分析する意味は何ですか?情報を無視するのではなく、得られる情報の価値を大幅に高めることができますか?
  • それとも、最初は何が役に立つのかわからないので、いまいましい回帰実行して何が役に立つかを確認し、そこから行ってIVのセットをプルーニングするだけでしょうか?

「すべて」を分析できるからといって、それをソルバーに投げ込む(または実行する)ことを意味するわけではなく、過去の質問のいくつかが同様のPOVを反映しているからです。

私はまだコースを終えておらず、すぐに質問をするかもしれませんが、この「なぜ」思考を頭から外すことができず、私の能力を最大限に理解しようとしています。

回答:


14

これは本当に起こりますか、それとも理論的な問題ですか?

それは起こります。コンピュータービジョンの一般的なディープラーニングモデルを参照してください。たとえばalexnetには2048ユニットと2048ユニットの間の密な接続があり、これは400万の係数です。

100万個のIVを分析する意味は何ですか?情報を無視するのではなく、得られる情報の価値が本当に向上するのでしょうか?

高度にカテゴリー化されたデータ(インターネット広告データなど)を分析する場合、モデルは各カテゴリー(都市、ページID、サイト名、広告ID、ユーザーIDなど)の意味のある「説明」、実際の「説明」のサイズは、選択したMLモデルによって異なります。

単純なロジスティック回帰でも、何十万ものパラメーターが適合します(カテゴリーごとに1つ)。因数分解マシンのようなより高度なモデルには、さらに時間がかかるでしょう。

それとも、最初は何が役に立つのかわからないので、いまいましい回帰を実行して何が役に立つかを確認し、そこから行ってIVのセットをプルーニングするだけでしょうか?

実際、これらのモデルの適合パラメーターのほとんどはドロップできますが、事前にそれを知ることはできないため、どのパラメーターが機械学習に重要であるかを定義する問題を残し、有効な数に「ソフト制限」をかけるためのいくつかの正則化を課します残るパラメーターの数。

...そして、MLコースの後半でそのような例を見つけると思います。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.