データセット全体で構築できない場合、データセットの「チャンク」で線形モデルを構築できますか?


7

データセット全体でモデルを構築できない場合、データセットの「チャンク」で線形モデルを構築できますか?

特に、私はまだ88kを超える変数(機能)を残しており、大量のメモリがなければ、それらを使って多くを行うことはできません。しかし、「ブロック」でモデルを実行すると、ブロック間で発生する相互作用が失われますか、またはこれらを「集約」するためのテクニックはありますか?


1
確率的勾配降下法を表すSGDで線形モデルとニューラルネットワーク(非線形モデル)をトレーニングします。トリックは非常に簡単です。ランダムなバッチで損失の勾配を計算し、重みを更新します。
Fadi Bakoura、2018年

回答:


6

「変数」がトレーニングの例を参照している場合:

Stochastic Gradient Descent(SGD)を使用して、各反復で1つのトレーニング例を使用できます。

または、ミニバッチグラデーションディセントを使用して、各反復でトレーニングセットのパーティションを使用することもできます。SGDは、パーティションサイズが1つのトレーニング例であるミニバッチ勾配降下法です。


「変数」が機能を指す場合:

機能の数を減らすには、次元削減を使用する必要があります。たとえば、主成分分析(PCA)を使用すると、高い分散を維持しながら、特徴ベクトルのサイズを小さくできます。これは、モデルのトレーニングを大幅に高速化するのにも役立ちます。


補足:「変数」が機能を参照していて、データポイントがたくさんある場合は、オートエンコーダーを使用して、よりコンパクトな表現を抽出できます。VAE、DAEを参照してください。SAE、CAE
ファディバコウラ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.