オンラインでスケーラブルな統計手法

これは、私が非常に興味深いと思う効率的なオンライン線形回帰に触発されました。大規模な統計計算に専念するテキストやリソースはありますか？それにより、メインメモリに収まらないほど大きく、効果的にサブサンプリングするには多すぎるデータセットを使用した計算が行われます。たとえば、混合効果モデルをオンラインで適合させることは可能ですか？MLEの標準的な2次の最適化手法を1次のSGDタイプの手法に置き換えた場合の効果を調べた人はいますか？

online computing references

— grg s
ソース

答えは「はい」だと思います。もちろん、ここには定義の問題が少しあります。ある人が「大規模」と考えるものは、時には他の人とは大きく異なります。私の印象では、たとえば、多くの学術研究者はNetflixデータセットを「大規模」と見なしますが、多くの産業環境では「小さな」と見なされます。通常非常に大きなデータを使用する推定手法に関しては、計算効率が統計的効率よりも優れています。たとえば、モーメント法は、多くの場合、これらの設定で（ほぼ）MLEと同様に実行され、計算がはるかに簡単になります。

— 枢機

また、現代の大規模データセット（MMDS）のアルゴリズムに関するワークショップを参照することもできます。まだ若いですが、統計学、工学、コンピューターサイエンスのインターフェース、そして学界と産業界のインターフェースで非常に印象的なスピーカーのセットを集めています。

— 枢機

ほとんどのデータセットが大きすぎてメインメモリに収まらないため、わずか数十年であり、初期の統計プログラムで使用されるアルゴリズムの選択はそれを反映していました。そのようなプログラムには、混合効果モデルの機能はありませんでした。

— ワンストップ

データセットの統計を計算できますか？たとえば、データ項目の合計、または平均を言いますか？

— 確率論

Yahoo!のジョン・ラングフォードのVowpal Wabbitプロジェクトをご覧ください。研究これは、いくつかの損失関数で特殊な勾配降下を行うオンライン学習者です。VWにはいくつかの優れた機能があります。

「sudo apt-get install vowpal-wabbit」を使用して、Ubuntuに簡単にインストールします。
真剣に巨大な機能空間にハッシュトリックを使用します。
機能固有の適応重み。
最も重要なことは、アクティブなメーリングリストとコミュニティがプロジェクトに組み込まれていることです。

Bianchi＆Lugosiの本Prediction、Learning and Gamesは、オンライン学習の強固な理論的基盤を提供します。重い読み物ですが、それだけの価値があります！

— そうめん
ソース