これは、私が非常に興味深いと思う効率的なオンライン線形回帰に触発されました。大規模な統計計算に専念するテキストやリソースはありますか?それにより、メインメモリに収まらないほど大きく、効果的にサブサンプリングするには多すぎるデータセットを使用した計算が行われます。たとえば、混合効果モデルをオンラインで適合させることは可能ですか?MLEの標準的な2次の最適化手法を1次のSGDタイプの手法に置き換えた場合の効果を調べた人はいますか?
答えは「はい」だと思います。もちろん、ここには定義の問題が少しあります。ある人が「大規模」と考えるものは、時には他の人とは大きく異なります。私の印象では、たとえば、多くの学術研究者はNetflixデータセットを「大規模」と見なしますが、多くの産業環境では「小さな」と見なされます。通常非常に大きなデータを使用する推定手法に関しては、計算効率が統計的効率よりも優れています。たとえば、モーメント法は、多くの場合、これらの設定で(ほぼ)MLEと同様に実行され、計算がはるかに簡単になります。
—
枢機
また、現代の大規模データセット(MMDS)のアルゴリズムに関するワークショップを参照することもできます。まだ若いですが、統計学、工学、コンピューターサイエンスのインターフェース、そして学界と産業界のインターフェースで非常に印象的なスピーカーのセットを集めています。
—
枢機
ほとんどのデータセットが大きすぎてメインメモリに収まらないため、わずか数十年であり、初期の統計プログラムで使用されるアルゴリズムの選択はそれを反映していました。そのようなプログラムには、混合効果モデルの機能はありませんでした。
—
ワンストップ
データセットの統計を計算できますか?たとえば、データ項目の合計、または平均を言いますか?
—
確率論