ロジスティック回帰モデルを最適化する場合、データが増えると、処理が*速く*なります。なぜか?


8

私は、さまざまなバッチ最適化アルゴリズム(共役勾配法、ニュートンラプソン、およびさまざまな準ニュートン法)を使用したロジスティック回帰をいじっています。気づいたことの1つは、モデルにデータを追加すると、モデルのトレーニングにかかる​​時間が大幅に短縮される場合があることです。各反復では、より多くのデータポイントを調べる必要がありますが、データを追加すると、必要な反復の総数が大幅に減少する可能性があります。もちろん、これは特定のデータセットでのみ発生し、ある時点でデータを追加すると、最適化の速度が低下します。

これはよく研究された現象ですか?これが発生する理由/時期に関する詳細情報はどこで入手できますか?


5
これは興味深い観察です。データが多いほど反復数が少なくなることは直感的です。完全に分離する場合を除いて、データが多いほど、解の大まかな最初の見積もりでも精度が高くなります。データが少ない場合は、勾配が小さい、より広範な初期検索を行う必要があります。真のパラメーター値の近傍における情報マトリックスの分析は、この直観を定量的にするでしょう。
whuber

5
@whuberが言及していることに加えて、データを追加すると、可能性のある面が「より良く」なる可能性があります。これは、一般的なアルゴリズムがはるかに速く収束する必要があることを意味します。小さなサンプルでは、​​GLMの収束が遅くなる場合があります。これは、表面が、パラメータの2次に近い見栄えの良いものではないためです。サンプルサイズが大きくなると、特に正準リンク関数がある場合、その可能性は単純な十分な統計の関数にすぎないため、反復だけでなく、場合によってはより高速になる可能性があります。
Glen_b-モニカを復元する

1
どちらもおっしゃっている直感を理解していますが、これをもう少し定量化できるかどうか知りたいです。たとえば、データを増やすことで速度をどの程度改善できるかを示すいくつかの実験結果があります。
Mike Izbicki、2014

1
多くの奇妙なことが処理速度に影響を与える可能性があります。たとえば、Stack Overflow最も支持されている質問を参照してください。
Nick Stauner 2014年

これを示す1つのケースを提供できますか?あなたの経験にとってそれを「典型的」にすることができ、そうでなければ「健康な」データのサブセットは収束が遅いが、データのセット自体は収束が速いことを示す場合、それはより良い答えに役立つかもしれません。私はマイク・イズビッキを言い換えただけだと思います。
EngrStudent 2014年

回答:


4

データ量が少ないと、データが非常に多くなるため、回帰入力間の偽の相関が高くなることがよくあります。回帰変数が相関している場合、尤度曲面は比較的平坦であり、オプティマイザ、特にフルヘッセ行列(たとえば、ニュートンラフソン)を使用しないものは、最小値を見つけることが難しくなります。

ここにいくつかの優れたグラフと、より多くの説明があり、さまざまなアルゴリズムがさまざまな量の相関を持つデータに対してどのように実行されるかを示します。http//fa.bianp.net/blog/2013/numerical-optimizers-for-logistic-regression/

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.