多くのレベルの因子を持つモデルを近似するためにRに長い時間がかかるのはなぜですか?


12

多くのレベルを持つ因子をもつモデルに適合させ、そのモデルを適合させるにはRに非常に長い時間がかかります。どうしてこれなの?

たとえば、プレーヤーの給与を予測するために回帰を当てはめ、すべてのプレーヤーのそれぞれの国籍の因子予測子を含めると、プレーヤーの給与のモデルをプレーヤーの給与のような継続的な予測子に当てはめるよりも時間がかかりますハイツ。


5
因子は1つの変数(データフレームの1つの列、モデル仕様の1つのアイテムなど)のように見えますが、裏では実際には一連の個別の予測子として扱われることを理解しておくと役立ちます。したがって、モデルは、単一の(連続した)予測子を持つモデルよりもはるかに複雑です。
ガラ

回答:


13

Rは典型的です-ほとんどの統計パッケージと同様に、回帰にはQR分解を使用します。

固定、ここで場合、分解自体を計算するだけでは事実上2次になります。予測子の数を2倍にすると、計算時間が約4倍になります。np<<np

したがって、(線形回帰)からに変更した場合、600倍の範囲で何かが必要になると予想されます(実際には、さまざまな理由から、おそらくやや少なくなります)。p=2p=50

したがって、多数の予測子を追加すると、待機時間が大幅に長くなります。


7

これは、レベルの因子では、Rがインジケーター変数を作成するためです。したがって、国籍があると仮定すると、予測子を持つ重回帰モデルをあてはめます。これは、連続(そうすべきではない)として扱う場合の単純な線形回帰とは異なります。おそらく、大陸やその他のより粗い国籍のグループである新しい要素を作成して、物事を高速化し、より簡潔なモデルを得ることができます。kk1k=5049

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.