私はプロジェクトに取り組んでおり、スピードを上げるためのリソースが必要です。
データセットは、30程度の変数で約35000観測です。変数の約半分はカテゴリ型であり、いくつかはさまざまな可能な値を持っています。つまり、カテゴリ型変数をダミー変数に分割すると、30を超える変数になります。しかし、おそらく最大で数百程度です。(n> p)。
私たちが予測したい応答は、5つのレベル(1,2,3,4,5)の序数です。予測子は、連続型とカテゴリー型の混合であり、それぞれの約半分です。これらは、これまでの私の考え/計画です。1.応答を連続として扱い、バニラ線形回帰を実行します。2.ノミナルおよびオーディナルロジスティックおよびプロビット回帰を実行する3. MARSおよび/または別の種類の非線形回帰を使用する
私は線形回帰に精通しています。MARSはHastieとTibshiraniによって十分に説明されています。しかし、序数のロジット/プロビットに関しては、特に非常に多くの変数と大きなデータセットに関して、私は途方に暮れています。
これまでのところ、rパッケージglmnetcrが私の最善の策であるようですが、ドキュメントでは、必要な場所に移動するのに十分ではありません。
詳細はどこで確認できますか?