Rで順序回帰を学習しますか?


10

私はプロジェクトに取り組んでおり、スピードを上げるためのリソースが必要です。

データセットは、30程度の変数で約35000観測です。変数の約半分はカテゴリ型であり、いくつかはさまざまな可能な値を持っています。つまり、カテゴリ型変数をダミー変数に分割すると、30を超える変数になります。しかし、おそらく最大で数百程度です。(n> p)。

私たちが予測したい応答は、5つのレベル(1,2,3,4,5)の序数です。予測子は、連続型とカテゴリー型の混合であり、それぞれの約半分です。これらは、これまでの私の考え/計画です。1.応答を連続として扱い、バニラ線形回帰を実行します。2.ノミナルおよびオーディナルロジスティックおよびプロビット回帰を実行する3. MARSおよび/または別の種類の非線形回帰を使用する

私は線形回帰に精通しています。MARSはHastieとTibshiraniによって十分に説明されています。しかし、序数のロジット/プロビットに関しては、特に非常に多くの変数と大きなデータセットに関して、私は途方に暮れています。

これまでのところ、rパッケージglmnetcrが私の最善の策であるようですが、ドキュメントでは、必要な場所に移動するのに十分ではありません。

詳細はどこで確認できますか?


Rタグも追加することをお勧めします。
クリストファールーデン2014年

1
これは統計モデルに関する質問であることを考えると、CrossValidated Webサイトにアクセスすることをお勧めしますが、質問をクロスポストするのはひどい慣行であることを覚えておいてください。直面している、または問題全体を移行します。
StasK 2014年

ISLは、理由を本当に説明せずに、ロジスティック回帰の複数のクラス拡張よりも、判別分析(LDA、QDAなど)がより頻繁に使用されることに注意(137ページ)しています。以下のようなパッケージpenalizedLDAは、したがって、調べる価値があるかもしれません。
MattBagg 2014年

回答:



6

通常のカテゴリカル応答を伴う回帰用のかなり強力なRパッケージの1つは、CRAN上のVGAMです。ビネットには序数回帰のいくつかの例が含まれていますが、確かに私はそのような大規模なデータセットでこれを試したことがないので、かかる時間を見積もることはできません。著者のページで VGAMに関する追加の資料を見つけることができます。別の方法としては、ローラ・トンプソンのを見てとることができコンパニオンを Agrestiの本「カテゴリデータ分析」に。Thompsonの本の第7章では、序数応答で頻繁に使用される累積ロジットモデルについて説明しています。

お役に立てれば!


3

順序回帰に完全に不慣れな場合は、最初にトピックのTabachnick / Fidell(http://www.pearsonhighered.com/educator/product/Using-Multivariate-Statistics-6E/0205849571.page)の章を最初に読んでみます。 -この本はR向けに書かれていませんが、一般的なロジックと「すること」と「しないこと」を伝えるのに非常に優れています。

質問として:正確にあなたの応答カテゴリーは何ですか?それらが「良い-悪い」のようなある種のスケールである場合、線形回帰を使用することは問題ありません(市場調査は常にそれを行います...)。 。構造方程式モデリングに関するいくつかの本で、線形回帰はプロビットよりも優れたスケールで優れていると述べていたことをぼくは覚えています。少し残念ですが、現時点では本を思い出せません。

最も深刻な問題はダミー変数の数である可能性があります-数百のダミー変数は分析を遅くし、解釈が難しく、おそらく不安定になります-各ダミー/ダミーの組み合わせに十分なケースがありますか?


3

社会科学の観点から書かれた1つの標準的なリファレンスは、Jスコットロングの限定従属変数の本です。タバチニックは別の答えで提案されていると言うよりもはるかに深く進んでいます。本。序数回帰は、ほとんどの導入計量経済学コース(Wooldridgeの断面図とパネルデータは大学院レベルの優れた書籍です)と、定量的な社会科学コース(社会学、心理学)だけでなく、後者がループバックすることを想像します。ロングの本へ。

変数の数がサンプルサイズordinalよりもかなり少ないことを考えると、探しているはずのRパッケージはおそらくであるとは言えませんglmnetcr別の回答では、この機能はより主流のMASSパッケージで見つけることができると述べています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.