Rのキャレットパッケージの180のアルゴリズムのどれが実行可能ですか？

Rのキャレットパッケージは180モデルで動作します。著者は、パッケージの一部がトップチョイスモデルよりも処理が遅いか、精度が低い可能性があることを警告しています。

著者はこれについて間違っていません。私はBorutaモデルとevtreeモデルをトレーニングしようとしましたが、クラスターで5時間を超えて実行した後はあきらめなければなりませんでした。

著者は一連の機械学習ベンチマークにリンクしていますが、それらは少数のアルゴリズムのパフォーマンスをカバーし、さまざまな実装を比較しています。

180のモデルのうちどれを試してみる価値があるか、どれが非常に不正確か、不合理に遅いかについてのガイダンスとして、他に参考にできるリソースはありますか？

machine-learning r

— ハックR
ソース

完全にあなたのデータに依存します。何をしようとしているか、どのくらいのデータを持っているか、どのように見えるか。

— stmax 2016年

@stmaxこれは真実です。それは間違いなく特定のデータに部分的に依存しています。しかし、これはある程度一般化も可能です。そのため、彼らはMLベンチマークを行います。私は本当にいくつかの一般的なベンチマークを探しています。私が取り組んでいるプロジェクトは常に4〜5種類あり、特定の分析のためではなく、一般的または将来の参照のためにこれを求めています。私は通常、40,000〜2,000,000行、通常は約100の予測子を扱います。最も一般的なマルチクラス従属変数。

— y0gapants 2016年

121のデータセットで179の異なるモデルを比較するこの研究を読んでください。データセット全体のモデルの正確さについて話しますが、速度についてはそれほどではありません。

— phiver 2016年

@phiver非常に便利です。誰もそれをしていなければ、私はそのようなものをスピードで公開するかもしれません。

— Hack-R

OpenMLでのmlr（デフォルト）学習者のベンチマーク

全体 openmlのデータベース ML結果。

RStudioのテストでは、SVMが推奨されています。

Mlmastery は、LDAおよびTrial and Errorを提案しています。

実際の分類問題を解決するために何百もの分類器が必要ですか？Fern ́andez-Delgado et al。

論文では、並列ランダムフォレスト（parRF_t）に続いてランダムフォレスト、ガウスカーネル（svm）を備えたLibSVM、ガウスカーネルを備えた極限学習マシン、C5.0決定木および多層パーセプトロン（avNNet）が最適であると結論付けています。

最良のブースティングおよびバギングアンサンブルは、LibSVMを基本分類子（Wekaで）として使用し、単一のLibSVM分類子より少し優れています。ガウスカーネルスプレッド（pnn m）を調整するMatlabの確率的ニューラルネットワーク、およびC（dkp C）の直接カーネルパーセプトロン、私たちが提案した非常にシンプルで高速なニューラルネットワーク（Fern ́andez-Delgado et al。、2014）、トップ20にも非常に近いです。

Wainer、Jacques（2016） Fernandez-Delgado et al。に基づく115のバイナリデータセットに対する分類アルゴリズムの14の異なるファミリの比較。（2014）。「ランダムフォレスト、RBF SVM、および勾配ブースティングマシンが、最も高い精度をもたらす可能性が最も高い分類アルゴリズムであることを示しました。」

Rich Caruana＆Alexandru Niculescu-Mizil（）教師あり学習アルゴリズム（分類）の経験的比較は、 RF BagT Cal.SVM NNに最もよく従うように、プラットキャリブレーションされたブーストツリーで終了します。

他の多くの研究には、使用されたモデルの比較が含まれています。分類によっては、放射状基底または多項式カーネルを備えたSVMを使用するSVMを好む論文もあります。（たぶん同じもの）

生成されたデータに対する私自身の回帰から、 earth（MARS）Cubist SVMlinearをお勧めします。

Manisha論文は、最初にUCI Machine Learning Repositoryでテストを実行し、次に、論文の焦点である肥沃度を土壌化します。UCIの最高のモデルは、「elm-kernelはELMニューラルネットワークですが、ガウスカーネルを使用します」、「svrは回帰用のサポートベクターマシンであり、ガウスカーネルはC ++インターフェイスを備えたLib-SVMライブラリを使用しています」、extraTrees、およびcubistです。論文には、各モデルの優れた説明と、より多くの論文へのリンクが含まれています。「extraTreesは、7/10の土壌問題で最高のRMSEを達成しました」。紙は間違いなく読む価値があります。

— ran8
ソース

ほとんどのアルゴリズムは、OLS（相互作用の選択、非線形性など）でさえ、ハイパーパラメーターの注意深い調整を必要とします。「ブラインド」比較は、ランダムフォレストのような調整しやすいアルゴリズムを優先します。

— マイケルM

または、相互作用と非線形性を検出するアルゴリズム。特に私の人工おもちゃのテストでは。モデルのようなキュービズムモバ火星。高度なカーネルを備えたSVM。

— ran8 '19年

相互作用と線形性を検出するための優れたアルゴリズムには、パフォーマンスを向上させるために微調整が必要です。通常、RFには改善の余地はあまりありませんが、他のアルゴは微調整でさらに改善できる場合があります。例として、Kaggleの競争に勝つために広く使用されているにもかかわらず、ベンチマークでのランクが低いxgboostを使用できます。不適切に設定されたパラメータが行うことの別の例：ペナルティ付きの回帰は、線形モデルよりもパフォーマンスが悪い...

— lcrmorin