機械学習のステップ


9

予測モデルを作成する場合、以下の一連のステップオプションのうち正しいものはどれですか。

オプション1:

最初に最も明らかに悪い予測子を排除し、必要に応じて残りを前処理します。次に、相互検証を使用してさまざまなモデルをトレーニングし、いくつかの最良のものを選択し、それぞれが使用した上位予測子を特定し、それらのモデルのみを使用してそれらのモデルを再トレーニングし、精度を評価します。再度交差検証を使用して、最適なものを選択し、主要な予測子を使用して完全なトレーニングセットでトレーニングし、それを使用してテストセットを予測します。

オプション2:

まず、最も明らかに悪い予測子を排除し、必要に応じて残りを前処理してから、再検証機能選択(例:rfを使用したRFE)などの特徴選択手法を使用して、交差検証を行い、主要な予測子の理想的な数とこれらの予測子を特定します。次に、交差検証を使用してさまざまなモデルタイプをトレーニングし、以前に特定された上位予測子でどのモデルが最高の精度を提供するかを確認します。次に、完全なトレーニングセットの予測子を使用して、これらのモデルの最適なモデルを再度トレーニングし、それを使用してテストセットを予測します。


1
必要に応じて残りを前処理するとはどういう意味ですか?データのクリーニングですか?
Dawny33

1
便利だと思われる残りの機能を前処理するつもりでした。前処理とは、必要に応じて、スケーリングやログなどの変換を行うことです。
AK

ああ、私は予想通り:)とにかく、私と私のチームが一般的に従うワークフローで答えを書きました!
Dawny33

回答:


16

私はあなたのオプションの両方に少し欠陥があることを発見しました。したがって、これは一般的に(非常に広く)予測モデリングワークフローが次のようになる方法です。

  • データのクリーニング:最も時間がかかりますが、ここで1秒ごとに費やす価値があります。このステップでデータがきれいになるほど、費やされる合計時間は短くなります。
  • データセットの分割:データセットはトレーニングとテストのセットに分割され、それぞれモデリングと予測の目的で使用されます。さらに、交差検証セットとして追加の分割も行う必要があります。
  • 変換と削減:変換、平均および中央値のスケーリングなどのプロセスが含まれます。
  • 機能の選択:これは、しきい値の選択、サブセットの選択など、さまざまな方法で実行できます。
  • 予測モデルの設計:手元にある機能に応じて、トレーニングデータの予測モデルを設計します。
  • 相互検証:
  • 最終予測、検証

私の理解は、機能選択ステップの一部として、ランダムフォレストを使用して再帰的な特徴消去関数(RFE)を実行できることです。たとえば、交差検証を使用して、予測子の最適な数を決定します。それらは、それらの予測子を使用して、交差検証でいくつかのアルゴリズムをトレーニングし、精度を比較して、それらの最適な予測子を使用する最適なモデルを取得します。どう思いますか?
AK

@AndrewKostandyええ、機能選択のサブセット選択アルゴリズムはほとんど同じように機能します:)
Dawny33

どういたしまして。私は現在、教授の標準的な質問の1つが「データを取得してクリーンにした後、最初に何をするのですか」という試験の勉強をしています。:-)
Martin Thoma

@ Dawny33データセットをトレーニングとテストに分割する前に、変換、スケーリングなどを実行しませんか?
2016年

1
変数変換とトレーニングデータにのみスケーリングを実行する理由は何ですか?次に、テストデータをどのように調整して一致させますか?ちょっと興味があるんだけど。
2016年

3

機能選択がパイプライン内の場所を見つける場所は、問題によって異なります。データをよく知っている場合は、この知識に基づいて手動で機能を選択できます。そうでない場合-相互検証を使用したモデルでの実験が最良の場合があります。chi2やPCAのようないくつかの追加技術を使用してフィーチャーの数を事前に減らすと、実際にはモデルの精度が低下する可能性があります。

たとえば、SGD分類子を使用したテキスト分類の経験では、バイナリ機能としてエンコードされた10万語すべてを残すと、数千または数百に減らすよりも優れた結果がもたらされました。私のツールセット(sklearn)では機能の選択がSGDのように確率的ではないため、かなり時間がかかるため、トレーニング時間は実際にはすべての機能で速くなります。

多重共線性には注意が必要ですが、機能の解釈性も同様に重要です。

次に、モデルのアンサンブルで最良の結果が得られると報告されています。各モデルは、情報スペースの特定の部分を他のモデルよりもうまくキャプチャします。また、アンサンブルに含めるすべてのモデルをフィッティングする前に、機能を選択できなくなります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.