適切な機械学習アルゴリズムを選択するための探索的データ分析の方法


16

Machine Learning:A Probabilistic Perspective(Kevin Murphy)で機械学習を研究しています。テキストは各アルゴリズムの理論的基礎を説明していますが、どの場合にどのアルゴリズムが優れているか、そしてどのアルゴリズムが優れているかについては、どのケースにいるのかをどのように伝えるかについては述べていません。

たとえば、カーネルを選択するために、探索的データ分析を行ってデータの複雑さを測定するように言われました。単純な2次元データでは、線形カーネルまたは放射カーネルが適切かどうかをプロットして確認できます。しかし、高次元で何をすべきか?

より一般的には、アルゴリズムを選択する前に「データを知る」と言うとき、人々は何を意味しますか?今のところ、分類アルゴリズムと回帰アルゴリズム、および線形アルゴリズムと非線形アルゴリズム(これは確認できません)のみを区別できます。

編集:私の最初の質問は普遍的な経験則に関するものですが、特定の問題に関する詳細情報を提供するように頼まれました。

データ:各行が国月(合計30,000行、最大15年で最大165か国)のパネル。

応答:関心のある5つのバイナリ変数(つまり、その月に抗議/クーデター/危機などが発生するかどうか)。

機能:〜400個の変数(連続、カテゴリ、バイナリの組み合わせ)により、過去2か月間の特性の詳細が示されます(より長いラグを作成できます)。目標は予測であるため、遅延変数のみを使用します。

例としては、為替レート、GDP成長率(継続的)、フリープレスのレベル(カテゴリ別)、民主主義、競合があるかどうか(バイナリ)などがあります。これらの400個の機能の多くは時間差変数であることに注意してください。

回答:


15

これは単純な答えのない広範な質問です。CMU でこのトピックに関する3か月のコースを教えました。次のような問題を取り上げました。

  1. 予測を使用して、変数と全体的な分布構造との相関関係を理解し​​ます。
  2. 残差を連続的にモデル化て回帰モデルを構築する方法。
  3. 非線形相互作用項を線形モデルにいつ追加するかを決定します。
  4. する方法を決める KNN対ロジスティック分類器対決定木間。いくつかのUCIデータセットを調べ、実行する前にどの分類器が勝つかをどのように判断できるかを示しました。

悲しいことに、コースのビデオや教科書はありませんが、クラスの要点をまとめた講演をしました。私は同じことを扱っている教科書を知りません。


これらの有用な資料を消化するのに1〜2日かかりますが、注意が必要です。このトピックをカバーする教科書/リソースがないのはなぜですか 誰かがプロジェクトに携わるときはいつでも、この質問について考えなければならないので、それは重要ではありませんか?
ハイゼンベルグ14年

1
いい質問(+1)と答え(+1)。@ハイゼンベルク:私はトムがトピックに関する特定の教科書を見なかったことに同意します。ただし、彼のリソースに加えて、2つのオンラインリソースをお勧めします(MLアプリケーションに焦点を当てていませんが)。1)NIST Engineering Statistics HandbookのEDAセクション。2)Andrew Gelman教授によるEDAの複雑なモデルに関する興味深い論文
アレクサンドルブレフ

0

データをチェックインできることがいくつかあります。

1 - correlation between variables
2 - categorical variables or continuous variables?
3 - relation between number of samples and number of variables
4 - are the samples independent or is it a time series? 

これらのポイントとデータから抽出する情報の種類に応じて、使用するアルゴリズムを決定できます。


これら4つの情報のそれぞれが私のアルゴリズムの選択にどのように影響するかを詳しく説明していただけますか?2が分類と回帰を決定することだけを知っています。他の3はどうですか?(特に#4-10年間で165か国のパネルデータがあります)
ハイゼンベルグ

2-では、入力としてカテゴリ変数について考えていました。アルゴリズムの最終決定は、解決しようとしている問題によって異なります。これを以前に知る方法があります。2-多分決定木はあなたを助けることができます。3では、過剰適合に注意する必要があります。4-では、パフォーマンスの評価方法を決定する必要があります。特定の問題を説明する場合にのみ、使用するアルゴリズムを決定するのに役立ちます。
ドンベ14年

特定の問題の詳細については、質問を編集しました。
ハイゼンベルク14年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.