Machine Learning:A Probabilistic Perspective(Kevin Murphy)で機械学習を研究しています。テキストは各アルゴリズムの理論的基礎を説明していますが、どの場合にどのアルゴリズムが優れているか、そしてどのアルゴリズムが優れているかについては、どのケースにいるのかをどのように伝えるかについては述べていません。
たとえば、カーネルを選択するために、探索的データ分析を行ってデータの複雑さを測定するように言われました。単純な2次元データでは、線形カーネルまたは放射カーネルが適切かどうかをプロットして確認できます。しかし、高次元で何をすべきか?
より一般的には、アルゴリズムを選択する前に「データを知る」と言うとき、人々は何を意味しますか?今のところ、分類アルゴリズムと回帰アルゴリズム、および線形アルゴリズムと非線形アルゴリズム(これは確認できません)のみを区別できます。
編集:私の最初の質問は普遍的な経験則に関するものですが、特定の問題に関する詳細情報を提供するように頼まれました。
データ:各行が国月(合計30,000行、最大15年で最大165か国)のパネル。
応答:関心のある5つのバイナリ変数(つまり、その月に抗議/クーデター/危機などが発生するかどうか)。
機能:〜400個の変数(連続、カテゴリ、バイナリの組み合わせ)により、過去2か月間の特性の詳細が示されます(より長いラグを作成できます)。目標は予測であるため、遅延変数のみを使用します。
例としては、為替レート、GDP成長率(継続的)、フリープレスのレベル(カテゴリ別)、民主主義、競合があるかどうか(バイナリ)などがあります。これらの400個の機能の多くは時間差変数であることに注意してください。