統計テストは、データから推論を行うためのもので、物事がどのように関連しているかを示します。結果は、現実世界の意味を持つものです。たとえば、方向と大きさの両方の観点から喫煙が肺癌とどのように関連しているか。それでも、なぜ起こったのかはわかりません。なぜ起こったかに答えるには、他の変数との相互関係も考慮し、適切な調整を行う必要があります(Pearl、J.(2003)因果関係:モデル、推論、推論を参照)。
教師あり学習は予測を行うためのもので、何が起こるかを教えてくれます。例えば、人の喫煙状況を考えると、彼/彼女が肺癌を患うかどうかを予測することができます。単純な場合でも、たとえば、アルゴリズムによって識別された喫煙状態のカットオフを調べることにより、「方法」を示します。しかし、より複雑なモデルは解釈が困難または不可能です(多くの機能を備えたディープラーニング/ブースト)。
上記の2つを容易にするために、教師なし学習がよく使用されます。
- 統計テストでは、データの基礎となる未知のサブグループをいくつか発見することで(クラスタリング)、変数間の関連性の不均一性を推測できます。たとえば、喫煙はサブグループAの肺がんの確率を高めますが、サブグループBの確率は高めません。
- 教師あり学習の場合、予測の精度と堅牢性を向上させる新しい機能を作成できます。たとえば、肺がんの可能性に関連するサブグループ(クラスタリング)または機能の組み合わせ(次元の縮小)を識別することによって。
特徴/変数の数が多くなると、統計的検定と教師あり学習の違いはより大きくなります。統計的テストは必ずしもこの恩恵を受けるとは限りません。たとえば、上記のように他の要因を制御したり、関連性の不均一性を特定したりして因果推論を行うかどうかによって異なります。機能が関連し、ブラックボックスのようになると、教師あり学習のパフォーマンスが向上します。
サンプル数が増えると、統計テストの結果がより正確になり、教師あり学習の結果がより正確になり、教師なし学習の結果がより堅牢になります。ただし、これはデータの品質に依存します。品質の悪いデータは、結果にバイアスやノイズをもたらす可能性があります。
時々、喫煙が肺がんを引き起こすことを特定することにより、介入行為を知らせる「方法」と「理由」を知りたいことがあります。意思決定の情報を提供するために「何」を知りたい場合があります。たとえば、誰が肺がんにかかっている可能性があるかを見つけて、早期治療を行います。Scienceには、予測とその制限に関する特別な問題が公開されています( http://science.sciencemag.org/content/355/6324/468)。「成功は、テラバイトのデータを処理するためのアルゴリズムの能力とコンテキストの人間の理解を結びつける学際的な取り組みで質問に取り組むときに最も一貫して達成されるようです。」例えば、私の意見では、そもそも収集すべきデータ/機能。一方、教師あり学習は、どの変数を通知することで仮説を生成するのに役立ちます