機械学習における相関と因果関係はどうですか?


13

「相関関係は因果関係に等しくない」ことはよく知られていますが、機械学習はほぼ完全に相関関係に基づいているようです。私は、過去のパフォーマンスに基づいて質問に対する学生のパフォーマンスを推定するシステムに取り組んでいます。Google検索などの他のタスクとは異なり、これは簡単にゲームをプレイできる種類のシステムではないようです。そのため、因果関係は実際には関係ありません。

明らかに、システムを最適化するための実験を行いたい場合、相関/原因の区別に注意する必要があります。しかし、適切な難易度になる可能性が高い質問を選択するシステムを構築するだけの観点から、この区別は重要ですか?


定義してくださいまたは少なくともあなたは、「相関が等しくない因果関係を行う」に相関因果関係によって何を意味を参照してください
seteropere

回答:


11

すべてのAIが相関関係で機能するわけではありません。ベイジアン信念ネットワークは、AがBを引き起こす確率に基づいて構築されます。

私は、過去のパフォーマンスに基づいて質問に対する学生のパフォーマンスを推定するシステムに取り組んでいます。

これには因果関係は必要ないと思います。過去のパフォーマンスが現在のパフォーマンスを引き起こすことはありません。初期の質問に答えても、後の質問に答えることはありません。

しかし、適切な難易度になる可能性が高い質問を選択するシステムを構築するだけの観点から、この区別は重要ですか?

いいえ、あなたの例ではありません。相関(または単純な外挿)で問題を解決できると思います。難易度スコアを各質問に割り当ててから、ますます困難なレベルの学生に質問を送ります(ほとんどの試験がどのように機能するかです)。これは、多層パーセプトロンのニューロンで実行されるエラー最小化に似たフィードバックアルゴリズムです。このような入力スペースの重要な部分は、難しい質問が何であるかを決定しています!

AIの因果関係のより良い例は次のとおりです。

私の車は減速しています。私の加速器は床にあります。ノイズはあまりありません。ダッシュボードにライトがあります。燃料がなくなった可能性はどのくらいですか?

この場合、燃料が不足すると車の速度が低下します。これはまさにベイジアン信念ネットワークが解決する一種の問題です。


「これには因果関係は必要ないと思います。過去のパフォーマンスが現在のパフォーマンスを引き起こすことはありません。初期の質問に答えても、後の質問に答えることはありません。」-学生がエクササイズを完了したという事実は、別のエクササイズでより良いパフォーマンスをもたらす可能性があります(ヒント、電気ショック療法を提供します)。
Casebash 14

しかし、私はあなたが正しいと思う、それは相関対因果についてではなく、それが因果と相関しているかどうか(すなわち、特定のクラスの生徒が幾何学のトピックでうまくやっているかどうか彼らはそれに立ち上がっだけのものであるため、高い性能を持っている傾向が最も難しいのトピック)完成
Casebash

あ!おもしろいことです。演習を完了し、その結果を知ることが、質問の質が向上する原因です。しかし、それはここでは観察できません。観察しているのは、相互に関連する試験問題だけです。相関関係は汚いものではありません。2つの統計プロセスに関係があると言っても大丈夫です。
ロブラング博士14

原因Bは信念ネットワークの1つの解釈です。
seteropere 14

6

機械学習はほぼ完全に相関に基づいているようです

私はそうは思わない、少なくとも一般的にはそうではない。たとえば、PAC分析VCディメンション分析に関するMLアルゴリズムの主な仮定は、トレーニング/テストデータが将来のデータと同じ分布から得られることです。

したがって、システムでは、各生徒が特定のトピックに関する特定のタイプの質問に対する回答を生成する何らかの条件付き確率分布を課すと仮定する必要があります。あなたがしなければならない別の、そしてより問題のある仮定は、この分布は変わらない(または速く変わらない)ということです。


2

以前の回答に同意します。

ただし、一般的に相関/原因を調べることに興味がある場合は、次の2つの項目を参照してください。


2

他の答えに加えて、興味深いトピックがあります-機能を手動で選択している場合、過剰一致を減らすために「偶然の相関」を考えてください。つまり、トレーニングデータで何らかの形で相関するが、 't /は、一般的なケースでは相関すべきではありません-因果関係はまったくありません。

おおまかな例として、過去の試験結果のデータテーブルを取得し、不合格/合格基準を予測しようとするとします。使用可能なすべてのデータフィールドをフィーチャとして含めるだけで、テーブルには生徒の誕生日も含まれます。現在、トレーニングデータには、2月12日に生まれた学生がほとんど常に合格し、2月13日に生まれた学生がほとんど必ず失敗するトレーニングデータに有効な相関関係がある可能性があります...しかし、因果関係がないため、除外すべきです。

現実には、もう少し微妙ですが、学習する必要がある有効な信号にデータに適合する相関関係を区別するのに役立ちます。トレーニングセットのランダムノイズによって引き起こされる単純なパターンである相関。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.