一般的に、推論を行うことは予測を行うことよりも困難ですか？

私の質問は次の事実から来ています。私は機械学習に関する投稿、ブログ、講義、および本を読んでいます。私の印象は、機械学習の実践者は統計学者/計量経済学が気にする多くのことに無関心であるように思われるということです。特に、機械学習の実践者は、推論よりも予測精度を重視しています。

そのような例の1つは、CourseraでAndrew Ngの機械学習を受けていたときに発生しました。彼は単純な線形モデルについて説明するとき、推定量のBLUEプロパティ、または不均一性がどのように信頼区間を「無効化」するかについては何も言及しませんでした。代わりに、彼は勾配降下法の実装と相互検証/ ROC曲線の概念に焦点を当てています。これらのトピックは私の計量経済学/統計学のクラスでは取り上げられていません。

もう1つの例は、カグルコンペティションに参加したときです。他の人のコードや考えを読んでいました。参加者の大部分は、すべてをSVM /ランダムフォレスト/ XGBoostに投入します。

さらに別の例は、段階的なモデル選択です。この手法は、少なくともオンラインとKaggleで広く使用されています。統計学習の紹介など、多くの古典的な機械学習の教科書でも取り上げています。ただし、この答え（かなり説得力のある）によると、ステップワイズモデルの選択は、特に「真のモデルを発見する」ことになると、多くの問題に直面します。可能性は2つしかないようです。機械学習の実践者が段階的に問題を認識していないか、問題を認識していても気にしていません。

だからここに私の質問があります：

（一般的に）機械学習の実践者は予測に焦点を当てているため、統計学者/経済学者が気にする多くのことを気にしないのは本当ですか？
それが本当なら、その背後にある理由は何ですか？推論はある意味で難しいからでしょうか。
機械学習（または予測）に関するオンラインの資料はたくさんあります。しかし、推論を行うことに関心がある場合、オンラインで参考にできるリソースにはどのようなものがありますか？

更新：「推論」という言葉は、多くのことを意味する可能性があることに気づきました。「推論」とは、次のような質問を指します。

$X$ $Y$ $Y$ $X$ $X_1,X_2,\cdots,X_n$
「すべてのモデルが間違っている」ので、私たちのモデルは真のモデルとどれほど「間違っている」のでしょうか。
サンプルの情報が与えられた場合、母集団について何が言えるか、そしてどれほど自信があると言えるか？

私の統計の知識は非常に限られているため、これらの質問が統計の領域に当てはまるかどうかさえわかりません。しかし、それらは機械学習の実践者が気にしないように思えるタイプの質問です。おそらく統計学者はどちらも気にしないのですか？知りません。

machine-learning self-study inference

— 3x89g2
ソース

Brian D RipleyがuseRで引用されました！「挑発的に言い換えると、機械学習は統計からモデルと仮定のチェックを差し引いたものです。」このフレーズはfortunesCRAN のパッケージの一部になりました。これは、印象だけではありません。数学の厳密さが常に機械学習の主な関心事であるとは限りません。

— Bernhard

Leo Breimanは、2001年の論文「Statistical Modeling：the two Cultures 」でこの問題に正確に取り組んでいます。

— skd

まず、機械学習については別の見方があります。Andrew NgのCoursera講義とKaggleコンテストは機械学習の100％ではなく、実際のアプリケーションを対象としたいくつかのブランチです。実際の機械学習研究は、ランダムフォレスト/ SVM /グラディエントブースティングモデルを発明した研究であるはずです。これは、統計や数学にかなり近いものです。

統計学者や経済学者と比較して、機械学習の実践者はより正確に焦点を合わせることに同意します。「真の分布についての推論」ではなく、精度を高めることに関心がある人々がいる理由があります。主な理由は、過去数十年にわたってデータを収集して使用する方法が変更されたことです。

統計は100年にわたって確立されていましたが、過去には、トレーニングのための数十億のデータとテストのための他の数十億のデータがあると誰も考えていませんでした。（たとえば、インターネット上の画像の数）。したがって、比較的少量のデータでは、作業を行うためにドメイン知識からの仮定が必要です。または、モデルを「正規化」することを考えることができます。仮定が行われると、「真の」分布に関する推論の問題があります。

しかし、慎重に検討した場合、これらの仮定が真であること、および推論が有効であることを確認できますか？George Boxを引用します。

すべてのモデルが間違っていますが、一部は有用です

ここで、仮定/推論よりも正確さを重視する実際的なアプローチについて考えてみましょう。大量のデータがある場合、これは良いアプローチです。

すべての画像がピクセルレベルで人間の顔を含むモデルを構築するとします。まず、何十億もの画像のピクセルレベルでの仮定を提案するのは非常に困難です。そのドメインに関する知識は誰にもありません。第二に、データをフィッティングするすべての可能な方法について考えることができます。データが膨大であるため、私たちが持っているすべてのモデルが十分ではない可能性があります（オーバーフィッティングすることはほとんど不可能です）。

「ディープラーニング/ニューラルネットワーク」が再び人気を博したのもこのためです。ビッグデータの条件下では、実際に複雑なモデルを1つ選び、それを可能な限り最適に適合させることができます。つまり、計算リソースが限られているため、実際のデータと比較すると、問題はありません。

最後に、構築したモデルが巨大なテストデータセットで良好である場合、それらは良好で価値がありますが、下線の仮定や真の分布はわかりません。

「推論」という言葉は、コミュニティによって意味が異なることを指摘したいと思います。

統計コミュニティでは、通常、パラメトリックまたはノンパラメトリックな方法で真の分布の情報を取得することを意味します。
機械学習コミュニティでは、通常、特定の分布から特定の確率を計算することを意味します。例については、Murphyのグラフィカルモデルチュートリアルを参照してください。
機械学習では、人々は「学習」という言葉を使用して「真の分布のパラメーターを取得する」ことを表します。これは、統計コミュニティーの「推論」に似ています。

つまり、機械学習には「推論」も行っている人がたくさんいることがわかります。

さらに、「仕事のブランドを変更して再販する」など、学界の人々について考えることもできます。新しい用語を考え出すことは、研究の目新しさを示すのに役立つ場合があります。実際、人工知能、データマイニング、機械学習の間には多くの重複があります。そして、それらは統計とアルゴリズム設計に密接に関連しています。繰り返しになりますが、「推論」を行うための明確な境界はありません。

— ハイタオ・ドゥ
ソース

あなたがどこから来たのかわかります。別のテイクは、予測=観測された変数に焦点を合わせる、推論=非表示の変数に焦点を合わせる、などです。つまり、ある意味では、推論は新しいタイプの測定値を生成しようとしているのに対し、予測は、原則として観察できる測定値の新しい実現に関するものですか？（もちろん、これはあなたの回答と互換性があります）

— GeoMatt22