一般的に、推論を行うことは予測を行うことよりも困難ですか?
私の質問は次の事実から来ています。私は機械学習に関する投稿、ブログ、講義、および本を読んでいます。私の印象は、機械学習の実践者は統計学者/計量経済学が気にする多くのことに無関心であるように思われるということです。特に、機械学習の実践者は、推論よりも予測精度を重視しています。 そのような例の1つは、CourseraでAndrew Ngの機械学習を受けていたときに発生しました。彼は単純な線形モデルについて説明するとき、推定量のBLUEプロパティ、または不均一性がどのように信頼区間を「無効化」するかについては何も言及しませんでした。代わりに、彼は勾配降下法の実装と相互検証/ ROC曲線の概念に焦点を当てています。これらのトピックは私の計量経済学/統計学のクラスでは取り上げられていません。 もう1つの例は、カグルコンペティションに参加したときです。他の人のコードや考えを読んでいました。参加者の大部分は、すべてをSVM /ランダムフォレスト/ XGBoostに投入します。 さらに別の例は、段階的なモデル選択です。この手法は、少なくともオンラインとKaggleで広く使用されています。統計学習の紹介など、多くの古典的な機械学習の教科書でも取り上げています。ただし、この答え(かなり説得力のある)によると、ステップワイズモデルの選択は、特に「真のモデルを発見する」ことになると、多くの問題に直面します。可能性は2つしかないようです。機械学習の実践者が段階的に問題を認識していないか、問題を認識していても気にしていません。 だからここに私の質問があります: (一般的に)機械学習の実践者は予測に焦点を当てているため、統計学者/経済学者が気にする多くのことを気にしないのは本当ですか? それが本当なら、その背後にある理由は何ですか?推論はある意味で難しいからでしょうか。 機械学習(または予測)に関するオンラインの資料はたくさんあります。しかし、推論を行うことに関心がある場合、オンラインで参考にできるリソースにはどのようなものがありますか? 更新:「推論」という言葉は、多くのことを意味する可能性があることに気づきました。「推論」とは、次のような質問を指します。 XXXYYYYYYXXXX1,X2,⋯,XnX1,X2,⋯,XnX_1,X_2,\cdots,X_n 「すべてのモデルが間違っている」ので、私たちのモデルは真のモデルとどれほど「間違っている」のでしょうか。 サンプルの情報が与えられた場合、母集団について何が言えるか、そしてどれほど自信があると言えるか? 私の統計の知識は非常に限られているため、これらの質問が統計の領域に当てはまるかどうかさえわかりません。しかし、それらは機械学習の実践者が気にしないように思えるタイプの質問です。おそらく統計学者はどちらも気にしないのですか?知りません。