回答:
機械学習は、高次元の応用統計学の専門分野です。また、特に学部レベルだけでなく、ある程度大学院レベルでも、優れた定量的プログラムには必要ではないかなりのプログラミング背景が必要です。統計の予測面にのみ適用されますが、数学的統計および推論的および記述的な適用統計には注意が必要です。多くのプログラムは、学生に機械学習(CMUなど)に多く触れる機会を提供しますが、特定の有名なハイテクの仕事を除いて、産業統計学者が全体としてこれらのツールを適用する機会はめったにありません。
最近、ジョブマーケットで多くのデータサイエンティストと機械学習の職に就いていますが、「統計学者」の一般的な職務記述には機械学習の背景は必要ありませんが、基本的な統計、推論、コミュニケーションの完璧な理解が必要だと思います:これらは本当に大学院統計プログラムの中核となるはずです。機械学習とデータサイエンスも、役職としても分野としても比較的新しいものです。統計学者としての雇用を求めている人々にとって、10年または20年で有効性が圧倒的であるためにビジネス/製薬/バイオサイエンス企業でほとんど放棄された場合、機械学習に向けて問題解決戦略を揺るがすことになるでしょう。
最後に、機械学習が統計の確実な理解を大いに高めるとは思いません。統計は基本的に学際的な分野であり、選択した方法論を選択した正確な理由を、分野の非技術専門家(医師、CFO、または管理者など)に伝え、説得することが重要です。機械学習は非常にニッチで高度に技術的な分野であり、多くの応用プラクティスでは、標準のツールや手法よりも段階的に優れたパフォーマンスを約束するだけです。教師ありおよび教師なし学習の方法の多くは、非専門家(および訓練されていない一部の専門家でさえ)によって「ブラックボックス」として認識されます。特定の学習方法の選択を擁護するよう求められたとき、説明がありますが、説明は平凡であり、適用された問題の動機づけられた状況のどれにも当てはまりません。
わかりました。統計プログラムの象について、卒業生プログラムで密接に協力した1人または2人から学んだことによって目隠しされた目で話しましょう。
スタットプログラムには、学生がプログラムに参加する限られた時間を考慮して、学生に学習してもらいたい最も重要なものが何であるかが必要です。1つの狭い領域を必要とすることは、同様に重要であると主張できる他の領域に別れを告げることを意味します。一部のプログラムでは、理論的確率の測定が必要ですが、必要ではありません。外国語が必要なものもありますが、ほとんどのプログラムは必要ありません。いくつかのプログラムでは、学習する価値があるものとしてベイジアンのパラダイムを採用していますが、ほとんどは採用していません。一部のプログラムは、統計学者に対する最大の需要が調査統計にあることを知っています(少なくとも米国ではそうです)が、ほとんどはそうではありません。バイオスタットプログラムは、お金を追って、SASと医学および薬学に簡単に販売できる方法を教えます。
農業実験の設計、電話調査による調査データの収集、または心理尺度の検証、GISでの疾病発生マップの作成を行う人にとって、機械学習はコンピューターサイエンスの抽象的な技術であり、日常的に使用する統計からはかけ離れています基礎。これらの人々は誰も、サポートベクターマシンやランダムフォレストを学習してもすぐに利益を得ることはありません。
全体として、機械学習は統計の他の分野を補完するものですが、多変量正規分布や一般化線形モデルなどの主流のものが最初に来る必要があると主張します。
機械学習とは、データから知識を獲得することです。たとえば、私は機械学習アルゴリズムを使用して、DNAマイクロアレイデータから特定のタイプの疾患(癌や糖尿病など)に関与する可能性のあるいくつかの遺伝子を選択できます。その後、科学者はこれらの遺伝子(学習モデル)を将来の早期診断に使用できます(見えないサンプルの分類)。
機械学習には多くの統計が関与しますが、統計を必要としない機械学習の分岐があります(遺伝的プログラミングなど)。これらのインスタンスで統計が必要になるのは、機械学習を使用して構築したモデルが他のモデルと統計的に著しく異なるかどうかを確認するときだけです。
私の意見では、統計学者向けの機械学習の紹介が有利です。これは、統計学者が統計の適用の実際のシナリオを見るのに役立ちます。ただし、必須ではありません。あなたは成功した統計学者になり、機械学習に近づくことなく一生を過ごすことができます!