統計学者が機械学習を学ぶことは重要ですか?


22

機械学習は、統計学者が知っておくべき重要なテーマですか?機械学習は統計のようです。統計プログラム(学部および大学院)が機械学習を必要としないのはなぜですか?


1
ここで読者は次のスレッドに興味があるかもしれない:データマイニング、統計、機械学習、とAIとの違いは何ですか
GUNG -復活モニカ

2
わからないが、機械学習をしているすべての人が統計を学ぶべきだと確信している。
デイブ14年

回答:


18

機械学習は、高次元の応用統計学の専門分野です。また、特に学部レベルだけでなく、ある程度大学院レベルでも、優れた定量的プログラムには必要ではないかなりのプログラミング背景が必要です。統計の予測面にのみ適用されますが、数学的統計および推論的および記述的な適用統計には注意が必要です。多くのプログラムは、学生に機械学習(CMUなど)に多く触れる機会を提供しますが、特定の有名なハイテクの仕事を除いて、産業統計学者が全体としてこれらのツールを適用する機会はめったにありません。

最近、ジョブマーケットで多くのデータサイエンティストと機械学習の職に就いていますが、「統計学者」の一般的な職務記述には機械学習の背景は必要ありませんが、基本的な統計、推論、コミュニケーションの完璧な理解必要だと思います:これらは本当に大学院統計プログラムの中核となるはずです。機械学習とデータサイエンスも、役職としても分野としても比較的新しいものです。統計学者としての雇用を求めている人々にとって、10年または20年で有効性が圧倒的であるためにビジネス/製薬/バイオサイエンス企業でほとんど放棄された場合、機械学習に向けて問題解決戦略を揺るがすことになるでしょう。

最後に、機械学習が統計の確実な理解を大いに高めるとは思いません。統計は基本的に学際的な分野であり、選択した方法論を選択した正確な理由を、分野の非技術専門家(医師、CFO、または管理者など)に伝え、説得することが重要です。機械学習は非常にニッチで高度に技術的な分野であり、多くの応用プラクティスでは、標準のツールや手法よりも段階的に優れたパフォーマンスを約束するだけです。教師ありおよび教師なし学習の方法の多くは、非専門家(および訓練されていない一部の専門家でさえ)によって「ブラックボックス」として認識されます。特定の学習方法の選択を擁護するよう求められたとき、説明がありますが、説明は平凡であり、適用された問題の動機づけられた状況のどれにも当てはまりません。


1
説明が横ばいになることで正確に何を意味するのか、もう少し詳しく説明してもらえますか(例はありますか?)
cbeleitesはモニカをサポートします

10
線形判別分析、サポートベクターマシン、GLM LASSOの違いを医師にとって意味のある方法で説明することはできません。そこで、慎重に調整された少数の共変量を使用して、乳癌リスク予測のロジスティック回帰モデルを構築しました。発表されると、医師はすぐに効果の大きさについて啓発的な議論を始めました。私の「科学」モデルの差別化は、より洗練されたMLテクニック(検証サンプルのブートストラップに基づくAUCの90%CIの重複)と非常に匹敵し、このようなケースレポートを持っているのは私だけではありません。
AdamO

4
@cbeleites、あなたはせいぜい大学代数の数学の知識を持っている実質的な人と通信しなければならなかったことがありますか?SVMは、医師が理解できる程度の効果サイズを生成しません。余白の幅は、非常に慣れている奇数の比率とは異なり、それらにとって意味がありません。クライアントの言語を話せない場合、彼らはあなたに時間とお金を浪費しません。
StasK

2
@GraemeWalsh素晴らしい点。構造方程式モデリングやグレンジャーの名を冠した因果関係の場合によくあるように、予測推論のために洗練された予測モデルを使用するという概念に非常に苦労しています。この分野でやるべきことはまだたくさんあると思います。たとえば、直感的には、セミパラメトリックモデリングと周辺構造モデルの間にかなりの類似性があることを認識していますが、違いがどこにあるのかはわかりません。
AdamO

2
@ Jase、Netflixコンテストの受賞者からの招待論文をご覧ください。彼らの報告は非常に類似しており、ベイジアンモデルがモデルの大きな空間で実行されている事後重みを平均化しても、Pcaがすべての条件下で支配的な事後重みを持っているように見えました。それらが同等であると言っているわけではありませんが、mlアリーナが提供するモデルよりも単純なモデルを好むようにする単純さと正確さの間にはトレードオフがあります。同様に、洗練されたパラメトリックモデルがノンパラメトリックモデルと同様に機能することを考えることができます。
AdamO

14

わかりました。統計プログラムの象について、卒業生プログラムで密接に協力した1人または2人から学んだことによって目隠しされた目で話しましょう。

スタットプログラムには、学生がプログラムに参加する限られた時間を考慮して、学生に学習してもらいたい最も重要なものが何であるかが必要です。1つの狭い領域を必要とすることは、同様に重要であると主張できる他の領域に別れを告げることを意味します。一部のプログラムでは、理論的確率の測定が必要ですが、必要ではありません。外国語が必要なものもありますが、ほとんどのプログラムは必要ありません。いくつかのプログラムでは、学習する価値があるものとしてベイジアンのパラダイムを採用していますが、ほとんどは採用していません。一部のプログラムは、統計学者に対する最大の需要が調査統計にあることを知っています(少なくとも米国ではそうです)が、ほとんどはそうではありません。バイオスタットプログラムは、お金を追って、SASと医学および薬学に簡単に販売できる方法を教えます。

農業実験の設計、電話調査による調査データの収集、または心理尺度の検証、GISでの疾病発生マップの作成を行う人にとって、機械学習はコンピューターサイエンスの抽象的な技術であり、日常的に使用する統計からはかけ離れています基礎。これらの人々は誰も、サポートベクターマシンやランダムフォレストを学習してもすぐに利益を得ることはありません。

全体として、機械学習は統計の他の分野を補完するものですが、多変量正規分布や一般化線形モデルなどの主流のものが最初に来る必要があると主張します。


5

機械学習とは、データから知識を獲得することです。たとえば、私は機械学習アルゴリズムを使用して、DNAマイクロアレイデータから特定のタイプの疾患(癌や糖尿病など)に関与する可能性のあるいくつかの遺伝子を選択できます。その後、科学者はこれらの遺伝子(学習モデル)を将来の早期診断に使用できます(見えないサンプルの分類)。

機械学習には多くの統計が関与しますが、統計を必要としない機械学習の分岐があります(遺伝的プログラミングなど)。これらのインスタンスで統計が必要になるのは、機械学習を使用して構築したモデルが他のモデルと統計的に著しく異なるかどうかを確認するときだけです。

私の意見では、統計学者向けの機械学習の紹介が有利です。これは、統計学者が統計の適用の実際のシナリオを見るのに役立ちます。ただし、必須はありません。あなたは成功した統計学者になり、機械学習に近づくことなく一生を過ごすことができます!


2
モデルのパフォーマンスを報告するたびに統計が必要だと思います。私の職業は分析化学であり、重要なルールの1つは「信頼区間のない数字は結果ではない」ことです。
cbeleitesはモニカをサポートします

1
@cbeleites私はあなたに同意します。つまり、統計学者は必ずしも機械学習の専門家である必要はないということです。彼らは:)機械学習を学習せずにより取得することができます
revolusions

1
@cbeleites、またはマルチモーダルエシメータの場合は複数の信頼区間(Sivia&Skilling Data Analysisなど)。
アランカルヴィッティ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.