経験豊富な開発者向けの統計情報をどこから始めるか


47

2015年の前半に、機械学習のコースコースを受講しました(Andrew Ng、素晴らしいコースによる)。機械学習の基礎を学びました(線形回帰、ロジスティック回帰、SVM、ニューラルネットワーク...)

また、私は10年間開発者でしたので、新しいプログラミング言語を習得しても問題はありません。

最近、機械学習アルゴリズムを実装するためにRの学習を開始しました。

しかし、学習を続けたい場合は統計のより正式な知識が必要であり、現在は非公式の知識が必要であることに気付きましたが、たとえば、いくつかの線形モデルのどれを適切に決定することができなかったのかより良いでしょう(通常、私はR平方を使用する傾向がありますが、明らかにそれはあまり良い考えではありません)。

だから私には統計の基礎を学ぶ必要があることはかなり明白です(私は大学でそれを勉強しましたが、ほとんどのことを忘れました)、どこで学ぶべきか、私は本当に完全に包括的なコースを必要としないことに注意してください1か月以内に十分な知識が得られるので、熱心になり、さらに学ぶことができます:)。

これまでに「涙のない統計」について読んだことがありますか?


2
統計について:Casella、G. and RL Berger(2002):Statistics Inference、Duxbury。計量経済学:林F.(2000):計量経済学、プリンストン大学出版局。別の観点の場合:stats.stackexchange.com/questions/91863/...
ギリェルメサロメ

referencesタグを追加しました。そのトピックのヒットの最初のページをスキャンすることができます。
Glen_b

3
これが閉じられるべきだとは思わない。しかし、それをCWにするための議論があります。
グン-モニカを復活

2
私の観点からは、以前に確率理論の知識がなくても統計を学習し始めると、知識に偏りが生じます。
Metariat

2
注意点を1つ追加します。すでにある程度これを理解していると思うが、ただ言いたい。私はMD / PhDの学生です。私はMDの学位を取得して、内科を実践する予定です。私の博士課程では、生物統計学を勉強しています。1か月で統計をマスターすることはできませんが、1か月で医学をマスターすることはできません。統計の学習をやめさせようとしているわけではありません。それとは正反対に、あなたがそれを素晴らしく理解することを願っています。ただし、たとえば、開発者になりたいということに劣らないことを理解してください。
ビンセントラウファー

回答:


26

その方法についての基本的なロードマップをお勧めします。

  • カーンアカデミーで基本的な数学と統計をブラッシュアップしたり、Udacityの統計入門コースを受講したりできます。
  • 次に、これら2つの素晴らしいUdacityコースを受講できます。記述統計推論統計
  • その後、いくつかのベイジアン統計に飛び込むことができます。そして、私が見つけたウェブで最も関連性の高いリソースの1つは、Think Bayesの無料の電子書籍です
  • 次に、機械学習の基本に飛び込みます。CourseraのAndrew Ngのコースは完璧なスタートです。また、このリソース:開発者向けの機械学習は、概念をすばやく確認するのにも非常に役立ちます。
  • 次に、あなたは自分でいます。これらの概念を構築するための十分なリソースとブログがインターネット上にあります。

ボーナス:

このようなロードマップの素晴らしいサイトはMetacademyです。これは、私が個人的にウェブ上で最高のデータサイエンスリソースの1つとして保証します。

Gitxivは、データサイエンスに関するArxivの研究論文と関連するオープンソースの実装/ライブラリを結び付けるもう1つの美しいサイトです。


2
OPはすでにNgのコースを受講しているため、そもそも彼は質問をするようになりました。
アクサカル

4
@Aksakal私はそれに気づきました。しかし、ロードマップの一部としてそれを含めました。本当に違いはないので、この記事を読んでいる他の人に役立つと思いました。
Dawny33

12

Think StatsまたはThink Bayesのいずれかをチェックアウトしましたかこれらは両方とも(無料の)プログラマ向けの統計書であり、多くのPythonコードを備えています。

また、Rの学習に興味がある場合、CRANには、Rを使用した確率と統計の概要など、チェックアウトしたい(無料の)PDFが多数あります。多くの人が本当に愛するRを使用するCourseraコースもあります(彼らはこの教科書を使用しいますが、これもチェックしてみたいと思いますし、DataCampにラボがあると思います)。

また、いくつかの統計トピックをブラッシュアップしたい場合は、カーンアカデミーでいつでもビデオを見ることができます。


私はThink StatsとThink Bayesが好きですが、彼らはコードを通して物事を成し遂げるために、多くの正式な統計理論を意図的に避けています。主題を直感的に把握するには最適ですが、基礎となる理論を理解することが目標である場合にはあまり良くありません。
マリウス

@マリウス:あなたの言っていることは知っています。しかし、私は彼がすでにプログラマーであり、「小さくてシンプルで迅速な」何かを望んでいるように見えたので、それが彼が探しているものよりも多いかもしれないと考えていました。
スティーブS

8

もしあなたが遠い過去でさえ、このリストの問題を解決できたなら、あなたは適用された統計を「適切に」研究することを試みるべきです。簡単な2段階のアルゴリズムを紹介します。

最初に、確率論で速度を上げます。多くの素晴らしい本があります。私のお気に入りは、フェラーの古典本です。「はじめに」と呼ばれますが、タイトルにだまされないでください。あなたが行きたいほど深く、まだ表面をざっと見たいだけなら非常によく書かれており、簡単です。

2番目のステップは統計です。繰り返しますが、素晴らしい本が山ほどあります。私が使用したもの、グジャラート語「ベーシックエコノメトリックス」第4版によるまともな導入テキストをお見せします。計量経済学は、経済学に適用される統計です。参考までに、誰もがデータサイエンティストが今後10年間で最もセクシーな仕事になると言っている人は、バークレーのエコノミストであるHal Varianです。機械学習の多くは、基本的な統計、回帰などに基づいています。この本でカバーされているすべては、すべてを読む必要はなく、章を自分の順序で選ぶことができるように書かれています。

Ngのクラスがこれらのテキストを読んでいる間に素早く埋め尽くした後、開いたままになっているギャップの数を見て驚くでしょう。

開業医として、これらの2つのステップの後にあまり理論を必要としません。この分野の本を特に読んでMLテクニックを学び続けることができます。初めに確率と統計に深く入り込まないことが重要です。最初にコードをMLに移行し、必要に応じてギャップを埋めます。


4

誰もがCasella&Bergerを推奨しています。Casella&Bergerは、ほとんどの場合、大学院の統計プログラムで使用されています。悪い参考書ではありませんが、最初の4〜5章をスキャンする以上のことをするかどうかはわかりません。「統計」、すなわちデータ分析を掘り下げる前に、Neyman-Pearson型テストを構築する方法の理論は必要ないと思います。

代わりに、学習方法に焦点を当てます。私の大学院プログラムは、頻繁なテストに応用線形統計法を使用しており、かなりまともな総合的な参考文献ですが、自己学習の観点からは最も親しみやすい本ではないかもしれません。MITやCourseraからの1つまたは2つのコースは、本を読むよりも多くの例でより広範な概要を得ることができるため、それに着手するためのより良い方法かもしれません。

ベイズにとって、私が最も頻繁に使用した本は、Doing Bayesian Data Analysisで、子犬の写真が付属しています(明らかに、この本は他のベイズの入門教科書よりも優れています)。私はこの本を使ったことがありませんが、ページをめくるとかなりまともなようです-ベイジアン統計の2つのクラスの後で理解できないゲルマンの本よりはるかに良いです-説明はひどいです。


1
C&Bの最初の5つの章は、実際にはまったく統計ではなく、背景のようです...統計の概念については、第6章の冒頭で説明します。さらに重要なことは、学習方法はおそらくこの特定の人には役立たないでしょう。統計を理解するのではなく、統計を適用するのに役立ちます。彼が数学的訓練を進めていれば、おそらくある程度それをスキップすることができますが、彼の答えは、現在MLの基盤を理解できないことを示唆しています...これは彼の数学が制限されていることを強く示唆しています(少なくとも、私には)。C&Bは始めるのに悪い場所ではないかもしれません。
ビンセント

1
それらは統計ではないかもしれませんが、確率分布の背景は、あらゆる種類のモデリングを行うために不可欠です-たとえば、ロジスティック回帰を理解する前に、ベルヌーイ分布とは何か、そしてその特性は何かを知る必要があります。私はまだ時々C&Bを参照しますが、その本を使用したクラス以外で、第6章以外のものを使用したことはないと思います。
srvanderplas

1
私はあなたが言ったことにかなり同意しますが、それは主要な点ではなく余談に関連しています-それはそもそも余談を追加するための私のせいです。とにかく、他のいくつかが示唆しているように、OPが実際に行う必要があるのは、理論的な数学と統計の理解を深めることです。投稿のどこにも、彼がより多くの統計的検定を適用するのに助けが必要であることを示していない 彼はそれをすることができます。彼はそれらをより深く理解したいと思っています。このため、C&Bは、アプリケーション指向の準備を学ぶよりも優れています。
ビンセントラウファー

3

これは完全な答えであることを意図したものではなく、単なる提案です。統計(基礎)について詳しく知りたい場合は、以下を読むことができます。

Casella, G. and R. L. Berger (2002): Statistical Inference, Duxbury

これは統計学者にとってかなり標準的な本であり、多くの興味深い結果があります。定理のすべての証明を行う必要はありませんが、結果をより安全に感じるためにいくつかの演習を行うことができます。

計量経済学(データのモデル)について詳しく知りたい場合は、以下をご覧ください。

Hayashi, F. (2000): Econometrics, Princeton University Press

他の誰かが実際にあなたが尋ねたものに似た何かを尋ねて、いい答えを得ました:"Casella&Berger"の後にどうするか

さらに、これらの本を本当に読みたいのであれば、この計量経済学コースのシラバスは、何を読むべきか(CB&Hayashi)といつ読むべきかについて非常に良い方向とペースを与えることができます。


提案をありがとう、しかし、あなたが言及する最初の本は約660ページです...私はより大きな本を読みましたが、私はそれの基本的な把握を得ることができるように、小さく、シンプルで迅速なものがありますか?
フアンアントニオゴメスモリアーノ

3
CasellaとBergerは統計理論の大部分を教えてくれますが、データ分析についてはほとんど学びません。
Glen_b

1
@JuanAntonioGomezMorianoあとどれくらい小さかった?私は常に統計を出発点として嘘をつく方法が好きでした。
icc97

(-1)統計に数学的または理論的なアプローチを好む人にとって、それらは完璧な選択のように聞こえます。
ガラ

1
彼は統計に関するより「正式な」知識と基本的な知識が必要だと言っていました。
ギルヘルメサロメ

2

最初の質問以来出てきた新しい本をお勧めします:統計的再考: CRC PressのRichard McElreathによるRとStanの例を用いたベイジアンコース

非常によく書かれており、ベイジアンアプローチを使用しています。それは非常にインタラクティブです、そしてあなたは問題を処理したいと思うか、中途半端になって迷子になり始めるかもしれません。

それは非常に基本的なものから始まり、マルチレベルモデルで終わります。そして、ある程度の統計知識はあるが、教えられたように統計に全体的に不安を感じるかなり高度な科学者を対象としています。だから私はそれが初心者向けの本だと正確に言うことはできませんが、それは非常に簡単に始まり、彼は素晴らしい弧とスタイルを持っています。

タイトルの「スタン」の部分は、汎用ベイジアンサンプリングツールです。基本的に、それは自動的にC ++にコンパイルされ、実行可能ファイルにコンパイルされるプログラミング言語です。(ベイジアン推論は一般的なものであり、代替とは異なります。そのため、一般化されたツールを使用できます。)


1

あなたにとっては遅すぎるかもしれませんが、私は後世のためにこの答えを投げ入れると考えました。Larry WassermanのAll Of Statisticsは、機械学習、他のcomp sci分野、または数学の正式な統計トレーニングを受けていない数学のバックグラウンドを持つ人々、つまり、まさにあなたの現在の状況の人々のためのコースとして考えられました。正式な統計情報も同様に不足していたので、数人の友人と私は自習グループを作り、大学院でそれを経験しました。私はその経験から本当に恩恵を受けたと思います。

グラフィカルモデルやブートストラップなど、Wassermanが典型的な「確率と統計的推論」コースの教材を超えて追加するトピックは、機械学習で働く人に特に関連しています。この本はCasella&Bergerのようなものに比べてかなり簡潔であるため、特定の部分(特に証拠)の詳細やモチベーションが必要な場合は、他の読み物を追加する必要があります。そうは言っても、この本はかなりの数の練習問題で明確に書かれていることがわかりました。これは素晴らしいクイックリファレンスです。

1か月はそれほど長くありません。ただし、非常に積極的なペースを設定した場合、1学期でこのテキストを十分に活用できると思います。たとえば、夏季に自習グループを行いました。Ch。でヒットする線形モデリングに主に興味がある場合、これは特に当てはまります。13-14。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.