Casella&Bergerの後に学ぶべきことは?


22

私は数学の基礎がほとんどない純粋な数学の大学院生です。昨年の秋以来、Casella&Bergerの本の授業を受けており、この本の何百ページ(230+)の運動問題を終えました。今、私は10章にいます。

ただし、統計学を専攻していないか、統計学者になることを計画していないため、データ分析を学習し続けるために定期的に時間を費やすことができるとは思いません。これまでの私の経験から、統計学者になるには、さまざまな分布(ワイブル、コーシー、F ...)を含む多くの退屈な計算に耐える必要があることがわかりました。基本的な考え方はシンプルですが、実装(たとえば、仮説テストでのLRT)は、技術的な理由から依然として難しい場合があります。tF

私の理解は正しいですか?より高度な資料をカバーするだけでなく、現実の生活でデータ分析が必要な場合に役立つ確率と統計を学習する方法はありますか?以前のように週に20時間費やす必要がありますか?

数学を学ぶ上で王道はないと思いますが、多くの場合、実際のデータの分布が何であるかわからないため、分布のさまざまなファミリーに専念する目的は何ですか? ?サンプルサイズが小さく、中心極限定理が適用されない場合、分布が不明な場合にサンプル平均と分散以外のデータを適切に分析するにはどうすればよいですか?

私の学期は1か月で終了します。博士課程の研究に集中し始めた後、私の知識が消えてほしくありません。だから私は尋ねることにした。私はRを学んでおり、プログラミングのバックグラウンドがありますが、私のレベルはコードモンキーとほぼ同じです。

回答:


24

データ分析の学習を継続するために定期的に時間を投資できるとは思わない

Casella&Bergerは、次の方法でデータを学習する場所だとは思わない データ分析のデータを。統計理論のツールのいくつかを学ぶ場所です。

これまでの統計では、さまざまな分布(ワイブル、コーシー、t、F ...)を含む多くの退屈な計算に耐えなければならない統計学者であることを教えてくれました。

私はデータ分析を行う統計学者として多くの時間を費やしました。退屈な計算を行うことはめったにありません(ほとんどありません)。時々、簡単な代数が必要になりますが、一般的な問題は通常解決され、そのたびに複製するのに労力を費やす必要はありません。

コンピューターはすべての退屈な計算を行います。

適度に標準的なケースを想定する準備ができていない状況(GLMを使用する準備ができていないなど)にいる場合、他の分布を想定するのに十分な情報が通常ないため、 LRTは通常、意味がありません(必要に応じて行うことができますが、すでに解決されている傾向があるか、めったに出ないので興味深い転換です)。

私は多くのシミュレーションを行う傾向があります。また、パラメトリックな仮定の代わりに、またはパラメトリックな仮定の代わりに、何らかの形でリサンプリングを使用することも頻繁に試みます。

以前のように週に20時間以上費やす必要がありますか?

それはあなたが何ができるようになりたいか、そしてどれくらい早くそれを上手になりたいかによって異なります。

データ分析はスキルであり、実践と多くの知識ベースが必要です。すでに必要な知識がいくつかあります。

さまざまなことで優れた実践者になりたい場合は、時間がかかりますが、カセラとベルガーのエクササイズを行う代数などよりもはるかに楽しいと思います。

たとえば、回帰問題は時系列に役立つと言う上で私が築いたスキルのいくつかはそうですが、多くの新しいスキルが必要です。したがって、残差プロットとQQプロットの解釈を学ぶことは便利ですが、PACFプロットの少しの隆起について心配する必要があるかどうかはわかりませんし、1ステップ先の予測を使用するようなツールは提供しませんエラー。

したがって、たとえば、典型的なガンマモデルまたはワイブルモデルの MLを合理的に行う方法を考え出す努力をする必要はありません。

研究をするために来たら、Casella&Bergerのような場所で習得するより多くのスキルが必要になります(しかし、この種のスキルであっても、複数の本を読む必要があります)。


いくつかの提案事項:

他のことを何もしなくても、間違いなく回帰スキルを構築する必要があります。

かなり良い本がたくさんありますが、おそらくドレイパーとスミスの応用回帰分析とフォックスとワイスバーグの応用回帰のRコンパニオンです。また、ハレルの回帰モデリング戦略に従うことを検討することをお勧めします

(ドレーパーとスミスの代わりに良い本をいくつでも代用できます-あなたに合った1つか2つを見つけてください。)

2番目の本には、読む価値のあるオンラインの追加の章が多数あります(および独自のRパッケージ)

-

良い2番目のサービングは、Sを使用した Venables&RipleyのModern Applied Statisticsです。

これは、かなり幅広いアイデアの根拠になっています。

いくつかのトピックでもっと基本的な資料が必要なことがわかるかもしれません(あなたの背景はわかりません)。

次に、ベイジアン統計、時系列、多変量解析など、統計のどの領域が必要/必要かについて考え始める必要があります。


6

私のアドバイスは、反対の観点(統計博士課程の学生)から来ています。これは、経験のない強固な理論的背景を持つ人にとっては自然な出発点のようです。学部外の大学院生の多くがリグレッションコースを開始することを知っています。

良いものは、サンフォードワイズバーグの応用線形回帰ですです。私はそれが4番目のバージョンだと信じています。おそらく比較的安価な古いバージョンを見つけることができます。

http://users.stat.umn.edu/~sandy/alr4ed/

この教科書の良い点の1つは、特にRに比較的慣れていないことを考えると、上記のリンクからR入門書を入手できることです。本で行われたすべてを再作成するための十分な指示を提供します。この方法で、Rプログラミングの不足に悩まされることなく、実際に(GLMのいくつかの基本に加えて)回帰を学ぶことができます(おそらく、途中で多くのRの基本を理解するでしょう)。

Rの包括的な紹介が必要な場合は、FoxとWeisbergのAn R Companion to Applied Regressionを使用する方が良いかもしれませんが、プログラミングよりも統計を学ぶほうがいいようです(これらの2つのことが別々に考えられる場合)。

あなたの時間のコミットメントに関する限り、この教科書や資料が過度に難しいとは本当に思わないでしょう。Casella-Bergerとは異なり、証明や派生の方法はあまりありません。一般的には非常に簡単です。

余談ですが、オンラインに浮かぶ(またはある時点で)ソリューションがあるように見えるので、問題を解決したり、ソリューションを確認したり、スピードを上げたりすることができます。


4

私は回り道で統計学者になろうとしていますが、私は主に心理学者であり、たまたま定量的および方法論的な興味を持っています。心理測定作業を適切に行うために、手動で計算することを夢見ない高度な(心理学者向けの)方法を研究してきました(方法はわかりません)。過去10年間でRパッケージプログラマーのすべての献身的な努力によって、これらのメソッドがいかにアクセス可能かつ便利になったかに驚きました。私は、メソッドごとに20時間未満で使用することを学んだ新しいメソッドで実際の分析を行ってきました...私は、公開する準備が整うまでに、新しいメソッドに多くの時間を費やすかもしれませんそれを使って結果を得ることができますが、確かに、私のように進歩するために勉強するパートタイムの仕事をする必要はありません。時間を見つけたらできることをしてください。あなたが必要としないなら、それは全か無かの追求ではありません。

ディストリビューションのファミリーは言うまでもなく、私は確かにトピックだけに焦点を合わせたわけではありません。私は善良な統計家がこれほど狭く研究することを疑います。私は、過去1週間に数回、理論的な分布を1日1時間たぶん手に入れました。これは、実際のデータアプリケーションで役立つことが証明されています。私が知る限り、この考え方は分布を厳密に分類することではありません。理論に似た分布形状を認識し、それらを使用して適切な分析を決定し、基本的なダイナミクスを理解するのに役立ちます。「理論、適合性、または他の何かに基づいて分布を選択する方が良いですか?」に対する最近の回答についても同様の考えを共有しました

あなたが仮定する最悪のシナリオであると私が想定している分析で、どの分析を実行したいは言いませんでしたが、サンプリング誤差に対する分析の感度を研究する方法があります。CLTが適用されない場合でも、方法を知っているかどうかを確認できる統計上の質問がいくつかあります。ノンパラメトリック法は一般に分布について非常に限られた仮定を行うため、母集団の分布の形状に関する事前の知識は必ずしも大きな問題ではありません。

一般に、知識はそれほど迅速または完全に蒸発するわけではありませんが、使用しないと自由に思い出すことが難しくなります。数年前に勉強したことのあるトピックを勉強する必要がある場合に便利です。しかし、学んだことを流fluentに保ちたい場合は、それを使い続けてください。 、学習を続けてください!Rはあなたが持っている余暇の勉強時間を投資するのに間違いなく良い場所です。それはあなたの純粋な数学にも役立つはずです:「PowerPointで使用するのに最適なオープンソースデータ視覚化ソフトウェア」に対する私の最近の回答をご覧ください。


3

私は2019年にこれにつまずいた。私の2セント。

私はさまざまな種類のデータ分析を行う傾向がある統計学の教授です(だから統計学を選んだのです!)。実用的な知識を得るために、ジェームズ、ウィッテン、ハスティー、およびティブシラーニの「統計学習入門」をお勧めします。彼らはそれに基づいたMOOCさえ持っています。この本は多くの「実際のデータ」の例を使用し、Rベースでもあります。


「統計学習の要素」以外に提案することはありますか?私は今、この本(の基本部分)に精通していると思います。
Bombyx mori

2

この質問に後で来た他の人に答える…


実生活データ分析

データベース(SQL)、dplyr / pandas、unixツール(sed、grep)、スクレイピング、スクリプト作成、データクリーニング、ソフトウェアテストについて学びます。さまざまな専門のディストリビューションは、業界ではほとんど価値がありません。

Angrist&Pischke、Faraway、またはWeisbergのような応用回帰本は、より実用的な種類の理論になります。

ほとんどの場合、実際のデータの分布が何であるかがわからないため、分布のさまざまなファミリーに専念する目的は何ですか

したがって、ノンパラメトリック統計への関心。しかし同時に、仮定のないノンパラメトリックはあまりにも緩いものです。あなたの質問に答えるために、専門家はあなたがたぶん出くわすかもしれない簡単な質問への答えと考えることができます。たとえば、ガウス分布は「滑らかな」点推定と考えています。ポアソンは別の簡単な質問に答えます。人々が数学的モデルを構築するとき、これらの特別な点は有用な支点となります。(しかし、学者はしばしばマスター配布の探求を間違った方法で受けます。)

OP:博士課程の研究を楽しんでくれたことを願っています!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.