統計とビッグデータ eda

24

フィリップ・アイ・グッドとジェームズ・W・ハーディンのG van BelleのThumbs of Statistics Rulesに関する本と、それほどではないが統計の一般的なエラー（およびそれらを回避する方法）が好きです。彼らは、実験的および観察的研究からの結果を解釈する際の一般的な落とし穴に対処し、統計的推論または探索的データ分析のための実用的な推奨事項を提供します。しかし、特にさまざまな分野での計算とロバストな統計の使用の増加や、臨床生物統計学や遺伝疫学などの機械学習コミュニティからの技術の導入により、「現代の」ガイドラインはやや欠けていると感じています。他の場所で対処できるデータの視覚化における計算上のトリックや一般的な落とし穴は別として、私は尋ねたいと思います：効率的なデータ分析のために推奨する経験則は何ですか？（回答ごとに1つのルールをお願いします）。私は、あなたが同僚、統計モデリングの強力なバックグラウンドを持たない研究者、または中級から上級コースの学生にあなたが提供するかもしれないガイドラインを考えています。これは、サンプリング戦略、特徴選択またはモデル構築、モデル比較、事後推定などのデータ分析のさまざまな段階に関係する場合があります。

85 modeling eda rule-of-thumb

6

EFAの代わりにPCAを使用する正当な理由はありますか？また、PCAは因子分析の代わりになりますか？

一部の分野では、PCA（主成分分析）が正当化されることなく体系的に使用され、PCAとEFA（探索的因子分析）は同義語と見なされます。そのため、最近、PCAを使用してスケール検証研究の結果を分析しました（7ポイントのリッカートスケールで21項目、それぞれ7項目の3つの因子を構成すると仮定）。両方の手法の違いについて読みましたが、ここでの回答の大部分では、PCAに対してEFAが好まれているようです。 PCAの方が適している理由には、何か理由がありますか？私の場合、どのようなメリットがあり、なぜ賢明な選択になるのでしょうか？

73 pca factor-analysis eda

8

Tukeyによる探索的データ分析の現代の後継者ですか？

私はTukeyの本「Exploratory Data Analysis」を読んでいます。1977年に書かれて、本は紙/鉛筆方法を強調します。大きなデータセットを瞬時にプロットできることを考慮した、より「現代的な」後継機はありますか？

52 data-visualization references descriptive-statistics eda

8

Rのグラフィカルデータの概要（概要）関数

Rパッケージでこのような関数に出くわしたことは確かですが、大規模なGooglingを行った後はどこにも見つからないようです。私が考えている機能は、それに与えられた変数のグラフィカルな要約を生成し、いくつかのグラフ（ヒストグラムとおそらくボックスとウィスカープロット）と平均、SDなどの詳細を示すテキストで出力を生成しますこの関数はベースRに含まれていなかったと確信していますが、使用したパッケージが見つからないようです。誰もがこのような関数を知っていますか？もしそうなら、どのパッケージに含まれていますか？

39 r data-visualization descriptive-statistics eda

5

データの「探査」とデータの「s索」/「拷問」

多くの場合、「データスヌーピング」に対する非公式の警告に遭遇しました（ここに1つの面白い例があります）。おおよそ、それが何を意味するのか、なぜそれが問題になるのかについて直感的な考えを持っていると思います。一方、「探索的データ分析」は、少なくともそのタイトルの本が依然として古典として敬意を表して引用されているという事実から判断すると、統計学において完全に立派な手順であるように思われます。私の仕事では、頻繁に「データスヌーピング」のように見えるものに出くわします。あるいは、「データの拷問」と表現する方が良いかもしれません。「。典型的なシナリオは次のとおりです。コストのかかる実験が行われ（その後の分析についてあまり考慮されず）、元の研究者は収集されたデータの「ストーリー」を容易に識別できず、誰かが「統計的魔法」を適用するために連れてこられます。、あらゆる方法でデータをスライスおよびダイシングした後、最終的にそこから発行可能な「ストーリー」を抽出します。もちろん、統計分析が最新のものであることを示すために、通常、最終レポート/論文にいくつかの「検証」がスローされますが、その背後にある露骨な公開コストの態度はすべて私を疑わしいものにしています。残念ながら、データ分析のすべき点と悪い点についての私の限られた理解は、私がそのような曖昧な疑いを超えないようにしているので、私の保守的な対応は基本的にそのような発見を無視することです。私の希望は、探検とbetween索/拷問の区別をよりよく理解するだけでなく、さらに重要なことには、その線が交差したときを検出するための原理と技術をよりよく把握することで、そのような発見を評価できるようになることです最適とは言えない分析手順を合理的に説明できる方法であり、それにより、私の現在のかなり単純なブランケット不信の反応を超えることができます。編集：非常に興味深いコメントと回答をありがとうございました。彼らの内容から判断すると、私の質問を十分に説明できなかったのではないかと思います。このアップデートで問題が明確になることを願っています。ここでの私の質問は何そんなにない懸念私は拷問を避けるために行う必要があり、私の（これも私に興味という質問ですが）データを、ではなく、：どのように私は考えて（または評価）する必要があることの結果、私は事実を知っているが通過到着されましたそのような「データ拷問」。状況は、それらの（よりまれな）ケースでさらに興味深いものになります。さらに、そのような「調査結果」について、出版に向けて提出される前に意見を述べる立場にあります。この時点で、ほとんどの私にできることは、のようなものと言っている「私は私がそれらを得るに行きました仮定や手続きについて知っていることを考えると、これらの知見に与えることができますどのくらい信憑知りませんが。」これはあいまいすぎて、言う価値さえありません。このような曖昧さを超えたいと思ったことが、私の投稿の動機でした。公平を期すために、ここでの私の疑問は、一見疑問のある統計的手法以上のものに基づいています。実際、後者は、より深い問題の結果であると考えています。実験設計に対する無頓着な態度と、結果をそのままの状態で（つまり、さらなる実験なしで）公開するというカテゴリー的なコミットメントの組み合わせです。もちろん、フォローアッププロジェクトは常に構想されていますが、たとえば「100,000個のサンプルで満たされた冷蔵庫」から1枚の紙が出てくるということは、まったく問題ではありません。統計は、この最高の目標を達成するための手段としてのみ登場します。統計にラッチする唯一の正当化（シナリオ全体の二次的）は、「すべてのコストでの出版」の前提に対する正面からの挑戦は無意味であるということです。実際、このような状況で効果的な応答は1つだけだと考えることができます。分析の品質を真にテストする統計テスト（追加の実験を必要としない）を提案することです。しかし、私はそれについて統計のチョップを持っていません。私の希望（振り返ってみると素朴）は、私がそのようなテストを思いつくことができるかもしれないことを研究することができるかを見つけることでした... 私がこれを書いているとき、もしそれがまだ存在していなければ、世界は「データ拷問」を検出して公開するためのテクニックに専念する統計の新しいサブブランチを使用できることを知っています。（もちろん、「拷問」のメタファーに夢中になることを意味するものではありません。問題は「データ拷問」そのものではなく、それがもたらす偽の「発見」です。）

30 multiple-comparisons interpretation eda

4

ジャーナルScienceはForking Pathes Analysisの庭を支持していますか？

適応データ分析の考え方は、データの詳細を学習するにつれて、データ分析の計画を変更することです。探索的データ分析（EDA）の場合、これは一般に良いアイデアです（データに予期しないパターンを探すことが多い）が、確認研究では、これは非常に欠陥のある分析方法として広く受け入れられています（すべての場合を除く）手順が明確に定義され、高度に適切に計画されています）。そうは言っても、適応データ分析は通常、統計学者をがっかりさせるほど多くの研究者が実際に分析を行う数です。そのため、統計的に有効な方法でこれを行うことができれば、統計的実践に革命をもたらすでしょう。次のScienceの記事は、そのような方法を見つけたと主張しています（私はペイウォールをおizeびしますが、大学にいる場合はアクセスできる可能性が高い）：Dwork et al、2015、The reusable holdout：Preserving Validity in Adaptive Data Analysis。個人的には、私はScienceに掲載された統計記事について常に懐疑的でしたが、これも例外ではありません。実際、補足資料を含めて記事を2回読んだ後、著者が自分の方法が過剰適合を防ぐと主張する理由を（まったく）理解できません。私の理解では、彼らは再利用するホールドアウトデータセットを持っているということです。彼らは、ホールドアウトデータセットの確認分析の出力を「ファジング」することで主張しているようで、過剰適合は防止されます（トレーニングデータの計算された統計が十分に遠い場合、ファジングは単にノイズを追加しているように見えることに注意する価値があります）ホールドアウトデータの計算された統計から）。私の知る限り、これが過剰適合を防ぐ本当の理由はありません。著者が提案していることを間違えていますか？私が見落としている微妙な効果はありますか？それとも、科学はこれまで最悪の統計的実践を支持していたのでしょうか？

29 hypothesis-testing overfitting eda out-of-sample differential-privacy

2

少量サンプル研究での探索的データ分析とデータdrへの対処方法

探索的データ分析（EDA）は、多くの場合、必ずしも初期の仮説セットに属するとは限らない他の「トラック」を探索することにつながります。サンプルサイズが限られており、さまざまなアンケート（社会人口統計データ、神経心理学的または医学的尺度-精神的または身体的機能、うつ/不安レベル、症状チェックリストなど）で収集された多くのデータがある研究の場合、私はそのような状況に直面します）。EDAは、追加の質問/仮説に変換されるいくつかの予期しない関係（「予期しない」ことは初期分析計画に含まれていなかったことを意味します）を強調するのに役立ちます。過剰適合の場合と同様に、データのedや索は一般化しない結果につながります。ただし、大量のデータが利用可能な場合、限られた仮説セットを仮定することは非常に困難です（研究者または医師にとって）。小サンプル研究の場合、EDAの輪郭を描くのに役立つ、よく知られた方法、推奨事項、または経験則があるかどうかを知りたいです。

25 multiple-comparisons epidemiology small-sample eda

5

純粋に予測的なモデリングを行う場合、探索的データ分析は重要ですか？

機械学習手法を使用して予測モデルを構築する場合、探索的データ分析（EDA）を行うポイントは何ですか？フィーチャの生成とモデルの構築に直接ジャンプしても大丈夫ですか？EDAで使用される記述統計はどのように重要ですか？

23 machine-learning predictive-models descriptive-statistics eda

6

探索的データ分析におけるテキサスの狙撃兵の誤acy

私はNatureでこの記事を読んでおり、データ分析の文脈でいくつかの誤ciesが説明されています。テキサスの狙撃兵の誤acyを避けるのが特に難しいことに気付きました。データ分析中に待機するコグニティブトラップは、テキサスのシャープシューターのf話で説明されています。納屋の横でランダムなパターンの弾丸を発射し、最大の銃弾の穴の周りにターゲットを描き、誇らしげに指さす彼の成功。彼のブルズアイは明らかに笑えますが、勝ちの連続があるときに「ホットハンド」を信じるギャンブラーや、宝くじがすべて奇数になると超自然的な意味を見る人々にとって、誤acyはそれほど明白ではありません。また、研究者にとって常に明らかではありません。「データからある程度の励ましを得てから、これが下降する道だと考えてください」とパシュラーは言います。「27種類の選択肢があることに気付いていないので、最も納得のいく、または面白い結果が得られるものを選んだので、今ではデータの偏りのない表現に取り組んでいます。」ある種の探査作業は一般的であり、多くの場合、仮説は分析のその部分に基づいて構築されると思います。このプロセス専用のアプローチ（EDA）があります。統計学者がデータを調査し、新しいデータの収集と実験につながる可能性のある仮説を立てることを奨励するために、John Tukeyが探索的データ分析を推進しました。仮説を事前に持たずに実行された探索プロセスは、偽の仮説を生成する傾向があるようです。上記のEDAの説明が実際に話していることに注意してくださいnew data collection and experiments。新しいデータが収集された後、確認データ分析（CDA）が適切であることを理解しています。ただし、この区別は非常に明確ではないと思います。EDAとCDAの分離は理想的ですが、確かにこれが実行不可能な状況もあります。この分離に従うことは厳密には一般的ではなく、ほとんどの開業医はEDAパラダイムにまったく加入していないと言えます。だから私の質問は次のとおりです。EDA（またはデータを調査する非公式なプロセス）は、テキサスの狙撃兵の誤fallに陥る可能性を高めますか？

23 eda fallacy

5

Casella＆Bergerの後に学ぶべきことは？

私は数学の基礎がほとんどない純粋な数学の大学院生です。昨年の秋以来、Casella＆Bergerの本の授業を受けており、この本の何百ページ（230+）の運動問題を終えました。今、私は10章にいます。ただし、統計学を専攻していないか、統計学者になることを計画していないため、データ分析を学習し続けるために定期的に時間を費やすことができるとは思いません。これまでの私の経験から、統計学者になるには、さまざまな分布（ワイブル、コーシー、、F ...）を含む多くの退屈な計算に耐える必要があることがわかりました。基本的な考え方はシンプルですが、実装（たとえば、仮説テストでのLRT）は、技術的な理由から依然として難しい場合があります。tttFFF 私の理解は正しいですか？より高度な資料をカバーするだけでなく、現実の生活でデータ分析が必要な場合に役立つ確率と統計を学習する方法はありますか？以前のように週に20時間費やす必要がありますか？≥≥\ge 数学を学ぶ上で王道はないと思いますが、多くの場合、実際のデータの分布が何であるかわからないため、分布のさまざまなファミリーに専念する目的は何ですか？？サンプルサイズが小さく、中心極限定理が適用されない場合、分布が不明な場合にサンプル平均と分散以外のデータを適切に分析するにはどうすればよいですか？私の学期は1か月で終了します。博士課程の研究に集中し始めた後、私の知識が消えてほしくありません。だから私は尋ねることにした。私はRを学んでおり、プログラミングのバックグラウンドがありますが、私のレベルはコードモンキーとほぼ同じです。

22 distributions references eda

5

大規模なデータセットの探索的分析をチェックする方法

大きなデータセット（多くのサンプル、多くの変数）で探索的分析を開始すると、多くの場合、何百もの派生変数と多数の異なるプロットがあり、何が起こっているのかを追跡する実際の方法がありません。コードは、最初から方向性がないため、スパゲッティのようになります... 探索的分析をきちんと整理するために推奨される方法はありますか？特に、探索の複数のブランチ（行き止まりのブランチを含む）を、どのように異なるバージョンのプロットで処理しますか？参考までに、私は地球科学データ（時間とともに多くの変数、時には空間にわたっても）に取り組んでいます。私は通常、PythonまたはRで作業し、すべてをgitに保存し、IPython Notebookも試しています。ただし、他のタイプの（大規模？）データを使用して、すべての分野の人々にとって回答がある程度一般的で有用であればよいでしょう。

22 eda project-management

1

PCA /コレスポンデンス分析の「馬蹄形効果」および/または「アーチ効果」とは何ですか？

多次元データの探索的データ分析のための生態学的統計には多くの手法があります。これらは「調整」技術と呼ばれます。多くは、統計の他の場所にある一般的な手法と同じか、密接に関連しています。おそらく、プロトタイプの例は主成分分析（PCA）です。エコロジストは、PCAおよび関連する手法を使用して「勾配」を探索する場合があります（勾配とは完全には明確ではありませんが、それについて少し読んでいます）。で、このページの下の最後の項目主成分分析（PCA）は、読み取ります。 PCAには、植生データにとって重大な問題があります。それは、馬蹄形効果です。これは、勾配に沿った種の分布の曲線性によって引き起こされます。種の応答曲線は通常、単峰性（つまり、非常に強い曲線）であるため、馬蹄形効果が一般的です。ページのさらに下の、コレスポンデンス分析または相互平均（RA）の下で、「アーチ効果」を参照します。 RAには問題があります：アーチ効果。また、勾配に沿った分布の非線形性によっても発生します。勾配の両端は入り組んでいないため、アーチはPCAの馬蹄形効果ほど深刻ではありません。誰かがこれを説明できますか？最近、この現象を低次元空間のデータを表すプロットで見ました（つまり、コレスポンデンス分析と因子分析）。「勾配」は、より一般的に（つまり、非生態学的な文脈で）何に対応しますか？これがデータで発生した場合、それは「問題」（「深刻な問題」）ですか？何のために？馬蹄/アーチが現れる出力をどのように解釈する必要がありますか？救済策を適用する必要がありますか？何？元のデータの変換は役立ちますか？データが序数評価の場合はどうなりますか？回答は、そのサイトの他のページに存在する場合があります（PCA、CA、およびDCAなど）。私はそれらを介して作業しようとしています。しかし、議論は十分になじみのない生態学的用語と例にまとめられており、問題を理解することはより困難です。

20 pca eda ecology correspondence-analysis

8

「研究ノート」ソフトウェアのアイデアは？

だから、これは奇妙なフィットですが、本当に私はどのサイトにも奇妙なフィットだと思うので、データを処理する仲間の中でここで試してみると思いました。私は生物学から疫学と生物統計学を学びましたが、その分野にはまだ間違いなくいくつかの習慣があります。それらの1つは、実験ノートを保持しています。これは、思考、決定、分析に関する考察などを文書化するのに役立ちます。すべてを1か所でコミットし、すべてをコミットするので、後で分析を振り返り、自分が何をしたかを知ることができます。しかし、それを21世紀に移行することは素晴らしいことです。特に、ラボノートブックシステムは1人で決定を文書化するには十分であるにもかかわらず、EDAからのプロット、特定のデータセットについて話し合うデータマネージャーからの電子メールなどを添付できると便利です。私はこれには多くの異なるビットの不浄な連合から自分のシステムをリギングすることが含まれると推測していますが、現在システムを使用している人はいますか？

20 references software eda

2

適切な機械学習アルゴリズムを選択するための探索的データ分析の方法

Machine Learning：A Probabilistic Perspective（Kevin Murphy）で機械学習を研究しています。テキストは各アルゴリズムの理論的基礎を説明していますが、どの場合にどのアルゴリズムが優れているか、そしてどのアルゴリズムが優れているかについては、どのケースにいるのかをどのように伝えるかについては述べていません。たとえば、カーネルを選択するために、探索的データ分析を行ってデータの複雑さを測定するように言われました。単純な2次元データでは、線形カーネルまたは放射カーネルが適切かどうかをプロットして確認できます。しかし、高次元で何をすべきか？より一般的には、アルゴリズムを選択する前に「データを知る」と言うとき、人々は何を意味しますか？今のところ、分類アルゴリズムと回帰アルゴリズム、および線形アルゴリズムと非線形アルゴリズム（これは確認できません）のみを区別できます。編集：私の最初の質問は普遍的な経験則に関するものですが、特定の問題に関する詳細情報を提供するように頼まれました。データ：各行が国月（合計30,000行、最大15年で最大165か国）のパネル。応答：関心のある5つのバイナリ変数（つまり、その月に抗議/クーデター/危機などが発生するかどうか）。機能：〜400個の変数（連続、カテゴリ、バイナリの組み合わせ）により、過去2か月間の特性の詳細が示されます（より長いラグを作成できます）。目標は予測であるため、遅延変数のみを使用します。例としては、為替レート、GDP成長率（継続的）、フリープレスのレベル（カテゴリ別）、民主主義、競合があるかどうか（バイナリ）などがあります。これらの400個の機能の多くは時間差変数であることに注意してください。

16 machine-learning eda

5

大量のデータをグラフィカルに表示する良い方法

私は、14の変数と345,000の住宅データの観測（建設された年、面積、販売価格、居住郡など）を含むプロジェクトに取り組んでいます。良いグラフィカルなテクニックと、素敵なプロットテクニックを含むRライブラリを見つけようとしています。 ggplotとラティスで何がうまく機能するかをすでに見ています。数値変数のいくつかについてバイオリンプロットを行うことを考えています。明確で洗練された、最も重要な、簡潔な方法で、大量の数値または因子タイプの変数を表示するために、他のどのパッケージが推奨されますか？

15 r data-visualization large-data eda

タグ付けされた質問 「eda」

タグ付けされた質問「eda」