タグ付けされた質問 「eda」

EDAは「探索的データ分析」の略です。確認データ分析またはCDA(仮説の正式なテスト)と対比するためにTukeyによって開発されました。EDAは通常、データを数値的およびグラフィカルに記述して、データをより簡単に理解し、新しい洞察を生み出すことに関係しています。

2
EDAに対するベイジアンと頻繁なアプローチに違いはありますか?
簡単に言えば、探索的データ分析に対するベイジアンとフリークエンティストのアプローチに違いはありますか? ヒストグラムはヒストグラムであり、散布図は散布図などであるため、EDAメソッドに固有のバイアスはありません。また、EDAの教え方や提示方法の違いの例を発見していません(A. Gelmanによる特に理論的な論文は無視します) 。最後に、適用されたすべての事項の調停者であるCRANを調べました。ベイジアンアプローチに合わせたパッケージは見つかりませんでした。ただし、CVにはこの点を明らかにできる少数の人がいると思いました。 なぜ違いがあるのですか? 手始めに: 適切な事前分布を特定する場合、これを視覚的に調査するべきではありませんか? データを要約して、頻度モデルまたはベイジアンモデルのどちらを使用するかを提案する場合、EDAはどの方向に進むべきかを提案すべきではありませんか? 2つのアプローチには、混合モデルの処理方法に非常に明確な違いがあります。サンプルが母集団の混合物に由来する可能性が高いことを識別することは困難であり、混合パラメーターを推定するために使用される方法論に直接関連しています。 どちらのアプローチにも確率モデルが組み込まれており、モデルの選択はデータを理解することにより推進されます。より複雑なデータまたはより複雑なモデルは、EDAでより多くの時間を必要とします。このような確率モデルまたは生成プロセスの違いにより、EDAアクティビティに違いがあるため、異なる確率的アプローチから生じる違いはないのでしょうか。 注1:私はどちらの「キャンプ」の哲学にも関心がない-私はEDAツールキットと方法のギャップにのみ対処したい。

3
適切な分析手法とテストの選択を支援するフローチャート
統計的知識を必要とするが、正式に訓練された統計学者ではない人として、特定の問題を解決するための正しいアプローチを選択するのに役立つフローチャート(またはある種の決定ツリー)があると便利だと思いますこれが必要であり、それを知っており、データが正規分布していると考えますか?テクニックXを使用します。データが正規でない場合は、YまたはZを使用します。 いくつかのグーグル検索の後、さまざまなカバレッジと品質のいくつかの試みを見てきました(現時点では利用できないものもあります)。また、図書館で相談した統計教科書でも同様のフローチャートを見ました。 ボーナスはインタラクティブなサイトであり、チャートを持つだけでなく、追加の情報(仮定など)を提供し、人気のあるstatパッケージでこれらの手法を実行する方法を示します。「RでANOVAを行う必要がありますか?パッケージXが必要です。ここにチュートリアルがあります」。 私は見つけられなかったより良いリソースがあることを期待して、コミュニティのウィキの質問として尋ねています。統計は大きな主題であるため、このようなフローチャートは、初心者または中級レベルの知識を持っている人がアプローチできる手法に適していると思います。より複雑なものには、正式なトレーニングを受けた人が必要です。

5
トレーニングデータセットのみで探索的データ分析を行う方が良いでしょうか?
データセットに対して探索的データ分析(EDA)を行っています。次に、いくつかの機能を選択して、従属変数を予測します。 問題は 、トレーニングデータセットのみでEDAを実行する必要があるかどうかです。または、トレーニングデータセットとテストデータセットを結合し、それらの両方でEDAを実行し、この分析に基づいて機能を選択する必要がありますか?

6
変数間の関係を識別するためのRパッケージ[終了]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新することがありますので、話題のクロス検証済みのため。 4年前に閉鎖されました。 変数間に関係があるかどうかを調べるために使用できるRパッケージはありますか? 通常、パターンを探しているときは、相関関係を調べ、次にファセットプロットを調べます。次に、データ内の変数にいくつかの変換を手動で適用します。Rパッケージによってこのプロセスを加速できるかどうか疑問に思っていました。

4
データを集約して分析する最良の方法
最近、機械学習とデータ分析を自分で教え始めたので、大量のデータを作成してクエリを実行する必要性に直面しています。私は自分の職業生活や個人生活で収集してきたデータを取得して分析したいと思いますが、次のことを行うための最良の方法がわかりません。 このデータをどのように保存する必要がありますか?エクセル?SQL?? 初心者がこのデータを分析しようとする良い方法は何ですか?私はプロのコンピュータープログラマーですので、複雑さはプログラムを書くことではなく、データ分析の分野に多少なりとも特有です。 編集:私のあいまいさをおologiesび申し上げます。最初に何かについて学び始めたとき、あなたが知らないことを知るのは難しいですよね?;) そうは言っても、私の目標はこれを2つの主要なトピックに適用することです。 ソフトウェアチームのメトリクス(アジャイルの速度、リスクの定量化、xポイントのストーリーポイントが与えられた場合に反復が正常に完了する可能性を考える) 機械学習(例:特定のモジュールのセットでシステム例外が発生しました。フィールドでモジュールが例外をスローする可能性、そのコスト、データが改善する重要なモジュールについて教えてくれること私は自分の支出に見合う最高の価値を持ち、データの読み込みを開始するためにユーザーが次に使用するシステムの部分を予測します)。

2
コンストラクトの独立性の決定における探索的因子分析と確認的因子分析の違い
研究者はしばしば非常に類似した項目を持つ2つの尺度を使用し、異なることを測定すると主張します(例えば、「車の周りにいるといつも心配」、「車が怖い」など)。仮想尺度を「自動車の恐怖」尺度と「自動車スケールからの不安」と呼びましょう。異なる潜在的な構成要素を実際に評価するか、同じものを測定するか、経験的にテストすることに興味があります。 私がこれを行うために考えられる2つの最良の方法は、探索的工場分析(EFA)または確認的因子分析(CFA)によるものです。EFAは、すべてのアイテムを制約なしに自由にロードできるため、良いと思います。2つのスケールの項目が同じ要因でロードされる場合、メジャーは異なるものをあまりうまく評価していない可能性が高いと結論付けることができます。ただし、事前定義されたモデルをテストするので、CFAの利点もわかります。たとえば、すべてのアイテムが単一の要因にロードされるモデルの適合度を比較したり(つまり、異なる構成要素を評価しない)、アイテムが期待されるメジャーに分離されたりします。CFAの問題は、代替モデル(3因子モデルなど)を実際には考慮しないことだと思います。 議論の目的のために、おそらく私はミックスに投入したい他の2つの非常に類似した尺度(例えば、車の不安アンケートと車の恐怖の評価のためのスケール)があるかもしれないと考えてみましょう! 2つのメジャーが異なる構成を評価するかどうかを統計的に決定するにはどうすればよいですか?

1
ノッチ付きボックスプロットを解釈する方法
いくつかのEDAを実行しているときに、因子の2つのレベルの違いを示すために箱ひげ図を使用することにしました。 ggplotがボックスプロットをレンダリングする方法は満足のいくものでしたが、少し単純化されています(以下の最初のプロット)。ボックスプロットの特性を調査しながら、ノッチの実験を開始しました。 ノッチは中央値の周りにCIを表示し、2つのボックスのノッチが重ならない場合、95%の信頼レベルで「中央値が異なる」という「強力な証拠」があることを理解しています。 私の場合(2番目のプロット)、ノッチは有意に重なりません。しかし、なぜ右側のボックスの底が奇妙な形をしているのですか? 同じデータをバイオリンプロットにプロットしても、対応するバイオリンの確率密度に異常はありませんでした。

2
ヒストグラムが釣鐘型の曲線を示している場合、データは正規分布していると言えますか?
私は回答者の年齢のヒストグラムを作成し、非常に良い釣鐘型の曲線を何とか得て、分布は正常であると結論づけました。 次に、SPSSでn = 169の正規性検定を実行しました。Kolmogorov-Smirnov検定のp値(Sig。)は0.05未満なので、データは正規性の仮定に違反しています。 なぜこのテストでは年齢分布が正規ではないことが示されますが、ヒストグラムは釣鐘型の曲線を示しましたが、これは私の理解からは正常ですか?どちらの結果に従うべきですか?

2
「データがそれを物語る」という意図は何ですか?
次の論文を読んで、私は次の声明に出くわしました。 前述のように、ベンゼクリ[1973]の「データにそれ自体を説明させる」という考えに沿って、確率モデルに言及せずに提示されることがよくあります。 (引用はJPBenzécriからです。L'analysedesdonnées。Tome II:L'analyse des対応関係。Dunod、1973年。) 私がこの論文をどのように読んでいるかから、「データがそれ自体を語らせる」とは、尤度関数やデータ生成プロセスに関係なく、データ全体のさまざまな測定を検討することに沿った何かを意味するように思えます。 私は以前に「データにそれ自体を語らせる」という引用を聞いたことがありますが、何が暗示されるかについては、まったく考えていません。私の上記の解釈は、この引用によって標準的に暗示されているものですか?
10 eda  quotation 

3
データセットを最初に一目で見る
私の無知を許してください、しかし... 自分で見つけた新しいデータの束に直面している状況で、自分を見つけ続けています。このデータは通常、次のようになります。 Date Number1 Number2 Category1 Category2 20120125 11 101 Dog Brown 20120126 21 90 Cat Black 20120126 31 134 Cat Brown (...) 通常、一見、ここに傾向があるかどうかは本当にわかりません。さまざまな列間の相関関係はそれほど重要ではないかもしれませんが、列/カテゴリのすべての可能な組み合わせに対して手動でプロットを作成する必要がなかったとしたら嬉しいです。 データのテーブルと、列を数値、日付、カテゴリとして扱う必要がある情報を受け入れ、プロットを開始するツールはありますか? 各2つの数値列間の相関 各2つの数値列間の相関関係、各カテゴリの個別のトレンドライン 時系列としての各数値列、 カテゴリで区切られた時系列としての各数値列、 等 最終的に、これは多数のプロットを生成し、そのほとんどはノイズのみを示します。理想的には、このツールは相関によってプロットにスコアを付け、最終的に最もスコアの高いプロットからスライドショーを表示できます。これは非常に不完全ですが、データセットを一見すると便利です。 そう?誰もがこれに使用するツールがあり、私はそれについて知らないだけですか、これは私たちが作る必要があるものですか?

4
統計モデリングを始めるためのヒントとコツ?
私はデータマイニングの分野で働いており、統計に関する正式な教育はほとんど受けていません。最近、学習とマイニングのためのベイズのパラダイムに焦点を当てた多くの仕事を読んでいますが、それは非常に興味深いと思います。 私の質問は(いくつかの部分で)、問題があり、統計モデルを構築することができる一般的なフレームワークがあるかどうかです。基礎となるプロセスをモデル化するデータセットが与えられたときに最初に行うことは何ですか?このプロセスを説明する良い本やチュートリアルはありますか、それとも経験の問題ですか?モデルを構築するとき、あなたの心の最前線で推論ですか、それとも計算にどのように使用するかについて心配する前に、最初にデータを記述することを目指していますか? どんな洞察もいただければ幸いです!ありがとう。

4
1つの中央値が別の中央値よりも低いという事実は、なぜグループ1の大部分がグループ2の大部分よりも少ないことを意味しないのですか?
以下の箱ひげ図は、(このデータセットでは)「ほとんどの男性がほとんどの女性よりも速い」と解釈できると信じていました。しかし、Rと統計のクイズに関するEdXコースは、それが正しくないと教えてくれました。私の直感が正しくない理由を教えてください。 ここに質問があります: 2002年にニューヨークシティマラソンで出場した無作為のサンプルについて考えてみましょう。このデータセットは、UsingRパッケージにあります。ライブラリをロードしてから、nym.2002データセットをロードします。 library(dplyr) data(nym.2002, package="UsingR") ボックスプロットとヒストグラムを使用して、男性と女性の終了時間を比較します。次のうちどれが違いを最もよく説明していますか? 男性と女性の分布は同じです。 ほとんどの男性はほとんどの女性よりも速いです。 男性と女性は同様に右に歪んだ分布をしており、前者は20分左にシフトしています。 両方の分布は通常、平均で約30分の差で分布します。 以下は、分位数、ヒストグラム、箱ひげ図としての男性と女性のニューヨークマラソン時間です。 # Men's time quantile 0% 25% 50% 75% 100% 147.3333 226.1333 256.0167 290.6375 508.0833 # Women's time quantile 0% 25% 50% 75% 100% 175.5333 250.8208 277.7250 309.4625 566.7833

2
混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックブートストラップ
以下の移植片は、この記事から引用したものです。私はブートストラップの初心者であり、R bootパッケージを使用した線形混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックのブートストラップブートストラップを実装しようとしています。 Rコード これが私のRコードです: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out ご質問 …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

3
データの新しい知識を発見するためのガイドライン
私は自分自身または他の誰かに指摘するために何かをプロットします。通常、質問がこのプロセスを開始し、多くの場合、特定の回答を求めている人が希望を示します。 バイアスの少ない方法でデータに関する興味深いことを学ぶにはどうすればよいですか? 今私は大体この方法に従っています: 要約統計。 ストリップチャート。 散布図。 興味深いデータのサブセットで繰り返します。 しかし、それは系統的でも科学的でもないようです。 従うべきではないデータについて明らかにするためのガイドラインや手順はありますか?適切な分析を行ったことをどのように知ることができますか?

2
主軸因数分解抽出法を使用する場合、探索的因子分析に非正規データのデータ変換が必要ですか?
私は霊性を構成する4つの要素を測定するためのアンケートを作成しています。次の質問をしたいと思います。 主軸因数分解抽出法を使用する場合、探索的因子分析に非正規データのデータ変換が必要ですか? 昨日、データのスクリーニングを終了しました。20問中3問が正に歪んでいるのに対し、20問中1問が負に歪んでいることがわかりました(質問6 = 4.88、質問9 = 7.22、質問12 = 11.11、質問16 = -6.26)。また、質問の1つ(20問中)はレプトクルト(質問12 = 12.21)であることがわかりました。 主軸因数分解抽出法を選択したのは、「最重要度が通常ではないデータ」で使用され、最尤法が通常のデータで使用されることを読んだためです。 データが「非常に」非正常であるかどうかはどのようにしてわかりますか? 私のデータが「ひどく正常でない」場合、これはデータをそのままにして(変換せずに)主軸因数分解抽出法を使用して分析できることを意味しますか?または、EFAに進む前にデータを変換する必要がありますか? データを変換する必要がある場合、ポジティブスキュー、ネガティブスキュー、およびレプトクールアイテムにどの変換を使用しますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.