統計とビッグデータ

1

多くの場合、人々はプログラムを使用してp値を取得しますが、場合によっては-何らかの理由で、テーブルのセットから重要な値を取得する必要がある場合があります。限られた数の有意水準と限られた数の自由度を持つ統計表が与えられた場合、他の有意水準または自由度（、カイ2乗、表など）で近似臨界値を取得する方法？tttFFF つまり、テーブル内の値の「間にある」値を見つけるにはどうすればよいですか？

19 hypothesis-testing statistical-significance chi-squared interpolation tables

1

Rのglmでの「NA」値の処理方法

データテーブルT1があり、これには約1000個の変数（V1）と約2億個のデータポイントが含まれています。データはまばらで、ほとんどのエントリはNAです。各データポイントには、他と区別するための一意のIDと日付のペアがあります。別の変数セット（V2）を含む別のテーブルT2があります。このテーブルには、T2のエントリを一意に識別するIDと日付のペアもあります。 T1のデータを使用して、T2の変数の値を予測できると思われます。これを証明するために、Rに「glm」モデルを適用し、T1の変数に依存するT2の変数を本当に見つけることができるかどうかを確認することを考えました。 T2の各変数について、同じidと日付のペアを持つT1のすべてのデータを引き出し始め、テスト変数のいくつかについて、はるかに小さい〜50Kデータポイントになりました。 glmの適用で今直面している問題は次のとおりです。場合によっては、「フィットが見つかりません」というエラーと「glm.fit：アルゴリズムが収束しませんでした」という警告が表示されます。なぜ表示されるのか分かりませんか？ NAはglmでどのように扱われますか？最初に「NA」を含むすべてのレコードを削除してから、フィッティングを実行しますか？最初にすべてのNAを削除してから「glm」を呼び出すのは良い戦略ですか？それらのほとんどがNAであるため、これによりデータポイントが大幅に削減される可能性があることを恐れています。係数の計算に使用される方法。出力がどのように計算されるかを議論するウェブサイト、論文、または本を見つけることができませんでした。「NA」を使用して、または使用せずにglmをテストし、データをフィッティングする際にNAが考慮される点について、difftの回答を見つけました。例1： > tmpData x1 x2 x3 Y 1 1 1 1 3 2 1 0 4 5 3 1 2 3 6 4 0 3 1 4 Call: glm(formula = as.formula(paste(dep, " ~ ", paste(xn, collapse = "+"))), na.action …

19 r generalized-linear-model missing-data

5

離散変数と連続変数の関係を視覚化する最良の方法は何ですか？

以下の関係を示す最良の方法は何ですか？連続変数と離散変数、 2つの離散変数？これまで、散布図を使用して連続変数間の関係を調べてきました。ただし、離散変数の場合、データポイントは特定の間隔で累積されます。したがって、最適なラインは偏っている可能性があります。

19 data-visualization categorical-data random-variable

2

ロジスティック回帰におけるカテゴリカル予測子の重要性

ロジスティック回帰のカテゴリ変数のz値の解釈に問題があります。以下の例では、3つのクラスを持つカテゴリ変数があり、z値に応じて、CLASS2が関連する場合とそうでない場合があります。しかし、これはどういう意味ですか？他のクラスを1つにマージできますか？変数全体が良い予測子ではないかもしれないということですか？これは単なる例であり、ここでの実際のz値は実際の問題からのものではなく、それらの解釈に問題があるだけです。 Estimate Std. Error z value Pr(>|z|) CLASS0 6.069e-02 1.564e-01 0.388 0.6979 CLASS1 1.734e-01 2.630e-01 0.659 0.5098 CLASS2 1.597e+00 6.354e-01 2.514 0.0119 *

19 r logistic categorical-data feature-selection categorical-encoding

2

GLMの特定のファミリの使用を検証できる診断はどれですか？

これはとても初歩的なように思えますが、私はこの時点で常に行き詰まります… 私が扱うデータのほとんどは非正常であり、ほとんどの分析はGLM構造に基づいています。現在の分析では、「歩行速度」（メートル/分）の応答変数があります。OLSを使用できないことは簡単にわかりますが、どの家族（ガンマ、ワイブルなど）が適切かを判断するのは非常に不確実です！ Stataを使用して、残差と不均一分散、残差と適合値などの診断を調べます。カウントデータはレート（例：発生率）の形式を取り、ガンマ（過剰分散離散負二項モデルのアナログ）を使用できることを認識していますが、「喫煙銃」で「はい、正しい」と言いたいだけです。家族。これを行うには、標準化された残差と適合値を比較するのが唯一の最善の方法ですか？混合モデルを使用してデータの階層を説明したいのですが、最初に、どの変数が私の応答変数を最もよく説明しているかを整理する必要があります。任意の助けに感謝します。Stata言語は特に高く評価されています！

19 generalized-linear-model stata gamma-distribution

3

データマイニングにおけるアソシエーションルールとデシジョンツリーの実際の違いは何ですか？

これら2つの手法の実際の違いについて、本当に簡単な説明はありますか？どちらも教師あり学習に使用されるようです（ただし、関連付けルールは教師なし学習も処理できます）。両方とも予測に使用できます「良い」説明に最も近いのは、Statsoft Textbookです。アソシエーションルールは次の目的で使用されると言われています。 ...大規模なデータセットのカテゴリ変数の特定の値間の関係または関連付けを検出します。ながら、ディシジョン・ツリー分類をするために使用されるものとして説明されています。 ... 1つ以上の予測変数の測定値から、カテゴリ従属変数のクラスのケースまたはオブジェクトのメンバーシップを予測します。ただし、Rデータマイニングでは、ターゲットフィールドで使用されるアソシエーションルールの例を示しています。したがって、両方を使用してグループのメンバーシップを予測できますが、決定木は非カテゴリー入力データを処理できますが、関連付けルールは処理できないという重要な違いはありますか？または、より基本的なものがありますか？1つのサイト（sqlserverdatamining.com）は、主な違いは次のとおりであると述べています。デシジョンツリールールは情報獲得に基づいており、アソシエーションルールは人気や信頼に基づいています。したがって、（おそらく自分の質問に答える）それは、決定木が実際に分散を最小化しようとしている間に、データセットに表示される頻度（およびそれらが「真」である頻度）に基づいて関連付けルールが純粋に評価されることを意味しますか？誰かが良い説明を知っているなら、彼らは私にそれを向けたいと思うでしょう、それは素晴らしいでしょう。

19 data-mining association-rules

5

クロスオーバー（ペア）実験のエラーバーを表示する方法

次のシナリオは、調査担当者（I）、校閲者/編集者（R、CRANとは無関係）、およびプロット作成者としての私（M）のトリオで最もよくある質問になりました。（R）は、各プロットがエラーバーを持たなければならないことだけを知っている典型的な医療大ボスレビューアであると仮定できます。そうでなければ、それは間違っています。統計レビューアが関与している場合、問題はそれほど重大ではありません。シナリオ典型的な薬理学的クロスオーバー研究では、2つの薬物AとBがグルコースレベルへの影響についてテストされます。各患者は、キャリーオーバーがないという仮定の下で、ランダムな順序で2回テストされます。主要エンドポイントはグルコース（BA）の違いであり、対応のあるt検定が適切であると想定しています。（I）両方の場合の絶対グルコースレベルを示すプロットが必要です。彼は（R）のエラーバーに対する欲求を恐れ、棒グラフの標準エラーを求めます。ここで棒グラフ戦争を始めないでください。（I）：それは真実ではない。バーは重なり、p = 0.03？それは私が高校で学んだことではありません。（M）：ここにはペアのデザインがあります。要求されたエラーバーは完全に無関係です。重要なのは、プロットに示されていないペアの差のSE / CIです。選択肢があり、データが多すぎない場合は、次のプロットを選択します追加1：これは、いくつかの応答で言及された平行座標プロットです（M）：線はペアリングを示し、ほとんどの線が上昇します。勾配が重要なので正しい印象です（わかりました、これはカテゴリですが、それでもなお）。（I）：その写真は紛らわしいです。誰もそれを理解しておらず、エラーバーもありません（Rは潜んでいます）。（M）：差の関連する信頼区間を示す別のプロットを追加することもできます。ゼロラインからの距離は、効果の大きさの印象を与えます。（I）：誰もやらない（R）：そして貴重な木を無駄にします（M）：（良いドイツ人として）：はい、木の上のポイントが取られます。ただし、複数の治療法と複数のコントラストがある場合は、これを使用します（公開することはありません）。提案はありますか？プロットを作成する場合、Rコードは以下のとおりです。 # Graphics for Crossover experiments library(ggplot2) library(plyr) theme_set(theme_bw()+theme(panel.margin=grid::unit(0,"lines"))) n = 20 effect = 5 set.seed(4711) glu0 = rnorm(n,120,30) glu1 = glu0 + rnorm(n,effect,7) dt = data.frame(patient = rep(paste0("P",10:(9+n))), treatment = rep(c("A","B"), each=n),glucose …

19 data-visualization standard-error paired-comparisons paired-data crossover-study

1

風速データのワイブル分布パラメーターおよび

こんにちは、同じことが示され、修正最尤法の形状とスケールのパラメーターを取得できます

19 r maximum-likelihood weibull

1

サイズ1とサイズ3の2つのサンプルを比較する統計的検定はありますか？

エコロジープロジェクトの場合、私の研究室グループは、等量の池の水を含む4つのタンクに、酢を追加しました。酢を加える目的は、pHを下げることでした。仮説は、エロデアを持つタンクが通常のpHに速く戻るというものでした。確かにそうでした。各タンクのpHを約2週間毎日測定しました。最終的にすべてのタンクが元のpHに戻りましたが、これにかかる時間は、エロデアを備えたタンクの方がはるかに短かったです。教授に実験計画について話したとき、コントロールと治療を比較するためにデータに対して実行できる統計的検定は存在しないと彼は言いました。これは、コントロールの複製がないため（コントロールタンクを1つだけ使用したため）、分散を計算できず、コントロールと処理のサンプル平均を比較できないためです。私の質問は、これは本当ですか？彼が何を意味するのか、私は間違いなく理解しています。たとえば、1人の男性と1人の女性の身長を考慮した場合、それぞれの人口について結論を出すことはできません。しかし、3回の治療を行い、分散は小さかった。コントロールの分散が似ていると仮定するのは理にかなっていますか？更新：すばらしい答えをありがとう。湿地からより多くの水とエロデアを得て、より小さなタンクで実験を再度実行することにしましたが、今回は5つのコントロールと5つの処理を行います。これを元のデータと組み合わせるつもりでしたが、タンクの開始pHが十分に異なっていたため、元の実験と同じ母集団から新しい実験をサンプリングすることを考慮するのは妥当ではないようです。さまざまな量のエロデアを追加し、pH修復の速度（pHが元の値に戻るまでの時間として測定される）をエロデアの量と相関させることを検討しましたが、必要ではないと判断しました。私たちの目的は、pHが異なる量のElodeaにどのように反応するかを正確に予測する何らかのモデルを構築することではなく、Elodeaが正の違いをもたらすことを示すことだけです。エロデアの最適量を決定することは興味深いでしょうが、それはおそらく生き残ることができる最大量にすぎません。データに回帰曲線を当てはめようとしても、大量に追加するとコミュニティにさまざまな複雑な変更が発生するため、特に意味がありません。エロデアは死に、分解し、新しい生物が支配し始めます。

19 hypothesis-testing t-test sample-size

2

ヒート/等高線図での色の最も効果的な使用

時間周波数の脳波所見を提示する際に、熱/等高線図を使用することは非常に一般的です。しばしば選択される配色（および私が気に入って使用している配色）は「ジェット」配色です（たとえば、Google画像検索の時間周波数EEGを参照）。これらのプロットを表示するためのより良い配色、および/またはそのようなマップの表示のためのガイドラインがあるかどうか疑問に思っています。たとえば、Rベースライブラリから #Volcano x <- 10*(1:nrow(volcano)) y <- 10*(1:ncol(volcano)) image(x, y, volcano, col = terrain.colors(100), axes = FALSE) # With Jet colours jet.colors <- colorRampPalette(c("midnightblue","blue", "cyan","green1", "yellow","orange","red", "darkred"), space="Lab") image(x, y, volcano, col = jet.colors(100), axes = FALSE)

19 data-visualization

1

lmer（）はランダム効果としてスプラインを使用できますか？

時間の経過に伴ういくつかのカウントデータのランダム効果モデルに取り組んでおり、いくつかの傾向を制御したいとします。通常、次のようなことをします。 lmer(counts ~ dependent_variable + (1+t+I(t^2)|ID), family="poisson") の2次形状を含めるにはt。LOESSスムーザーやスプラインなど、より洗練されたスムージング手法を使用して、その関係をモデル化することは可能ですか？

19 mixed-model lme4-nlme splines

2

尤度原理が頻繁な確率と衝突する場合、そのうちの1つを破棄しますか？

ここに最近投稿されたコメントで、1人のコメンターが、頻度の高い推論が尤度の原則と衝突することを（ソースなしで）指摘するLarry Wassermanのブログを指摘しました。尤度の原理は、同様の尤度関数を生成する実験は同様の推論を生成する必要があると単純に述べています。この質問に対する2つの部分：頻度論的推論のどの部分、フレーバーまたはスクールは、尤度原理に特に違反していますか？衝突がある場合、どちらかを破棄する必要がありますか？もしそうなら、それからどれ？議論のために、ハッキングとロワイヤルが尤度原理は公理的であると私に確信させたので、何かを破棄しなければならない場合、衝突する頻度の高い推論の部分を破棄する必要があることをお勧めします。

19 inference likelihood frequentist likelihood-principle

5

視覚化のために高次元データを削減する方法

2Dの物理シミュレーションに取り組んでおり、いくつかの時点でデータを時間内に収集しています。これらの離散点は垂直軸に沿っており、軸方向に複数の線があります。これにより、データセットが事実上4Dになります。たとえば、次の（X、Y）座標にコレクションポイントがあると仮定します。（0,0）、（1,0）、（2,0）（0,1）、（1,1）、（2,1）（0,2）、（1,2）、（2,2）そして、各ポイントで収集しています。ここで、Pは圧力、Tは温度、U 、Vは速度のXおよびY成分です。シミュレーションの各反復で、これらの変数は9つの収集ポイントすべてに対して保存されます。したがって、私のデータはすべて、空間内の各離散点で時間的に連続しています。{P,T,U、V}{P、T、うん、V}\{P,T,U,V\}PPPTTTうん、Vうん、VU,V たとえば、単一ポイントのデータは次のようになります。たとえば、すべてのポイントで圧力を常に表示して、垂直波と軸波を表示することに興味があります。これを1本の線（垂直または軸）に沿って行う場合、軸（Y、時間、圧力）のウォーターフォールプロットを使用できます。しかし、3本の垂直線と3本の軸線がある場合、これは6つのウォーターフォールプロットになり、両方向の波動の全体像を取得します。空間座標は離散変数ですが、フィールド（この場合は圧力）と時間が連続しています。 T ≈ 0.000125t≈0.000125t\approx0.000125 すべてを一度に表示する方法はありますか？通常、「4番目の」次元を表示するために色を追加できますが、別の可能なアプローチはありますか？できる限り多くの方法でプロットして、他の人が知らない情報が明らかになるかどうかを確認する予定です。アイデアを提案してください。シミュレーションが3Dで、5Dの結果データセットがあった場合はどうなりますか？それは可能な視覚化方法を変えますか？

19 time-series data-visualization spatio-temporal

3

「混合モデル」の3つの形式の解釈

混合モデルで私をつまずかせている区別があり、私はそれを明確にすることができるかどうか疑問に思っています。カウントデータの混合モデルがあるとします。固定効果（A）と時間の別の変数（T）として必要なことがわかっている変数があり、「サイト」変数でグループ化されています。私が理解したように： glmer(counts ~ A + T, data=data, family="Poisson") 固定効果モデルです。 glmer(counts ~ (A + T | Site), data=data, family="Poisson") ランダム効果モデルです。私の質問は次のようなものがあるときです。 glmer(counts ~ A + T + (T | Site), data=data, family="Poisson")Tとは？ランダム効果ですか？固定効果？Tを両方の場所に置くことで実際に何が達成されますか？ときに何かがなければならない唯一のモデル式のランダムなエフェクト・セクションに表示されますか？

19 r mixed-model lme4-nlme

4

ペアごとの競争データに基づいて評価とランキングを開始する方法は？

ペアワイズ方式でのみ相互作用/競合するグループ（チェスのELO評価システムなどのシステム）の個人を評価およびランク付けする方法について学ぶのは興味深いです。適切な方法や、より正確で高度な方法はありますか？実装を容易にするRパッケージはありますか？補助情報と試合/ゲームの結果を使用できる方法はありますか？二分した勝ち/負けとは対照的に、勝ちマージンの情報をよりよく使用できる方法はありますか？文献で何を探すべきですか？

19 ranking rating bradley-terry-model elo