統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

4
これは、自殺カウントデータの季節的影響をテストする適切な方法ですか?
私は、米国の州の自殺による死亡に関連する17年(1995年から2011年)の死亡証明書データを持っています。確認しましたが、使用した方法の明確な感覚や結果に対する自信が得られません。 そのため、データセット内の特定の月に自殺が多かれ少なかれ発生する可能性があるかどうかを判断できるかどうかを確認しました。私の分析はすべてRで行われます。 データに含まれる自殺者の総数は13,909人です。 自殺が最も少ない年を見ると、309/365日(85%)に発生します。自殺が最も多い年を見ると、それらは339/365日(93%)に発生しています。 したがって、毎年自殺のないかなりの日数があります。ただし、17年間すべてで集計すると、2月29日を含む1年の毎日に自殺があります(平均が38の場合は5人のみ)。 1年の各日に自殺者の数を単純に合計しても、明確な季節性を示すものではありません(私の目には)。 月ごとのレベルで集計すると、月あたりの平均自殺者の範囲は次のとおりです。 (m = 65、sd = 7.4、m = 72、sd = 11.1) 私の最初のアプローチは、すべての年の月ごとにデータセットを集計し、月ごとの自殺数に系統的な分散がないという帰無仮説の予想確率を計算した後、カイ二乗検定を行うことでした。日数を考慮して(そしてうるう年の2月を調整して)各月の確率を計算しました。 カイ2乗の結果は、月ごとに大きな変動がないことを示しています。 # So does the sample match expected values? chisq.test(monthDat$suicideCounts, p=monthlyProb) # Yes, X-squared = 12.7048, df = 11, p-value = 0.3131 下の画像は、1か月あたりの合計数を示しています。水平の赤い線は、それぞれ2月、30日月、31日月の期待値に配置されています。カイ2乗検定と一致して、予想カウントの95%信頼区間外にある月はありません。 時系列データの調査を開始するまで、私は終わったと思いました。多くの人が想像するstlように、statsパッケージの関数を使用したノンパラメトリック季節分解法から始めました。 時系列データを作成するには、集約された月次データから始めました。 suicideByMonthTs <- ts(suicideByMonth$monthlySuicideCount, start=c(1995, 1), end=c(2011, 12), frequency=12) …

2
GAMに相互作用用語を含める方法
次のコードは、2つの時系列間の類似性を評価します。 set.seed(10) RandData <- rnorm(8760*2) America <- rep(c('NewYork','Miami'),each=8760) Date = seq(from=as.POSIXct("1991-01-01 00:00"), to=as.POSIXct("1991-12-31 23:00"), length=8760) DatNew <- data.frame(Loc = America, Doy = as.numeric(format(Date,format = "%j")), Tod = as.numeric(format(Date,format = "%H")), Temp = RandData, DecTime = rep(seq(1, length(RandData)/2) / (length(RandData)/2), 2)) require(mgcv) mod1 <- gam(Temp ~ Loc + s(Doy) + s(Doy,by …

3
2つの時系列間の相関
まったく同じサイズの2つの時系列間の相関を計算する最も簡単な方法/方法は何ですか?Iは乗算考えと、乗算を加算します。この単一の数値が正の場合、これら2つのシリーズは相関していると言えますか?しかし、直線的に別の指数関数的に成長する時系列が互いに関係を持たないが、上記の計算はそれらが相関していると報告するいくつかの例を考えることができます。(X [ T ] - μバツ)(バツ[t]−μバツ)(x[t]-\mu_x)(y[ T ] - μy)(y[t]−μy)(y[t] - \mu_y) 何かご意見は?

1
k-fold交差検定を発明したのは誰ですか?
私は、k-fold cross-validationが導入された論文への参照を探しています(主題に関する単なる学術的な参照ではありません)。おそらく、最初の論文を明確に特定するのは時間の霧にさかのぼりすぎているため、このアイデアが使用された初期の論文は興味深いものになります。 私が知っている最も早いのは PA LachenbruchおよびMR Mickey、「判別分析におけるエラー率の推定」、Technometrics、vol。10、いいえ。1、1〜12ページ、1968年2月。 そして A. LuntzおよびV. Brailovsky、「認識の統計的手順で得られた文字の推定について(ロシア語)」、Techicheskaya Kibernetica、vol。3、1969。 しかし、私が知る限り、それらはleave-one-out交差検証のみをカバーしています(私の技術的なロシア語はそれだけではありません; o)。

3
結果が分数(2つのカウントの比率)の場合、Rでロジスティック回帰を行う方法は?
私は次の生物学的実験がある論文をレビューしています。デバイスを使用して、細胞をさまざまな量の流体せん断応力にさらします。より大きなせん断応力がセルに適用されると、より多くのセルが基板から剥離し始めます。せん断応力の各レベルで、付着したままの細胞をカウントします。また、最初に付着した細胞の総数を知っているため、部分的な付着(または剥離)を計算できます。 付着率とせん断応力をプロットすると、結果はロジスティック曲線になります。理論的には、個々のセルはそれぞれ1つの観測ですが、明らかに数千または数万のセルがあるため、通常の方法(各行が観測)でセットアップされた場合、データセットは巨大になります。 ですから、当然、私の質問(タイトルで述べられているように)は今では意味があります。DVとして分数の結果を使用してロジスティック回帰を行うにはどうすればよいですか?glmで実行できる自動変換はありますか? 同じ線に沿って、潜在的に3つ以上の(分数の)測定がある場合、多項ロジスティック回帰の場合、これをどのように行いますか?


3
標準的な統計テストを使用して、非ランダムサンプルを分析できますか?
多くの臨床研究は、無作為ではないサンプルに基づいています。ただし、ほとんどの標準テスト(たとえば、t検定、ANOVA、線形回帰、ロジスティック回帰)は、サンプルに「乱数」が含まれているという仮定に基づいています。これらの非ランダムサンプルが標準テストで分析された場合、結果は有効ですか?ありがとうございました。

4
これらの分析手法に関するグローバルなビジョンはありますか?
私は現在、出力が入力xにどのように関係しているかを理解するために、基本的に必要なプロジェクトに取り組んでいます。ここでの特殊性は、データ(y 、x )が一度に1つずつ与えられるため、新しい(y 、x )を受け取るたびに分析を更新することです。これは、必要なすべてのデータがあり、すべてのデータを同時に使用して計算を行う「バッチ」処理とは対照的に、「オンライン」処理と呼ばれます。yyyバツバツx(y、x )(y、バツ)(y,x)(y、x )(y、バツ)(y,x) だから、私はアイデアを探して、ついに世界は3つに分かれているという結論に達しました。 最初の部分は、統計と計量経済学の土地です。そこにいる人々は、OLS、GLS、機器変数、ARIMA、テスト、相違点の違い、PCA、その他のことをしています。この土地の大部分は線形性に支配されており、「バッチ」処理のみを行います。 2番目の部分は、機械学習の島であり、人工知能、教師あり学習と教師なし学習、ニューラルネットワーク、SVMなどの言葉です。ここでは、「バッチ」処理と「オンライン」処理の両方が行われます。 3番目の部分は、私が発見したばかりの大陸全体で、ほとんどが電気技師によって占められているようです。そこで、人々はしばしば「フィルター」という言葉をツールに追加し、Widrow-Hoffアルゴリズム、再帰最小二乗法、Wienerフィルター、Kalmanフィルターなど、まだ発見していないものを発明しました。どうやら彼らはニーズに合っているため、ほとんどが「オンライン」処理を行っているようです。 私の質問は、あなたはこれらすべてについてグローバルなビジョンを持っていますか?私は、世界のこれら3つの部分が互いにあまり話し合っていないという印象を受けています。私が間違っている?とXの関係を理解する大統一理論はありますか?その理論の基礎が定められているリソースを知っていますか?YYYバツバツX この質問が本当に理にかなっているかどうかはわかりませんが、これらすべての理論の間で少し迷っています。「これまたはそれを使用すべきか?」という質問に対する答えを想像します。「何をしたいか(およびデータ)に依存します」。しかし、これら3つの世界は同じ質問(?)に答えようとしているように感じます。したがって、これらすべてについてより高い見方を持ち、それぞれの手法を特定する理由を深く理解できるはずです。y= f(x )y=f(バツ)y=f(x)

4
ワイブル分布のEM最尤推定
注: 私は、技術的な理由で自分で投稿できない元学生の質問を投稿しています。 pdfを持つワイブル分布からの iidサンプル与えられた場合、 は有用な欠損変数表現 、したがって、直接的な方法を使用する代わりにのMLEを見つけるために使用できる関連EM(期待値最大化)アルゴリズム数値最適化?バツ1、… 、xnバツ1、…、バツnx_1,\ldots,x_nfk(x )= k xk − 1e− xkx > 0fk(バツ)=kバツk−1e−バツkバツ>0 f_k(x) = k x^{k-1} e^{-x^k} \quad x>0 fk(x )= ∫Zgk(x 、z)d zfk(バツ)=∫Zgk(バツ、z)dzf_k(x) = \int_\mathcal{Z} g_k(x,z)\,\text{d}zkkk

3
健全性チェック:p値はどのくらい低くできますか?
2つのサンプル()の中央値を比較するためにランクサムテストを使用しており、それらが以下と大きく異なることがわかりました。このような小さな値を疑うべきですか、それとも非常に大きなサンプルを持つことに関連する高い統計的検出力に起因するのでしょうか?疑わしいほど低い値などはありますか?n = 120000n=120000n=120000p = 1.12E-207pppppp

2
なぜlmeとaovはRの反復測定ANOVAに対して異なる結果を返すのですか?
ezパッケージの使用からlme反復測定ANOVA に移行しようとしています(カスタムコントラストをで使用できるようになるとよいのですがlme)。 このブログ投稿からのアドバイスに従って、aov(ez要求された場合のように)との両方を使用して同じモデルをセットアップすることができましたlme。ただし、その投稿で示されている例では、F値はaovとの間で完全に一致lmeしています(チェックし、一致しています)が、これは私のデータには当てはまりません。がFの -値が類似している、彼らは同じではありません。 aov1.3399のf値をlme返し、1.36264を返します。aovこれは「正しい」結果として受け入れます。これもSPSSが返すものです(そしてこれが私のフィールド/スーパーバイザーにとって重要なことです)。 質問: この違いが存在する理由lmeと、信頼できる結果を提供するために私がどのように使用できるかを誰かが説明できれば素晴らしいと思います。(「正しい」結果が得られれば、このタイプのもののlmer代わりに喜んで使用しますlme。しかし、私はこれまで使用していません。) この問題を解決した後、コントラスト分析を実行したいと思います。特に、最初の2つのレベルの因子(つまりc("MP", "MT"))をプールし、これを3番目のレベルの因子(つまり)と比較することに興味があり"AC"ます。さらに、因子の第四レベル(すなわち、対第三のテスト"AC"対"DA")。 データ: tau.base <- structure(list(id = structure(c(1L, 2L, 3L, 4L, 5L, 6L, 7L, 8L, 9L, 10L, 11L, 12L, 13L, 14L, 15L, 16L, 17L, 18L, 19L, 20L, 21L, 22L, 1L, 2L, 3L, 4L, 5L, 6L, 7L, 8L, 9L, 10L, 11L, 12L, 13L, 14L, …

5
臨床試験が早期に終了したときにバイアスが影響を受けるのはなぜですか?
中間解析は、おそらく初期の研究を終了する前に1つの以上の時点でのデータの分析を意図して研究の公式近い、例えば、あります。 Piantadosi、S.(臨床試験-方法論的観点)によると:「治験が早期に終了した場合、治療効果の推定値は偏ります。決定が早ければ早いほど、偏りが大きくなります。」 この主張を説明してもらえますか。精度が影響を受けることは簡単に理解できますが、バイアスに関する主張は私には明らかではありません...

3
回帰係数を計算するとき、説明変数の順序は重要ですか?
最初は順序は関係ないと思っていましたが、重回帰係数を計算するためのグラムシュミットの直交化プロセスについて読みましたが、今は考え直しています。 gram-schmidtプロセスによれば、説明変数が他の変数の中で後でインデックス付けされると、その前の変数の残差ベクトルが減算されるため、その残差ベクトルは小さくなります。その結果、説明変数の回帰係数も小さくなります。 それが本当である場合、問題の変数の残差ベクトルは、より少ない残差ベクトルが減算されるため、より早くインデックス付けされた場合、より大きくなります。これは、回帰係数も大きくなることを意味します。 わかりましたので、質問を明確にするように求められました。だから私は最初に私を混乱させたテキストからスクリーンショットを投稿しました。はい、ここに行きます。 私の理解では、回帰係数を計算するには少なくとも 2つのオプションがあります。最初のオプションは、下のスクリーンショットで(3.6)と示されています。 次に、2番目のオプションを示します(複数のスクリーンショットを使用する必要がありました)。 私が何かを誤解していない限り(これは間違いなく可能です)、2番目のオプションでは順序が重要なようです。最初のオプションでは重要ですか?なぜですか?または、私の参照フレームがめちゃくちゃになっていて、これが有効な質問でさえないのですか?また、これは何らかの形で平方Iの合計とタイプIIの平方和に関連していますか? 事前に感謝します、私はとても混乱しています!

3
ニュースの方程式:マルチレベルモデルを一般ユーザーに翻訳する
New York Timesは、ニューヨーク市の教育者にフィードバックを提供するために使用されている「付加価値」教師評価システムについて長いコメントを持っています。ledeは、スコアの計算に使用される方程式です-コンテキストなしで表示されます。修辞的な戦略は、数学による脅迫のようです。 記事の全文は、http://www.nytimes.com/2011/03/07/education/07winerip.htmlで入手できます。 著者のMichael Wineripは、方程式の意味は、マット・デイモン以外の誰もが理解できる能力を超えていると主張している。 「Ms. Isaacsonの3.69予測スコアの計算はさらに困難です。32の変数に基づいています。これは、学生が「プレテスト年前に成績を保持した」か、学生が「プレテストまたはポストテスト年。" これらの32個の変数は、「グッドウィルハンティング」ではマットデイモンだけが解くことができる方程式の1つに見える統計モデルにプラグインされます。 このプロセスは透明に見えますが、教師、校長、ジャーナリストなどの賢い人々にとっても泥だらけです。 アイザックソン氏は2つのアイビーリーグの学位を持っているかもしれませんが、彼女は失われています。「これを理解するのは不可能だと思う」と彼女は言った。 平易な英語で、Ms。Isaacsonは、学科が彼女に何を伝えようとしているのかを最もよく推測しています。66人の学生のうち65人が州のテストで得点しましたが、彼女の3人は4人でした。 しかし、それは推測に過ぎません。」 素人にモデルをどのように説明しますか?参考までに、完全な技術レポートは次の場所にあります。 http://schools.nyc.gov/NR/rdonlyres/A62750A4-B5F5-43C7-B9A3-F2B55CDF8949/87046/TDINYCTechnicalReportFinal072010.pdf 更新:Andrew Gelmanはここで彼の考えを提供しています:http : //www.stat.columbia.edu/~cook/movabletype/archives/2011/03/its_no_fun_bein.html

7
分位を動的に監視するアルゴリズム
一部のデータの分位数を推定したい。データは非常に大きいため、メモリに格納できません。また、データは静的ではなく、新しいデータが引き続き送信されます。非常に限られたメモリと計算でこれまでに観測されたデータの分位を監視するアルゴリズムを知っている人はいますか?私が見つけP2アルゴリズムが役に立つが、それは非常に重いテイル分布している私のデータ、のために非常にうまく機能しません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.