統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

3
信頼区間とt検定の検定統計仮説の関係
信頼区間と検定統計仮説が強く関連していることはよく知られています。私の質問は、数値変数に基づいた2つのグループの平均の比較に焦点を当てています。このような仮説はt検定を使用してテストされると仮定しましょう。一方、両方のグループの平均の信頼区間を計算できます。信頼区間の重複と平均が等しいという帰無仮説の棄却との間に関係はありますか?(異なることを意味する代替案を支持して-両側検定)たとえば、信頼区間が重ならない場合、検定は帰無仮説を棄却できます。

5
「平均値」と「平均」の違いは何ですか?
ウィキペディアの説明: データセットの場合、平均は値の合計を値の数で割ったものです。 ただし、この定義は、私が「平均」と呼ぶものに対応しています(少なくとも、覚えていることは覚えています)。しかし、ウィキペディアはもう一度引用しています: 「中央値」や「モード」など、一部の人々が平均値と混同するサンプルを使用する他の統計的尺度があります。 今では混乱しています。「平均値」と「平均」は互いに異なりますか?もしそうならどのように?

3
100万のPCAエディションを視覚化する
主成分分析の出力を、単なるサマリーテーブルよりも多くの洞察を与える方法で視覚化することは可能ですか?〜1e4など、観測数が多い場合に実行できますか?そして、R [他の環境も歓迎]でそれを行うことは可能ですか?

4
複雑なデータを使用した分析、何か違うものはありますか?
たとえば、線形モデルを実行しているが、データが複雑であるとします。yyy y=xβ+ϵy=xβ+ϵ y = x \beta + \epsilon すべての数値は形式であるため、データセットは複雑です。そのようなデータを操作する際に手順的に異なるものはありますか?yyy(a+bi)(a+bi)(a + bi) 複雑な共分散行列を取得し、複雑な値の統計をテストすることになるためです。 最小二乗を行うときに、転置ではなく共役転置を使用する必要がありますか?複素数値共分散は意味がありますか?

6
歪度がゼロであるが対称ではない単峰性分布の例を誰かが提供できますか?
2010年5月、WikipediaユーザーのMcorazaoは、歪度の記事に「ゼロの値は、値が平均の両側に比較的均等に分布していることを示します。通常、対称分布を意味するわけではありません」ただし、wikiページには、この規則に違反する分布の実際の例はありません。「歪みがゼロの非対称分布の例」をグーグルで検索しても、少なくとも最初の20の結果では実際の例はありません。 定義を用いてスキューによって算出される、およびR式E[ (X- μσ)3]E⁡[(X−μσ)3] \operatorname{E}\Big[\big(\tfrac{X-\mu}{\sigma}\big)^{\!3}\, \Big] sum((x-mean(x))^3)/(length(x) * sd(x)^3) 歪度を低くするために、小さな任意の分布を作成できます。たとえば、分布 x = c(1, 3.122, 5, 4, 1.1) スキュー生み出す。しかし、これは小さなサンプルであり、さらに対称性からの逸脱は大きくありません。それで、非常に非対称であるが、歪度がほぼゼロである1つのピークを持つより大きな分布を構築することは可能ですか?- 5.64947 ⋅ 10− 5−5.64947⋅10−5-5.64947\cdot10^{-5}

2
従属変数の積の分散
従属変数の積の分散の式は何ですか? 独立変数の場合、式は単純です: var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2 {\rm var}(XY) = E(X^{2}Y^{2}) - E(XY)^{2} = {\rm var}(X){\rm var}(Y) + {\rm var}(X)E(Y)^2 + {\rm var}(Y)E(X)^2 しかし、相関変数の式は何ですか? ところで、統計データに基づいて相関関係を見つけるにはどうすればよいですか?

1
「聖書コード」エピソードから統計的な教訓がありますか
この質問は多少主観的ですが、よくある質問のガイドラインに従って、それが良い主観的な質問として適格であることを願っています。それは、1年前にOlleHäggströmが私に尋ねた質問に基づいています。私はそれについていくつかの考えを持っていますが、明確な答えはありません。 バックグラウンド: D. Witztum、E。Rips、およびY. Rosenbergによる「創世記の等距離文字列」と題された論文は、創世記のヘブライ語のテキストは、テキストの千年後まで起こらなかった出来事をコード化するという異常な主張をした書かれた。この論文は、1994年に「Statistical Science」(Vol。9 429-438)によって発行され、その解決策が統計分野に貢献する可能性のある「挑戦的なパズル」として提供されました。 返信として、B。マッケイ、D。バー-ナタン、M。バー-ヒレル、G。カライによる「Solving the Bible code puzzle」というタイトルの別の論文が1999年に統計科学に登場しました(Vol。14(1999)150-173) 。新しい論文は、ウィッツトゥム、リプス、ローゼンバーグの事例は致命的な欠陥であり、実際、それらの結果は実験の設計とそのためのデータ収集で行われた選択にのみ反映していると主張しています。この論文は、その結論を裏付ける広範な証拠を提示しています。 (私たちの紙の第8章にまとめられている私自身の関心は別で詳述されている技術的なレポートと題しバーヒレルとマッケイと「2つの有名なラビ実験を:あまりにも似ているか似て?」も参照してください。このサイト。) 質問: OlleHäggströmの具体的な質問: 「かつて、データマイニングと関連技術の落とし穴を説明する目的で、あなたの論文が上級学部レベルの統計コースで役立つかもしれないと提案しました。同意しますか?」 オルレの質問に加えて、より一般的な質問をさせてください。 聖書コードのエピソードから学んだ統計に関連する何か(おそらく興味深い質問を含む)はありますか。 明確にするために、私の質問は統計に関連する洞察に限定され、このエピソードの他の側面には限定されません。

1
BUGSとRのパラメーター化はどの分布で異なりますか?
BUGSとRのパラメーター化が異なる正規分布、対数正規分布、ワイブル分布を見つけました。 これらのそれぞれについて、Rが使用する2番目のパラメーターは、BUGS(または私の場合はJAGS)で使用する前に逆変換(1 /パラメーター)する必要があることを収集します。 現在存在するこれらの変換の包括的なリストを知っている人はいますか? 私が見つけることができる最も近いものは、JAGS 2.2.0ユーザーマニュアルの表7の分布を、?rnorm等の結果と、おそらくいくつかの確率テキストと比較することです。このアプローチでは、変換をPDFから個別に推定する必要があるようです。 このタスク(および起こりうるエラー)が既に行われている場合は回避するか、ここからリストを開始します。 更新 Benの提案に基づいて、パラメーターのデータフレームをRからBUGSパラメーター化に変換する次の関数を作成しました。 ##' convert R parameterizations to BUGS paramaterizations ##' ##' R and BUGS have different parameterizations for some distributions. ##' This function transforms the distributions from R defaults to BUGS ##' defaults. BUGS is an implementation of the BUGS language, and these …

3
他の予測変数を含めた後に符号を反転させる回帰係数
想像してみて 4つの数値予測子(IV1、...、IV4)で線形回帰を実行します IV1のみが予測子として含まれる場合、標準化されたベータは +.20 IV2からIV4も含めると、IV1の標準化回帰係数の符号が反転します-.25(つまり、負になります)。 これにより、いくつかの質問が生じます。 用語に関しては、これを「抑制効果」と呼んでいますか? この効果の説明と理解にどの戦略を使用しますか? 実際にそのような効果の例はありますか?また、これらの効果をどのように説明し、理解しましたか?

6
研究の長期的な再現性を高める方法(特にRとSweaveを使用)
コンテキスト:ジェイクが書いた 再現可能な研究に関する以前の質問への回答 JASAアーカイブの作成時に発見した問題の1つは、CRANパッケージのバージョンとデフォルトが変更されたことです。そのため、そのアーカイブには、使用したパッケージのバージョンも含まれています。ユーザーがパッケージを変更すると、ビネットベースのシステムはおそらく破損します(大要であるパッケージ内に追加のパッケージを含める方法がわからない)。 最後に、R自体が変更された場合の対処方法について考えます。たとえば、仮想マシンが巨大にならないように、論文に使用される計算環境全体を再現する仮想マシンを作成する方法はありますか? 質問: 再現可能なデータ分析が将来(たとえば、発行後5年、10年、または20年)再現可能であることを保証するための優れた戦略は何ですか? 具体的には、SweaveとRを使用するときに継続的な再現性を最大化するための優れた戦略は何ですか? これは、再現性のあるデータ分析プロジェクトを、わずかに異なるデフォルト、パッケージなどを使用して他の誰かのマシンで実行することを保証する問題に関連しているようです。

1
混合効果モデルの多重比較
混合効果モデルを使用していくつかのデータを分析しようとしています。私が収集したデータは、遺伝子型の異なる若い動物の体重の経時変化を表しています。 ここで提案されているアプローチを使用しています:https : //gribblelab.wordpress.com/2009/03/09/repeated-measures-anova-using-r/ 特に、私はソリューション#2を使用しています だから私は次のようなものを持っています require(nlme) model <- lme(weight ~ time * Genotype, random = ~1|Animal/time, data=weights) av <- anova(model) ここで、複数の比較を行いたいと思います。multcomp私ができることを使用して: require(multcomp) comp.geno <- glht(model, linfct=mcp(Genotype="Tukey")) print(summary(comp.geno)) そして、もちろん、時間をかけて同じことができます。 2つの質問があります。 mcpTimeとGenotypeの相互作用を確認するにはどうすればよいですか? 実行するglhtと、次の警告が表示されます。 covariate interactions found -- default contrast might be inappropriate どういう意味ですか?安全に無視できますか?それともそれを避けるために何をすべきですか? 編集: 私は言うこのPDFを見つけました: この場合、対象のパラメーターを自動的に決定することは不可能であるため、multcompのmcp()は、デフォルトで、共変量と相互作用を無視して、主効果のみの比較を生成します。バージョン1.1-2以降、相互作用項と共変量の平均化を指定するには、それぞれ引数Interaction_average = TRUEとcovariate_average = TRUEを使用します。一方、1.0-0より古いバージョンは相互作用項の平均化を自動的に行います。ただし、ユーザーには、必要なコントラストのセットを手動で書き出すことをお勧めします。デフォルトのコントラストの測定値に疑問がある場合はいつでもこれを行う必要があります。これは通常、高次の相互作用項を持つモデルで発生します。この問題に関するさらなる議論と例については、Hsu(1996)のChapter〜7とSearle(1971)のChapter〜7.3を参照してください。 私はそれらの本にアクセスできませんが、おそらく誰かがここにいますか?

3
p値の確立されたビューに対応する
レポートには、p値や他の推論統計に関する免責事項を含めることがあります。サンプルはランダムではなかったため、そのような統計は厳密には適用されないでしょう。私の具体的な言葉遣いは、通常、脚注に記載されています。 「厳密に言えば、推論統計はランダムサンプリングのコンテキストでのみ適用されますが、非ランダムサンプルでも有意水準および/または信頼区間を便利な尺度として報告する慣習に従います。MichaelOakesの 統計的推論:行動科学 (NY:Wiley、1986)。 いくつかの場合(査読付き論文の場合、非学術的な環境で1回または2回)、編集者または校閲者はこの免責事項に異議を唱え、混乱を招き、推論の結果は単に書かれたままになるべきだと感じました(そして権限のマントを与えられる)。他の誰かがこの問題に遭遇し、良い解決策を見つけましたか?一方で、p値の人々の理解は、ランダムサンプリングのコンテキストであっても、一般に陰気です。したがって、おそらく、私たちが言うことはそれほど重要ではありません。一方、誤解にさらに貢献することは、問題の一部になっているようです。ランダムな割り当てが適用されず、モンテカルロシミュレーションが代表性の問題に対処できないことが多い調査研究に頻繁に対処することを付け加えます。

8
多次元データを視覚化するためのオープンソースツール?
ほかのgnuplotとggobi、どのようなオープンソースのツールは、多次元のデータを可視化するために使っている人ですか? Gnuplotは、基本的なプロットパッケージです。 Ggobiは、次のような多くの気の利いたことを実行できます。 ディメンションに沿って、または個別のコレクション間でデータをアニメーション化する 係数を変化させる線形結合をアニメーション化する 主成分と他の変換を計算する 3次元データクラスターの視覚化と回転 色を使用して異なる次元を表現する オープンソースに基づいており、したがって自由に再利用可能またはカスタマイズ可能な他の有用なアプローチは何ですか? 回答にパッケージの機能の簡単な説明を記入してください。

2
ロジスティック回帰は閉じた形でいつ解決されますか?
かかる場合x∈{0,1}dx∈{0,1}dx \in \{0,1\}^d及びy∈{0,1}y∈{0,1}y \in \{0,1\}、我々は、ロジスティック回帰を用いたX所与Yを予測するタスクをモデル化すると仮定する。ロジスティック回帰係数はいつ閉じた形で記述できますか? 1つの例は、飽和モデルを使用する場合です。 つまり、定義しますP(y|x)∝exp(∑iwifi(xi))P(y|x)∝exp⁡(∑iwifi(xi))P(y|x) \propto \exp(\sum_i w_i f_i(x_i))。ここで、iiiはのべき集合の集合にインデックスを付け{x1,…,xd}{x1,…,xd}\{x_1,\ldots,x_d\}、fifif_iは1を返します。iii番目のセットのすべての変数が1の場合、それ以外の場合は0です。次に、このロジスティック回帰モデルの各wiwiw_iを、データの統計の有理関数の対数として表現できます。 閉じたフォームが存在する場合、他の興味深い例はありますか?


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.