統計とビッグデータ

1

フィッシャー分布の特性関数は次のとおりですここでは、コンフルエントな超幾何関数です。n畳み込みの逆フーリエ変換\ mathcal {F} _ {t、x} ^ {-1}を解いて、変数xの密度を復元しようとしています。つまり、 \ mathcal {F} _ {t 、x} ^ {-1} \ left（C（t）^ n \ right）n の合計の分布を取得する目的でC （t ）= Γ （α + 1F（1 、 α）F（1、α）\mathcal{F}(1,\alpha)UC（ t ）= Γ（α + 12） U（12、 1 - α2、 - I T α）Γ（α2）C（t）=Γ（α+12）うん（12、1−α2、−私tα）Γ（α2）C(t)=\frac{\Gamma \left(\frac{\alpha +1}{2}\right) U\left(\frac{1}{2},1-\frac{\alpha }{2},-i t \alpha …

23 probability random-variable f-distribution saddlepoint-approximation

1

先験的な消費電力解析は本質的に役に立たないのですか？

先週パーソナリティと社会心理学会の会議に出席しました。そこでは、先験的な検出力分析を使用してサンプルサイズを決定することは、結果が仮定に非常に敏感であるため本質的に役に立たないという前提でUri Simonsohnの講演を見ました。もちろん、この主張は、私のメソッドクラスで教えられたものと、多くの著名な方法論者の推薦（特にCohen、1992）に反するため、ウリは彼の主張に関連するいくつかの証拠を提示しました。この証拠のいくつかを以下で再現しようとしました。簡単にするために、2つのグループの観測値がある状況を想像して、（標準化された平均差で測定される）効果サイズがと推測します。標準的な電力計算（以下のパッケージを使用して行われます）では、この設計で80％の電力を得るには観測値が必要であることがわかります。.5.5.5Rpwr128128128 require(pwr) size <- .5 # Note that the output from this function tells you the required observations per group # rather than the total observations required pwr.t.test(d = size, sig.level = .05, power = .80, type = "two.sample", alternative = "two.sided") ただし、通常、予想される効果の大きさについての推測は（少なくとも私の研究分野である社会科学では）まさにそれです-非常に大まかな推測です。エフェクトのサイズについての推測が少しずれている場合はどうなりますか？迅速な電力計算は、効果の大きさがある場合ことを示していますの代わりに、あなたが必要とする -観測あなたはの効果の大きさのために十分な力を持っている必要があると倍の数。同様に、エフェクトのサイズが場合、必要な観測値はだけです。これはエフェクトサイズを検出するのに十分なパワーが必要なものの70％です。.4.4.4.5.5.52002002001.561.561.56.5.5.5.6.6.6909090.50.50.50。事実上、推定観測の範囲が非常に大きいです-に。909090200200200 この問題に対する応答の1つは、効果のサイズを純粋に推測する代わりに、過去の文献またはパイロットテストを通じて、効果のサイズに関する証拠を収集することです。もちろん、パイロットテストを実行している場合は、パイロットテストを十分に小さくして、スタディの実行に必要なサンプルサイズを決定するためだけにスタディのバージョンを実行するのではなく（たとえば、パイロットテストで使用するサンプルサイズを調査のサンプルサイズよりも小さくする必要があります）。 Uri Simonsohnは、電力分析で使用される効果の大きさを決定するためのパイロットテストは役に立たないと主張しました。私が実行した次のシミュレーションを検討してくださいR。このシミュレーションでは、母集団効果のサイズがと想定しています。次に、サイズ40の1000回の「パイロットテスト」を実行し、10000個のパイロットテストのそれぞれから推奨されるNを集計します。.5.5.5100010001000NNN …

23 hypothesis-testing power-analysis effect-size power methodology

5

帰無仮説を棄却したので、次は何ですか？

帰無仮説を何度も拒否したか、拒否しなかった。却下に失敗した場合、却下の十分な証拠がないと結論付け、「先に進む」（つまり、さらにデータを収集する、実験を終了するなど）しかし、ときに提供し、帰無仮説を棄却「ん」いくつかのあなたが本当にあなたの対立仮説が実際に成り立つことを「証明」することはできません対立仮説の証拠を。それでは、帰無仮説を棄却した後の一般的な次のステップは何ですか？調査結果をより決定的なものにするために、「問題をさらに分析する」ためにどのツール/手法を採用していますか？さらなる分析を必要とする統計学者としての論理的な「次のステップ」は何ですか？例えば： H0：μ1= μ0H0：μ1=μ0H_0: \mu_1 = \mu_0 H1：μ1> μ0H1：μ1>μ0H_1: \mu_1 > \mu_0（予想される方向がわかっていると言います）ある有意水準で帰無仮説を棄却すると、代替案が真実であるという「何らかの証拠」が得られますが、その結論を引き出すことはできません。その結論を本当に結論付けたい場合（ダブルワードプレイをご容赦ください）、どうすればよいですか？私は学部時代にこの質問について考えたことはありませんでしたが、今ではかなり多くの仮説をテストしているので、何が先にあるのか疑問に思います:)

23 hypothesis-testing

2

CHAID vs CRT（またはCART）

約20の予測変数（いくつかのカテゴリを含むカテゴリ）を含むデータセットでSPSSを使用して決定木分類を実行しています。CHAID（カイ二乗自動相互作用検出）およびCRT / CART（分類および回帰ツリー）は、異なるツリーを提供しています。誰もがCHAIDとCRTの相対的なメリットを説明できますか？あるメソッドを他のメソッドよりも使用することの意味は何ですか？

23 spss cart

1

相互検証（CV）および一般化された相互検証（GCV）統計

クロス検証（CV）統計と、線形モデル（通常のホモセダスティックエラーベクトル）。εY=Xβ+εY=Xβ+εY = X\boldsymbol\beta + \boldsymbol\varepsilonεε\boldsymbol\varepsilon 一方では、Golub、Heath、WahbaはGCV推定値を（p。216）λ^λ^\hat{\lambda} 最小化V(λ)V(λ)V\left(\lambda\right)で与えられる V（λ ）=1n∥(I− A （λ))y∥2（1nt r(I− A （λ ））)2V(λ)=1n‖（私−A（λ））y‖2（1ntr（私−A（λ）））2 V\left(\lambda\right) = \frac{\frac{1}{n} \left\|\left(I - A\left(\lambda\right)\right)y\right\|^2}{\left(\frac{1}{n} \mathrm{tr}\left(I - A\left(\lambda\right)\right)\right)^2} ここで、A （λ ） = X（XTバツ+nλI)−1XTA(λ)=X(XTX+nλI)−1XTA\left(\lambda\right) = X\left(X^T X + n\lambda I\right)^{-1} X^T 一方、エフロンはV(0)V(0)V\left(0\right)（p。24 ）と同じ概念を定義していますが、この概念の導入は、その定義（p。377）が本質的に同じであるCraven＆Wahbaに起因すると考えています。 Golub、Heath＆Wahbaの上記の定義として。これは、0がV \ left（\ lambda \ right）を000最小化することを意味しますか？V(λ)V(λ)V\left(\lambda\right) 同様に、Golub、Heath、Wahbaは\ lambdaの CV推定λλ\lambda（p。217 ）を P(λ)=1n∑k=1n([Xβ(k)(λ)]k−yk)2P(λ)=1n∑k=1n([Xβ(k)(λ)]k−yk)2 …

23 cross-validation

2

トピックモデルのトピックの安定性

私は、一連の自由記述式エッセイの内容に関する情報を抽出したいプロジェクトに取り組んでいます。この特定のプロジェクトでは、148人が、大規模な実験の一環として、仮想の学生組織についてのエッセイを書きました。私の分野（社会心理学）では、これらのデータを分析する典型的な方法はエッセイを手作業でコーディングすることですが、ハンドコーディングは労働集約的であり、私にとっては少し主観的であるため、これを定量的に行いたいと思います味。無料の応答データを定量的に分析する方法についての調査中に、トピックモデリング（またはLatent Dirichlet Allocation、またはLDA）と呼ばれるアプローチを見つけました。トピックモデリングでは、データの単語の表現（用語ドキュメントマトリックス）を使用し、単語の共起に関する情報を使用して、データの潜在的なトピックを抽出します。このアプローチは私のアプリケーションに最適のようです。残念ながら、トピックモデリングをデータに適用すると、2つの問題が見つかりました。トピックモデリングによって明らかにされたトピックは、解釈が難しい場合があります別のランダムシードを使用してトピックモデルを再実行すると、トピックが劇的に変化するように見える特に問題2は私に関係しています。したがって、2つの関連する質問があります。解釈可能性と安定性のためにモデル適合手順を最適化するために、LDA手順でできることはありますか？個人的に、私は、最も低いパープレキシティおよび/または最高のモデル適合性を持つモデルを見つけることについてあまり気にしません-私は主にこの手順を使用して、この研究の参加者がエッセイで書いたものを理解し、特徴づけるのを助けたいです。ただし、結果がランダムシードのアーティファクトになりたくないのは確かです。上記の質問に関連して、LDAを実行するために必要なデータ量の基準はありますか？この方法を使用した私が見たほとんどの論文は、大きなコーパスを分析します（たとえば、過去20年間のすべてのScience論文のアーカイブ）が、実験データを使用しているため、ドキュメントのコーパスははるかに小さくなります。手を汚したい人のために、ここにエッセイデータを投稿しました。使用しているRコードを以下に貼り付けました。 require(tm) require(topicmodels) # Create a corpus from the essay c <- Corpus(DataframeSource(essays)) inspect(c) # Remove punctuation and put the words in lower case c <- tm_map(c, removePunctuation) c <- tm_map(c, tolower) # Create a DocumentTermMatrix. The stopwords are the …

23 machine-learning model-selection small-sample topic-models dirichlet-process

2

テストセットとトレーニングセットの分布の違いを処理する方法

機械学習またはパラメーター推定の基本的な前提の1つは、目に見えないデータがトレーニングセットと同じ分布に由来するということです。ただし、実際のケースによっては、テストセットの分布はトレーニングセットとほとんど異なります。製品の説明を約17,000クラスに分類しようとする大規模な複数分類問題について考えてみましょう。トレーニングセットには、非常に歪んだクラス事前分布があります。そのため、一部のクラスには多くのトレーニング例があり、一部のクラスにはほんのわずかしかありません。クライアントから未知のクラスラベルを持つテストセットが与えられたとします。トレーニングセットでトレーニングされた分類器を使用して、テストセットの各製品を17,000クラスのいずれかに分類しようとします。テストセットのクラス分布は歪んでいる可能性がありますが、異なるビジネス分野に関連している可能性があるため、トレーニングセットのそれとはおそらく非常に異なっています。2つのクラス分布が大きく異なる場合、トレーニングされた分類器はテストセットでうまく機能しない可能性があります。これは、Naive Bayes分類器で特に明らかです。確率的分類器のトレーニングセットと特定のテストセットの違いを処理する原則的な方法はありますか？「トランスダクティブSVM」はSVMでも同様のことを行うと聞きました。特定のテストセットで最高のパフォーマンスを発揮する分類器を学習するための同様の手法はありますか？次に、この実用的なシナリオで許可されているように、異なるテストセットに対して分類器を再トレーニングできます。

23 machine-learning classification skewness unbalanced-classes multi-class

2

混合モデルのサンプルサイズの計算

混合モデルでサンプルサイズを計算する方法はありますか？lmerRでモデルを近似するために使用しています（ランダムな勾配と切片があります）。

23 r mixed-model lme4-nlme power-analysis

4

（一部の）擬似ランダム化の問題点

50歳以上の患者が誕生年までに擬似ランダム化された研究に出会いました。誕生年が偶数の場合、通常のケア、奇数の場合、介入。実装が簡単で、転覆するのが難しく（患者が受けるべき治療を簡単に確認できます）、覚えやすい（割り当ては数年間続いた）。それでも、私はそれが好きではありません。適切なランダム化の方が良かったと感じています。しかし、その理由は説明できません。私はそれを感じるのは間違っていますか、または「本当の」ランダム化を好む正当な理由がありますか？

23 experiment-design clinical-trials random-allocation

2

等高線/熱オーバーレイを使用した散布図

ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。最近の論文の補足でこのプロットを見て、Rを使用して再現できるようにしたいと思います。それは散布図ですが、オーバープロットを修正するために、「熱」に対応する等高線があります。密度のオーバープロット。どうすればいいですか？

23 r data-visualization scatterplot

2

ベイジアンバッティング平均事前

私は、ベータ配布の直感に関する質問に対する優れた答えに触発された質問をしたかった。バッティングアベレージの事前分布の導出をより良く理解したかったのです。デビッドは平均値と範囲からパラメータをバックアウトしているようです。平均であるという仮定の下では0.270.270.27と標準偏差は0.180.180.18あなたがバックアウトすることができ、αα\alphaおよびββ\betaこれら二つの方程式を解くことによって： αα+β=0.27α⋅β(α+β)2⋅(α+β+1)=0.182αα+β=0.27α⋅β(α+β)2⋅(α+β+1)=0.182\begin{equation} \frac{\alpha}{\alpha+\beta}=0.27 \\ \frac{\alpha\cdot\beta}{(\alpha+\beta)^2\cdot(\alpha+\beta+1)}=0.18^2 \end{equation}

23 bayesian prior

4

Rの累積分布を計算する方法は？

ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。データサンプルの累積分布関数を計算する必要があります。累積密度関数を測定するRのhist（）に似たものはありますか？私はecdf（）を試しましたが、ロジックを理解できません。

23 r distributions cdf

3

ガウスの混合としての学生t

k>0k>0k > 0の自由度、位置パラメーターおよびスケールパラメーターが密度を持つスチューデントt分布を使用するSlllsss Γ(k+12)Γ(k2kπs2−−−−√){1+k−1(x−ls)}−(k+1)/2,Γ(k+12)Γ(k2kπs2){1+k−1(x−ls)}−(k+1)/2,\frac{\Gamma \left(\frac{k+1}{2}\right)}{\Gamma\left(\frac{k}{2}\sqrt{k \pi s^2}\right)} \left\{ 1 + k^{-1}\left( \frac{x-l}{s}\right)\right\}^{-(k+1)/2}, スチューデントの分布が、、および結合密度を積分して、限界密度を取得しますか？μ 、α 、βの関数として、結果のt分布のパラメーターは何ですか？tttX∼N(μ,σ2)X∼N(μ,σ2)X\sim N(\mu,\sigma^2)τ=1/σ2∼Γ(α,β)τ=1/σ2∼Γ(α,β)\tau = 1/\sigma^2\sim\Gamma(\alpha,\beta)f(x,τ|μ)f(x,τ|μ)f(x,\tau|\mu)f(x|μ)f(x|μ)f(x|\mu)tttμ,α,βμ,α,β\mu,\alpha,\beta 結合条件付き密度をガンマ分布と統合することにより、計算で迷子になりました。

23 distributions mixture

3

Kはベルヌーイ試験で成功、またはジョージルーカスの映画実験

私は今「酔っぱらいの散歩」を読んでいて、そこから一つの物語を理解できません。ここに行く：ジョージルーカスが新しいスターウォーズ映画を製作し、あるテストマーケットでクレイジーな実験を行うことに決めたと想像してください。彼は「スターウォーズ：エピソードA」と「スターウォーズ：エピソードB」という2つのタイトルで同一の映画をリリースしています。各映画には独自のマーケティングキャンペーンと配給スケジュールがあり、対応する詳細は同一です。ただし、一方の映画の予告編と広告は「エピソードA」、もう一方の映画のエピソードは「エピソードB」です。今、私たちはそれからコンテストを作ります。どの映画がより人気がありますか？最初の20,000人の映画ファンを見て、彼らが選んだ映画を録画したとしましょう（両方に行って、両者の間に微妙ではあるが意味のある違いがあると主張する頑固なファンを無視します）。映画とそのマーケティングキャンペーンは同一なので、この方法でゲームを数学的にモデル化できます。すべての視聴者を一列に並べ、各視聴者のコインを順番に反転させることを想像してください。コインが着地した場合、彼または彼女はエピソードAを見ます。コインが着地した場合、エピソードBになります。コインはどちらの方法でも同じ確率で出現するため、この実験的な興行戦争では、各映画が約半分の時間でリードしていると考えるかもしれません。しかし、ランダム性の数学は別の言い方をします：リードの変化の最も可能性の高い数は0であり、2つの映画の1つが20,000人の顧客すべてをリードする可能性は、リードが継続的にシーソーするよりも88倍高い」私は、おそらく間違って、これを単純なベルヌーイ裁判の問題に起因するものであり、リーダーが平均してシーソーを行わない理由がわからないと言わなければなりません！誰でも説明できますか？

23 probability bernoulli-distribution

4

非常にまばらなデータでうまく機能するランダムフォレストの実装はありますか？

非常にまばらなデータでうまく機能するRランダムフォレストの実装はありますか？数千または数百万のブール入力変数がありますが、与えられた例では数百またはそれだけがTRUEになります。私はRが比較的新しく、スパースデータを処理するための「Matrix」パッケージがあることに気付きましたが、標準の「randomForest」パッケージはこのデータ型を認識しないようです。重要な場合、入力データはRの外部で生成され、インポートされます。何かアドバイス？また、Weka、Mahout、または他のパッケージの使用について調べることもできます。

23 r random-forest sparse