統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

2
Rのlmで調整されたR-2乗式とは何ですか?
調整済みRの2乗のR で使用される正確な式は何lm() ですか?どうすれば解釈できますか? 調整されたr-2乗式 調整されたR-2乗を計算するためのいくつかの式が存在するようです。 ウェリーの式:1−(1−R2)(n−1)(n−v)1−(1−R2)(n−1)(n−v)1-(1-R^2)\frac{(n-1)}{(n-v)} マクネマーの式:1−(1−R2)(n−1)(n−v−1)1−(1−R2)(n−1)(n−v−1)1-(1-R^2)\frac{(n-1)}{(n-v-1)} 主の公式:1−(1−R2)(n+v−1)(n−v−1)1−(1−R2)(n+v−1)(n−v−1)1-(1-R^2)\frac{(n+v-1)}{(n-v-1)} スタインの式:1−[(n−1)(n−k−1)(n−2)(n−k−2)(n+1)n](1−R2)1−[(n−1)(n−k−1)(n−2)(n−k−2)(n+1)n](1−R2)1-\big[\frac{(n-1)}{(n-k-1)}\frac{(n-2)}{(n-k-2)}\frac{(n+1)}{n}\big](1-R^2) 教科書の説明 Fieldの教科書によると、Rを使用した統計の発見(2012、p。273)Rは、Wherryの方程式を使用します。彼は、Wherryの公式を示していません。彼は、Steinの式を(手で)使用して、モデルがどのように交差検証されるかを確認することを推奨します。 Kleiber / Zeileis、Applied Econometrics with R(2008、p。59)は、「Theilの調整済みR 2乗」であると主張し、その解釈が複数のR 2乗からどのように変化するかを正確に述べていません。 Dalgaard、Introductory Statistics with R(2008、p。113)は、「[調整されたRの2乗]を100%掛けると、「%分散の減少」と解釈できる」と書いています。彼は、これがどの式に対応するかについては述べていません。 私は以前、R乗がモデルに追加の変数を追加するとペナルティを与えると考え、広く読んでいました。現在、これらの異なる式の使用は、異なる解釈を必要とするようです。また、スタックオーバーフロー(単一変量最小二乗回帰における複数R 2乗と調整R 2乗の違いは何ですか?)、およびUPennにあるウォートンスクールの統計辞書に関する関連する質問も調べました。 ご質問 Rによって調整されたr平方に使用される式はどれ lm()ですか? どうすれば解釈できますか?

5
シンプソンのパラドックスを解決するには?
シンプソンのパラドックスは、世界中の導入統計コースで議論されている古典的なパズルです。しかし、私のコースは、問題が存在し、解決策を提供しなかったことに単に注目することに満足しました。パラドックスを解決する方法を知りたいです。つまり、シンプソンのパラドックスに直面したとき、データの分割方法に応じて2つの異なる選択肢が最良の選択肢になるために競合するように見える場合、どちらを選択する必要がありますか? 問題を具体的にするために、関連するウィキペディアの記事に記載されている最初の例を考えてみましょう。これは、腎臓結石の治療に関する実際の研究に基づいています。 私が医者であり、検査で患者に腎臓結石があることが明らかになったとします。表に記載されている情報のみを使用して、処理Aと処理Bのどちらを採用すべきかを判断したいと思います。石のサイズがわかっている場合は、処理Aを優先する必要があります。治療Bを好むべきです。 しかし、答えに到達する別のもっともらしい方法を考えてください。石が大きい場合はAを選択し、小さい場合は再度Aを選択する必要があります。そのため、石のサイズがわからない場合でも、ケースの方法により、Aを優先する必要があることがわかります。これは、以前の推論と矛盾しています。 だから:患者が私のオフィスに入ってきます。テストでは、腎臓結石があることがわかりますが、サイズについての情報は提供されません。どの治療をお勧めしますか?この問題の受け入れられた解決策はありますか? ウィキペディアは、「因果ベイジアンネットワーク」と「バックドア」テストを使用した解決策を示唆していますが、これらが何であるかはわかりません。

1
分位点回帰:どの標準エラーですか?
quantreg vignetteのsummary.rq関数は、分位点回帰係数の標準誤差推定のための多数の選択肢を提供します。これらのそれぞれが最適/望ましいものになる特別なシナリオは何ですか? Koenker(1994)で説明されているようにランクテストを反転することにより、推定パラメーターの信頼区間を生成する「ランク」。デフォルトのオプションは、エラーがiidであると想定していますが、オプションiid = FALSEはKoenker Machado(1999)の提案を実装しています。追加の引数については、rq.fit.brのドキュメントを参照してください。 エラーがiidであると想定し、KB(1978)のように漸近共分散行列の推定値を計算する「iid」。 条件付き分位関数のローカル(タウ)線形性(x)を推定し、スパース性のローカル推定を使用してフーバーサンドイッチ推定を計算する「nid」。 Poker(1990)によって提案されたサンドイッチのカーネル推定値を使用する「ker」。 標準エラーを推定するためのいくつかの可能なブートストラップの選択肢の1つを実装する「ブート」。 私はこれが時系列または断面の次元のいずれかに適用される少なくとも20の経験的論文を読みましたが、標準誤差の選択については言及していません。

3
ランダムフォレストのOOBと混同マトリックスを解釈する方法は?
誰かからランダムスクリプトモデルを実行するRスクリプトを受け取りました。いくつかの従業員データを使用して変更して実行しました。自発的な分離を予測しようとしています。 いくつかの追加情報があります。これは、0 =従業員が留まる、1 =従業員が解雇される分類モデルです。現在、12個の予測変数のみを調べています。レコードセット全体の%。 さまざまなmtryおよびntreeの選択を使用してモデルを実行しましたが、以下で解決しました。OOBは6.8%で良いと思いますが、エラーマトリックスは92.79%と非常に高いため、混同マトリックスは用語を予測するための別の話をしているようです。用語を予測するための高いエラー率?または、RFを使用して用語を予測するためのエラー率を小さくするためにできることはありますか? FOREST_model <- randomForest(theFormula, data=trainset, mtry=3, ntree=500, importance=TRUE, do.trace=100) ntree OOB 1 2 100: 6.97% 0.47% 92.79% 200: 6.87% 0.36% 92.79% 300: 6.82% 0.33% 92.55% 400: 6.80% 0.29% 92.79% 500: 6.80% 0.29% 92.79% > print(FOREST_model) Call: randomForest(formula = theFormula, data = trainset, mtry = 3, ntree …

2
平易な英語の複合対称性とは何ですか?
私は最近、実現します混合モデルの相関構造を複合対称に設定すると、ランダムファクターとしてのサブジェクトのみと固定ファクターとしての他のファクターを持つ混合モデルはANOVAと同等であるわかりました。 したがって、混合(つまり、分割プロット)分散分析のコンテキストで複合対称性が何を意味するかを知りたいと思います。 複合対称性に加えlmeて、次のような他のタイプの相関構造を提供します corSymm 追加の構造のない一般的な相関行列。 または異なるタイプの空間相関。 したがって、設計された実験のコンテキストで(被験者間および被験者内因子を使用して)使用することが推奨される他のタイプの相関構造について、関連する質問がありますか? 答えが異なる相関構造のいくつかの参照を指すことができれば素晴らしいでしょう。

3
多変量正規密度の導関数を取得する方法は?
多変量正規密度があるとします。二次(部分)微分wrtを取得したい。行列の微分をどのように取るかわからない。N(μ 、Σ )N(μ,Σ)N(\mu, \Sigma)μμ\mu ウィキによると、マトリックス内の要素ごとに派生要素を取得します。 ラプラス近似で作業してい モードはです。θ = μログPN(θ )= logPN− 12(θ − θ^)TΣ− 1(θ − θ^)。log⁡PN(θ)=log⁡PN−12(θ−θ^)TΣ−1(θ−θ^).\log{P}_{N}(\theta)=\log {P}_{N}-\frac{1}{2}{(\theta-\hat{\theta})}^{T}{\Sigma}^{-1}(\theta-\hat{\theta}) \>.θ^= μθ^=μ\hat\theta=\mu Iは、与えられたこれどのようにして生じたのですか?Σ− 1= - ∂2∂θ2ログp (θ^| y)、Σ−1=−∂2∂θ2log⁡p(θ^|y),{\Sigma}^{-1}=-\frac{{{\partial }^{2}}}{\partial {{\theta }^{2}}}\log p(\hat{\theta }|y), 私がしたこと: ログP(θ | y)= − k2ログ2個のπ− 12ログ| Σ | − 12(θ − θ^)TΣ− 1(θ − θ^)log⁡P(θ|y)=−k2log⁡2π−12log⁡|Σ|−12(θ−θ^)TΣ−1(θ−θ^)\log P(\theta|y) = -\frac{k}{2} …

5
相互作用の影響を識別するベストプラクティスは何ですか?
モデル内の変数の可能な組み合わせを文字通りテストする(x1:x2またはx1*x2 ... xn-1 * xn)以外。独立変数(できれば)の間に相互作用が存在するべきか、そうでないのかをどのように識別しますか? 相互作用を特定しようとする際のベストプラクティスは何ですか?使用できる、または使用できるグラフィカルな手法はありますか?

6
モンテカルロシミュレーションを使用した近似
私は最近、モンテカルロシミュレーションを見ていて、ππ\pi(長方形内の円、比例領域)などの定数を近似するために使用しています。 ただし、モンテカルロ積分を使用してeee [オイラー数]の値を近似する対応する方法を考えることはできません。 これをどのように行うことができるかについての指針はありますか?

4
片側仮説検定の正当化
両側仮説検定を理解しています。があり(vs.)。 -値は確率である観察されたものなど、極端として、少なくともデータを生成します。H0:θ=θ0H0:θ=θ0H_0 : \theta = \theta_0H1=¬H0:θ≠θ0H1=¬H0:θ≠θ0H_1 = \neg H_0 : \theta \ne \theta_0pppθθ\theta 片側仮説検定が理解できません。ここで、(vs.)。p値の定義は上記から変更されてはなりません。それは、少なくとも観測されたものと同じくらい極端なデータを生成する確率であるべきです。しかし、我々はありません知っているそれがで上位囲まれた唯一のこと、。H0:θ≤θ0H0:θ≤θ0H_0 : \theta\le\theta_0H1=¬H0:θ>θ0H1=¬H0:θ>θ0H_1 = \neg H_0 : \theta > \theta_0θθ\theta θθ\thetaθ0θ0\theta_0 したがって、代わりに、(では)と仮定し、これが少なくとも観測されたものと同じくらい極端なデータを生成する確率を計算しますが、一方の端でのみ。技術的には、これは仮説とは無関係のようです。θ=θ0θ=θ0\theta = \theta_0θ≤θ0θ≤θ0\theta \le \theta_0H0H0H_0 さて、これは頻度論的仮説のテストであり、頻度論者は事前分布を置かないことを理解しています。しかし、それは単に、上記の計算を写真に当てはめるのではなく、仮説を受け入れたり拒否したりすることが不可能であることを意味するのではないでしょうか?θθ\theta

5
Rの「コメント」機能の良い使用法は何ですか?
commentRで関数を発見しました。例: x <- matrix(1:12, 3,4) comment(x) <- c("This is my very important data from experiment #0234", "Jun 5, 1998") x comment(x) この機能を使用したのはこれが初めてであり、この機能の一般的/有用な使用法について疑問に思っていました。グーグルで「Rコメント」を検索して関連する結果を見つけることは非常に難しいので、ここの誰かが彼の経験と共有することを望んでいました。
35 r 

7
重回帰モデルに含める変数の選択
現在、多重線形回帰を使用してモデルを構築しています。私のモデルをいじくり回した後、どの変数を保持し、どの変数を削除するかをどのように決定するのが最善かわからない。 私のモデルは、DVの10個の予測子から始まりました。10個すべての予測変数を使用した場合、4つが有意と見なされました。明らかに正しくない予測子の一部のみを削除すると、最初は重要ではなかった予測子の一部が重要になります。私の質問に私を導きます:どの予測子をモデルに含めるかをどのように決定するのですか?すべての予測変数を使用してモデルを一度実行し、重要でない予測変数を削除してから再実行する必要があるように思えました。しかし、それらの予測子の一部のみを削除すると他の予測子が重要になる場合、このすべてに対して間違ったアプローチを取っているのではないかと疑問に思われます。 私はと信じて、このスレッドは私の質問に似ていますが、私は私が正しく議論を解釈していますが不明です。おそらくこれはより実験的なデザインのトピックですが、誰かが共有できる経験があるかもしれません。


3
プールレイヤーはドロップアウトレイヤーの前または後に追加されますか?
畳み込みニューラルネットワーク(CNN)を作成しています。畳み込みレイヤーの後にプールレイヤーがあり、ドロップアウトを適用してオーバーフィットを減らします。プールレイヤーの後にドロップアウトレイヤーを適用する必要があると感じていますが、実際にそれをバックアップするものはありません。ドロップアウトレイヤーを追加する適切な場所はどこですか?プール層の前または後?

2
人工の地球温暖化の証拠は「ゴールドスタンダード」に当たります:彼らはどうやってこれをしましたか?
25.02.2019からのロイターの記事にあるこのメッセージは、現在すべてのニュースに掲載されています。 人工の地球温暖化の証拠は「ゴールドスタンダード」に当たります [科学者]は、人間の活動が地球の表面の熱を高めているという自信が「5シグマ」レベルに達したと言いました。温暖化なし。 これは、この記事「気候変動科学における3つの重要なイベントの記念日を祝う」を参照していると思います。これには、下図に示すプロットが含まれています無料の画像はこちらにあります)。同じ研究グループの別の記事は、より独創的な情報源と思われますが、ここにあります(ただし、ではなく1%の有意性を使用しています)。5つのσ5σ5\sigma このプロットは、リモートセンシングシステム、衛星応用研究センター、アラバマ大学ハンツビルの3つの異なる研究グループの測定値を示しています。 プロットは、トレンドの長さの関数として、信号対ノイズ比の3つの上昇曲線を表示します。 だから、何とか科学者は地球温暖化の人為的な信号を測定している(または気候変動を?)でレベル、明らかにいくつかある証拠の科学的な標準。5つのσ5σ5\sigma 私にとって、このようなグラフは抽象度が高く、多くの疑問を提起します、そして一般的に「どうやってこれをしたのですか?」という疑問について疑問に思います。。この実験を単純な単語に(しかし、それほど抽象的ではない)説明し、レベルの意味をどのように説明しますか?††^{\dagger} 5σ5つのσ5σ5\sigma 私は気候について議論したくないので、ここでこの質問をします。代わりに、統計コンテンツに関する回答、特にを使用/主張しているこのようなステートメントの意味を明確にするために答えを求めています。5つのσ5σ5 \sigma ††^\dagger帰無仮説とは何ですか?人為的な信号を得るために、彼らはどのように実験を設定しましたか?信号のエフェクトサイズは?それは単なる小さな信号であり、ノイズが減少しているため、または信号が増加しているため、今これを測定するだけです 5シグマのしきい値(独立、ランダム効果など)の交差を決定する統計モデルを作成するために、どのような仮定が行われますか?異なる研究グループの3つの曲線が異なるのはなぜですか、異なるノイズがあるのか​​、異なる信号があるのですか?後者の場合、確率と外部妥当性の解釈に関してそれはどういう意味ですか?

5
サンプルサイズを大きくすると(サンプリング)分散が小さくなるのはなぜですか?
大局: サンプルサイズを増やすと実験の力がどのように増加するかを理解しようとしています。私の講師のスライドは、2つの正規分布の図で説明します。1つは帰無仮説、もう1つは対立仮説とその間の決定しきい値cです。彼らは、サンプルサイズを大きくすると分散が低下し、それにより尖度が高くなり、曲線下の共有領域が減少し、タイプIIエラーの確率が低下すると主張しています。 小さい画像: サンプルサイズを大きくすると分散がどのように低下​​するかわかりません。 サンプルの分散を計算し、正規分布のパラメーターとして使用することを想定しています。 私は試した: グーグル、しかし、ほとんどの受け入れられた答えは0の賛成票を持っているか、単なる例 思考:大きい数の法則により、すべての値は最終的に、想定される正規分布に従ってその推定値を中心に安定するはずです。したがって、分散は、想定した正規分布の分散に収束するはずです。しかし、その正規分布の分散とは何ですか?それは最小値ですか?つまり、サンプル分散がその値まで減少することを確認できますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.