タグ付けされた質問 「inference」

サンプルデータから母集団パラメーターに関する結論を導き出す。https://en.wikipedia.org/wiki/Inferenceおよびhttps://en.wikipedia.org/wiki/Statistical_inferenceを参照してください

4
QQプロットの解釈方法
私は小さなデータセット(21の観測値)で作業しており、Rには次の通常のQQプロットがあります。 プロットが正規性をサポートしていないことを見て、基礎となる分布について何を推測できますか?右側に偏った分布がより適切であるように思えます、そうですか?また、データから他にどのような結論を導き出すことができますか?

12
ベイジアンとは?
統計に興味を持つようになると、「フリークエンティスト」と「ベイジアン」の二分法がすぐに一般的になります(とにかく、ネイトシルバーの「シグナルとノイズ」を読んでいない人はいますか?)。講演と入門コースでは、視点は圧倒的に頻繁(MLE、値)ですが、ベイズの公式を賞賛し、通常は接線で事前分布の概念に触れることに専念する時間はごくわずかである傾向があります。ppp ベイジアン統計を議論するために採用されたトーンは、その概念的基盤の尊重と、高尚な目標間の溝に関する懐疑主義のヒントと、事前分布の選択における意性、または結局は頻繁な数学の最終的な使用との間で振動します。 「もしあなたがハードコアベイジアンなら...」などの文はたくさんあります。 問題は、今日のベイジアンは誰ですか?彼らは、あなたがそこに行けば、あなたがベイジアンになることを知っているいくつかの学術機関ですか?もしそうなら、彼らは特別に求められていますか?尊敬されている統計学者や数学者だけに言及していますか? それらは、これらの純粋な「ベイジアン」としても存在しますか?彼らはラベルを喜んで受け入れますか?それはいつもお世辞の区別ですか?彼らは、会議で特異なスライドを持ち、値と信頼区間を奪われ、パンフレットで簡単に見つけられる数学者ですか?ppp どのくらいのニッチが「ベイジアン」であるか?私たちは少数の統計学者に言及していますか? または、現在のベイジアン主義は機械学習アプリケーションと同一視されていますか? ...またはもっと可能性が高いのは、ベイジアン統計は統計の枝ではなく、むしろ確率計算の範囲を超えて科学哲学へと向かう認識論的運動でしょうか?この点で、すべての科学者は本質的にベイジアンになります...しかし、頻繁なテクニック(または矛盾)に不浸透性の純粋なベイジアン統計学者のようなものはありません。

10
「分散」を直感的に理解する
分散の概念を誰かに説明する最もクリーンで簡単な方法は何ですか?それは直感的に何を意味しますか?子供にこれを説明する場合、どうすればいいでしょうか? 特に、分散をリスクに関連付ける場合、明確に表現するのが難しいという概念です。私はそれを数学的に理解し、そのように説明することもできます。しかし、現実世界の現象を説明するとき、分散を理解するにはどうすればよいのでしょうか。いわば「現実世界」での分散性の適用可能性です。 乱数を使用して株への投資をシミュレートしているとしましょう(サイコロを転がすか、Excelシートを使用するかは重要ではありません)。ランダム変数の各インスタンスをリターンの「何らかの変化」に関連付けることにより、「投資収益率」が得られます。例えば。: 1を振るということは、投資の1 ドルあたり0.8の変化、5は1 ドルあたり1.1の変化などを意味します。 このシミュレーションを約50回(または20または100)実行すると、いくつかの値と投資の最終値が得られます。それでは、上記のデータセットから「分散」を計算する場合、実際には何がわかりますか?「見る」もの-分散が1.7654または0.88765または5.2342であることが判明した場合、これはどういう意味ですか?この投資について何を観察しましたか?私はどんな結論を引き出すことができますか-素人の言葉で。 標準偏差の質問も自由に追加してください!私は理解するのが「簡単」だと感じていますが、それを「直感的に」明確にするのに役立つ何かが大歓迎です!

8
p値が有用な良い説得力のある例は何ですか?
タイトルの私の質問は自明ですが、コンテキストを与えたいと思います。 ASAは今週、「p値に関するコンテキスト、プロセス、目的」に関する声明を発表し、p値に関するさまざまな一般的な誤解の概要を示し、コンテキストと思考なしに使用しないように注意を促しています統計的な方法、本当に)。 ASAに応えて、Matloff教授は150年後、ASAはp-valuesにノーと言うブログ投稿を書きました。その後、ベンジャミニ教授(および私)は、「p値の誤りではない -最近のASAステートメントに関する考察」というタイトルの応答投稿を書きました。それに応えて、マトロフ教授はフォローアップの投稿で尋ねました: 私が見たいのは[...は] -p値が有用である、説得力のある良い例です。それは本当に一番下の行でなければなりません。 値の有用性に対する彼の 2つの主要な議論を引用するには:ppp サンプル数が多い場合、有意性検定は、帰無仮説からの重要ではないわずかな逸脱に飛びつきます。 現実世界では帰無仮説がほとんどないので、それらに対して有意性検定を実行するのはばかげて奇妙です。 私は、他の相互検証されたコミュニティのメンバーがこの質問/議論についてどう考えているか、そしてそれに対する良い反応を構成するものに非常に興味があります。

12
両側検定...私は納得していません。ポイントは何ですか?
次の抜粋はエントリからのものです。片側検定と両側検定の違いは何ですか?、UCLAの統計ヘルプサイトで。 ...他の方向の効果を見逃した場合の結果を考慮してください。既存の薬物よりも改善されたと思われる新しい薬物を開発したと想像してください。改善を検出する能力を最大限に高めたいため、片側検定を選択します。そうすることで、新薬が既存の薬よりも効果が低い可能性をテストすることに失敗します。 仮説検定の絶対的な基礎を学び、1対2検定の一部を理解した後... 1検定の基本的な数学と検出能力の向上などを理解しました。一つのことについて...ポイントは何ですか?サンプルの結果がどちらか一方のみであるか、どちらでもない場合に、アルファを2つの極端に分割する必要がある理由を本当に理解できていません。 上記の引用テキストからシナリオ例をご覧ください。どうして逆方向の結果を「テストに失敗する」のでしょうか?サンプルの平均値があります。人口の平均値があります。単純な算術により、どちらが高いかがわかります。反対方向にテストする、またはテストに失敗するものは何ですか?サンプルの平均が他の方向に外れていることがはっきりとわかる場合、反対の仮説でゼロから始めただけで何が止まっているのでしょうか? 同じページからの別の引用: 帰無仮説の棄却に失敗した両側検定を実行した後に片側検定を選択することは、両側検定の有意性に「近い」場合でも適切ではありません。 これは、片側検定の極性の切り替えにも当てはまると思います。しかし、最初に正しい片側検定を単に選択した場合よりも、この「ドクターされた」結果の有効性は低いのでしょうか。 明らかに私はここで写真の大部分を見逃しています。それはただarbitrary意的すぎるように思えます。これは、「統計的に有意な」ことを示すもの-95%、99%、99.9%...という意味で、最初は任意です。

7
なぜ誰かが、従来のアプローチの代わりに「情報価値のない」不適切な事前のベイジアンアプローチを使用するのでしょうか?
関心が単にモデルのパラメーターを推定するだけで(ポイントワイズおよび/または間隔推定)、以前の情報が信頼できず、弱い場合(これは少しあいまいですが、選択のシナリオを確立しようとしています)事前は困難です)...なぜ誰かが、古典的なアプローチの代わりに「非情報的」な不適切な事前確率でベイジアンアプローチを使用することを選択するのでしょうか?

3
2つの異なる回帰からの係数の等価性のテスト
これは基本的な問題のようですが、2つの異なる回帰からの係数の等価性をテストする方法が実際にはわからないことに気付きました。誰もこれにいくらか光を当てることができますか? より正式に、私は、次の2つの回帰を実行したとします と どこ、回帰の計画行列を指し、、および回帰における係数のベクトルに。とは潜在的に非常に異なっており、異なる次元などがあることに注意してください。たとえば、かどうかに興味があります。、Y 2 = X 2 β 2 + ε 2 X I I β I I X 1 X 2 β 11 ≠ β 21y1= X1β1+ ϵ1y1=X1β1+ϵ1 y_1 = X_1\beta_1 + \epsilon_1 y2= X2β2+ ϵ2y2=X2β2+ϵ2 y_2 = X_2\beta_2 + \epsilon_2 バツ私XiX_i私iiβ私βi\beta_i私iiバツ1X1X_1バツ2X2X_2β^11≠ β^21β^11≠β^21\hat\beta_{11} \neq \hat\beta_{21} これらが同じリグレッションに由来する場合、これは簡単なことです。しかし、それらは異なるものから来ているので、私はそれを行う方法がよくわかりません。誰かがアイデアを持っていますか、私にいくつかの指針を与えることができますか? 私の問題の詳細:私の最初の直観は、信頼区間を見ることでした。そして、それらが重なる場合、それらは本質的に同じであると言えます。ただし、この手順には正しいサイズのテストが付属していません(つまり、個々の信頼区間にはありますが、それらを一緒に見ると同じ確率にはなりません)。私の「2番目」の直観は、通常のt検定を行うことでした。つまり、取るα = …



3
なぜ基本的な仮説検定は中央値ではなく平均値に焦点を合わせているのですか?
基本的な学部生の統計コースでは、学生は(通常?)母集団の平均に対する仮説検定を教えられます。 中央値ではなく平均値に焦点が当てられているのはなぜですか?私の推測では、中心極限定理のために平均値をテストする方が簡単だと思いますが、私はいくつかの教育された説明を読みたいです。

2
データを視覚化した後に統計テストを実行する-データの??
例としてこの質問を提案します。 ボストンの住宅価格データセットなどのデータセットがあり、そこに連続変数とカテゴリ変数があるとします。ここには、1〜10の「品質」変数と販売価格があります。品質のカットオフを(任意に)作成することで、データを「低」、「中」、「高」の品質の家に分けることができます。次に、これらのグループを使用して、販売価格のヒストグラムを相互にプロットできます。そのようです: ここで、「低」は、および「高」である> 7「品質」スコアに。これで、3つのグループのそれぞれの販売価格の分布ができました。中品質の住宅と高品質の住宅では、場所の中心に違いがあることは明らかです。さて、これをすべて終えた後、「うーん、場所の中心に違いがあるようです!どうして平均値でt検定をしないのですか?」と思います。次に、平均に差がないという帰無仮説を正しく拒否するように見えるp値を取得します。≤ 3≤3\leq 3> 7>7>7 さて、データをプロットするまで、この仮説をテストすることを何も考えていないとします。 このデータはdrですか? 「もし、私は以前に家に住んでいた人間だから、高品質の家はもっと費用がかかるに違いない。データをプロットするつもりだ。ああ、違う!時間だ!」 t検定に!」 当然、この仮説を最初からテストするためにデータセットが収集された場合、データのredではありません。しかし、しばしば私たちに与えられたデータセットで作業しなければならず、「パターンを探す」ように言われます。このあいまいなタスクを念頭に置いて、データのdrを回避する方法を教えてください。データをテストするためのホールドアウトセットを作成しますか?視覚化は、データによって提案された仮説をテストする機会のスヌーピングとして「カウント」されますか?

3
p値の確立されたビューに対応する
レポートには、p値や他の推論統計に関する免責事項を含めることがあります。サンプルはランダムではなかったため、そのような統計は厳密には適用されないでしょう。私の具体的な言葉遣いは、通常、脚注に記載されています。 「厳密に言えば、推論統計はランダムサンプリングのコンテキストでのみ適用されますが、非ランダムサンプルでも有意水準および/または信頼区間を便利な尺度として報告する慣習に従います。MichaelOakesの 統計的推論:行動科学 (NY:Wiley、1986)。 いくつかの場合(査読付き論文の場合、非学術的な環境で1回または2回)、編集者または校閲者はこの免責事項に異議を唱え、混乱を招き、推論の結果は単に書かれたままになるべきだと感じました(そして権限のマントを与えられる)。他の誰かがこの問題に遭遇し、良い解決策を見つけましたか?一方で、p値の人々の理解は、ランダムサンプリングのコンテキストであっても、一般に陰気です。したがって、おそらく、私たちが言うことはそれほど重要ではありません。一方、誤解にさらに貢献することは、問題の一部になっているようです。ランダムな割り当てが適用されず、モンテカルロシミュレーションが代表性の問題に対処できないことが多い調査研究に頻繁に対処することを付け加えます。

7
推論対推定?
機械学習のコンテキストでの「推論」と「推定」の違いは何ですか? 初心者として、私はランダム変数を推測し、モデルのパラメーターを推定すると感じています。私のこの理解は正しいですか? そうでない場合、違いは正確に何であり、どれをいつ使用する必要がありますか? また、「学習」の同義語はどれですか?

5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

3
ランダムなサンプルが明らかに代表的でない場合はどうなりますか?
ランダムなサンプルを取り、それが明らかに最近の質問のように代表ではないことがわかる場合はどうでしょう。たとえば、人口分布が0を中心に対称であると仮定し、ランダムに描画するサンプルに不均衡な正と負の観測値があり、不均衡が統計的に有意である場合、どうなりますか?バイアスされたサンプルに基づいて、母集団についてどのような合理的な説明をすることができますか?そのような状況での合理的な行動方針は何ですか?私たちの研究でこの不均衡に気づいたとき、それは重要ですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.