タグ付けされた質問 「rule-of-thumb」

実際に役立つ統計分析に関するアドバイス(ただし、常に機能するとは限りません)。

24
「最新の」統計の経験則
フィリップ・アイ・グッドとジェームズ・W・ハーディンのG van BelleのThumbs of Statistics Rulesに関する本と、それほどではないが統計の一般的なエラー(およびそれらを回避する方法)が好きです。彼らは、実験的および観察的研究からの結果を解釈する際の一般的な落とし穴に対処し、統計的推論または探索的データ分析のための実用的な推奨事項を提供します。しかし、特にさまざまな分野での計算とロバストな統計の使用の増加や、臨床生物統計学や遺伝疫学などの機械学習コミュニティからの技術の導入により、「現代の」ガイドラインはやや欠けていると感じています。 他の場所で対処できるデータの視覚化における計算上のトリックや一般的な落とし穴は別として、私は尋ねたいと思います:効率的なデータ分析のために推奨する経験則は何ですか?(回答ごとに1つのルールをお願いします)。 私は、あなたが同僚、統計モデリングの強力なバックグラウンドを持たない研究者、または中級から上級コースの学生にあなたが提供するかもしれないガイドラインを考えています。これは、サンプリング戦略、特徴選択またはモデル構築、モデル比較、事後推定などのデータ分析のさまざまな段階に関係する場合があります。

8
ヒストグラム内のビンの最適数の計算
ヒストグラムで使用するビンの数を決定するために、できる限り最適な方法を見つけることに興味があります。私のデータは最大で30〜350個のオブジェクトの範囲である必要があります。特に、「Otsuの方法のように」しきい値を適用しようとしています。悪い」オブジェクト。値の密度を高める必要があります。具体的な値は、オブジェクトごとに1〜10のスコアを持ちます。スコア6〜10の5〜10個のオブジェクトと、スコア1〜4の20〜25個のオブジェクトがありました。一般的に大津の方法のようなものが低得点のオブジェクトを閾値処理することを可能にするヒストグラムビニングパターンを見つけたいです。しかし、私が見たOtsuの実装では、ビンのサイズは256であり、多くの場合、256よりもはるかに少ないデータポイントがあります。私にとっては、256は良いビン番号ではないことを示唆しています。データが非常に少ない場合、使用するビンの数を計算するためにどのようなアプローチを取る必要がありますか?

7
重回帰の最小サンプルサイズの経験則
社会科学の研究提案の文脈の中で、私は次の質問をされました。 重回帰の最小サンプルサイズを決定するときは、常に100 + m(mは予測子の数)になりました。これは適切ですか? 同様の質問が頻繁に出ますが、多くの場合、経験則が異なります。また、さまざまな教科書でそのような経験則をかなり読みました。引用に関するルールの人気は、基準がどれだけ低く設定されているかに基づいているのかと疑問に思うことがあります。ただし、意思決定を簡素化する上での優れたヒューリスティックの価値も認識しています。 質問: 調査研究を設計する応用研究者の文脈の中で、最小サンプルサイズの単純な経験則の有用性は何ですか? 重回帰の最小サンプルサイズの代替経験則を提案しますか? あるいは、重回帰の最小サンプルサイズを決定するために、どのような代替戦略を提案しますか?特に、非統計学者が戦略を容易に適用できる程度に値が割り当てられるとよいでしょう。

4
30を十分な大きさのサンプルサイズとして使用することをサポートするには、どの参考文献を引用する必要がありますか
少なくとも30単位のサンプルサイズが「大きなサンプル」と見なされることを何度も読んだり聞いたりしました(通常、CLTにより平均値の正規性の仮定が成り立つ...)。したがって、私の実験では、通常30ユニットのサンプルを生成します。サンプルサイズ30を使用する際に引用する必要がある参考資料を教えてください。

2
さまざまな条件下での2つの数値変数間の関連性をグラフ化するためのヒントを含む優れたオンラインリソース
コンテキスト: その間、2つの数値変数間の関連を効果的にプロットする方法に関する一連のヒューリスティックを取得しました。データを扱うほとんどの人が同様のルールを持っていると思います。 このようなルールの例は次のとおりです。 変数の1つが正に歪んでいる場合、その軸を対数目盛でプロットすることを検討してください。 多数のデータポイントがある場合(たとえば、n> 1000)、何らかの形式の部分透過性の使用やデータのサンプリングなど、別の戦略を採用します。 変数の1つが限られた数の離散カテゴリをとる場合、ジッターまたはヒマワリプロットの使用を検討してください。 3つ以上の変数がある場合、散布図行列の使用を検討してください。 何らかの形のトレンドラインを当てはめることはしばしば有用です。 プロット文字のサイズをサンプルサイズに調整します(nが大きい場合は、より小さいプロット文字を使用します)。 等々。 質問: おそらく例を挙げて、2つの数値変数間の関連性を効果的にプロットするためのこれらおよびその他のトリックを説明するWebページまたはサイトを生徒に紹介できるようにしたいと思います。 インターネット上でこれをうまく機能させるページやサイトはありますか?

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

3
クラスタリングの
誰もがL 2ではなく、またはL .5メトリックをクラスタリングに使用していますかL1L1L_1L.5L.5L_.5L2L2L_2ますか? Aggarwal et al。、 高次元空間での距離メトリックの驚くべき振る舞いについて (2001年) は、ユークリッド距離計量よりも一貫して好ましい L1L1L_1、高次元データマイニングアプリケーションで L 2L2L2L_2 そして、L.5L.5L_.5またはがさらに優れているました。L.1L.1L_.1 L 1を使用する理由L1L1L_1または、理論的または実験的である可能性があります。たとえば、外れ値/カバンの論文に対する感度、または実際のデータまたは合成データで実行されるプログラムです(再現可能)。例や写真は、私の素人の直感を助けるでしょう。L.5L.5L_.5 この質問は、ボブ・デュラントの回答に対するフォローアップです When-is-nearest-neighbor-meaningful-todayです。彼が言うように、の選択はデータとアプリケーションの両方に依存します。それにもかかわらず、実際の経験のレポートは有用でしょう。ppp 6月7日火曜日に追加されたメモ: 私は、「L1-ノルムおよび関連する方法に基づく統計データ分析」、Dodge ed。、2002、454p、isbn 3764369205 —多数の会議論文に出くわしました。 誰でもiid指数関数の距離集中を分析できますか?指数関数の1つの理由は ; 別の(専門家ではない)は、最大エントロピー分布が 0 以上であることです。3つ目は、一部の実際のデータセット、特にSIFTはほぼ指数関数的に見えることです。|exp−exp|∼exp|exp−exp|∼exp|exp - exp| \sim exp≥≥\ge


1
一連の広告のうち、クリック率が最も高いものを特定するために必要なサンプルサイズ
私は貿易のソフトウェアデザイナーであり、クライアントのプロジェクトに取り組んでいます。私の分析が統計的に正しいことを確認したいと思います。 次のことを考えてみましょう: 私たちは持っているのn広告(N <10)、そして私たちは、単に最高を実行する広告を知りたいです。 広告サーバーはこれらの広告の1つをランダムに配信します。ユーザーが広告をクリックすると成功します-私たちのサーバーはそれを追跡します。 前提:信頼区間:95% 質問:推定サンプルサイズはどのくらいですか?(配信する必要がある広告の合計数)、なぜですか?(私はダミーです) ありがとう

4
MANOVAと従属変数間の相関関係:どれほど強すぎるか?
MANOVAの従属変数は、「相関が強すぎる」べきではありません。しかし、どれだけ強い相関が強すぎるのでしょうか?この問題について人々の意見を得ることは興味深いでしょう。たとえば、以下の状況でMANOVAを続行しますか? Y1およびY2は、およびと相関していますr = 0.3r=0.3r=0.3p &lt; 0.005p&lt;0.005p<0.005 Y1とY2は、およびと相関しています。r = 0.7r=0.7r=0.7p = 0.049p=0.049p=0.049 更新 @onestopへの応答としてのいくつかの代表的な引用: 「MANOVAは、DV間に中程度の相関がある状況でうまく機能します」(San Francisco State Uniからのコースノート) 「従属変数には相関関係があり、これはManovaに適しています」(米国EPA統計入門) 「従属変数は概念的に関連している必要があり、それらは低レベルから中程度のレベルで互いに相関している必要があります。」(北アリゾナ大学からのコースノート) 「約.3から約.7に相関するDVは適格です」(Maxwell 2001、Journal of Consumer Psychology) nb Y1とY2の間の相互相関が独立変数のすべてのレベルで同じであるという仮定については言及していません。相互相関の実際の大きさに関するこの見かけ上の灰色の領域についてのみです。


1
均一ビンと非均一ビンのヒストグラム
この質問では、均一ヒストグラムと非均一ヒストグラムの基本的な違いについて説明します。そして、この質問は、ヒストグラムがデータサンプルの抽出元の分布を表す度合いを(ある意味で)最適化する均一なヒストグラムのビンの数を選択するための経験則について説明します。 均一ヒストグラムと非均一ヒストグラムについて同じ種類の「最適性」の議論を見つけることができないようです。遠く離れた外れ値を持つクラスター化されたノンパラメトリック分布があるので、不均一なヒストグラムは直感的に理解しやすくなります。しかし、私は次の2つの質問のより正確な分析を見たいです。 均一ビンのヒストグラムは、非均一ビンのヒストグラムよりも優れているのはいつですか? 不均一なヒストグラムのビンの適切な数はいくつですか? 不均一なヒストグラムのために、私たちが取る最も単純なケースと考えています順序得られ、未知の分布からサンプルをN値、及びにそれらを分離するk個の各ビンを有するようにビンkはんnnんnnkkkkんkn\frac{k}{n}N ≡ CのKn≡ckn \equiv c kccc最高max\max私ii分分\mini + 1私+1i+1

1
事前確率分布をどのように形式化しますか?経験則や使用すべきヒントはありますか?
ベイジアン統計分析と意思決定における事前情報の概念をよく理解していると思いたいのですが、そのアプリケーションに頭を悩ませるのに苦労することがよくあります。私は自分の闘争を例証するいくつかの状況を念頭に置いており、これまでに読んだベイジアン統計教科書ではそれらが適切に扱われていないと感じています。 数年前に私が実施した調査で、68%の人がACME製品の購入に関心があると言ったとします。再度調査を行うことにしました。前回と同じサンプルサイズ(たとえば、n = 400)を使用しますが、それ以降、人々の意見は変わった可能性があります。ただし、以前のバージョンとして、400人中272人が「はい」と回答したベータ版の分布を使用する場合、数年前に行った調査と現在実施している調査に同じ重みを与えます。そのデータが数年前のものであるという理由で、以前に置いておきたいより大きな不確実性を確立するための経験則はありますか?以前のものを272/400から例えば136/200に減らすことができると理解していますが、これは非常に恣意的であり、おそらく文献に何らかの形で正当化があるのだろうかと思います。 別の例として、臨床試験を実行しようとしているとしましょう。試験を開始する前に、専門家の意見、以前の臨床試験(関連性の異なる)の結果、その他の基本的な科学的事実など、予備情報として使用できるいくつかの二次調査を実行します。 (そのうちのいくつかは本質的に非定量的です)事前の確率分布?データに圧倒されることを確実にするためにどの家族を選び、それを普及させるかを決定するだけのケースですか、それともかなり有益な事前配布を確立するために行われる多くの作業がありますか?

1
Freedman–Diaconisルールによるヒストグラムのビンの最適な数:理論上のレートと実際の数の差
ウィキペディアは、フリードマンとディアコニスのルールの下で、ヒストグラムのビンの最適な数、はkkk k∼n1/3k∼n1/3k\sim n^{1/3} ここで、はサンプルサイズです。nnn ただし、nclass.FD少なくともガウスデータでこのルールを実装するR の関数を見ると、場合、ビンの数はよりも速い速度で増加しているように見えます、に近い(実際には、最適な近似は示唆してい)。この違いの根拠は何ですか?N 1 / 3 N 1 - √ログ(N )∈ (8 、16 )log⁡(n)∈(8,16)\log(n)\in(8,16)ん1 / 3n1/3n^{1/3} m個≈N0.4ん1 - 1 / 3√n1−1/3n^{1-\sqrt{1/3}}M ≈ nは0.4m≈n0.4m\approx n^{0.4} 編集:詳細: ラインはOLSで、切片は0.429、勾配は0.4です。いずれの場合も、データ(x)は標準のガウスから生成され、に入力されましたnclass.FD。プロットは、ベクトルのサイズ(長さ)とnclass.FD関数から返されるクラスの最適数を示しています。 ウィキペディアからの引用: ビンの数が比例する必要がある理由 は次のとおりです。データが滑らかな密度の有界確率分布のn個の独立した実現として得られると仮定します。次に、nは無限大になる傾向があるので、ヒストグラムは等しく「険しい」ままです。場合分布(例えば、標準偏差またはインター四分位範囲)の»幅«であり、次いで、ビン内のユニット数(周波数)程度であると相対標準誤差は、オーダーであります。次のビンと比較すると、密度の導関数がゼロでない場合、周波数の相対変化は次数です。場合、これら2つは同じ順序です。 S N H / S √ん1 / 3n1/3n^{1/3}sssn 時間/秒nh/sn h/sのH/SHS/N 1 / 3 KN 1 / 3s /(n …

1
統計の基本的な簡単なルール
二項実験では、個の個体間で正の個体が観察される場合、正の個体の割合はより大幅に低く、タイプ1の誤差は以下で非常に近いです。この事実は、「3つのルール」と呼ばれることもありますが、不等式の結果ですx=0x=0x=0nnn3/n3/n3/n5%5%5\%exp(−np1−p)≤Pr(X=0)≤exp(−np).exp⁡(−np1−p)≤Pr(X=0)≤exp⁡(−np).\exp\left(-\frac{np}{1-p}\right) \leq \Pr(X=0) \leq \exp(-np). 統計に関する他の基本的な簡単なルールを知っていますか?私はそれらがとても面白くて便利だと思います。この原則は、信頼できる理論的根拠があるため、実際には「経験則」ではありませんが、この質問には別のタグがありません(トピックから外れていないことを願っています)
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.