タグ付けされた質問 「reporting」

統計分析の結果を研究原稿、プレゼンテーション、または一般向けに提示するためのガイドライン。

4
小さな
の一部のテストでRは、のp値の計算に下限があります。正当な理由がある場合、または単にarbitrary意的なものである場合、なぜこの数字なのかわかりません。他の多くの統計パッケージはに移動するだけなので、これははるかに高いレベルの精度です。しかし、または報告している論文はあまり見ていません。2.22⋅10−162.22⋅10−162.22 \cdot 10^{-16}0.0001p&lt;2.22⋅10−16p&lt;2.22⋅10−16p < 2.22\cdot 10^{-16}p=2.22⋅10−16p=2.22⋅10−16p = 2.22\cdot 10^{-16} この計算値を報告するのは一般的/ベストプラクティスp &lt; 0.000000000000001ですか、それとも他の何か(など)を報告するのがより一般的ですか?

4
記述統計を報告する意味は何ですか?
ロジスティック回帰を使用してデータの分析を実行しましたが、レポートに記述的な統計の部分を含める必要もあります。正直なところ、この点についてはわかりませんが、なぜそれが必要なのかを誰かが説明できるかもしれないと期待していました。 たとえば、独立した連続変数の1つのヒストグラムをプロットし、それが正規性を示す場合、または歪度を示す場合、どのようにレポートに値を追加しますか? 私のデータは、就職の従属変数trueまたはfalseで構成されており、独立変数は、中間期の成績、最終試験の成績、および男性または女性です。


6
より重要な統計:「すべての女性の90パーセントが生き残った」または「生き残ったすべての人々の90パーセントは女性でしたか?」
タイタニックに関する次のステートメントを検討してください。 仮定1:男性と女性のみが船に乗っていた 仮定2:女性だけでなく男性も多数いた ステートメント1:すべての女性の90%が生き残った 声明2:生き残った人の90%は女性でした 最初は、女性を救うことはおそらく優先度が高いことを示しています(男性を救うかどうかに関係なく) 2番目の統計はいつ有用ですか? そのうちの1つは、ほとんどの場合、もう1つよりも有用であると言えますか?

4
サンプルサイズが非常に大きい場合の信頼区間
私の質問は、特に雑誌の出版物については、「ビッグデータを使用してサンプリングエラーを評価する方法」と言い換えることができます。課題を説明するための例を次に示します。 非常に大規模なデータセット(100を超える病院の100,000を超える一意の患者と処方薬)から、特定の薬を服用している患者の割合を推定することに興味がありました。この比率を取得するのは簡単です。nは非常に大きいため、その信頼区間(パラメトリックまたはブートストラップなど)は非常にタイト/ナローです。サンプルサイズが大きいことは幸運ですが、エラー確率のいくつかの形式を評価、提示、および/または視覚化する方法を探しています。信頼区間(例:95%CI:.65878-.65881)を入力/視覚化することは(誤解を招くものではないにしても)役に立たないように見えますが、不確実性に関するいくつかの陳述を避けることも不可能と思われます。 ご意見をお聞かせください。このトピックに関する文献をいただければ幸いです。サンプルサイズが大きい場合でも、データの過剰な信頼を回避する方法。

2
ウェルチt検定の自由度の報告
不等分散(Welch-SatterthwaiteまたはWelch-Aspinとも呼ばれます)のウェルチt検定は、一般に非整数の自由度を持ちます。テストの結果を報告するとき、これらの自由度はどのように引用されるべきですか? さまざまな情報源*によると、「標準トンのテーブルに相談する前に最も近い整数に切り捨てするために、従来のです」 - 。保守的である、丸めのこの方向として理にかなっている。**一部の古い統計ソフトウェア(例えば、あまりにもこれを行うだろうグラフパッド・プリズムバージョンの前に6)といくつかのオンライン計算機はまだあります。この手順が使用されていた場合、切り捨てられた自由度を報告することが適切と思われます。(より優れたソフトウェアを使用することはさらに適切かもしれません!) しかし、最新のパッケージの大部分は小数部分を使用しているため、この場合は小数部分を引用する必要があります。1000分の1の自由度はp値にごくわずかな影響しか与えないため、小数点以下2桁以上を引用するのが適切であるとは思えません。 Googleの学者を見てみると、dfを小数点以下1桁または2桁の整数として引用している論文を見ることができます。使用する精度についてのガイドラインはありますか?また、ソフトウェアは、完全な小数部を使用する場合、引用されたDFは丸められるべきダウン図形の所望の数(例えばに対して7.5845...→7.57.5845...→7.57.5845... \rightarrow 7.5 1〜DPまたは→7→7\rightarrow 7整数として)保存的計算と適切であったとして、または私にとってより賢明なように、7.5845 ... → 7.6から1 dpまたは→ 8が最も近い全体になるように、従来のように(最も近い)丸められますか?7.5845...→7.67.5845...→7.67.5845... \rightarrow 7.6→8→8\rightarrow 8 編集:非整数dfを報告する最も理論的に健全な方法を知っていることは別として、人々が実際に何をしているかを知ることも良いでしょう。おそらく、ジャーナルとスタイルガイドには独自の要件があります。私は、APAのような影響力のあるスタイルガイドが何を要求するのか興味があります。私が識別できることから(マニュアルはオンラインで無料で入手できません)、APAは一般的に、p値(2または3dpの可能性があります)およびパーセンテージ(最寄りパーセント) -カバー回帰スロープ、そのトンの統計、Fの統計、χ2χ2\chi^2統計など。これは非常に非論理的で、小数点以下2桁が非常に異なる有効数字を占め、982.47よりも2.47でかなり異なる精度を示唆しますが、非科学的なサンプルで見た小数点以下2桁のウェルチdfの数を説明するかもしれません。 ∗∗* eg GD、ラクストン不等分散t検定は、スチューデントのt検定およびMann-Whitney U検定の未使用の代替手段です。行動生態学(2006年7月/ 8月)17(4):688-690 doi:10.1093 / beheco / ark016 ∗∗∗∗** Welch-Satterthwaite近似自体は保守的である場合と保守的でない場合がありますが、保守的でない場合は、自由度を切り捨てても全体を補償する保証はありません。

1
線形混合効果モデルの結果の報告
線形混合効果モデルは、生物学の隅では一般的に使用されていません。執筆しようとしている論文で使用した統計検定を報告する必要があります。生物科学のいくつかの分野でマルチレベルモデリングの認識が現れ始めていることを知っています(依存関係の解決策:ネストされたデータに対応するためにマルチレベル分析を使用)。 私の実験デザインの概要: *被験者は4つの治療グループの1つに割り当てられました *従属変数の測定は治療開始後のさまざまな日に行われました *デザインは不均衡です一部の被験者の数日間の測定値) *治療Aは参照カテゴリーです*治療 の最終日にデータを集中しました 治療A(参照カテゴリー)が他の治療(治療終了時)よりも有意に良い結果をもたらすかどうか知りたいです。 私はnlmeを使用してRで分析を行いました: mymodel &lt;- lme(dv ~ Treatment*Day, random = ~1|Subject, data = mydf, na.action = na.omit, + correlation = corAR1(form = ~1 |Subject), method = "REML") また、出力(一部、簡潔にするために切り捨てられます)は次のとおりです。 &gt;anova(mymodel) numDF denDF F-value p-value (Intercept) 1 222 36173.09 &lt;.0001 Treat 3 35 16.61 &lt;.0001 Day …

3
報告する有効桁数
かなり標準的な状況(大学の1年生のクラスなど)で、平均または信頼区間について報告する有効桁数を決定するより科学的な方法はありますか? 私が見てきた、テーブルに置くために有効数字の数を、我々は有効桁使用していないのはなぜおよびカイ二乗適合に有効数字の数を、これらの問題に自分の指を入れていないように見えます。 私のクラスでは、結果に非常に広い標準誤差がある場合に15桁の有効数字を報告するのはインクの無駄であることを生徒に説明しようとしています。。これは、E29を参照するASTM- レポートテスト結果でと間にあるべきであると言っているところとあまり違いはありません。0.25σ0.25σ0.25\sigma0.05σ0.05σ0.05\sigma0.5σ0.5σ0.5\sigma 編集: x以下のような一連の数値がある場合、平均と標準偏差を出力するために何桁使用する必要がありますか? set.seed(123) x &lt;- rnorm(30) # default mean=0, sd=1 # R defaults to 7 digits of precision options(digits=7) mean(x) # -0.04710376 - not far off theoretical 0 sd(x) # 0.9810307 - not far from theoretical 1 sd(x)/sqrt(length(x)) # standard error of mean 0.1791109 質問:これに平均と標準偏差の精度(倍精度数のベクトルがある場合)を詳しく説明し、平均と標準偏差を有効桁数の有効桁数に出力する単純なR教育関数を記述します。ベクトルに反映されxます。

2
重要ではない結果を報告する必要がありますか?
私はクラスカルウォリス検定を実行しましたが、一部の質問ではp値は重要ではありません。これを有意であるのと同じ方法で報告し、df、検定統計量、p値を示しますか?したがって、このようなKruskal Wallis検定が実行されますが、結果は有意ではないことがわかりましたH(3)= 2.119、p&gt; 0.05(または、ここに正確なp値(.548)を記載します)

2
中央値の信頼区間を報告することがあまり一般的ではないのはなぜですか?
応用科学の論文で報告された信頼区間を見つけるのがそれほど一般的ではないのはなぜですか?私は主にコンピューターサイエンスに取り組んでいますが、(社会)心理学、社会学、都市計画の論文をよく読んでいます。報告された中央値のCIを見たことを思い出せません。 同時に、信頼区間などを調査しているときに、中央値が自分のデータのより良い記述子であるすべての状況で、これが提示されるべき推定値であることが私には明らかになりました。 中央値のCIを提示することが一般的でない理由には、理論的な理由がありますか?

3
高度に歪んだ変数を要約するための平均
私は高度に歪んだデータに取り組んでいるので、中心的な傾向を要約するために平均の代わりに中央値を使用しています。分散の測定値が欲しい中心傾向を要約するために、平均標準偏差±±\pmまたは中央値四分位数±±\pmを報告する人がよく見られますが、中央値中央値絶対分散(MAD)±±\pm を報告しても問題ありませんか?このアプローチには潜在的な問題がありますか? このアプローチは、特に数値でいっぱいの大きなテーブルでは、下位および上位の四分位数をレポートするよりもコンパクトで直感的だと思います。

2
単純な線形回帰の結果の報告:含める情報は何ですか?
Genstatで(非常に)単純な線形回帰を実行したばかりで、出力の簡潔で意味のある要約をレポートに含めたいと思います。含める必要がある情報の内容や量が正確にわかりません。 Genstat出力の主なビットは次のようになります。 Summary of analysis Source d.f. s.s. m.s. v.r. F pr. Regression 1 8128935. 8128935. 814.41 &lt;.001 Residual 53 529015. 9981. Total 54 8657950. 160332. Percentage variance accounted for 93.8 Standard error of observations is estimated to be 99.9. Estimates of parameters Parameter estimate s.e. t(53) t pr. Constant …

1
マンホイットニー検定をどのように報告しますか?
私は学位論文を作成しており、いくつかのテストを実施しています。クラスカル・ウォリス検定を使用した後、私は通常、次のような結果を報告します。 有意差があるの手段との間に...(χ2(2)=7.448,p=.024)(χ(2)2=7.448,p=.024)(\chi^2_{(2)}=7.448, p=.024) しかし、今はマン・ホイットニー検定を実施しましたが、どの値を提示すべきかわかりません。SPSSは、マンホイットニー、ウィルコクソンW、ZおよびP値を私に与えます。これらの4つの値をすべて提示しますか?それとも無関係ですか?UUUWWWZZZPPP

1
Anovaの結果で使用される平方和のタイプが論文でほとんど報告されないのはなぜですか?
統計における私の短い経験に続いて、ANOVA結果を取得するために使用される二乗和のタイプ(タイプI、II、III、IV ...)は、テスト結果(特に、相互作用と欠落のあるモデル)に劇的な違いをもたらす可能性があるデータ)。しかし、それを報告する論文はまだ見ていません。どうしてこんなことに? (統計自体ではなく)何らかの方法でそれを報告する紙の例、またはそれが一般的ではない理由を提供していただければ幸いです。

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.