タグ付けされた質問 「descriptive-statistics」

記述統計は、平均と標準偏差、中央値と四分位数、最大値と最小値など、サンプルの特徴を要約します。複数の変数を使用して、相関とクロス集計を含めることができます。箱ひげ図、ヒストグラム、散布図などの視覚表示を含めることができます。

1
95%の信頼できる間隔を見つける方法
次の事後分布の95%の信頼できる間隔を計算しようとしています。Rの関数を見つけることができませんでしたが、以下のアプローチは正しいですか? x <- seq(0.4,12,0.4) px <- c(0,0, 0, 0, 0, 0, 0.0002, 0.0037, 0.018, 0.06, 0.22 ,0.43, 0.64,0.7579, 0.7870, 0.72, 0.555, 0.37, 0.24, 0.11, 0.07, 0.02, 0.009, 0.005, 0.0001, 0,0.0002, 0, 0, 0) plot(x,px, type="l") mm <- sum(x*px)/sum(px) var <- (sum((x)^2*px)/sum(px)) - (mm^2) cat("95% credible interval: ", round(mm -1.96*sqrt(var),3), "-", …

1
複数のメトリックを組み合わせて、k個のオブジェクトの比較/ランキングを提供する[質問と参照のリクエスト]
k個のオブジェクトに関するメトリックを収集するんnnkkk k個のオブジェクトについてメトリックを収集するとします。「ランク付け」できるようにk個のオブジェクトを比較する有効な方法を探しています。私はこれはよく踏みにじられた根拠かもしれないと思います(総クォーターバック評価などのスポーツ統計)が、私はこの分野に慣れていません。んnnkkkkkk どのオブジェクトが最適かという質問に答えたいですか? 収集されたメトリックに関する情報 各メトリックの、iは範囲である1 ≤ I ≤ N、メトリックのスコアM iは、の範囲[ 0 、rは私が ]。これらのメトリックのいくつかは100 %パーセントなどの理論上の最大値を持ち、他のr iはサンプル内の収集された最大スコア(たとえば、最高速度、高さなど)であることに注意してください。メートル私mim_i私ii1つの≤ I ≤ N1≤i≤n1 \leq i \leq nメートル私mim_i[ 0 、r私][0,ri][0, r_i]100 %100%100\%r私rir_i メトリックスコアの正規化/標準化 私の直感は、間の第1正規化するために、すべてのこれらのスコアである各スコアは、後に計算することが、全体的なスコアに等しく寄与するように、。[0,1][0,1][0,1] つまり、各メトリックについて、そのメトリックのスコアはm iになります。mimim_i。ここで、max(ri)は、サンプル内のそのメトリックの最大スコアです。私の直感では、これが有効であると確信することはできません。それが私の質問1です。この正規化手順は有効ですか?mimax(ri)mimax(ri)\frac{m_i}{\text{max}(r_i)}max(ri)max(ri)\text{max}(r_i) Also for each question the implicit question is I am probably completely wrong, what resources and topics should I be …

1
検定統計量の分布がバイモーダルの場合、p値は何か意味がありますか?
P値は、帰無仮説が真であると仮定して、少なくとも観察されるものと同じくらい極端な検定統計量を取得する確率として定義されます。言い換えると、 しかし、どのような検定統計量は分布の二峰性である場合には?p値はこの文脈で何かを意味しますか?たとえば、Rでいくつかのバイモーダルデータをシミュレートします。P(X≥t|H0)P(X≥t|H0)P( X \ge t | H_0 ) set.seed(0) # Generate bi-modal distribution bimodal <- c(rnorm(n=100,mean=25,sd=3),rnorm(n=100,mean=100,sd=5)) hist(bimodal, breaks=100) そして、60の検定統計値を観察すると仮定しましょう。そして、ここで、この値が非常にありそうもないことを写真から知っています。理想的には、これを明らかにするために使用する統計手順(たとえば、p値)が必要です。しかし、定義どおりにp値を計算すると、かなり高いp値が得られます observed <- 60 # Get P-value sum(bimodal[bimodal >= 60])/sum(bimodal) [1] 0.7991993 分布を知らなかった場合、私が観察したのは単に偶然によるものであると結論付けます。しかし、これは真実ではないことがわかっています。 私が持っている疑問は、p値を計算するときに、観測された値と少なくとも同じくらいの値の確率を計算するのはなぜでしょうか?そして、上記でシミュレートしたような状況に遭遇した場合、代替ソリューションは何ですか?

2
大衆向けのピザ統計
NY Times Webサイトの短いエントリには、米国でのピザ消費の事実と数値が記載されています。私は統計を一般の聴衆に情報を提供するためにどのように使用する(または悪用する)かということに興味があり、提示された統計に基づいていくつかの質問が生じました。 8人のアメリカ人の1人が今日ピザを食べるとしたら、それは平均的なアメリカ人が8日ごとに1度ピザを食べるということですか?ここでは、すべてのアメリカ人がピザを食べるという仮定がありますが、そうではありません。しかし、それは、何人のアメリカ人がピザを食べるかについての有効な仮定を立てる方法の問題を提起します。 子供のカロリー摂取量の25%がピザであると報告されています。私は、適度に活動的であり、したがって毎日2000カロリーの摂取が必要な9歳の子供と定義します。ピザのスライスのカロリー数が285 であるというGoogleの推定を信頼する場合、それは子供が平均して週に12枚のピザを消費することを示唆していますか?(2000 * 7 * 0.25 / 285) 統計の解釈に欠陥があると思います。子供が8人に1人の割合で今日ピザを食べている一方で、1日あたり約1.7スライスを食べて25%のカロリー摂取量を達成できるとは思えません。

6
変動係数-IQR /中央値、または代替のような堅牢な(ノンパラメトリック)尺度?
特定のデータセットについて、スプレッドは多くの場合、標準偏差またはIQR(四分位範囲)として計算されます。 a standard deviationは正規化されているため(zスコアなど)、2つの異なる母集団からの広がりを比較するために使用できますが、2つの異なる母集団からのサンプルは2つのまったく異なるスケールで値を持つことができるため、これはIQRには当てはまりません e.g. Pop A: 100, 67, 89, 75, 120, ... Pop B: 19, 22, 43, 8, 12, ... 私が求めているのは、異なる母集団内の変動を比較するために使用できる堅牢な(ノンパラメトリック)尺度です。 選択肢1: IQR / Median-これは、変動係数、つまり。σμσμ \frac{\sigma}{\mu} 選択肢2: Range / IQR 質問:母集団間の変動を比較するためのより意味のある尺度はどれですか?また、選択肢1の場合、選択肢2は何か/意味のあるものに役立ちますか、それとも根本的に欠陥のある尺度ですか?

2
ビニングされたデータの3番目の四分位数を推定する方法は?
人口の4分の1以上を含むオープンインターバルに属する場合、3番目の四分位を決定するための技術的なトリックはありますか(したがって、インターバルを閉じて標準式を使用できません)? 編集 何かを誤解した場合に備えて、多かれ少なかれ完全なコンテキストを提供します。2列、たとえば6行のテーブルにデータを配置しています。各列は、間隔(最初の列)とその間隔に「属する」人口の量に対応します。最後の間隔は開いており、人口の25%以上が含まれます。すべての間隔(最後を除く)の範囲は同じです。 サンプルデータ(プレゼンテーション用に転置): Column 1: (6;8),(8;10),(10;12),(12;14),(14;16),(16;∞) Column 2: 51, 65, 68, 82, 78, 182 最初の列は、収入レベルの範囲として解釈されます。2番目は、収入が間隔に属する従業員の数として解釈されます。 私が考えている標準的な式は。Q3=xQ3+3N4−∑k−1i=1ninQ3rQ3Q3=xQ3+3N4−∑i=1k−1ninQ3rQ3\mathbb{Q}_{3}=x_{Q_{3}}+ \frac{\frac{3N}{4}- \sum_{i=1}^{k-1}n_{i}}{n_{Q_{3}}}r_{Q_{3}}

3
差は要約統計量:ジニ係数と標準偏差
いくつかの要約統計があります。分布の広がりを記述したい場合は、たとえば標準偏差やジニ係数を使用できます。 標準偏差は中心傾向、つまり平均からの偏差に基づいており、ジニ係数は分散の一般的な測定値であることを知っています。また、ジニ係数には下限と上限[0 1]があり、標準偏差にはないことも知っています。これらの特性は知っておくと良いですが、ジニでは不可能で逆に標準偏差でどのような洞察が得られますか?2つのうちの1つを使用することを選択する必要がある場合、有益で洞察力を持つことに関して、他のものと比較して1つを使用する利点は何ですか。


1
治療群に対応する対照群を見つけるには?
私は数学補助ソフトウェアを使用したサイズ30(カリフォルニアの30の学校)の治療グループを持っています。簡単な分析では、私たちの治療群と同等の対照群との間の学生の数学の平均成長を比較したいと思います。CAにはソフトウェアを使用しなかった学校がたくさんあります。コントロールグループに同様のパフォーマンスの学校を含めたい(それらのベースラインスコアは妥当な誤差範囲のある治療学校と同様である)。また、コントロールグループのサンプルサイズを私の治療の3倍にしてください(ここでは90校)。カリフォルニアには1000を超える学校があり、そのうち90の学校には多くの選択肢があります。コントロールグループをどのように選択しますか?

4
統計でのデシベルの使用
RFIDタグを読み取り、アンテナ構成(アンテナの数、位置など)を変更したときにリーダーが見る信号強度を比較するプロジェクトに取り組んでいます。プロジェクトの一環として、セットアップを比較して、どちらが最も効果的かを確認する必要があります。 理想的には、2つのアンテナ位置間で対のないt検定またはANOVA(または複数の間のMANOVA)を実行できます。しかし、応答は対数であるデシベル単位であるため、それを進めるための最良の方法は何ですか? 結果を線形スケールに変換してから、先ほど述べた方法の1つを使用して比較するのが最善でしょうか、それともデシベルを別の統計的検定と同じように使用して比較するのですか?

3
平均と標準偏差のみを持つ結果のプロット
この平均の表とリコールスコアの標準偏差の観測値の適切なプロットを視覚化しようとしています。 RecallControlMean37SD8ExperimentalMean21SD6ControlExperimentalMeanSDMeanSDRecall378216\begin{array} {c|c c|c c|} & \text{Control} & & \text{Experimental} & \\ & \text{Mean} & \text{SD} &\text{Mean} &\text{SD} \\ \hline \text{Recall} & 37 & 8 & 21 & 6 \\ \hline \end{array} それを行う最良の方法は何ですか?棒グラフはそれを行う良い方法ですか?その場合の標準偏差をどのように説明できますか?

2
PythonでのQQプロット
次のコードを使用してqqプロットを生成しました。qqプロットは、データが正常に分布しているかどうかを確認するために使用されることを知っています。私の質問は、x軸とy軸のラベルがqqプロットで何を示し、そのr二乗値が何を示しているかです。 N = 1200 p = 0.53 q = 1000 obs = np.random.binomial(N, p, size = q)/N import scipy.stats as stats z = (obs-np.mean(obs))/np.std(obs) stats.probplot(z, dist="norm", plot=plt) plt.title("Normal Q-Q plot") plt.show() すでにqq plotについての議論があることは知っていますが、その議論を経験したにもかかわらず、の概念を理解できませんでした。


5
レイマンの言葉での平均、中央値、モードの説明
数値リストの平均値、中央値、最頻値の概念を説明し、基本的な算術スキルしか持たない人にとってなぜそれらが重要であるのか。歪度、CLT、中心傾向、それらの統計的性質などは言及しないでください。 私は誰かに、数のリストを「要約」するための迅速で汚い方法であることを説明しました。しかし、振り返ってみると、これはほとんどわかりません。 考えや実世界の例はありますか?

3
glm in R-どのpvalueがモデル全体の適合度を表すか?
私はG(一般化線形モデル)でglmsを実行しています。私はpvalueを知っていると思いました-glmの要約を呼び出しても、モデル全体を表すオーバーライドpvalueが得られないことがわかるまでは、少なくとも線形モデルの場合はそうではありません。 これは、係数の表の一番上にある切片のp値として指定されているかどうか疑問に思っています。したがって、次の例では、Wind.speed..knotsとcanopy_densityはモデルにとって重要である可能性がありますが、モデル自体が重要であるかどうかをどのように知ることができますか?これらの値を信頼するかどうかはどうすればわかりますか?(切片)のPr(> | z |)がモデルの重要性を表していると思いますか?このモデルは重要な人々ですか??? ありがとう! 2項式族でF検定を実行することは不適切であるというエラーメッセージが表示されるため、F検定を実行してもp値は得られないことに注意してください。 Call: glm(formula = Empetrum_bin ~ Wind.speed..knots. + canopy_density, family = binomial, data = CAIRNGORM) Deviance Residuals: Min 1Q Median 3Q Max -1.2327 -0.7167 -0.4302 -0.1855 2.3194 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.8226 1.2030 1.515 0.1298 Wind.speed..knots. -0.5791 0.2628 -2.203 0.0276 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.