タグ付けされた質問 「descriptive-statistics」

記述統計は、平均と標準偏差、中央値と四分位数、最大値と最小値など、サンプルの特徴を要約します。複数の変数を使用して、相関とクロス集計を含めることができます。箱ひげ図、ヒストグラム、散布図などの視覚表示を含めることができます。

12
値のストリームの基本的な統計を計算するコマンドラインツール[終了]
標準入力から(ASCII形式の)数値のフローを受け入れ、最小、最大、平均、中央値、RMS、変位値など、このフローの基本的な記述統計を提供するコマンドラインツールはありますか?出力は、コマンドラインチェーンの次のコマンドで解析できることを歓迎します。作業環境はLinuxですが、他のオプションも歓迎します。

3
算術平均が幾何平均に非常に近い場合、データについて何を結論付けることができますか?
幾何平均と算術平均について、互いに非常に近いもの、たとえば〜0.1%に重要なものはありますか?そのようなデータセットについてどのような推測をすることができますか? 私はデータセットの分析に取り組んできましたが、皮肉なことに、値は非常に近いことがわかりました。正確ではないが、近い。また、算術平均幾何平均不等式の簡単な健全性チェックとデータ収集のレビューにより、値をどのように考え出したかという点で、データセットの整合性について怪しいものはないことが明らかになりました。


6
平均値のパラドックス-これは何と呼ばれていますか?
データセットがあります。言うの観測と変数を:101010333 obs A B C 1 0 0 1 2 0 1 0 3 1 0 1 4 1 1 0 5 1 0 1 6 1 0 0 7 1 1 0 8 0 0 1 9 0 1 1 10 0 1 1 それは各カテゴリで顧客が購入()した(していない)と言う。そこにはあるので、これら顧客は平均で製品カテゴリに購入します。10101010A, B, C1616161010101.61.61.6 顧客は、A、B、Cのいずれかを購入できます。 私は購入者のみを見ればA、そこにあるに購入している顧客それはですので、製品カテゴリは、平均で。5559991.81.81.8 …

4
記述統計を報告する意味は何ですか?
ロジスティック回帰を使用してデータの分析を実行しましたが、レポートに記述的な統計の部分を含める必要もあります。正直なところ、この点についてはわかりませんが、なぜそれが必要なのかを誰かが説明できるかもしれないと期待していました。 たとえば、独立した連続変数の1つのヒストグラムをプロットし、それが正規性を示す場合、または歪度を示す場合、どのようにレポートに値を追加しますか? 私のデータは、就職の従属変数trueまたはfalseで構成されており、独立変数は、中間期の成績、最終試験の成績、および男性または女性です。

1
同じ箱とひげのプロット(平均/標準/中央値/ MAD /最小/最大)を持つAnscombeのようなデータセット
編集:この質問が膨らんだので、要約:同じ混合統計(平均、中央値、ミッドレンジ、およびそれらに関連する分散、および回帰)を持つ異なる意味のある解釈可能なデータセットを見つけます。 Anscombeカルテット(高次元データを視覚化する目的を参照してください)は、同じ周辺平均/標準偏差(4つのと4つので別々に)と同じOLS線形フィットを持つ4つの -データセットの有名な例です、回帰および残差平方和、相関係数。したがって、タイプの統計(周辺および結合)は同じですが、データセットはまったく異なります。y x yxxxyyyxxxyyyℓ 2R2R2R^2ℓ2ℓ2\ell_2 編集(OPコメントから)小さいデータセットサイズを別にして、いくつかの解釈を提案させてください。セット1は、分布ノイズとの標準的な線形(アフィン、正確には)関係として見ることができます。セット2は、より高度な適合の絶頂である可能性のあるきれいな関係を示しています。セット3は、1つの外れ値を持つ明確な線形統計依存性を示しています。セット4はよりトリッキーですからを「予測」する試みは失敗に結びついているようです。の設計により、値の範囲が不十分なヒステリシス現象、量子化効果(が過度に量子化される可能性があります)、またはユーザーが従属変数と独立変数を切り替えました。x x xyyyxxxxxxxxx したがって、サマリー機能は非常に異なる動作を隠します。セット2は、多項式近似によりうまく対処できます。セット4と同様に、外れ値に耐性のあるセット(など)およびセット4。編集(OPコメントから):ブログ投稿Curious Regressionsは次のように述べています:ℓ 1ℓ2ℓ2\ell_2ℓ1ℓ1\ell_1 ちなみに、Frank Anscombeがこれらのデータセットをどのように思いついたかは明らかにしなかったと聞いています。要約統計量と回帰結果をすべて同じにすることが簡単な作業だと思う場合は、試してみてください! でアンスコムの例と同様の目的のために構築されたデータセット、いくつかの興味深いデータセットは、同じ位数ベースのヒストグラムと、たとえば、与えられています。意味のある関係と統計の混合が見られませんでした。 私の質問は次のとおりℓ2ℓ2\ell_2です。同じタイプの統計を持つことに加えて、2変量(または視覚化を維持するための3変量)Anscombeのようなデータセットがあります。 それらのプロットは、測定と測定の間の法則を探しているかのように、と 関係として解釈できます。yxxxyyy それらは同じ(より堅牢な)限界特性(同じ中央値と絶対偏差の中央値)を持ち、ℓ1ℓ1\ell_1 同じ境界ボックス:同じ最小値、最大値(したがってタイプのミッドレンジおよびミッドスパン統計)。ℓ∞ℓ∞\ell_\infty このようなデータセットは、各変数に同じ「箱ひげ」プロットの要約(最小、最大、中央値、絶対偏差/ MADの中央値、平均、標準)を持ち、解釈がまったく異なります。 少なくとも絶対回帰がデータセットで同じである場合はさらに興味深いでしょう(しかし、私はすでにあまりにも多くを求めています)。ロバストな回帰とロバストでない回帰について説明する際の注意点として、リチャードハミングの引用を覚えておいてください。 計算の目的は、数値ではなく洞察です 編集(OPコメントから)同様の問題は、同一の統計情報を使用したデータの生成、非類似グラフィックス、Sangit Chatterjee&Aykut Firata、The American Statistician、2007、またはクローンデータ:まったく同じ多重線形回帰近似Jでのデータセットの生成で扱われますオースト。N.-Z. 統計 J. 2009。 Chatterjee(2007)の目的は、同じ平均と初期データセットからの標準偏差を持つ新しいペアを生成し、異なる「相違/相違」目的関数を最大化することです。これらの関数は非凸関数または非微分関数になる可能性があるため、遺伝的アルゴリズム(GA)を使用します。重要な手順はオルソ正規化で構成されます。これは、平均と(単位)分散の保存と非常に一貫しています。論文の数字(論文の内容の半分)は、入力データとGA出力データを重ね合わせます。私の意見では、GA出力は元の直感的な解釈の多くを失います。(x,y)(x,y)(x,y) 技術的には、中央値も中間値も保持されず、論文では、、および統計を保持する繰り込み手順については言及されていません。ℓ 1ℓ2ℓ2\ell_2ℓ1ℓ1\ell_1ℓ∞ℓ∞\ell_\infty

6
記述統計と推測統計の違いは何ですか?
私の理解では、記述統計はデータサンプルの特徴を定量的に記述し、推論統計はサンプルが抽出された母集団について推論しました。 ただし、統計的推論に関するウィキペディアのページには次のように記載されています。 ほとんどの場合、統計的推論は、ある種のランダムサンプリングを介して対象の母集団から抽出されたデータを使用して、母集団に関する命題を作成します。 「大部分」のために、おそらくこれらの概念を適切に理解していないと思うようになりました。人口について提案しない推論統計の例はありますか?

4
「不偏」とはどういう意味ですか?
「分散は偏った推定量である」と言うのはどういう意味ですか。 単純な式を使用して、バイアスのある推定値をバイアスのない推定値に変換するとはどういう意味ですか。この変換は正確に何をしますか? また、この変換の実用的な用途は何ですか?特定の種類の統計を使用するときに、これらのスコアを変換しますか?

2
ログ変換後の標準エラーの計算
正規分布している数のランダムなセットを考えます: x <- rnorm(n=1000, mean=10) 平均と平均の標準誤差を知りたいので、次のことを行います。 se <- function(x) { sd(x)/sqrt(length(x)) } mean(x) # something near 10.0 units se(x) # something near 0.03 units すばらしいです! ただし、元の分布が正規分布に従うことを必ずしも知らないと仮定します。データをログ変換し、同じ標準誤差計算を実行します。 z <- log(x, base=10) mean(z) # something near 1 log units se(z) # something near 0.001 log units クールですが、ログ単位ではなく単位で答えを得るために逆変換する必要があります。 10^mean(z) # something near 10.0 …

3
非正規分布サンプルの平均の信頼区間を計算するにはどうすればよいですか?
非正規分布サンプルの平均の信頼区間を計算するにはどうすればよいですか? ここではブートストラップ方式が一般的に使用されていることを理解していますが、他のオプションも受け入れています。ノンパラメトリックオプションを探していますが、パラメトリックソリューションが有効であることを誰かが私に納得させることができれば、それは問題ありません。サンプルサイズは400を超えています。 誰かがRでサンプルを提供できれば、とてもありがたいです。

5
直観(幾何学的またはその他)
分散の基本的なアイデンティティを考えてみましょう: Var(X)===E[(X−E[X])2]...E[X2]−(E[X])2Var(X)=E[(X−E[X])2]=...=E[X2]−(E[X])2 \begin{eqnarray} Var(X) &=& E[(X - E[X])^2]\\ &=& ...\\ &=& E[X^2] - (E[X])^2 \end{eqnarray} これは、中心モーメントを非中心モーメントに定義する単純な代数的操作です。 他のコンテキストでを簡単に操作できます。また、最初に平均を計算し、次に分散を計算するために、2回のパスではなく、データの1回のパスで分散を計算できます。Var(X)Var(X)Var(X) しかし、それはどういう意味ですか?平均についての広がりを0についての広がりに関連付ける直接的な幾何学的直観はありませんは1次元の集合であるため、平均の周りの広がりを、原点の広がりと正方形の平方との差としてどのように見ますか平均?XXX このアイデンティティへの洞察を与える良い線形代数解釈または物理的解釈または他のものはありますか?

4
相関の非推移性:性別と脳の大きさの間、および脳の大きさとIQの間の相関関係、性別とIQの間の相関関係はない
ブログで次の説明を見つけましたが、相関関係の非推移性に関する詳細情報を取得したいと思います。 次の議論の余地のない事実があります。 平均して、男性と女性の間で脳容積に違いがあります IQと脳の大きさの間には相関関係があります。相関は0.33であるため、IQの変動の10%に相当します これらの前提1と2から、論理的には次のように思われる:平均して女性は男性よりも低いIQを持っている。しかし、それは誤りです!統計では、相関関係は推移的ではありません。証拠は、IQテストの結果を見るだけでよく、男性と女性のIQが平均して変わらないことを示しています。 この相関関係の非推移性をもう少し深く理解したいと思います。 IQと脳の大きさの相関関係が0.9だった場合(これは(1)ではないことを知っています)、男性よりも平均して女性のIQが低いと推測することはまだ誤解でしょうか? どうか、IQ(およびテストの限界)、性差別、女性のステレオタイプ、慢などについて話をするためにここにいるのではありません(2)。誤justの背後にある論理的な理由を理解したいだけです。 (1)ネアンデルタール人の頭脳はホモサピエンスよりも大きかったが、賢くはなかった。 (2)私は女性であり、全体として、自分自身や他の女性の方が男性よりも賢くないと考えています。IQテストは気にしません。知的能力。 フランス語の元のソース: les faits indiscutables suivantsについて: il ya unedifférencede volumecérébralen moyenne entre hommes et femmes QIとボリューム・セレブラル全体の相関関係。相関係数0.33以下、10%の変動係数に対応 1回目と2回目はsembledécoulerlogiquement que:les femmes ont en moyenne un QIinférieuraux hommes。 Mais c'est une erreur de raisonnement!統計上、相関関係は一時的なものではありません。La preuve、c'est que pour en avoir lecœurnet、il suffit de relever les …

5
カテゴリ変数または定性変数で使用するサマリー統計は何ですか?
私が要約統計を意味するとき、明確にするために、平均、四分位範囲中央値、分散、標準偏差を参照します。 名義と順序の両方のケースを考慮して、カテゴリまたは定性の単変量を要約するとき、その平均、中央値、四分位範囲、分散、および標準偏差を見つけることは理にかなっていますか? もしそうなら、それはあなたが連続変数を要約していた場合とは異なりますか?


7
「正規分布」にはmean = median = modeが必要ですか?
私は大学院レベルの統計学教授と「正規分布」について議論しています。真の正規分布を得るには、mean = median = modeでなければならず、すべてのデータがベル曲線の下に含まれ、平均に関して完全に対称でなければならない、と私は考えます。したがって、技術的には、実際の研究では事実上正規分布は存在せず、それらを他の何か、おそらく「ほぼ正常」と呼ぶ必要があります。 彼女は私がうるさすぎると言い、スキュー/尖度が1.0未満の場合、それは正規分布であり、試験でポイントを取りました。データセットは、52の老人ホームのランダムサンプリングにおける1年あたりの転倒総数であり、これはより大きな母集団のランダムサンプルです。洞察はありますか? 問題: 質問:3.このデータの歪度と尖度の測定値を計算します。通常の曲線のヒストグラムを含めます。調査結果について話し合います。データは正常に配信されていますか? Statistics Number of falls N Valid 52 Missing 0 Mean 11.23 Median 11.50 Mode 4a a。複数のモードが存在します。最小値が表示されます Number of falls N Valid 52 Missing 0 Skewness .114 Std. Error of Skewness .330 Kurtosis -.961 Std. Error of Kurtosis .650 私の答え: データは板状で、わずかな正のゆがみしかありません。また、平均と中央値およびモードが等しくなく、データが平均の周りに均等に分布していないため、正規分布ではありません。現実には、データが完全な正規分布となることはほとんどありませんが、大規模な人口グループの成人薬指の身長、体重、体温、または長さなどの「ほぼ正規分布」について説明できます。 教授の答え: 完全に正規分布がないことは正しいです。しかし、私たちは完璧を求めていません。ヒストグラムと中心傾向の尺度に加えて、データを調べる必要があります。歪度と尖度の統計は、分布について何を教えてくれますか?これらは両方とも-1と+1の重要な値の間にあるため、このデータは正規分布していると見なされます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.