タグ付けされた質問 「descriptive-statistics」

記述統計は、平均と標準偏差、中央値と四分位数、最大値と最小値など、サンプルの特徴を要約します。複数の変数を使用して、相関とクロス集計を含めることができます。箱ひげ図、ヒストグラム、散布図などの視覚表示を含めることができます。

3
「統計実験」と「統計モデル」の違いは何ですか?
AW van der Vaartの漸近統計(1998年)をフォローしています。彼は統計実験とは異なり、統計モデルとは異なると主張しているが、どちらも定義していない。私の質問: (1)統計実験、(2)統計モデル、(3)統計実験と統計モデルを常に区別する重要な要素は何ですか?

5
応用統計コースで尖度を教えるべきですか?もしそうなら、どのように?
少なくとも直観的には、中心傾向、広がり、歪度はすべて比較的適切に定義できます。これらのものの標準的な数学的尺度も、直感的な概念に比較的よく対応しています。しかし、尖度は異なるようです。それは非常に紛らわしく、分布形状についての直観ともうまく一致しません。 適用された設定での尖度の典型的な説明は、Microsoft Excelを使用したビジネスおよび管理の応用統計 からの次の抜粋です。[ 1 ][1]^{[1]} 尖度とは、分布がどの程度ピークに達するか、逆に分布がどれだけ平坦になるかを指します。正規分布から予想されるものよりも多くのデータ値が裾にある場合、尖度は正です。逆に、正規分布で予想されるよりもテールのデータ値が少ない場合、尖度は負になります。Excelは、少なくとも4つのデータ値がない限り、この統計を計算できません。 「尖度」と「過剰尖度」の混同は別として(この本のように、他の著者が後者と呼ぶものを指すために前者の単語を使用するのが一般的です)、「ピークネス」または「フラットネス」に関する解釈その後、テールにあるデータ項目の数への注意の切り替えによって混乱します。「ピーク」と「テール」の両方を考慮する必要があります—カプランスキー[ 2 ][2]^{[2]}1945年に、当時の多くの教科書では、尖度は、テールを考慮せずに、分布のピークが正規分布のピークと比較してどれだけ高いかについて誤っていると述べていました。しかし、ピークとテールの両方の形状を明確に考慮する必要があるため、直感を把握するのが難しくなります。上記の抽出物は、これらの概念が同じであるかのようにテールのピークからヘビーに分離することでスキップします。 さらに、この古典的な尖度の「ピークとテール」の説明は、対称分布と単峰分布でのみうまく機能します(実際、そのテキストに示されている例はすべて対称です)。それでも、尖度を「ピーク」、「尾」、または「肩」のいずれで表現するかにかかわらず、尖度を解釈する「正しい」一般的な方法は、数十年間議論されてきました。[ 2 ] [ 3 ] [ 4 ] [ 5 ] [ 6 ][2][3][4][5][6]^{[2][3][4][5][6]} より厳密なアプローチが取られたときに矛盾や反例にぶつからない適用された設定で尖度を教える直感的な方法はありますか?尖度は、数学統計クラスとは対照的に、これらの種類の応用データ分析コースのコンテキストではまったく有用な概念ですらありますか?分布の「ピークネス」が直感的に役立つ概念である場合、代わりにLモーメントを使用してそれを教える必要がありますか?[ 7 ][7]^{[7]} [ 1 ][1][1] Herkenhoff、L.およびFogli、J.(2013)。Microsoft Excelを使用したビジネスおよび管理に適用される統計。ニューヨーク、NY:スプリンガー。 [ 2 ][2][2]カプランスキー、I。(1945)。「尖度に関する一般的なエラー」。 Journal of the American Statistics Association、40(230):259。 [ 3 ][3][3]ダーリントン、リチャードB(1970)。「尖度は本当に「ピーク」ですか?」アメリカ統計 24(2):19–22 [ 4 ][4][4] Moors、JJA。(1986)「尖度の意味:ダーリントンが再検討された」。アメリカの統計学者 …


4
統計情報に基づいて間違った決定が行われた戦争の物語?
統計は応用科学であると言うのは公平だと思うので、平均と標準偏差を計算するとき、それは誰かがそれらの数値に基づいていくつかの決定をしようとしているからです。 優れた統計学者の一部は、サンプルデータが信頼できる場合、および何らかの統計テストが興味のある真のデータを完全に誤って伝えている場合に、「感知」できることを望みます。ビッグデータセット統計と確率理論を再学習していますが、これまで見てきたすべての本は、舞台に上がってたくさんのことを言う政治家のようなものだというこのしつこい気持ちを揺るがすことはできませんスピーチの最後の次の免責事項: さて、これは良いことでも悪いことでもありませんが、数字は良いと言っているので、とにかく投票してください。 たぶんあなたはそれを得るが、多分そうではないので、ここに質問があります。統計学者による戦争の話はどこで見られますか?いくつかの決定は、後で完全に間違っていることが判明した統計情報に基づいていますか?

1
相関係数の式を理解する方法は?
ピアソン相関式の理解を助けてくれる人はいますか?サンプルrrr =変数XXXおよび標準スコアの積の平均YYY。 XXXとを標準化する必要がある理由YYYを理解していますが、zスコアの両方の積を理解する方法はありますか? この式は「製品モーメント相関係数」とも呼ばれますが、製品アクションの根拠は何ですか?質問を明確にしたかどうかはわかりませんが、式を直感的に覚えておきたいだけです。

6
より重要な統計:「すべての女性の90パーセントが生き残った」または「生き残ったすべての人々の90パーセントは女性でしたか?」
タイタニックに関する次のステートメントを検討してください。 仮定1:男性と女性のみが船に乗っていた 仮定2:女性だけでなく男性も多数いた ステートメント1:すべての女性の90%が生き残った 声明2:生き残った人の90%は女性でした 最初は、女性を救うことはおそらく優先度が高いことを示しています(男性を救うかどうかに関係なく) 2番目の統計はいつ有用ですか? そのうちの1つは、ほとんどの場合、もう1つよりも有用であると言えますか?

1
変位値と中央値ではなく、触覚と中央値をいつ使用しますか?
WikipediaやWolfram Mathworldで、触覚または中間の定義を見つけることはできませんが、Bílková、D. and Mala、I.(2012)、 " 所得分布をモデル化するときのLモーメント法の適用チェコ共和国で」、オーストリア統計局誌、41(2)、125–132。 中央値は、サンプルの中央値が50 %のサンプルクォンタイルの値に等しいのと同様に、50 %50%50\%(サンプル)のサンプルの値です。サンプルタンタイルとサンプルクォンタイルは、順序付けられたサンプルに基づいています。まず、順序付けられたサンプルの観測値の累積合計が評価​​されます。その後、所定の割合のためのp、0 &lt; P &lt; 100、A tantileは、2つの部分に順序付けられたサンプル中のすべての観測を分割分析変数の値として定義される:小さいか等しい観測値の和である観測値の合計のと、より大きい観測値の合計は、残差を表します50 %50%50\%ppp0 &lt; p &lt; 1000&lt;p&lt;1000<p<100p %(100 − p )%p %p%p\%p %p%p\%(100 − p )%(100−p)%(100-p)\%この合計の。 従来の中央値やその他の変位値ではなく、これらを位置の尺度として使用するのが適切な場合はいつですか?考えられる状況の1つである家計収入は、その論文に記載されています。 この定義から、中間を収入のレベルの合理的な特性として使用できることがわかります。これは、収入が中間以下の世帯はサンプルの総収入の半分を受け取り、収入が高い世帯は半分を受け取るためです。他の半分を受け取る内側より。 この場合、家計収入の中央値はCZK 117,497(すなわち、これよりも多く稼いだ家計の半分と上記で稼いだ半分)であることが判明しました。総収入)。この比較は、必ずしも家計所得の歪度や不均一性を反映するものではないことに注意してください。家計所得が均一に分布していても、中央値は中央値より上にあります。私の定義を理解する限り、すべての世帯が同じ収入を受けた場合にのみ、中央値は中央値に等しくなります。 この場合、内側を好む特定の理由がありますか、それとも少なくとも補助的な手段として使用する理由がありますか?中央値と中央値の比較から正確に何がわかりますか?中央値は、先ほど述べた理由により、中心傾向の他の測定値に直接匹敵するものではないようです。中間/触覚が広く使用されている、または特に有益であると見なされている他の状況はありますか?サンプル研究論文でそれらが使用される実際の例は非常に歓迎されるでしょう、そして、それらが有用であると証明するかもしれないより広い文脈の直観的な考えはさらに良いでしょう。 合計と小計が意味のあるものである必要があります-お金に関連しているように見え、「パイ」がどのように分布しているのでしょうか?以下のために集中的ではなく、広範囲の性質例えば密度や温度など、合計の任意の並べ替えは、物理的に意味がないであろう。輸送物の分析者が、輸送される貨物の重量がカットオフであり、すべての貨物の50%(重量で)その重量以上の荷重で運ばれますが、生態学者がイモリの長さがどのくらいで、すべてのイモリの全長の50%がその長さ以上のイモリによってもたらされることに興味があるとは考えられません。

5
広がりの「均一性」の尺度はありますか?
私はウェブで調べましたが、役に立つものは見つかりませんでした。 私は基本的に、値がどのくらい「均等に」分布しているかを測定する方法を探しています。同様に、Xのような「均等な」分散ディストリビューション: そして、ほぼ同じ平均と標準偏差の「不均一」な分布Y: しかし、m(X)&gt; m(Y)のような均等性の尺度mはありますか?存在しない場合、このようなメジャーを作成する最良の方法は何でしょうか? (Khan Academyの画像スクリーンショット)

1
カールピアソンはどのようにしてカイ2乗統計量を算出しましたか?
ピアソンは、1900年に次のピアソンのカイ2乗統計をどのように思いついたのですか? K=∑(Oij−Eij)2EijK=∑(Oij−Eij)2Eij K = \sum \frac{(O_{ij} -E_{ij})^2}{E_{ij}} その K∼χ2K∼χ2 K \sim \chi^2 彼はカイ二乗を念頭に置いて、メトリック(ボトムアップアプローチ)を考案しましたか、それとも統計を考案し、後でカイ二乗分布に従うことを証明しましたか(トップダウン)?KKK 彼がやなどの他の形式ではなく特定の形式を選択した理由を知りたい 、また、彼が正方形を分母で分割した理由。Σ (O私はj- E私はj)2∑(O私j−E私j)2\sum(O_{ij} -E_{ij})^2∑ | O私はj- E私はj|∑|O私j−E私j|\sum|O_{ij} -E_{ij}|

2
範囲と標準偏差の関係
記事で、サンプルサイズ標準偏差の式を見つけましたNNN σ=R¯¯¯¯2.534σ=R¯2.534\sigma=\frac{\overline{R}}{2.534} ここで、R¯¯¯¯R¯\overline{R}はメインサンプルからのサブサンプルの平均範囲(サイズ666)です。数値2.5342.5342.534はどのように計算されますか?これは正しい数字ですか?


4
小さなサンプルのグラフ化
タスクを完了するために、14回の個別の小さなデータセットがあります。しかし、データをグラフ化するために使用する適切なグラフを見つけることが困難です。サンプルが大きかった場合、ボックスプロットまたはヒストグラムを使用しますが、サンプルが非常に小さいときにこの場合に使用するのが適切かどうかはわかりません。 更新:時間は5.2、3.9、5.6、4.2、3.8、4.1、6.0、5.6、4.4、4.5、4.9、4.5、4.9、4.2です

3
塊の標準的な尺度?
私はたくさんのデータを持っているので、とてもシンプルに思える何かをしたいと思っています。この大規模なデータセットでは、特定の要素がどれだけ集まっているかに興味があります。私のデータが{A、C、B、D、A、Z、T、C ...}のような順序付けられたセットであるとしましょう。セット全体にランダムに(またはより均等に)分布するのではなく、Aが隣り合って見つかる傾向があるかどうかを知りたいとします。これは、私が「塊」と呼んでいる特性です。 さて、データの「塊」の簡単な測定はありますか?つまり、Asがランダムに分散されている範囲からどれだけ離れているかを示す統計情報ですか?そして、これを行う簡単な方法がない場合、大雑把に、難しい方法は何でしょうか?ポインタは大歓迎です!

2
統計、演習(ソリューションを含む)を学習するためのオンラインリソースですか?
私は現在、大学の指導助手として統計入門コース(医学生向け)で働いています。 オフラインでは、教師を支援するための情報を提供する多くの本があります。しかし、私が知りたいのは、オンラインで利用可能な統計の演習(ソリューションを含む)を提供する(良い)リソースに私を導くことができるかどうかです。(例:教師のメモ)。 主題の資料は、記述統計、確率、およびパラメトリック/ノンパラメトリック統計推論の間で変動します。

4
カテゴリデータを要約する方法は?
私は次の問題に苦労してきましたが、できれば統計学者にとっては簡単なことです(私は統計にある程度触れているプログラマーです)。 調査への回答を要約する必要があります(管理者向け)。調査には、さまざまなエリアにグループ化された100以上の質問があります(エリアごとに約5〜10の質問があります)。すべての回答はカテゴリーです(通常の尺度では、「まったくない」、「まれに」、「毎日またはより頻繁に」のようなものです)。 経営陣は各分野の概要を入手したいと思っていますが、これが私の問題です。関連する質問内でカテゴリ別の回答を集計する方法は?。質問は多すぎて、グラフを作成したり、各エリアの格子プロットを作成したりすることはできません。たとえば、数字のあるテーブルと比較して、可能な場合は視覚的なアプローチを好みます(alas、それらは読みません)。 私が思いつくことができる唯一のことは、各領域の答えの数を数えて、ヒストグラムをプロットすることです。 カテゴリデータに利用できるものは他にありますか? 私はRを使用していますが、それが関連するかどうかはわかりませんが、これはより一般的な統計の質問だと感じています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.