タグ付けされた質問 「dispersion」

6
偏ったユーザーの意見を検出する方法(高評価と低評価)
ユーザーが製品またはアイテムに対する好みを表現できる星評価システムがある場合、投票が非常に「分割」されているかどうかを統計的に検出するにはどうすればよいですか。つまり、特定の製品の平均が5つのうち3つであっても、データのみを使用して(グラフィカルな方法ではなく)1-5の分割とコンセンサス3のどちらであるかをどのように検出できますか

4
分散の測定が中心性よりも直感的でないのはなぜですか?
私たちの人間の理解には、分散の概念を直感的に把握するのを困難にする何かがあるようです。狭い意味では、答えはすぐにわかります。二乗することは、私たちを反射的な理解から遠ざけます。しかし、問題を提起するのは単なる分散なのか、それともデータを拡散するという全体の考えなのか?範囲内に避難を求める、または単に最小値と最大値を示しますが、本当の困難を回避しているだけですか?平均(モードまたは中央値)では、中心、要約...簡略化を見つけます。分散は物事を分散させ、それらを不快にします。原始人は確かに祈りに三角測量することによって動物の狩猟に平均を利用しますが、物事の広がりを定量化する必要性を感じたのはずっと後であったと思います。実際、「分散」という用語は、1918年に「メンデルの継承の仮定に関する親族間の相関関係」で最近ロナルドフィッシャーによって最初に導入されました。 ニュースに従うほとんどの人は、ハーバード大学からの離脱に関連している可能性がある、性別による数学の適性に関するラリーサマーズの不幸なスピーチの話を聞いたことでしょう。一言で言えば、両方の性別が同じ平均を享受していたとしても、彼は女性と比較して男性の間の数学能力の分布においてより広い差異を提案しました。適切性や政治的影響に関係なく、これは科学文献で実証されているようです。 さらに重要なのは、おそらく気候変動のような問題の理解-議論を完全に呼び起こさない可能性のあるトピックを持ち出したことを許してください-一般の人々による分散の考え方への親しみの向上によって助けられるでしょう。 この投稿に示されているように、共分散を把握しようとすると、問題はさらに複雑になります。ここでは、@ whuberによる素晴らしいカラフルな回答を取り上げています。 あまりにも一般的なように、この質問を却下したくてもよいが、我々がのように、間接的にそれを議論していることは明らかであるこのポスト数学はつまらないです、まだ概念は、とらえどころのないことのより快適な受け入れbelyingを続けている範囲などをより微妙なアイデアの分散とは対照的です。 でEBFordへフィッシャーからの手紙メンデルの実験で彼の疑惑をめぐる論争を参照し、私たちを読む:「データが偽造されていた時に今、私は非常によく、人々が広いチャンス偏差の頻度を過小評価する方法を一般的に知っているように、傾向は常に彼らが期待に非常によく同意するようにすることです... [メンデルのデータにおける]偏差は驚くほど小さいです。」偉大なRAフィッシャーは、小さなサンプルの小さな差異を疑うことに熱心で、彼は次のように書いています。 そして、この過小評価または誤解の広がりに対する偏見が今日も続く可能性は十分にあります。もしそうなら、なぜ分散よりも中心性の概念の方が快適であるかについての説明はありますか?アイデアを内面化するためにできることはありますか? e私はπ+ 1 = 0eiπ+1=0\small e^{i\pi}+1=0E= m c2E=mc2\small E=mc^2 ナシムタレブは、分散の欠陥のある理解の彼の(まあ、本当にブノワマンデルブロの)認識を危機の時期の悪用に適用して運命を作り、「分散の分散は認識論的に、 、平均の知識の欠如についての知識の欠如の尺度」-はい、この一口にはより多くの文脈があります...そして彼の功績として、感謝祭のトルコのアイデアでそれをより簡単にしました。投資の鍵は、分散(および共分散)を理解することだと主張する人もいます。 それで、なぜそれはとても滑りやすいのですか、そしてそれをどのように修正するのですか?公式なし...不確実性を扱う長年の直感だけ...答えはわかりませんが、それは数学的なものではありません(必ずしもそうです)。次のプロットでは、2つのヒストグラムがほぼ同じ分散でオーバーラップしています。それでも、私のひざの反応は、テールが最も長く、ピークが最も高い(尖度が高い)方が「広がっている」というものです。

5
単語頻度データの分散を測定する方法は?
単語数のベクトルの分散量をどのように定量化できますか?頻繁に発生するさまざまな単語が多く含まれているため、ドキュメントAで高く、頻繁に発生する1つの単語(またはいくつかの単語)が含まれているため、ドキュメントBで低くなる統計を探しています。 より一般的には、公称データの分散または「広がり」をどのように測定しますか? テキスト分析コミュニティでこれを行う標準的な方法はありますか?

4
中心極限定理における分散の役割
分散を計算するときに絶対値をとるのではなく、差を二乗する理由は、通常の方法で定義された分散が、分母が二乗であり、中心極限定理で独特の役割を果たすことをどこかで読んだことがあります。 では、CLTにおける分散の役割とは正確には何でしょうか。私はこれについてこれ以上見つけることも、それを正しく理解することもできませんでした。 また、分散とは、一連の数値がどこまで分散しているかの尺度であると私たちに思わせるものを尋ねることもできます。分散と同様に他の量を定義して、それらが数値の広がりを測定していることを納得させることができます。これが起こるためには、数値の広がりが何を意味するのか、スプレッドの測定からどのような振る舞いを期待するのかなどを述べる必要があります。スプレッドの正式な定義はないため、分散を定義として扱う場合があります。ただし、何らかの理由で、分散は「最良の」広がりの尺度と見なされます。

2
負の二項回帰のピアソンの残差が、ポアソン回帰の残差よりも小さいのはなぜですか?
私はこれらのデータを持っています: set.seed(1) predictor <- rnorm(20) set.seed(1) counts <- c(sample(1:1000, 20)) df <- data.frame(counts, predictor) ポアソン回帰を実行しました poisson_counts <- glm(counts ~ predictor, data = df, family = "poisson") そして負の二項回帰: require(MASS) nb_counts <- glm.nb(counts ~ predictor, data = df) 次に、ポアソン回帰の分散統計を計算しました。 sum(residuals(poisson_counts, type="pearson")^2)/df.residual(poisson_counts) # [1] 145.4905 そして負の二項回帰: sum(residuals(nb_counts, type="pearson")^2)/df.residual(nb_counts) # [1] 0.7650289 式を使用せずに、負の二項回帰の分散統計がポアソン回帰の分散統計よりもかなり小さい理由を誰かが説明できますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.