タグ付けされた質問 「histogram」

ヒストグラムは、連続変数の頻度をグラフで表したものです。変数はビンに分割され、データ内の頻度に比例してバーごとにバーが描画されます。

4
ヒストグラムが提供しないボックスプロットはどのような情報を提供しますか?
ヒストグラムは、変数の分布をよく理解します。ただし、ボックスプロットは同じことをしようとしますが、この変数の分布を十分に描写していません。 なぜ人々が箱ひげ図を使うのか分かりません。ヒストグラムはあらゆる点で優れています。両方を使用する理由はありますか? ボックスプロットが提供する唯一のことは、外れ値です!どの観測が外れ値である可能性があるかがわかります。

4
ヒストグラムに平均をプロットするのは適切ですか?
平均値を視覚化するためにヒストグラムに垂直線を追加することは「大丈夫」ですか? 私には大丈夫のようですが、教科書などでこれを見たことがないので、そうしない慣習があるのではないかと思っています。 グラフは学期論文用であり、非常に重要な暗黙の統計ルールを誤って破らないようにしたいだけです。:)

3
ヒストグラムで分布を特定するのに助けが必要
特定の信号の登録された最大振幅のサンプル母集団があります。人口は約1500万サンプルです。母集団のヒストグラムを作成しましたが、そのようなヒストグラムでは分布を推測できません。 EDIT1:生のサンプル値を持つファイルはこちら:生データ 誰でも次のヒストグラムを使用して分布を推定できますか?

2
視覚化はデータを変換するための十分な根拠ですか?
問題 30のパラメーターのそれぞれによって説明される分散を、たとえばパラメーターごとに異なるバーを持つバープロットとして、y軸に分散をプロットしたいと思います。 ただし、以下のヒストグラムに見られるように、分散は0を含む小さな値に向かって大きく偏っています。 で変換すると、小さな値(以下のヒストグラムとバープロット)の違いが見やすくなります。log(x+1)log⁡(x+1)\log(x+1) 質問 log(x + 1 )log⁡(バツ+1)\log(x+1)

3
未知の分布のデータを正規化する方法
特定のタイプの繰り返し測定データの最も適切な特性分布を見つけようとしています。 本質的に、私の地質学の分野では、イベント(岩石がしきい値温度以下に冷却された)が発生するまでの時間を調べるために、サンプル(岩石の塊)からの鉱物の放射年代測定をよく使用します。通常、各サンプルからいくつか(3〜10)の測定が行われます。次に、平均と標準偏差σが取得されます。サンプルの冷却年代から拡張することができますので、これは、地質学である10 5への10 9状況に応じて、年。μμ\muσσ\sigma10510510^510910910^9 ただし、測定値がガウス分布ではないことを信じる理由があります。「外れ値」は、任意に宣言されるか、またはパースの基準[Ross、2003]やディクソンのQ検定[Dean and Dixon、1951]などの基準によって宣言されますよくあり(たとえば、30分の1)、これらはほとんど常に古いものであり、これらの測定値が特徴的に右に歪んでいることを示しています。これが鉱物学的不純物に関係していることには、十分に理解されている理由があります。 μμ\muσσ\sigma これを行う最善の方法は何だろうと思っています。これまでのところ、約600個のサンプルを含むデータベースがあり、サンプルごとに2〜10個程度の測定値を複製しています。それぞれを平均値または中央値で割ってサンプルを正規化し、正規化されたデータのヒストグラムを見てみました。これは妥当な結果を生成し、データが一種の対数ラプラシアンであることを示しているようです: ただし、これが適切な方法なのか、それとも気付いていないのに結果が偏っている可能性があるという警告があるのか​​はわかりません。誰かがこの種のことを経験し、ベストプラクティスを知っていますか?

2
QQプロットがヒストグラムと一致しません
ヒストグラム、カーネル密度、財務ログリターンの近似正規分布があり、これらは損失に変換されます(符号が変更されます)。これらのデータの通常のQQプロットがあります。 QQプロットは、テールが正しく適合していないことを明確に示しています。しかし、ヒストグラムと適合した正規分布(青)を見ると、0.0付近の値でも正しく適合していません。そのため、QQプロットは、テールのみが適切に適合していないことを示していますが、明らかに分布全体が正しく適合していないことを示しています。QQプロットに表示されないのはなぜですか?

2
ビニングされたデータの3番目の四分位数を推定する方法は?
人口の4分の1以上を含むオープンインターバルに属する場合、3番目の四分位を決定するための技術的なトリックはありますか(したがって、インターバルを閉じて標準式を使用できません)? 編集 何かを誤解した場合に備えて、多かれ少なかれ完全なコンテキストを提供します。2列、たとえば6行のテーブルにデータを配置しています。各列は、間隔(最初の列)とその間隔に「属する」人口の量に対応します。最後の間隔は開いており、人口の25%以上が含まれます。すべての間隔(最後を除く)の範囲は同じです。 サンプルデータ(プレゼンテーション用に転置): Column 1: (6;8),(8;10),(10;12),(12;14),(14;16),(16;∞) Column 2: 51, 65, 68, 82, 78, 182 最初の列は、収入レベルの範囲として解釈されます。2番目は、収入が間隔に属する従業員の数として解釈されます。 私が考えている標準的な式は。Q3=xQ3+3N4−∑k−1i=1ninQ3rQ3Q3=xQ3+3N4−∑i=1k−1ninQ3rQ3\mathbb{Q}_{3}=x_{Q_{3}}+ \frac{\frac{3N}{4}- \sum_{i=1}^{k-1}n_{i}}{n_{Q_{3}}}r_{Q_{3}}

2
ソートされたデータのコレクションを「インテリジェントに」ビンに入れる方法は?
ソートされたコレクションをインテリジェントにビンに入れようとしています。個のデータのコレクションがあります。しかし、私はこのデータが不等サイズのビンに収まることを知っています。データを適切に合わせるためにエンドポイントをインテリジェントに選択する方法がわかりません。例えば:mんnnメートルmm コレクションに12個のアイテムがあり、データが3つのビンに収まることがわかっているとします。 Index: 1 2 3 4 5 6 7 8 9 10 11 12 Value: 1 1 1 3 3 3 3 3 3 5 5 6 i = \ {1-3 \}、\ {4-9 \}、\ {10-12 \}のビンのブレークポイントをインテリジェントに選択するにはどうすればよいi = { 1 − 3 } 、{ 4 − 9 } 、{ 10 …

2
ヒストグラムが釣鐘型の曲線を示している場合、データは正規分布していると言えますか?
私は回答者の年齢のヒストグラムを作成し、非常に良い釣鐘型の曲線を何とか得て、分布は正常であると結論づけました。 次に、SPSSでn = 169の正規性検定を実行しました。Kolmogorov-Smirnov検定のp値(Sig。)は0.05未満なので、データは正規性の仮定に違反しています。 なぜこのテストでは年齢分布が正規ではないことが示されますが、ヒストグラムは釣鐘型の曲線を示しましたが、これは私の理解からは正常ですか?どちらの結果に従うべきですか?

1
従属変数をログ変換しました。LOGリンク機能でGLM正規分布を使用できますか?
一般化線形モデル(GLM)について質問があります。私の従属変数(DV)は連続的で、正常ではありません。だから私はそれをログに変換しました(まだ正常ではありませんが改善されました)。 DVを2つのカテゴリ変数と1つの連続共変数に関連付けます。このため、GLMを実施したい(私はSPSSを使用しています)が、選択する分布と機能をどのように決定するかわかりません。 Leveneのノンパラメトリック検定を実施し、分散の均一性があるため、正規分布を使用する傾向があります。線形回帰の場合、データは正常である必要はなく、残差はそうであると私は読みました。そのため、各GLMからの線形予測子の標準化されたピアソン残差と予測値を個別に出力しました(GLMの通常の同一性関数と通常の対数関数)。私は、正規性テスト(ヒストグラムとShapiro-Wilk)を実行し、予測値に対して残差をプロットしました(ランダム性と分散をチェックするため)。恒等関数の残差は正常ではありませんが、対数関数の残差は正常です。ピアソン残差は正規分布しているため、ログリンク関数で正規を選択する傾向があります。 だから私の質問は: すでにログ変換されているDVで、LOGリンク機能を備えたGLM正規分布を使用できますか? 正規分布を使用して正当化するには、分散均一性検定で十分ですか? 残差チェック手順は、リンク関数モデルの選択を正当化するために正しいですか? 左側はDV分布の画像、右側はログリンク関数を使用したGLM正規分布の残差。

1
均一ビンと非均一ビンのヒストグラム
この質問では、均一ヒストグラムと非均一ヒストグラムの基本的な違いについて説明します。そして、この質問は、ヒストグラムがデータサンプルの抽出元の分布を表す度合いを(ある意味で)最適化する均一なヒストグラムのビンの数を選択するための経験則について説明します。 均一ヒストグラムと非均一ヒストグラムについて同じ種類の「最適性」の議論を見つけることができないようです。遠く離れた外れ値を持つクラスター化されたノンパラメトリック分布があるので、不均一なヒストグラムは直感的に理解しやすくなります。しかし、私は次の2つの質問のより正確な分析を見たいです。 均一ビンのヒストグラムは、非均一ビンのヒストグラムよりも優れているのはいつですか? 不均一なヒストグラムのビンの適切な数はいくつですか? 不均一なヒストグラムのために、私たちが取る最も単純なケースと考えています順序得られ、未知の分布からサンプルをN値、及びにそれらを分離するk個の各ビンを有するようにビンkはんnnんnnkkkkんkn\frac{k}{n}N ≡ CのKn≡ckn \equiv c kccc最高max\max私ii分分\mini + 1私+1i+1

2
データからワイブルパラメータを決定するにはどうすればよいですか?
風速データのヒストグラムがあり、ワイブル分布を使用して表されることがよくあります。ヒストグラムに最適なワイブル形状とスケール係数を計算したいと思います。 目標はプログラムでワイブル形式を決定することなので、(グラフィックソリューションではなく)数値ソリューションが必要です。 編集: サンプルは10分ごとに収集され、風速は10分間の平均です。サンプルには、現在無視されている各インターバル中に記録された最大および最小の風速も含まれていますが、後で取り入れたいと思います。ビンの幅は0.5 m / s

3
ヒストグラムの間隔の数に上限はありますか?
データセットのヒストグラムに適切な数の間隔(ビン)を選択する方法を説明するいくつかの記事と本の抜粋を読んだことがありますが、ポイントの数に基づいて間隔のハード最大数があるかどうか疑問に思っていますデータセット、またはその他の基準。 背景:私が求めているのは、研究論文の手順に基づいてソフトウェアを作成しようとしているためです。手順の1つのステップは、データセットからいくつかのヒストグラムを作成し、特性関数(論文の作成者が定義)に基づいて最適な解像度を選択することです。私の問題は、著者がテストする間隔の数の上限に言及していないことです。(私は何百ものデータセットを分析する必要があり、それぞれに異なる「最適な」数のビンを含めることができます。また、最適な数のビンを選択することが重要なので、手動で結果を見て、適切なものを選択することはできません作業。) 間隔の最大数をデータセットのポイント数に設定するだけでよいでしょうか、それとも統計で一般的に使用される他の基準がありますか?

4
1つの中央値が別の中央値よりも低いという事実は、なぜグループ1の大部分がグループ2の大部分よりも少ないことを意味しないのですか?
以下の箱ひげ図は、(このデータセットでは)「ほとんどの男性がほとんどの女性よりも速い」と解釈できると信じていました。しかし、Rと統計のクイズに関するEdXコースは、それが正しくないと教えてくれました。私の直感が正しくない理由を教えてください。 ここに質問があります: 2002年にニューヨークシティマラソンで出場した無作為のサンプルについて考えてみましょう。このデータセットは、UsingRパッケージにあります。ライブラリをロードしてから、nym.2002データセットをロードします。 library(dplyr) data(nym.2002, package="UsingR") ボックスプロットとヒストグラムを使用して、男性と女性の終了時間を比較します。次のうちどれが違いを最もよく説明していますか? 男性と女性の分布は同じです。 ほとんどの男性はほとんどの女性よりも速いです。 男性と女性は同様に右に歪んだ分布をしており、前者は20分左にシフトしています。 両方の分布は通常、平均で約30分の差で分布します。 以下は、分位数、ヒストグラム、箱ひげ図としての男性と女性のニューヨークマラソン時間です。 # Men's time quantile 0% 25% 50% 75% 100% 147.3333 226.1333 256.0167 290.6375 508.0833 # Women's time quantile 0% 25% 50% 75% 100% 175.5333 250.8208 277.7250 309.4625 566.7833

2
ヒストグラムビニングに関するDoaneの式
ヒストグラムに使用するビンの最適な数を推定するために、さまざまなアルゴリズムを実装しています。私が実装しているもののほとんどは、Wikipediaの「ヒストグラム」ページの「ビンの数と幅」*で説明されています。 Doaneの式の問題に悩まされています。 1 + log(n) + log(1 + kurtosis(data) * sqrt(n / 6.)) どこnのデータサイズがあります。 問題は、尖度が負の場合、およびn >> 1の引数logが負になるためです。 *(このページは投稿されてから変更されています。リンクは、投稿時のページを指すように編集されています)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.