正規分布ですが、非常に歪んだ分布はガウスと見なされますか?


12

この質問があります:YouTubeで1日あたりに費やされる時間の分布はどのように見えると思いますか?

私の答えは、おそらく正規分布であり、非常に歪んでいるということです。一部のユーザーはパワーユーザーを圧倒しているため、ほとんどのユーザーが平均的な時間を費やしてから右の長いテールを使用するモードが1つあると思います。

それは公平な答えですか?その分布についてより良い言葉はありますか?


4
いくつかの答えは言及していますが、強調していませんが、歪度は、長いテールがある場合は非公式に命名されているため、長い右テールがある場合は右スキューします。この文脈で使用される左と右の両方とも、大きさが水平軸に表示されるという慣習に従った表示を前提としています。それがあまりにも明白に聞こえる場合は、地球および環境科学で、大きさが高さまたは深さであり、垂直に表示されるディスプレイを検討してください。小さい印刷:分布が幾何学的に歪んでいる場合でも、歪度のいくつかの尺度がゼロになることがあります。
ニックコックス

1
すべてのユーザーの1日あたりの合計時間 または一人あたり一日あたりの時間?後者の場合、確かに0で中程度の大きなスパイクがあります。この場合、おそらく0のディラックデルタを持つ「スパイクとスラブ」スタイルの分布が必要です
。– innisfree

6
「正規」は「ガウス」と同義であり、正規分布とも呼ばれるガウス分布は歪んでいません。
マイケルハーディ

タイトルの質問は、本文の質問とは大きく異なります。または、少なくともタイトルは非常に紛らわしいです。「正規だが非常に歪んだ」分布は矛盾していません。また、ガウス分布は非常によく定義されています及びませんYouTubeでの1日あたりに費やす時間の分布などのすべてで。そのため、タイトルの質問に対する答えは大したものではありません。f(x)=12πσ2exp((xμ)22σ2)
セクストゥスエンピリカス

2
また、最後にある質問は「その分布についてもっと良い言葉はありますか?」非常に曖昧または広いです。情報は、「1つのモード」と「長い右尾」だけであるようです(「おそらく正規分布」の部分は意味がありません)。これらの条件を満たす多くの分布があります。実際に質問を明確にしようとする前に、この質問が10以上の回答と少なくとも同じくらい多くの代替配布の提案を集めていることは驚くべきことです(データさえありません)。
セクストゥスエンピリカス

回答:


14

1日あたりの割合は確かに負ではありません。これにより、実軸全体、特に負の半分にわたって確率質量を持つ正規分布が除外されます。

べき乗分布は、所得分布や都市の大きさなどをモデル化するためによく使用されます。これらは非負であり、通常は非常に歪んでいます。これらは、YouTubeを見るのに費やした時間をモデル化する上で私が試みる最初の試みです。(またはCrossValidatedの質問を監視します。)

べき乗則の詳細については、こちらまたはこちら、またはタグをご覧ください


16
正規分布が実際のラインでサポートされていることは完全に正しいです。それでも...彼らは、成人の身長や体重など、いくつかの厳密に肯定的な性質についてはひどいモデルではありません。
マットクラウス

2
@MattKrauseそれは実際に素晴らしい質問です-私が「平均高さの上または下10 cm」または「平均高さの上または下10パーセント」になる同じ確率がありますか?最初のケースのみが正規分布を保証できます。
トマーシュカフカ

1
@MattKrause:一般的な意味で、私は完全に同意します。それでも、現在の質問は、YouTubeを見るのに費やされる毎日の時間の割合についてです。データはありませんが、ディストリビューションがリモート対称であっても非常に驚きます。
ステファンKolassa

43

正規分布は大きく歪んでいません。それは矛盾です。通常、分布変数のスキューは0です。


1
分布を記述するより良い方法は何ですか?そのタイプの分布がモードを中心に、その後に長いテールを持つという言葉はありますか?
コーダー

13
ユニモーダルで斜めになっているのは、私が来るのと同じくらい近いです
...-jbowman

9
余談ですが、他の人がこのようなことをうまくできるように時間を割いてくれるのは本当に素晴らしいことです。言うまでもありませんが、どちらもすばらしいことです!
コダー

6
はい。ただし、その記述は正規分布の母集団に関係していることを明確にする価値があります。その母集団から抽出されたサンプルは、非常に歪んでいる可能性があります。
GUNG -復活モニカ

スキュー値が小さい場合(「小さい」が問題の統計を処理する人によって決定される)、結果としてわずかなエラーがありますが、それでも母集団を正常として扱うことができます。
カールウィットソフト


13

対数正規分布である可能性があります。ここで述べたように

オンライン記事(ジョーク、ニュースなど)でのユーザーの滞在時間は、対数正規分布に従います。

参照は次のとおりです。羅、ピン; リー、ワンチェン; 王、分(2013)。沈黙は証拠でもあります。心理学的な観点から推奨される滞留時間を解釈します。KDDに関するACM国際会議。


7

「その分布についてもっと良い言葉はありますか?」

ここでは、単語を使用してディストリビューションのプロパティを説明することと、ディストリビューションの「名前」を見つけて特定の標準ディストリビューションのインスタンス(ほぼ)として識別できるようにすることとの間に価値のある区別があります。または、分布関数用の統計テーブルが存在する場合があり、そのためにパラメータを推定できます。この後者の場合、データの母集団を主張するのではなく、データの重要な特徴の一部をキャプチャするモデルとして、「正規/ガウス」などの名前付き分布を使用する可能性があります(2つの用語は同義です)から描画されたものまさにその理論的な分布に従います。ジョージボックスを少し間違えて引用するには、すべてのモデルは「間違っています」が、一部は便利です。モデリングアプローチを検討している場合は、どの機能を組み込むか、モデルをどの程度複雑またはpar約するかを検討する価値があります。

ある正スキューは分布がありますが、既製の分布「が」適切なモデルである特定の近くに来ないという性質を説明する一例です。一部の候補は除外されます。たとえば、ガウス分布(つまり、正規分布)のスキューはゼロであるため、スキューが重要な特徴である場合、データのモデル化には適しません。あなたにとって重要なデータの他の特性があるかもしれません。例えば、単峰性である(ただ一つのピークを持っている)か、それが0から24時間(または分数で書き込む場合は0から1の間)または特定の日にyoutubeをまったく視聴していない人がいるため)ゼロに集中する可能性があります。尖度、分布が「こぶ」または「ベル曲線」の形状で、スキューがゼロまたはゼロに近い場合でも、正規分布が「正しい」とは自動的には従わないことに注意してください。一方で、サンプリングエラーにより、データが実際に引き出された母集団が特定の分布に正確に従った場合でも、留意する価値があります。、データセットはそれとはまったく似ていない可能性があります。小さなデータセットは「ノイズが多い」可能性が高く、表示される特定の機能(追加の小さなこぶや非対称な尾部など)が、データの取得元の母集団のプロパティであるかどうかが不明な場合があります(したがって、おそらく組み込まれるべきです) (モデル内)または特定のサンプルからの単なるアーティファクトであるかどうか(およびモデリングの目的では無視する必要があります)。データセットが小さく、スキューがゼロに近い場合、基礎となる分布が実際に対称であると考えることもできます。データセットが大きく、歪度が大きいほど、これはもっともらしくなりませんが、有意差検定を実行して、データが引き出された母集団の歪度を示す証拠であるかどうかを確認できますが、これは、正規(または他のゼロスキュー)分布がモデルとして適切であるかどうかに関するポイントが欠落している可能性があります ...

データをモデル化する目的にとって、データのどのプロパティが本当に重要ですか?基礎となる母集団が本当に歪んでいる場合でも、スキューがかなり小さく、あまり気にしない場合、正規分布は視聴時間のこの真の分布を近似する有用なモデルであることに気付くかもしれないことに注意してください。しかし、これがばかげた予測をしていないことを確認する必要があります。正規分布には可能な最高値または最低値がないため、極端に高い値または低い値はますます起こりにくくなりますが、モデルでは1日あたり負の数の時間、または24時間以上視聴する確率。そのような不可能なイベントの予測確率が高くなる場合、これはあなたにとってより問題になります。正規分布のような対称分布は、多くの人が平均よりも50%以上長い時間を監視し、平均よりも50%少ない時間を監視すると予測します。視聴時間が非常に偏っている場合、この種の予測はばかげているほど信じがたいこともあり、誤解を招く結果場合があり、モデルの結果を取得して他の目的の入力として使用している場合は(たとえば、 「最適な広告のスケジュールを計算するために視聴時間のシミュレーションを実行しています)。歪度が非常に注目に値する場合、モデルの一部としてキャプチャしたい場合は、を与えるため正規分布はより適切である可能性があります。歪度と尖度の両方をキャプチャする場合は、歪んだtを考慮します。物理的に可能な上限と下限を組み込む場合は、切り捨てられたこれらの分布のバージョンのください。他の多くの確率分布は、Fまたはガンマ分布など、歪んでユニモーダル(適切なパラメーター選択のため)に存在する可能性があります。また、これらを切り捨てて、予想以上に長い視聴時間を予測しないようにすることができます。ベータ分布これは常に0〜1の範囲に制限されるため、これ以上の切り捨ては必要ないため、視聴に費やした日の一部をモデル化する場合に適しています。ウォッチャーでないために確率の集中を正確にゼロにしたい場合は、ハードルモデルの構築を検討してください。

しかし、データから特定できるすべての機能を投入し、さらに洗練されたモデルを構築しようとしている時点で、おそらくこれを行う理由を自問する必要があります?より単純なモデルには利点がありますか?たとえば、数学的に操作するのが簡単であるか、推定するパラメーターが少ないですか?このような単純化により、関心のあるすべてのプロパティを取得できなくなるのではないかと懸念している場合は、「既製」のディストリビューションが希望どおりに機能しない可能性があります。ただし、数学的特性が以前に解明されている名前付き分布での作業に限定されません。代わりに、データを使用して経験的分布関数を構築することを検討してください。これにより、データに存在するすべての動作がキャプチャされますが、「通常」や「ガンマ」などの名前を付けることはできず、特定の分布のみに関係する数学的なプロパティを適用することもできません。たとえば、「データの95%が平均の1.96標準偏差内にある」というルールは、正規分布データ用であり、分布に適用されない場合があります。ただし、チェビシェフの不等式保証など、すべての分布にいくつかのルールが適用されることに注意してください少なくともデータの75%は、スキューに関係なく、平均の2つの標準偏差内になければなりません。残念ながら、経験的分布は、基礎となる母集団が所有するものだけでなく、純粋にサンプリングエラーによって生じるデータセットのすべてのプロパティも継承します。 。平滑化された経験的分布関数を調べることもできますが、さらに良いのは、サンプルサイズを増やすことです。

要約すると、正規分布のスキューはゼロですが、データが歪んでいるという事実は正規分布を有用なモデルとして除外するものではありませんが、他の分布がより適切であることを示唆しています。モデルを選択するときは、スキュー以外にデータの他のプロパティを考慮し、モデルを使用する目的も考慮する必要があります。視聴時間の真の人口は、有名な名前付きの分布に従うとは限りませんが、これはそのような分布がモデルとして役に立たない運命にあることを意味するものではありません。ただし、一部の目的では、標準分布を当てはめるのではなく、経験的分布自体を使用することを好む場合があります。



4

「通常」と「ガウス」はまったく同じことを意味します。他の答えが説明しているように、あなたが話している分布は正規/ガウスではありません。なぜなら、その分布は実際の線上のすべての値に確率を割り当てるからです。0 そして 24


3

手元のケースでは、1日あたりの時間は 01 (1日の一部として定量化された場合)、上記の制限のない分布(パレート、スキュー正規、ガンマ、対数正規)は機能しませんが、ベータは機能します。


2

ハードルモデルはどうですか?

ハードルモデルには2つの部分があります。1つ目は、YouTubeを使用するかどうかを決定するベルヌーイの実験です。そうしないと、使用時間は明らかにゼロになり、完了です。そうした場合、「そのハードルを超える」ことになり、使用時間は他の厳密に正の分布から生じます。

密接に関連する概念は、ゼロ膨張モデルです。これらは、ゼロの束を観察する状況に対処するためのものですが、常にゼロと時々ゼロを区別することはできません。たとえば、人が毎日喫煙するタバコの数を考えてみましょう。非喫煙者の場合、その数は常にゼロですが、一部の喫煙者は特定の日にタバコを吸わない場合があります(たばこの切れですか?長いフライトで?)。ハードルモデルとは異なり、ここでの「喫煙者」分布にはゼロが含まれている必要がありますが、これらのカウントは非喫煙者の貢献によって「膨張」しています。


0

分布が実際に正規分布の「サブセット」である場合、切り捨てられたモデルを考慮する必要があります。このコンテキストで広く使用されているのは、TOBITモデルのファミリーです。
彼らは本質的に、0で(正の)確率質量を持つpdfを提案し、正の値については「正規分布の一部のカット」を提案します。
ここに式を入力することは控え、代わりにウィキペディアの記事を参照してくださいhttps : //en.wikipedia.org/wiki/Tobit_model


-4

正規分布は、定義上、歪んでいないため、両方を持つことはできません。分布が左に歪んでいる場合、ガウス分布にはできません。別のものを選択する必要があります!私が考えることができるあなたの要求に最も近いものはこれです:

https://en.wikipedia.org/wiki/Skew_normal_distribution


5
既に指摘したように、OPが左右の歪度を混乱させることを除いて、私は同意します。そして、@ beholdはすでに回答でスキュー正規を提案しています。したがって、これが既存の回答に追加されることはわかりません。
ニックコックス

これは、ストレートフォワード3行応答でそれらの多くをまとめたもの
デヴィッド・

4
申し訳ありませんが、それはまだ繰り返しです。
ニックコックス

OK ...誰が気にしますか?
デビッド

4
まあ、私はします。そして、私のコメントに+1を追加した人(明らかに私ではない)とあなたの答えをダウンボットした人(私ではない)。このスレッドはすでに長く、反復的です。さらに冗長なコメントは、将来の読者にとっては改善されません。
ニックコックス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.