この質問があります:YouTubeで1日あたりに費やされる時間の分布はどのように見えると思いますか?
私の答えは、おそらく正規分布であり、非常に歪んでいるということです。一部のユーザーはパワーユーザーを圧倒しているため、ほとんどのユーザーが平均的な時間を費やしてから右の長いテールを使用するモードが1つあると思います。
それは公平な答えですか?その分布についてより良い言葉はありますか?
この質問があります:YouTubeで1日あたりに費やされる時間の分布はどのように見えると思いますか?
私の答えは、おそらく正規分布であり、非常に歪んでいるということです。一部のユーザーはパワーユーザーを圧倒しているため、ほとんどのユーザーが平均的な時間を費やしてから右の長いテールを使用するモードが1つあると思います。
それは公平な答えですか?その分布についてより良い言葉はありますか?
回答:
1日あたりの割合は確かに負ではありません。これにより、実軸全体、特に負の半分にわたって確率質量を持つ正規分布が除外されます。
べき乗分布は、所得分布や都市の大きさなどをモデル化するためによく使用されます。これらは非負であり、通常は非常に歪んでいます。これらは、YouTubeを見るのに費やした時間をモデル化する上で私が試みる最初の試みです。(またはCrossValidatedの質問を監視します。)
正規分布は大きく歪んでいません。それは矛盾です。通常、分布変数のスキューは0です。
右テールが長い場合は、右に傾斜しています。
スキュー!= 0であるため、正規分布にすることはできません。おそらく、単峰性のスキュー正規分布です。
「その分布についてもっと良い言葉はありますか?」
ここでは、単語を使用してディストリビューションのプロパティを説明することと、ディストリビューションの「名前」を見つけて特定の標準ディストリビューションのインスタンス(ほぼ)として識別できるようにすることとの間に価値のある区別があります。または、分布関数用の統計テーブルが存在する場合があり、そのためにパラメータを推定できます。この後者の場合、データの母集団を主張するのではなく、データの重要な特徴の一部をキャプチャするモデルとして、「正規/ガウス」などの名前付き分布を使用する可能性があります(2つの用語は同義です)から描画されたものまさにその理論的な分布に従います。ジョージボックスを少し間違えて引用するには、すべてのモデルは「間違っています」が、一部は便利です。モデリングアプローチを検討している場合は、どの機能を組み込むか、モデルをどの程度複雑またはpar約するかを検討する価値があります。
ある正スキューは分布がありますが、既製の分布「が」適切なモデルである特定の近くに来ないという性質を説明する一例です。一部の候補は除外されます。たとえば、ガウス分布(つまり、正規分布)のスキューはゼロであるため、スキューが重要な特徴である場合、データのモデル化には適しません。あなたにとって重要なデータの他の特性があるかもしれません。例えば、単峰性である(ただ一つのピークを持っている)か、それが0から24時間(または分数で書き込む場合は0から1の間)または特定の日にyoutubeをまったく視聴していない人がいるため)ゼロに集中する可能性があります。尖度。、分布が「こぶ」または「ベル曲線」の形状で、スキューがゼロまたはゼロに近い場合でも、正規分布が「正しい」とは自動的には従わないことに注意してください。一方で、サンプリングエラーにより、データが実際に引き出された母集団が特定の分布に正確に従った場合でも、留意する価値があります。、データセットはそれとはまったく似ていない可能性があります。小さなデータセットは「ノイズが多い」可能性が高く、表示される特定の機能(追加の小さなこぶや非対称な尾部など)が、データの取得元の母集団のプロパティであるかどうかが不明な場合があります(したがって、おそらく組み込まれるべきです) (モデル内)または特定のサンプルからの単なるアーティファクトであるかどうか(およびモデリングの目的では無視する必要があります)。データセットが小さく、スキューがゼロに近い場合、基礎となる分布が実際に対称であると考えることもできます。データセットが大きく、歪度が大きいほど、これはもっともらしくなりませんが、有意差検定を実行して、データが引き出された母集団の歪度を示す証拠であるかどうかを確認できますが、これは、正規(または他のゼロスキュー)分布がモデルとして適切であるかどうかに関するポイントが欠落している可能性があります ...
データをモデル化する目的にとって、データのどのプロパティが本当に重要ですか?基礎となる母集団が本当に歪んでいる場合でも、スキューがかなり小さく、あまり気にしない場合、正規分布は視聴時間のこの真の分布を近似する有用なモデルであることに気付くかもしれないことに注意してください。しかし、これがばかげた予測をしていないことを確認する必要があります。正規分布には可能な最高値または最低値がないため、極端に高い値または低い値はますます起こりにくくなりますが、モデルでは、1日あたり負の数の時間、または24時間以上視聴する確率。そのような不可能なイベントの予測確率が高くなる場合、これはあなたにとってより問題になります。正規分布のような対称分布は、多くの人が平均よりも50%以上長い時間を監視し、平均よりも50%少ない時間を監視すると予測します。視聴時間が非常に偏っている場合、この種の予測はばかげているほど信じがたいこともあり、誤解を招く結果場合があり、モデルの結果を取得して他の目的の入力として使用している場合は(たとえば、 「最適な広告のスケジュールを計算するために視聴時間のシミュレーションを実行しています)。歪度が非常に注目に値する場合、モデルの一部としてキャプチャしたい場合は、を与えるため、正規分布はより適切である可能性があります。歪度と尖度の両方をキャプチャする場合は、歪んだtを考慮します。物理的に可能な上限と下限を組み込む場合は、切り捨てられたこれらの分布のバージョンのください。他の多くの確率分布は、Fまたはガンマ分布など、歪んでユニモーダル(適切なパラメーター選択のため)に存在する可能性があります。また、これらを切り捨てて、予想以上に長い視聴時間を予測しないようにすることができます。ベータ分布これは常に0〜1の範囲に制限されるため、これ以上の切り捨ては必要ないため、視聴に費やした日の一部をモデル化する場合に適しています。ウォッチャーでないために確率の集中を正確にゼロにしたい場合は、ハードルモデルの構築を検討してください。
しかし、データから特定できるすべての機能を投入し、さらに洗練されたモデルを構築しようとしている時点で、おそらくこれを行う理由を自問する必要がありますか?より単純なモデルには利点がありますか?たとえば、数学的に操作するのが簡単であるか、推定するパラメーターが少ないですか?このような単純化により、関心のあるすべてのプロパティを取得できなくなるのではないかと懸念している場合は、「既製」のディストリビューションが希望どおりに機能しない可能性があります。ただし、数学的特性が以前に解明されている名前付き分布での作業に限定されません。代わりに、データを使用して経験的分布関数を構築することを検討してください。これにより、データに存在するすべての動作がキャプチャされますが、「通常」や「ガンマ」などの名前を付けることはできず、特定の分布のみに関係する数学的なプロパティを適用することもできません。たとえば、「データの95%が平均の1.96標準偏差内にある」というルールは、正規分布データ用であり、分布に適用されない場合があります。ただし、チェビシェフの不等式保証など、すべての分布にいくつかのルールが適用されることに注意してください少なくともデータの75%は、スキューに関係なく、平均の2つの標準偏差内になければなりません。残念ながら、経験的分布は、基礎となる母集団が所有するものだけでなく、純粋にサンプリングエラーによって生じるデータセットのすべてのプロパティも継承します。 。平滑化された経験的分布関数を調べることもできますが、さらに良いのは、サンプルサイズを増やすことです。
要約すると、正規分布のスキューはゼロですが、データが歪んでいるという事実は正規分布を有用なモデルとして除外するものではありませんが、他の分布がより適切であることを示唆しています。モデルを選択するときは、スキュー以外にデータの他のプロパティを考慮し、モデルを使用する目的も考慮する必要があります。視聴時間の真の人口は、有名な名前付きの分布に従うとは限りませんが、これはそのような分布がモデルとして役に立たない運命にあることを意味するものではありません。ただし、一部の目的では、標準分布を当てはめるのではなく、経験的分布自体を使用することを好む場合があります。
ガンマ分布は、非負の右スキューデータのこの種の分布を説明するのに適した候補です。ここの画像の緑の線を参照してください。 ご覧ください https //en.m.wikipedia.org/wiki/Gamma_distribution
「通常」と「ガウス」はまったく同じことを意味します。他の答えが説明しているように、あなたが話している分布は正規/ガウスではありません。なぜなら、その分布は実際の線上のすべての値に確率を割り当てるからです。 そして 。
ハードルモデルはどうですか?
ハードルモデルには2つの部分があります。1つ目は、YouTubeを使用するかどうかを決定するベルヌーイの実験です。そうしないと、使用時間は明らかにゼロになり、完了です。そうした場合、「そのハードルを超える」ことになり、使用時間は他の厳密に正の分布から生じます。
密接に関連する概念は、ゼロ膨張モデルです。これらは、ゼロの束を観察する状況に対処するためのものですが、常にゼロと時々ゼロを区別することはできません。たとえば、人が毎日喫煙するタバコの数を考えてみましょう。非喫煙者の場合、その数は常にゼロですが、一部の喫煙者は特定の日にタバコを吸わない場合があります(たばこの切れですか?長いフライトで?)。ハードルモデルとは異なり、ここでの「喫煙者」分布にはゼロが含まれている必要がありますが、これらのカウントは非喫煙者の貢献によって「膨張」しています。
分布が実際に正規分布の「サブセット」である場合、切り捨てられたモデルを考慮する必要があります。このコンテキストで広く使用されているのは、TOBITモデルのファミリーです。
彼らは本質的に、0で(正の)確率質量を持つpdfを提案し、正の値については「正規分布の一部のカット」を提案します。
ここに式を入力することは控え、代わりにウィキペディアの記事を参照してください:https : //en.wikipedia.org/wiki/Tobit_model
正規分布は、定義上、歪んでいないため、両方を持つことはできません。分布が左に歪んでいる場合、ガウス分布にはできません。別のものを選択する必要があります!私が考えることができるあなたの要求に最も近いものはこれです: