分析にCDFおよびPDF統計を使用する方法


12

これは一般的な質問の多すぎるかもしれませんが、私はここで助けを見つけることができると思います。私は大学でRAの仕事を始めており、私のトピックはインターネットトラフィック分析に関連しています。私は分析の世界ではかなり新しいですが、研究の世界ではこれが私がしなければならないことだと思います。

私はいくつかの論文を読みましたが、多くの場合、得られた結果を説明するために確率密度(PDF)、CDF、CCDFなどを使用しています。たとえば、ユーザーセッション期間のPDF、毎日転送されるバイトのCDFなど。確率と統計のクラスを取得したので、それらが何であるかを理解していますが、そのような表現が選択される場合にはまだ混乱しています。

したがって、そのようなグラフと分析を行う人がいる場合(他の一般的なトピックまたはこれで)、どのような状況でこれらの表現のどちらを使用するかを簡単に教えてもらえますか?

回答:


17

それは部分的には好みと慣習の問題ですが、理論、あなたの目的への注意、および認知神経科学のわずかなもの(参考文献を参照)はいくらかの指針を提供します。

pdfとcdfは同じ情報を伝えるため、それらの違いはそれらの実行方法から生じます。pdfは面積の確率を表し、cdfは(垂直)距離の確率を表します。調査によると、人々はエリアを比較するよりも速く正確に距離を比較し、体系的にエリアを誤って推定します。したがって、確率を読み取るためのグラフィカルツールを提供することが目的の場合は、cdfを使用することをお勧めします。

Pdfsおよびcdfsも確率密度を表します。前者は高さによって表現し、後者は勾配によって密度を表します。人々は勾配の貧弱な推定者であるため、テーブルが回転します(これは角度の接線です。角度自体を見る傾向があります)。密度は、モード、尾の重さ、およびギャップに関する情報を伝えるのに適しています。そのような状況や確率分布の局所的な詳細を強調する必要がある他の場所でPDFを使用することをお勧めします。

時々、pdfまたはcdfが有用な理論情報を提供します。その値(またはその逆)は、変位値、極値、およびランク統計の標準誤差の式に関係しています。このような状況では、cdfではなくpdfを表示します。copulasなどのノンパラメトリック設定で多変量相関を調べると、cdfの方が有用であることがわかります(おそらく、連続確率則を一様なものに変換する関数だからです)。

pdfまたはcdfは、特定の統計検定と密接に関連付けることができます。コルモゴロフ-スミルノフ検定(およびKS統計)は、CDFの周りに垂直バッファの点で簡単なグラフィカル表現を有します。pdfに関しては単純なグラフィカルな表現はありません(私が知っていることです)。

ccdf(相補cdf)は、生存とまれなイベントに焦点を当てた特別なアプリケーションで使用されます。その使用は慣例により確立される傾向があります。

参照資料

WSクリーブランド(1994)。グラフデータの要素。米国ニュージャージー州サミット:ホバートプレス。ISBN 0-9634884-1-4

BDデント(1999)。地図作成:テーママップの設計第5版。米国マサチューセッツ州ボストン:WCB McGraw-Hill。

AM MacEachren(2004)。マップの仕組み。ニューヨーク、ニューヨーク、米国:ギルフォードプレス。ISBN 1-57230-040-X


(+1)特に、距離と面積、勾配と高さの解釈可能性に関する洞察について。
ステフェン

8

私はwhuberの答えに同意しますが、もう1つ小さな点があります:

CDFには、選択する必要のない単純なノンパラメトリック推定器、経験分布関数があります。そうではありませんかなり PDFを推定することがとても簡単。ヒストグラムを使用する場合、ビンの幅と最初のビンの開始点を選択する必要があります。カーネル密度推定を使用する場合、カーネルの形状と帯域幅を選択する必要があります。疑わしいまたは冷笑的な読者はこれらを完全にアプリオリに選択したのか、いくつかの異なる値を試して最も気に入った結果をもたらす値を選択したのか疑問に思うかもしれません。

ただし、これは小さな点です。whuberが作成したものはより重要なので、おそらく、これらを検討した後、まだ未定だったときに選択するためにのみこれを使用します。


まだ興味深い点です。それを育ててくれてありがとう。
whuber

2

統計、調査結果、調査、研究、報告のいずれに依存するかによると思います。大学のトピックの調査結果を表すためにこれらのグラフを使用することになると思いますか?

たとえば、「ユーザーが特定のウェブサイトに滞在している時間」などの調査結果を提示したい場合、CDFに表示すると、ウェブサイトで費やした累積時間をページなどを通じて表示できるので便利です。 。

一方、ユーザーが広告リンク(例:Google adwordsリンク)をクリックする確率を単純に表示したい場合は、通常の分布ベル曲線になる可能性があるため、PDF形式で表示することができます。そのヘプニングの確率。

これがお役に立てば幸いです、ジェフ

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.