離散データと連続データの違いは何ですか?
離散データと連続データの違いは何ですか?
回答:
離散データは特定の値のみを取ることができます。これらの値は無限に存在する可能性がありますが、それぞれが異なり、間に灰色の領域はありません。離散データは、リンゴの数のように数値にすることができますが、赤または青、または男性または女性、または良いか悪いかのようにカテゴリー化することもできます。
連続データは、定義された個別の値に制限されませんが、連続範囲にわたって任意の値を占有できます。連続する2つのデータ値の間には、無限の数のデータ値が存在する場合があります。連続データは常に本質的に数値です。
あるタイプの数値データを別のタイプの数値データとして扱うのが理にかなっている場合があります。たとえば、高さのようなものは連続的ですが、多くの場合、小さな違いについてあまり気にせず、代わりに高さをいくつかの個別のビンにグループ化します。逆に、大量の個別のエンティティ(米の穀物、シロアリ、または経済のペニー)を数える場合、2,000,006と2,000,008を決定的に異なる値としてではなく、おおよその連続体。
また、数値データをカテゴリカルとして扱うと便利な場合があります。たとえば、体重不足、正常、肥満などです。これは通常、単なる別の種類のビニングです。
カテゴリデータを連続と見なすことはほとんど意味がありません。
データは常に離散的です。n
変数の値のサンプルが与えられると、変数が取ることができる個別の値の最大数はに等しくなり n
ます。この見積もりを見る
実際のサンプル空間はすべて離散的であり、観測可能なすべてのランダム変数は離散的な分布を持っています。連続分布は数学的構造であり、数学的処理に適していますが、実際には観測できません。EJGピットマン(1979年、1ページ)。
変数のデータは通常、ランダム変数から引き出されると想定されます。範囲内の2つの異なるポイント間で変数が取ることができる値の数が無限にある場合、ランダム変数は範囲にわたって連続的です。たとえば、通常、身長、体重、および時間は連続していると想定されます。もちろん、これらの変数の測定値は有限に正確であり、ある意味では離散的です。
順序付き
変数(順序)、順序なし変数(名義)、およびバイナリ離散変数を区別すると便利です。
一部の入門書では、連続変数と数値変数を混同しています。たとえば、コンピューターゲームのスコアは、数値であっても離散的です。
一部の入門書では、比率変数と連続変数を混同しています。カウント変数は比率変数ですが、連続的ではありません。
実際には、変数は、十分に多数の異なる値を取ることができる場合、連続として扱われることがよくあります。
温度は連続的です。23度、23.1度、23.100004度にすることができます。
セックスは離散的です。あなたは男性または女性にしかなれません(とにかく古典的な考え方で)。1、2などの整数で表すことができるもの
多くの統計およびデータマイニングアルゴリズムは1つのタイプを処理できますが、他のタイプは処理できないため、違いは重要です。たとえば、通常の回帰では、Yは連続している必要があります。ロジスティック回帰では、Yは離散的です。
離散データは特定の値のみを取ることができます。
例:クラスの生徒数(生徒を半数にすることはできません)。
連続データは、任意の値(範囲内)を取ることができるデータです
例:
一方では、実用的な観点から、Jeromy Anglimの答えに同意します。理論的には連続的ではありますが、最終的には、ほとんどの場合離散変数を扱います。これは、たとえば分類のために実際の影響を及ぼします。Stroblの論文を思い出してください。RandomForestsは、複数のカッティングポイントを持つ変数に偏っていることを示しています(精度は高いが、潜在的に同様の性質です)。私の個人的な経験から、変数が同じタイプ(つまり連続)でない限り、変数が異なる精度を示す場合、確率的ニューラルネットワークにもバイアスが生じる可能性があります。一方、理論的な観点からは、古典的な分類(たとえば、連続、離散、名義など)は私見です。したがって、M5アルゴリズムを説明するQuinlanの論文のソース名は、これは「リグレッサー」であり、素晴らしい選択です。そのため、「環境」に応じて、連続と離散の定義と意味が関連します。
参照:
Quinlan JR(1992)。継続的なクラスで学習します。In:第5回AIに関するオーストラリア合同会議。シドニー(オーストラリア)、343–348。
Strobl C.、Boulesteix A.-L.、Zeileis A.、およびHothorn T.(2007)。ランダムフォレスト変数重要度測定のバイアス:イラスト、ソース、およびソリューション。BMC Bioinformatics、8、25。doi:10.1186 / 1471-2105-8-25
離散データは特定の値を取りますが、連続データは個別の値に制限されません。
連続したデータは連続したデータ値よりも多くの値を占めますが、離散データは区別され、その間に灰色の領域はありません。
離散データ特定の値を取ることができます。それらは数値です。
離散データは整数値のみを取り、連続データは任意の値を取ります。たとえば、病院で毎年治療される癌患者の数は離散的ですが、体重は継続的です。一部のデータは連続していますが、年齢などの離散的な方法で測定されます。あなたの年齢を31歳と報告するのが一般的です。