離散データと連続データの違いは何ですか?


63

離散データと連続データの違いは何ですか?


2
最初にGoogleを試しましたか?私にとっては、これを与えます
ロビンジラール

ここにあなたの質問に答える素敵なビデオがあります。youtube.com/watch?v=MIX3ZpzEOdM-user67783

2
デジタルとアナログを考えてください。同じこと-異なる名前。
ピティコス

「離散」データと「連続」データの違いを本当に知りません。いくつかの理由により、イントロの統計クラスは、これらの2つのことを区別するためのルールを生徒に暗記させることを本当に楽しんでいるようです。私が理解できる限りでは、違いはデータにあるのではなく、データをモデル化する方法にあります。
user795305

1
これは、Googleの上位結果である@robingirardです。
デンソン

回答:


58

離散データは特定の値のみを取ることができます。これらの値は無限に存在する可能性がありますが、それぞれが異なり、間に灰色の領域はありません。離散データは、リンゴの数のように数値にすることができますが、赤または青、または男性または女性、または良いか悪いかのようにカテゴリー化することもできます。

連続データは、定義された個別の値に制限されませんが、連続範囲にわたって任意の値を占有できます。連続する2つのデータ値の間には、無限の数のデータ値が存在する場合があります。連続データは常に本質的に数値です。

あるタイプの数値データを別のタイプの数値データとして扱うのが理にかなっている場合があります。たとえば、高さのようなものは連続的ですが、多くの場合、小さな違いについてあまり気にせず、代わりに高さをいくつかの個別のビンにグループ化します。逆に、大量の個別のエンティティ(米の穀物、シロアリ、または経済のペニー)を数える場合、2,000,006と2,000,008を決定的に異なる値としてではなく、おおよその連続体。

また、数値データをカテゴリカルとして扱うと便利な場合があります。たとえば、体重不足、正常、肥満などです。これは通常、単なる別の種類のビニングです。

カテゴリデータを連続と見なすことはほとんど意味がありません。


@jeromyが示唆する@walktalkyは、少なくとも心理学では、質問への回答などのカテゴリー変数は多くの場合、基礎となる特性の表現であると推定されるため、その意味ではカテゴリーデータは連続していると見なされることがあります。
-richiemorrisroe

@richiemorrisroeデータと推定上の特性の違いについては少し気にすることはできますが、もちろん正しいです。このフォローアップの質問に応えて、いくつかの非常に興味深いさらなるポイントが作成されました。
-Walkytalky

リンクのおかげで、それらの答えは確かに非常に興味深いものです。
richiemorrisroe

>「潜在的に存在し、それらの値の無限の数であるが、それぞれは別個のものであるとの間には灰色の領域がありませんできる」 -異なる値を持つ離散的な分布を有するように、実際に完全に可能だし、まだ同時に、任意の二つのため選択する個別の値は、常にそれらの間に多くの値があります(ある意味で「灰色の領域」)。実際にはそれほど頻繁に登場するわけではありませんが、実際に登場することは完全に可能です。実際、簡単に発生する可能性のある2つの異なる(関連する場合)例を考えることができます。
Glen_b

明確にするために、たとえ株式資産について100億行のohlcデータがあったとしても、それはまだ離散的であると考えられますか?しかし、その後、資産の価格は1から無限までの間ではありません、この種の状況でどう考えるか?
PirateApp

19

データは常に離散的です。n変数の値のサンプルが与えられると、変数が取ることができる個別の値の最大数はに等しくなり nます。この見積もりを見る

実際のサンプル空間はすべて離散的であり、観測可能なすべてのランダム変数は離散的な分布を持っています。連続分布は数学的構造であり、数学的処理に適していますが、実際には観測できません。EJGピットマン(1979年、1ページ)。

変数のデータは通常、ランダム変数から引き出されると想定されます。範囲内の2つの異なるポイント間で変数が取ることができる値の数が無限にある場合、ランダム変数は範囲にわたって連続的です。たとえば、通常、身長、体重、および時間は連続していると想定されます。もちろん、これらの変数の測定値は有限に正確であり、ある意味では離散的です。

順序付き
変数(順序)、順序なし変数(名義)、およびバイナリ離散変数を区別すると便利です。

一部の入門書では、連続変数と数値変数を混同しています。たとえば、コンピューターゲームのスコアは、数値であっても離散的です。

一部の入門書では、比率変数と連続変数を混同しています。カウント変数は比率変数ですが、連続的ではありません。

実際には、変数は、十分に多数の異なる値を取ることができる場合、連続として扱われることがよくあります。

参照資料

  • Pitman、EJG1979。統計的推論のためのいくつかの基本理論。ロンドン:チャップマンとホール。注: 私は、マレー・エイトキンの著書 『統計的推論:統合ベイジアン/尤度アプローチ』の第2章の紹介で引用を見つけました。

12
確率も「数学的な構造」であり、「直接観測可能」ではありません。これは、確率が存在しないことを意味しますか?全体的に、この興味深い回答は、数学モデルが許可する値ではなく、データ持つ値によって特徴付けられるべきであるという支持できない前提に基づいているようです。後者は重要な特性であり、前者ではありません。これはすべて、連続的/離散的な区別で重要なのは、データについてどう考えるか(つまり、データをモデル化する方法)であることを示唆しています。
whuber

3
@whuberの要点を示す巧妙な小さなf話があります:Lord(1953)、 "サッカーの数字の統計的取り扱いについて"、American Psychologist8、pp750-51。
Scortchi-モニカの復職

ありがとう、@ Scortchi。Webバージョンは、Google奨学金検索で入手できます。主は、60年前に熱く議論されていた「測定理論」が統計分析に影響を与える(またはその範囲を制限する)程度についての誤解に取り組んでいます。私のポイントは、モデル構成と観察の違いについての別のポイントでした。
whuberの

12

温度は連続的です。23度、23.1度、23.100004度にすることができます。

セックスは離散的です。あなたは男性または女性にしかなれません(とにかく古典的な考え方で)。1、2などの整数で表すことができるもの

多くの統計およびデータマイニングアルゴリズムは1つのタイプを処理できますが、他のタイプは処理できないため、違いは重要です。たとえば、通常の回帰では、Yは連続している必要があります。ロジスティック回帰では、Yは離散的です。


5
温度を最も近い程度で記録する場合、温度は離散と見なすことができます。また、特定の形式の分析で、おそらくそのように考慮する必要があります。また、「通常の」(OLS?)回帰では、は連続である必要はありません。多くの(そして事実上すべての有用なプロパティ)が、バイナリ応答を含む多くのタイプの離散データに適用されます。これらのポイントとカウンターポイントが示唆し始めるのは、データは必ずしも離散的または連続的ではなく、むしろ統計的手順は離散的または連続的であるということです。Y
whuber

8

離散データは特定の値のみを取ることができます。

例:クラスの生徒数(生徒を半数にすることはできません)。

連続データは、任意の値(範囲内)を取ることができるデータです

例:

  • 人の身長:特定の固定身長だけでなく、(人間の身長の範囲内の)任意の値にすることができます。
  • レースでの時間:秒単位で測定することもできますが、
  • 犬の体重、
  • 葉の長さ、
  • 人の体重、


うまく説明されています。
Arsman Ahmad

0

データベースの場合、データの性質が連続的であっても、常にデータを個別に保存します。データの性質を強調する必要があるのはなぜですか?データを分析するのに役立つデータの分布を取る必要があります。データの性質が連続的である場合は、連続分析で使用することをお勧めします。

連続的および離散的な例を挙げます:MP3 デジタル形式で保存されている場合、「サウンド」のタイプも類似しています。常に類推して分析する必要があります。


0

一方では、実用的な観点から、Jeromy Anglimの答えに同意します。理論的には連続的ではありますが、最終的には、ほとんどの場合離散変数を扱います。これは、たとえば分類のために実際の影響を及ぼします。Stroblの論文を思い出してください。RandomForestsは、複数のカッティングポイントを持つ変数に偏っていることを示しています(精度は高いが、潜在的に同様の性質です)。私の個人的な経験から、変数が同じタイプ(つまり連続)でない限り、変数が異なる精度を示す場合、確率的ニューラルネットワークにもバイアスが生じる可能性があります。一方、理論的な観点からは、古典的な分類(たとえば、連続、離散、名義など)は私見です。したがって、M5アルゴリズムを説明するQuinlanの論文のソース名は、これは「リグレッサー」であり、素晴らしい選択です。そのため、「環境」に応じて、連続と離散の定義と意味が関連します。

参照:

Quinlan JR(1992)。継続的なクラスで学習します。In:第5回AIに関するオーストラリア合同会議。シドニー(オーストラリア)、343–348。

Strobl C.、Boulesteix A.-L.、Zeileis A.、およびHothorn T.(2007)。ランダムフォレスト変数重要度測定のバイアス:イラスト、ソース、およびソリューション。BMC Bioinformatics、8、25。doi:10.1186 / 1471-2105-8-25


-1

離散データは特定の値を取りますが、連続データは個別の値に制限されません。

連続したデータは連続したデータ値よりも多くの値を占めますが、離散データは区別され、その間に灰色の領域はありません。


-2

離散データ特定の値を取ることができます。それらは数値です。


CVへようこそ!回答いただきありがとうございます。以前の回答をご覧になり、何か役立つものを追加するかどうかを検討してください。
Scortchi-モニカの復職

-3

離散データは整数値のみを取り、連続データは任意の値を取ります。たとえば、病院で毎年治療される癌患者の数は離散的ですが、体重は継続的です。一部のデータは連続していますが、年齢などの離散的な方法で測定されます。あなたの年齢を31歳と報告するのが一般的です。


11
データは整数に制限されることなく離散的にできます。または数字、それについて。整数で離散データを表現すること常に可能ですが、それはデータがそのような値しかとれないことを意味しません。
-Walkytalky

-4

離散データは特に有限値について語り、連続データは有限値について語ります。


2
手入れをしますか?
chl
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.