「データセット」とは正確にはどういう意味ですか?


10

データポイントの集計だけですか?それとも、さまざまな変数の値で整理された表形式のさまざまな要素のデータポイントの表現ですか?生データとどう違うのですか?


「データポイント」とはどういう意味ですか、少なくとも2Dであると思いますか?時系列または一連の試験スコアをデータセットにすることができます。最低でも、これらは1つの変数のシリーズである可能性があり、行ラベルがない可能性があります。@FranckDernoncourtによる回答
smci

1
データの集まりだと思っています。それは確かに私がこの用語を使う方法です。これにはあまり多くはないと思います。データが「未加工」であるか、前処理されているか、クリーンアップされているかなどは、直交しています。
gung-モニカの回復

回答:


9

私の経験では、「データセット」(または「データセット」)は、データのコレクションを指す非公式な用語です。通常、データセットには複数の変数が含まれ、単一のトピックに関係します。単一のサンプルに関係する可能性があります。

私がよくクロスバリデーションされた質問の作者が犯す間違いは、「データセット」を「変数」または「ベクトル」の同義語として使用していることです。


3
データセットvs変数またはベクトルについて合意。「データがあります」のように、「データ」から始めないでください。逆に、「私はデータセットを持っている」は、どちらかといえばイライラしない素晴らしい方法です。データが複数であると主張する人を苛立たせたり、その主張をまったく考えている人に苛立たせたりします。
Nick Cox

3
@NickCox「データ」をめぐる文法戦争では、私は「データ」が大量名詞であると主張する最も人気のない派閥にいます。
コディオロジスト2016年

3
今ではそれが過半数だと思うし、人気が高まっているともっと強く思う。
Nick Cox

8

ウィキペディアはそれを定義するのにまともな仕事をしていると思います:

最も一般的には、データセットは単一のデータベーステーブルまたは単一の統計データマトリックスの内容に対応します。テーブルのすべての列は特定の変数を表し、各行は問題のデータセットの特定のメンバーに対応します。データセットには、データセットの各メンバーについて、オブジェクトの高さや重量などの各変数の値がリストされます。各値はデータムと呼ばれます。データセットは、行数に対応する1つ以上のメンバーのデータを含むことができます。

データセットという用語は、特定の実験またはイベントに対応する、密接に関連するテーブルのコレクション内のデータを指すために、より緩やかに使用される場合もあります。このタイプの例は、宇宙機関が宇宙探査機に搭載された機器で実験を行って収集したデータセットです。

オープンデータ分野では、データセットはパブリックオープンデータリポジトリで公開された情報を測定する単位です。European Open Dataポータルは、50万以上のデータセットを集約しています。この分野では他の定義が提案されていますが、現在公式な定義はありません。他のいくつかの問題(リアルタイムデータソース、非リレーショナルデータセットなど)は、それに関するコンセンサスに到達することの困難さを増します。

ご覧のとおり、この用語はややあいまいです。


また、コンピュータビジョンの設定では、データセットは自然画像とそのラベルまたは注釈のコレクションにすぎません。
Sycoraxは

「データベース*」とはどういう意味ですか
ankit


@Sycoraxはい、1つの画像(または他の信号)をデータベース内の1つのblobデータムと見なすことができると思います。
フランクダーノンコート2016年

7

データセットを定義する前に、データポイントを定義する必要があると思います。なぜ1つのプリミティブで定義が不要なのですか。

少なくとも2つの定義が私にとって意味があります。

  1. 1つ以上の変数(フィールド、列)の1つ以上の観測(ケース、レコード、行)。

  2. 選択したプログラムで読み取り可能なファイル内にデータとして保存されるものは何でも。

表形式のレイアウトは一般的ですが、定義の一部ではないと思います。データがどのように保存されるかは、当然ながら実際上重要です。

PS「フォーマット」という言葉は多重定義されているので、明確に指定されていない限り、私には避けるのが最善です。私はそれが使用されるのを見た

  1. 一般または特定のテキストまたはバイナリファイル形式

  2. データ構造、例えば表形式またはその他

  3. データストレージまたは変数タイプ(ビット、整数、実数、文字など)

  4. 表示を制御する表示形式、たとえば小数点以下の桁数の詳細。10進、16進、または2進表示。


6

ここにはすでにいくつかの良い答えがあります。「データセット」が関連データの概念的なコレクションを指すのか、またはそれらのデータの特定の配置を指すのかなどの問題は、ニックコックスまたはフランクダーノンコートよりも深く浸透できないと思います。テーブル/マトリックスまたはコンピューターで読み取り可能なファイル。フランクの抜粋では、継続的に収集されるデータや複数のテーブルにまたがるデータなどのエッジケースについて言及しています。これらは、単純な定義があると想定した場合に留意する価値があります。(すべての統計ソフトウェアが処理できるわけではありませんが、データが複数のテーブルを持つリレーショナルデータベースに格納されているケースを想像するのは非常に簡単です。データベース全体が単一の「データセット」ですか?)

ただし、追加する1つのことは、データセットは通常、数学的な意味でセットではないということです。Sensu strictoは、セットにオブジェクトが含まれているか含まれていないかのいずれかですが、そのオブジェクトの複数のコピーを含めることはできません。サイコロを8回振り、スコアを1、4、3、5、5、4、6、4とすると、出たスコアのセットは{1、3、4、5、6}になります。要素はどのような順序でもかまいません。昇順で値を書いただけですが、たとえば{5、4、1、6、3}のセットは数学的にはそれに等しいということです。ただし、これはデータセットで通常意味することではありません。

マルチセット(または)は、{1に等しく、これはまだ順序の感覚を含んでいませんけれども、{1、4、3、5、5、4、6、4}例えば、エントリが繰り返されることを可能にします3、4、4、4、5、5、6}。おそらく、「データセット」の「セット」は「マルチセット」として読むのが最善でしょう。さらに、順序を維持したい場合は、代わりにベクトルを使用することもできます:(1、4、3、5、5、4、6、4)は(1、3、4、4、4、 5、5、6)。順序付けにより、一種の識別子として機能するインデックスが得られます。たとえば、「4つはどれですか」などのように指示されます。—多くの場合、観測を自然な時間的または地理的順序で記録する目的に役立ちます。などの数式が表示された場合x1x2x¯=1ni=1nxiこの種の索引付けスキームが想定されています。セットまたはマルチセットのコンテキストで、順序付けの欠如のために「最初」または「2番目」の要素を区別できない場合、またはどういう意味ですか?x1x2

しかし、ベクトルは1つの変数を記録するためだけのものです-いくつかの場合、行列を使用して、順序を保存して表を作成すると便利です。ボクセルの 3次元グリッドのプロパティを経時的に測定するなどのより高度な状況では、データをテンソルに配置することに移ることもできます(たとえば、この質問を参照してください)。

ただし、概念的には、マルチセットは実際的な目的には不便であっても、ほとんどの単純な状況で十分な場合があります。サイコロを転がしながら同時にコインを投げ、2つの結果を一緒に記録したい場合、{(1、H)、(3、T)、(4、H)、(4、H )、(4、T)、(5、H)、(5、T)、(6、T)}マトリックスの代わりに。たとえば、(4、H)の多重度をカウントしないため、通常のセットでは不十分です。


1
データセットは一連の観測であり、それらを区別するために識別子が必要になる可能性があるというしわがあるだけの考えです。しかし、あなたはここでの意味が集合論における意味から少し離れていることは正しいです。あなたがここで示唆するように、下線は、観察の順序がしばしば重要であり、常にではないが、多くの場合、時間または他の順序付け変数によって与えられることを強調します。
Nick Cox

@NickCox(+1)確かに、私がまだ時間を見つけられていないこと、または表現する方法は、観測にはしばしば識別子が付いていることです-時々、時には場所ベース、時には両方。データをベクトル、行列、またはテンソルにエンコードすると、たいていの場合、必要な構造が直接提供され、明示的な識別子(ハードコードされたインデックスなど)が不要になります(特に、順序または相対位置のみが重要な場合)。間違いなく、これらすべてに対して正しい用語があります。
Silverfish 2016年

順序は関係ないと言って問題はありません。単一の変数ではありません。計測時間などのX値がペアになっている場合、順序は重要です。しかし、その場合、ポイントは多次元であると考えることができます。また、多次元データのセットの順序は再び問題になりません。また、実際には、2つの5を一意にする暗黙の識別子が存在することを考えると問題は発生しません。
ガン-モニカの回復

@gung時間またはシリアル順が暗黙的であるデータセットを考えていました。明示的な順序付け変数を持たないのは不適切な慣行であり、現在は不要ですが、そのような順序変数がなくてもデータセットになる資格が失われることはありません。実際、1970年代には、自分のFortranプログラムが1つを入力する(自明ではない)作業を不要にしたので、暗黙的な識別子を使用して空間シリーズを日常的に処理していました。
Nick Cox

@NickCox、私にはそれでいいようです。その場合、順序変数は暗黙的ですが、ある意味ではまだあります。
-モニカの復活
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.