データポイントの集計だけですか?それとも、さまざまな変数の値で整理された表形式のさまざまな要素のデータポイントの表現ですか?生データとどう違うのですか?
データポイントの集計だけですか?それとも、さまざまな変数の値で整理された表形式のさまざまな要素のデータポイントの表現ですか?生データとどう違うのですか?
回答:
私の経験では、「データセット」(または「データセット」)は、データのコレクションを指す非公式な用語です。通常、データセットには複数の変数が含まれ、単一のトピックに関係します。単一のサンプルに関係する可能性があります。
私がよくクロスバリデーションされた質問の作者が犯す間違いは、「データセット」を「変数」または「ベクトル」の同義語として使用していることです。
ウィキペディアはそれを定義するのにまともな仕事をしていると思います:
最も一般的には、データセットは単一のデータベーステーブルまたは単一の統計データマトリックスの内容に対応します。テーブルのすべての列は特定の変数を表し、各行は問題のデータセットの特定のメンバーに対応します。データセットには、データセットの各メンバーについて、オブジェクトの高さや重量などの各変数の値がリストされます。各値はデータムと呼ばれます。データセットは、行数に対応する1つ以上のメンバーのデータを含むことができます。
データセットという用語は、特定の実験またはイベントに対応する、密接に関連するテーブルのコレクション内のデータを指すために、より緩やかに使用される場合もあります。このタイプの例は、宇宙機関が宇宙探査機に搭載された機器で実験を行って収集したデータセットです。
オープンデータ分野では、データセットはパブリックオープンデータリポジトリで公開された情報を測定する単位です。European Open Dataポータルは、50万以上のデータセットを集約しています。この分野では他の定義が提案されていますが、現在公式な定義はありません。他のいくつかの問題(リアルタイムデータソース、非リレーショナルデータセットなど)は、それに関するコンセンサスに到達することの困難さを増します。
ご覧のとおり、この用語はややあいまいです。
データセットを定義する前に、データポイントを定義する必要があると思います。なぜ1つのプリミティブで定義が不要なのですか。
少なくとも2つの定義が私にとって意味があります。
1つ以上の変数(フィールド、列)の1つ以上の観測(ケース、レコード、行)。
選択したプログラムで読み取り可能なファイル内にデータとして保存されるものは何でも。
表形式のレイアウトは一般的ですが、定義の一部ではないと思います。データがどのように保存されるかは、当然ながら実際上重要です。
PS「フォーマット」という言葉は多重定義されているので、明確に指定されていない限り、私には避けるのが最善です。私はそれが使用されるのを見た
一般または特定のテキストまたはバイナリファイル形式
データ構造、例えば表形式またはその他
データストレージまたは変数タイプ(ビット、整数、実数、文字など)
表示を制御する表示形式、たとえば小数点以下の桁数の詳細。10進、16進、または2進表示。
ここにはすでにいくつかの良い答えがあります。「データセット」が関連データの概念的なコレクションを指すのか、またはそれらのデータの特定の配置を指すのかなどの問題は、ニックコックスまたはフランクダーノンコートよりも深く浸透できないと思います。テーブル/マトリックスまたはコンピューターで読み取り可能なファイル。フランクの抜粋では、継続的に収集されるデータや複数のテーブルにまたがるデータなどのエッジケースについて言及しています。これらは、単純な定義があると想定した場合に留意する価値があります。(すべての統計ソフトウェアが処理できるわけではありませんが、データが複数のテーブルを持つリレーショナルデータベースに格納されているケースを想像するのは非常に簡単です。データベース全体が単一の「データセット」ですか?)
ただし、追加する1つのことは、データセットは通常、数学的な意味でセットではないということです。Sensu strictoは、セットにオブジェクトが含まれているか含まれていないかのいずれかですが、そのオブジェクトの複数のコピーを含めることはできません。サイコロを8回振り、スコアを1、4、3、5、5、4、6、4とすると、出たスコアのセットは{1、3、4、5、6}になります。要素はどのような順序でもかまいません。昇順で値を書いただけですが、たとえば{5、4、1、6、3}のセットは数学的にはそれに等しいということです。ただし、これはデータセットで通常意味することではありません。
マルチセット(または袋)は、{1に等しく、これはまだ順序の感覚を含んでいませんけれども、{1、4、3、5、5、4、6、4}例えば、エントリが繰り返されることを可能にします3、4、4、4、5、5、6}。おそらく、「データセット」の「セット」は「マルチセット」として読むのが最善でしょう。さらに、順序を維持したい場合は、代わりにベクトルを使用することもできます:(1、4、3、5、5、4、6、4)は(1、3、4、4、4、 5、5、6)。順序付けにより、一種の識別子として機能するインデックスが得られます。たとえば、「4つはどれですか」などのように指示されます。—多くの場合、観測を自然な時間的または地理的順序で記録する目的に役立ちます。などの数式が表示された場合x1x2この種の索引付けスキームが想定されています。セットまたはマルチセットのコンテキストで、順序付けの欠如のために「最初」または「2番目」の要素を区別できない場合、またはどういう意味ですか?
しかし、ベクトルは1つの変数を記録するためだけのものです-いくつかの場合、行列を使用して、順序を保存して表を作成すると便利です。ボクセルの 3次元グリッドのプロパティを経時的に測定するなどのより高度な状況では、データをテンソルに配置することに移ることもできます(たとえば、この質問を参照してください)。
ただし、概念的には、マルチセットは実際的な目的には不便であっても、ほとんどの単純な状況で十分な場合があります。サイコロを転がしながら同時にコインを投げ、2つの結果を一緒に記録したい場合、{(1、H)、(3、T)、(4、H)、(4、H )、(4、T)、(5、H)、(5、T)、(6、T)}マトリックスの代わりに。たとえば、(4、H)の多重度をカウントしないため、通常のセットでは不十分です。