ビッグデータの唯一の有用な定義は、特定の現象に関するすべての情報をカタログ化するデータだと思います。つまり、ビッグデータは、対象の母集団からサンプリングしてそれらのユニットの測定値を収集するのではなく、対象の母集団全体の測定値を収集します。Amazon.comの顧客に興味があるとします。一部のユーザーだけを追跡したり、一部の取引を追跡したりするのではなく、Amazon.comが顧客の購入すべてに関する情報を収集することは完全に実行可能です。
私の考えでは、データ自体のメモリサイズに依存する定義は、実用性がある程度制限されています。そのメトリックでは、十分な大きさのコンピューターを考えると、データは実際にはビッグデータではありません。無限に大きなコンピューターの極端な場合、この議論は縮小的に見えるかもしれませんが、私の消費者グレードのラップトップをGoogleのサーバーと比較する場合を考えてください。明らかに、テラバイトのデータをふるいにかけようとする際に非常に大きな物流上の問題がありますが、Googleにはそのタスクを非常に便利に管理するリソースがあります。さらに重要なことは、コンピューターのサイズはデータの固有のプロパティではないため、手元にある技術を純粋に参照してデータを定義することは、腕の長さで距離を測定するようなものです。
この議論は単なる形式主義ではありません。十分な計算能力があれば、複雑な並列化スキームと分散コンピューティングプラットフォームの必要性はなくなります。したがって、ビッグデータが大きすぎてRAMに収まらない(またはExcelなどがクラッシュする)という定義を受け入れた場合、マシンをアップグレードすると、ビッグデータは存在しなくなります。これはばかげているようです。
しかし、ビッグデータに関するいくつかのデータを見てみましょう。これを「ビッグメタデータ」と呼びます。このブログ投稿では、使用可能なRAMがデータサイズよりも急速に増加しており、「ビッグRAMはビッグデータを消費している」と挑発的に主張しています。データがあり、従来の分析方法の領域に戻ります。
さらに、表現方法が異なるとサイズも異なるため、メモリ内のサイズを参照して「ビッグデータ」を定義することの意味が明確にわかりません。冗長な情報が大量に格納されるようにデータが構築されている場合(つまり、非効率的なコーディングを選択した場合)、コンピューターが容易に処理できるもののしきい値を簡単に超えることができます。しかし、なぜ定義にこのプロパティを持たせたいのでしょうか?私の考えでは、データセットが「ビッグデータ」であるかどうかは、研究デザインで効率的な選択をしたかどうかに左右されるべきではありません。
104107観察、それは完全に大丈夫です。これはまた、私が定義するように、ビッグデータは、古典的な統計で開発したものを超える特別な技術を必要としないかもしれないことを意味します:外挿する必要がある場合、サンプルと信頼区間は依然として完全に有用で有効な推論ツールです。線形モデルは、いくつかの質問に対して完全に受け入れられる答えを提供する場合があります。しかし、私が定義するビッグデータには、新しいテクノロジーが必要な場合があります。おそらく、トレーニングデータよりも多くの予測変数がある場合、またはデータサイズに応じて予測変数が大きくなる状況で、新しいデータを分類する必要があります。これらの問題には、より新しい技術が必要になります。
余談ですが、この質問は重要であると思います。なぜなら、定義が重要である理由、つまり、誰のためにトピックを定義しているのかを暗黙のうちに触れているからです。1年生の追加についての議論は集合論から始まるのではなく、物理オブジェクトのカウントに関連して始まります。私の経験では、「ビッグデータ」という用語の使用のほとんどは、人気のあるマスコミや、統計や機械学習の専門家ではない人々の間のコミュニケーション(専門的な分析を求めるマーケティング資料など)で発生し、現代のコンピューティング慣行は悪用される可能性のある情報が豊富にあることを意味するという考えを表現します。これはほとんどの場合、おそらくプライベートではないにしても、すぐには明らかではない消費者に関する情報を明らかにするデータのコンテキストで行われます。
したがって、「ビッグデータ」の一般的な使用法を含む意味と分析には、データが人の生活の不明瞭な、隠された、または個人的な詳細さえ明らかにするという考えがあり、十分な推論方法の適用を提供します。メディアがビッグデータについて報告するとき、この匿名性の低下は、通常、彼らが推進しているものです。「ビッグデータ」が何であるかを定義することは、この観点から多少見当違いです。フォレストやサポートベクターマシンなど、さまざまな規模でのデータ分析の課題についての感覚もありません。そしてこれは大丈夫です。彼らの観点からの懸念は、情報化時代の社会的、政治的および法的結果に集中しています。メディアや非専門家の正確な定義は、彼らの理解も正確ではないため、実際には役に立たない。(私は独善的だとは思わない-私はただ、誰もがすべての専門家になれるわけではないことに気付いている。)