ビッグデータとは正確には何ですか?


44

私は何度か質問をされました:

ビッグデータとは何ですか?

統計とMLをめぐる話題を取り上げている学生と私の親sによるもの。

このCV-postを見つけました。そして、私はそこで唯一の答えに同意すると感じています。

Wikipediaのページには、さらにその上にいくつかのコメントがありますが、私は本当にそこにすべてに同意するかどうかはわかりません。

編集:( 私はウィキペディアのページでは、これに取り組む方法と私が以下で言及するパラダイムを説明することに欠けていると感じています)

私は最近エマニュエル・カンデスの講義に参加しました。彼はビッグデータのパラダイムを次のように紹介しました。

最初にデータを収集後で質問する

これは、仮説駆動型の研究との主な違いです。最初に仮説を立ててから、データを収集してそれについて何かを言います。

彼は、データスヌーピングによって生成された仮説の信頼性を定量化する問題に多くのことを取り組みました。私が彼の講義から取り上げた主なことは、FDRを制御し始める必要があるということであり、彼はそのための模造法を提示しました。

CVには、Big-Dataとは何か、それについてのあなたの定義は何かについて質問すべきだと思います。さまざまな「定義」があり、それが何で構成されているかについて一般的なコンセンサスがなければ、それが何であるかを本当に把握したり、他の人に説明したりするのは難しいと思います。

私はと感じている「の定義/パラダイム/説明」あなたの考えは何ですか、Candèsが提供するが、私は同意する最も近いものでしょうか?

EDIT2:答えは、データ自体の単なる説明以上のものを提供する必要があると思います。データ/メソッド/パラダイムの組み合わせである必要があります。

EDIT3:マイケル・ジョーダンとのこのインタビューは、テーブルにも何かを追加できると思います。

EDIT4:私は正しいものとして最高の投票された答えを選ぶことにしました。私はすべての答えが議論に何かを加えると思うが、私はこれが仮説を生成し、データを操作する方法のパラダイムの問題であると個人的に感じていますが。この質問が、Big-Dataとは何かを探している人たちの参考資料のプールとして役立つことを願っています。多重比較の問題とFDRの制御をさらに強調するために、ウィキペディアのページが変更されることを願っています。


55
「ビッグデータは10代のセックスのようなものです。誰もがそれについて語っています。誰もそれを行う方法を本当に知りません。サイモン・マシューズ
アレクサンダー・ルッチェンコ

4
この引用はもう有効ではありません。最近、人々は多くの素晴らしい作品を作っています。Kaggleのコンペティションを見ると、企業はビジネスを改善しており、多くのお金を使わずに多くのお金を稼いでいます。ビッグデータのアプリケーションのための他の例は、ここで見つけることができます:linkedin.com/pulse/...
Metariatを

5
@XuanQuangDO、私は同意します。この引用を真剣に受け取らないでください。
アレクサンダールッチェンコ

6
@XuanQuangDO:まあ、私は確信しているいくつかのティーンエイジャーが異常なセックスをしているが、それは、同様に手探り無能なの多くがあります事実を変更したり、見当違いのない人でしょう無慈悲モック;-)
スティーブ・ジェソップ

回答:


54

RStudio名声のハドリー・ウィッカム博士による講演に参加することができました。彼はそれを次のように定義した

  • ビッグデータ:1台のコンピューターのメモリに収まらない:> 1 TB
  • 中データ:サーバーのメモリに収まる:10 GB-1 TB
  • 小さいデータ:ラップトップのメモリに収まる:<10 GB

また、Hadleyは、ほとんどのデータを少なくとも管理可能な問題に減らすことができ、ごくわずかな量が実際のビッグデータであると考えています。彼はこれを「ビッグデータミラージュ」と呼んでいます。

  • 90%サブセット化/サンプリング/要約により、小規模/中規模データの問題に減らすことができます
  • 9%は、非常に多数の小さなデータの問題に減らすことができます。
  • 1%は還元不可能なほど大きい

スライドはこちらにあります


2
@GuðmundurEinarsson、提案のおかげで編集したところです。
クリスC

5
明確な境界が存在するとは思いませんが、この投稿は非常に洞察力があると思います。SW会社で働いていたとき、「ビッグデータソリューション」を探しているかなりの数の顧客とやり取りしました。実際には、16 GB SODIMMを見逃していました。
usεr11852は回復モニック言う

2
今日の1TB SSDでは、不揮発性ストレージの速度は揮発性ストレージからそれほど遠くありません。ビッグデータは1TB以上、おそらく50TB以上になると予想しているように感じます。
Mehrdad

3
あなたとハドリーを尊重して、入札データはボリュームだけではありません。通常、入札データは3Vを介して定義され、最近では4Vモデル(Gartnerが提案)-以下のDawny33による回答を参照してください。ただし、一部の専門家(Gartnerを含む)はさらに別の専門家を検討しており、Vはビジネス価値を表す最も重要なVディメンションを主張しています。たとえば、この投稿この投稿を参照しください。
アレクサンドルブレフ

2
@AleksandrBlekhあなたのコメントには、専門家の間での「ビッグデータ」の基準をめぐる論争についての微妙な議論と、それに関するあなたの主張を裏付けるいくつかの参考文献の両方が含まれています。回答に変換することを検討すべきだと思います。
シルバーフィッシュ

19

4つのVをすべて満たす場合、データセット/ストリームはビッグデータと呼ばれます。

  • ボリューム
  • 速度
  • 正確さ
  • バラエティ

満たされない限り、データセットをビッグデータと呼ぶことはできません。

参考のため、私の同様の答え。


そうは言っても、データサイエンティストとして。Map-Reduceフレームワークは本当に素晴らしいと思います。データの分割、マッピング、そしてマッパーステップの結果は、1つの結果にまとめられます。私はこのフレームワークが本当に魅力的であり、データの世界にどのように利益をもたらしたかを見つけました。

そして、これらは私が毎日仕事中にデータの問題に対処する方法です。

  1. Columnar Databases:これらはデータサイエンティストにとって恩恵です。列データストアとして Aws Red Shiftを使用します。複雑なSQLクエリを実行するのに役立ち、簡単に参加できます。特に私の成長チームがいくつかの非常に複雑な質問をするとき、私はそれが本当に良いと思います。
  2. SparkとMap Reduceフレームワーク:理由は上記で説明されています。

そして、これがデータ実験の実行方法です。

  • 回答すべき問題が特定されている
  • 使用可能なデータソースが一覧表示されます。
  • パイプラインは、ローカルデータベースからRedshiftにデータを取り込むために設計されています。うん、スパークはここに来ます。DBの-> S3-> Redshiftデータの移動中に非常に便利です。
  • 次に、クエリとSQL分析がRedshiftのデータに対して実行されます。

はい、ハイパーログログなどのビッグデータアルゴリズムがあります。しかし、私はそれらを使用する必要性を発見していません。

あ、はい。データは、仮説を生成する前に最初に収集されます。


5
私はこれらのことに同意しますが、ビッグデータという用語はデータそのもの以外のものをカバーすると思います。また、それに適用される方法であり、最初にデータを収集してからその仮説を生成するというパラダイムです。
グメオ

1
@GuðmundurEinarsson私は急いでいたので、短期間であなたに最高の答えをしたかったです。それで、私は業界での大規模なデータの日々の経験からのワークフローと理解でそれを編集して拡張しました。
-Dawny33

1
4つのVは、ビッグデータの重要な注目すべき特性ではなく、ビッグデータを定義するものとしてここでは反転しています。多くの例はビッグデータで作成できますが、それらの4つがいくつかなくても、IBMインフォグラフィックにリストされているものもあります。
ジョン

@Johnはい、Vは確かに大きく変化しています。新しいV(Value
-Dawny33

1
変化していると言っているのではなく、一部のプロパティの説明を誤って定義に反転していると言っています。犬についての忠誠心、笑い声、なめることについて重要なことを説明している人や、一緒に来てそれが犬の定義だと言っている人のようです。とはいえ、分析の方向を逆にすることを検討している方が正しいと思いますが、何らかの方法でデータのサイズにアタッチする必要があります。そのための良い方法はたくさんあると思います。もしあなたがそれを開発したら素晴らしいと思います。
ジョン

14

ビッグデータの唯一の有用な定義は、特定の現象に関するすべての情報をカタログ化するデータだと思います。つまり、ビッグデータは、対象の母集団からサンプリングしてそれらのユニットの測定値を収集するのではなく、対象の母集団全体の測定値を収集します。Amazon.comの顧客に興味があるとします。一部のユーザーだけを追跡したり、一部の取引を追跡したりするのではなく、Amazon.comが顧客の購入すべてに関する情報を収集することは完全に実行可能です。

私の考えでは、データ自体のメモリサイズに依存する定義は、実用性がある程度制限されています。そのメトリックでは、十分な大きさのコンピューターを考えると、データは実際にはビッグデータではありません。無限に大きなコンピューターの極端な場合、この議論は縮小的に見えるかもしれませんが、私の消費者グレードのラップトップをGoogleのサーバーと比較する場合を考えてください。明らかに、テラバイトのデータをふるいにかけようとする際に非常に大きな物流上の問題がありますが、Googleにはそのタスクを非常に便利に管理するリソースがあります。さらに重要なことは、コンピューターのサイズはデータの固有のプロパティではないため、手元にある技術を純粋に参照してデータを定義することは、腕の長さで距離を測定するようなものです。

この議論は単なる形式主義ではありません。十分な計算能力があれば、複雑な並列化スキームと分散コンピューティングプラットフォームの必要性はなくなります。したがって、ビッグデータが大きすぎてRAMに収まらない(またはExcelなどがクラッシュする)という定義を受け入れた場合、マシンをアップグレードすると、ビッグデータは存在しなくなります。これはばかげているようです。

しかし、ビッグデータに関するいくつかのデータを見てみましょう。これを「ビッグメタデータ」と呼びます。このブログ投稿では、使用可能なRAMがデータサイズよりも急速に増加しており、「ビッグRAMはビッグデータを消費している」と挑発的に主張しています。データがあり、従来の分析方法の領域に戻ります。

さらに、表現方法が異なるとサイズも異なるため、メモリ内のサイズを参照して「ビッグデータ」を定義することの意味が明確にわかりません。冗長な情報が大量に格納されるようにデータが構築されている場合(つまり、非効率的なコーディングを選択した場合)、コンピューターが容易に処理できるもののしきい値を簡単に超えることができます。しかし、なぜ定義にこのプロパティを持たせたいのでしょうか?私の考えでは、データセットが「ビッグデータ」であるかどうかは、研究デザインで効率的な選択をしたかどうかに左右されるべきではありません。

104107観察、それは完全に大丈夫です。これはまた、私が定義するように、ビッグデータは、古典的な統計で開発したものを超える特別な技術を必要としないかもしれないことを意味します:外挿する必要がある場合、サンプルと信頼区間は依然として完全に有用で有効な推論ツールです。線形モデルは、いくつかの質問に対して完全に受け入れられる答えを提供する場合があります。しかし、私が定義するビッグデータには、新しいテクノロジーが必要な場合があります。おそらく、トレーニングデータよりも多くの予測変数がある場合、またはデータサイズに応じて予測変数が大きくなる状況で、新しいデータを分類する必要があります。これらの問題には、より新しい技術が必要になります。


余談ですが、この質問は重要であると思います。なぜなら、定義が重要である理由、つまり、誰のためにトピックを定義しているのかを暗黙のうちに触れているからです。1年生の追加についての議論は集合論から始まるのではなく、物理オブジェクトのカウントに関連して始まります。私の経験では、「ビッグデータ」という用語の使用のほとんどは、人気のあるマスコミや、統計や機械学習の専門家ではない人々の間のコミュニケーション(専門的な分析を求めるマーケティング資料など)で発生し、現代のコンピューティング慣行は悪用される可能性のある情報が豊富にあることを意味するという考えを表現します。これはほとんどの場合、おそらくプライベートではないにしても、すぐには明らかではない消費者に関する情報を明らかにするデータのコンテキストで行われます。

したがって、「ビッグデータ」の一般的な使用法を含む意味と分析には、データが人の生活の不明瞭な、隠された、または個人的な詳細さえ明らかにするという考えがあり、十分な推論方法の適用を提供します。メディアがビッグデータについて報告するとき、この匿名性の低下は、通常、彼らが推進しているものです。「ビッグデータ」が何であるかを定義することは、この観点から多少見当違いです。フォレストやサポートベクターマシンなど、さまざまな規模でのデータ分析の課題についての感覚もありません。そしてこれは大丈夫です。彼らの観点からの懸念は、情報化時代の社会的、政治的および法的結果に集中しています。メディアや非専門家の正確な定義は、彼らの理解も正確ではないため、実際には役に立たない。(私は独善的だとは思わない-私はただ、誰もがすべての専門家になれるわけではないことに気付いている。)


7
この。「「ビッグデータ」という用語の使用の大部分は、統計や機械学習の専門家ではない人々の間のコミュニケーションや、専門的な分析を勧誘するマーケティング資料などで発生することが私の経験でした。」
Momo

2
最後の段落で頭に釘を打ったと思います。一般のマスコミの理解と統計/ ML /データ科学の人々がビッグデータという用語をどう考えているかには、非常に明確なギャップがあると思います。それが実際に何であるかについて、より明確なコンセンサスが必要だと感じています。その理由の1つは、明らかに当てはまらない場合に、人々がこの用語を操作したり誤用したりできないように参照することです。
グメオ

1
私はあなたにますます同意し始めていると思います。私は今でも、CVには参照の質問が必要だと感じています。そこでは、関心を持ち主題に興味を持っている人々がその問題に2セントを当てます。ここで質問を探していましたが、この議論には欠けていると感じました。
グメオ

1
これは貴重な会話だと思います。質問をしてくれてうれしいです!そして、私のコメントがお役に立てたことをうれしく思います。
モニカの

1
複数の理由でこの答えが大好きです。まず、「ビッグデータ」は分析に使用されるアルゴリズムとはほとんど関係がないことを強調することは本当に重要だと思います。それらのほとんどは20〜30歳(ランダムフォレスト、線形回帰など)で、正常に機能します。業界の一部の人々は、「ビッグデータ」には派手な新しいアルゴリズムが付属していると考えています。これはおそらく、機械学習が長年にわたって存在していることすら知らなかったためです。第二に、「ビッグデータ」はサイズに関するものではありません。128 GbのRAMを搭載したサーバーがあり、すべてをメモリに収めることができる場合、それは素晴らしいことです。(続き)
skd

7

ここに画像の説明を入力してください

ビッグデータに関する膨大な文献をクロスチェックして、最大14個の「V」用語を収集しました。そのうちの13個は約11次元に沿っています。

  • 有効、
  • 値、
  • 変動/変動、
  • バラエティ、
  • 速度、
  • 真実性/気力、
  • 生存率、
  • バーチャル
  • 可視化、
  • ボラティリティ、
  • ボリューム。

14番目の用語はVacuityです。最近の挑発的な投稿によると、ビッグデータは存在しません。その主なポイントは次のとおりです。

  • 「ビッグデータ」は大きくない
  • ほとんどの「ビッグデータ」は実際には役に立たない
  • [我々はすべき]小さなデータを最大限に活用する

ビッグデータの適切な定義は、ハードウェア、ソフトウェア、ニーズ、知識とともに進化し、おそらく固定サイズに依存すべきではありません。したがって、ビッグデータの重要な定義:イノベーション、競争、生産性の次のフロンティア、 2011年6月:

「ビッグデータ」とは、一般的なデータベースソフトウェアツールがキャプチャ、保存、管理、分析する能力を超えるサイズのデータ​​セットを指します。


1
「空室」の参照記事は非常に弱いようです。1日あたり30 GBのデータが大きくないという意味があります(そのサイズが定義の唯一のコンポーネントです)。さらに、企業はデータが実際よりもはるかに大きいと言うので、データは大きくないことを意味すると主張されています。ビッグの定義はどこにもありません。また、「大きくない」ことを示唆するために使用されるすべての例には、ここにリストされているVの多くがあります。
ジョン

「空室」はサイズにのみ適用されません。確かに、最後のワンライナーでは、ビッグの定義は現在の実践状況に合わせて進化することを意図しています。過去に大きかったものは、数年後には小さいと考えることができます。ここでは、上記の漫画に示されているように、「ビッグデータ」がほとんど実体のない魔法のマントラとして使用される場合の用語を使用していました。
ローランデュバル

1
14の基準がすべて文字Vで始まる可能性はどのくらいですか?私たちは皆、ここにいる人々を念頭に置いた統計です!
アクサカル

基本的に、私は同意します。これは、ビッグデータのような用語が統計よりもマーケティングの領域に属する可能性が高いことを示すためだけでした。しかし、読んだ用語の「コレクション」を共有したかったのです。これは、5V、その後、3Vで開始された、そして時には7など、これらの用語は、データ1に漠然とヘルプスポット特性を持つことができます
ローラン・デュバル

4

人々はビッグデータのビッグ修飾子に固執しているようです。ただし、サイズはこの用語(ドメイン)のコンポーネントの1つにすぎません。問題(ドメイン)をビッグデータと呼ぶには、データセットが大きいだけでは十分ではありません。また、理解して分析し、処理することさえ難しいことが必要です。この機能を非構造化と呼ぶ人もいますが、それは構造だけでなく、データのさまざまな部分と要素の間の関係も不明確です。

高エネルギー物理学者がCERNなどの場所で作業しているデータセットを考えてください。彼らは、ビッグデータという用語が作られる前に、ペタバイトのサイズのデータ​​を長年使用してきました。しかし今でも、私が知る限り、彼らはこのビッグデータを呼び出していません。どうして?データはかなり規則的であるため、彼らはそれをどうするかを知っています。彼らはまだすべての観察を説明できないかもしれないので、新しいモデルなどに取り組んでいます。

ここで、ビッグデータをCERNのLHCから数秒で生成できるサイズのデータ​​セットを扱う問題と呼びます。その理由は、これらのデータセットは通常、さまざまな形式、データ間の不明確な関係、およびビジネスに対する不確実な価値を持つ多数のソースからのデータ要素であるためです。わずか1TBですが、すべてのオーディオ、ヴィディオ、テキスト、スピーチなどを処理するのは非常に困難です。そのため、必要な複雑さとリソースの観点から、これはペタバイトのCERNデータに勝ります。データセットに識別可能な有用な情報があるかどうかさえわかりません。

したがって、ビッグデータの問題解決には、解析、未知の値のデータ要素の抽出、それらの相互リンクが含まれます。画像の「解析」は、それ自体で大きな問題になる可能性があります。たとえば、人々が怒っているかどうか、そしてそれが歩行者を含む交通事故に影響を与えているかどうかを確認するために、街の通りからCCTV映像を探しているとします。たくさんのビデオがあり、顔を見つけて、表情で彼らの気分を測定し、それを事故データセット、警察の報告書などの数にリンクして、すべて天気(降水量、気温)と交通渋滞を制御します。さまざまな種類のこれらの大きなデータセットをサポートし、データを相互に効率的にリンクできるストレージおよび分析ツールが必要です。

ビッグデータは複雑な分析問題であり、その複雑さは、そのサイズと、構造とその中の情報エンコードの複雑さの両方に起因します。


良い入力。LHCとCCTVデータの問題の違いは、人々が見逃しがちなものです。
グメオ

3

人々がビッグデータとは何かを混同する理由は、その利点が見えないからだと思います。ビッグデータ(手法)の価値は、収集できるデータの量だけでなく、予測モデリングにもあります。これは、最終的にはより重要です。

  1. 予測モデリングは、統計と予測の方法を完全に変更しました。新しいモデル、新しい手法により、傾向やデータのノイズをより正確に検出でき、「多」次元のデータベースをキャプチャできるため、データの洞察力が向上します。データベースのディメンションが多いほど、良いモデルを作成できる可能性が高くなります。予測モデリングは、ビッグデータの価値の中核です。
  2. ビッグデータ(データサイズの観点から)は準備段階であり、予測モデルの提供に使用します。1。予測子の数(変数の増加)、2。観測の数に関してデータベースを充実させます。

以前はキャプチャできなかったデータをキャプチャできるようになったため、予測子が増えました(ハードウェアの電力が制限され、非構造化データを処理する能力が制限されているため)。予測子が多いほど、重要な予測子を持つ機会が増えることを意味します。つまり、より良いモデル、より良い予測、より良い意思決定がビジネスに対して可能になります。

観測値を増やすと、モデルが長期にわたってより堅牢になるだけでなく、モデルが現実に提示/生成される可能性のあるすべてのパターンを学習/検出できるようになります。


3

ビッグデータとその反意語(おそらくスモールデータ?)の扱いにくい点は、それが連続体であることです。ビッグデータの人々はスペクトルの片側に行き、小さなデータの人々はもう片方に行きましたが、誰もが同意できる明確な線はありません。

この2つの動作の違いを調べます。小さなデータの状況では、「小さな」データセットがあり、できる限り多くの情報を絞り込みます。より多くのデータを取得すると、より多くの結果を取得できます。ただし、より多くのデータを取得するとコストがかかる場合があります。収集するデータは、興味深い動作をスクリーニングするためにテストの部分的な階乗を行うなど、数学モデルに適合するように制約されることがよくあります。

ビッグデータの状況では、「ビッグ」データセットがありますが、データセットはそれほど制約されない傾向があります。通常、分析を簡単にするためだけに、顧客にラテンスクエアの家具を買うように説得することはできません。代わりに、構造化されていないデータのゴブやゴブを使用する傾向があります。これらの問題を解決するための目標は、小さなデータに慣れている場合に素朴に試みるかもしれないように、「最良のデータを選択し、可能な限りすべてを絞り出す」ことではない傾向があります。目標は、「すべての単一のデータポイントから小さなsmidgenを取得することができれば、その合計は膨大で深遠になります」というラインに沿ったものになる傾向があります。

それらの間には、中程度のサイズのデータ​​セットがあり、構造は正常です。これらは「本当に難しい問題」ですので、今は2つのキャンプに整理する傾向があります。1つは小さなデータで最後のビットを絞り、もう1つは各データポイントを独自に輝かせようとするビッグデータです。右。私たちが前進するにつれて、より多くの小さなデータプロセスがより大きなデータセットに適応しようとし、より多くのビッグデータプロセスがより構造化されたデータを活用するように適応することを期待しています。


小さなデータの特性化は、分析に関するBemの本によく似ています。将来のデータ収集の基礎となる個人的な調査以外の小さなデータセットを扱うには不適切な方法であるため、その批判を調べてください。
ジョン

@ジョン私はそれらを見なければならないかもしれません。批評は、連続性を説明するポイントとして特性評価を使用することさえできないほど十分ですか?
コートアンモン

ここに入るのは本当に長いことですが、重要なメッセージは、小さなデータで各データポイントからできるすべてを絞り出さないことです。おそらく、ゲルマンとフォーキングパスをグーグル。または、実験者の自由度。連続データのポイントとしてだけでなく、小規模データ分析とビッグデータ分析を異なる方法で考える必要があります。
ジョン

3

ビッグデータの定義に不可欠な3つのコンポーネントがあると思います。分析の方向、母集団に対するデータのサイズ、および計算問題に関するデータのサイズです。

質問自体は、データが存在した後に仮説が立てられると仮定しています。「収集された」という言葉は目的を意味し、その時点ではデータが知られていないことが多いと考えるため、「収集された」を使用しません。収集は、多くの場合、質問に対応するために既存のデータをまとめることでビッグデータで行われます。

2番目の重要な部分は、単なるデータではなく、より小さなデータセットを使用した探索的分析と呼ばれる事後分析が適切であるということです。それから収集された推定値は、多くの小さなサンプルの問題を無視できる人口推定値に十分近いと考えられる十分なサイズである必要があります。このため、私は現在、現場で多重比較補正へのプッシュがあることを少し心配しています。全体の人口がある場合、または妥当であると信じる十分な理由がある近似値がある場合、そのような修正は意味がありません。「ビッグデータ」を実際に小さなサンプルに変える問題(例:大きなロジスティック回帰)が発生することがありますが、それは特定の質問に対する大きなサンプルとは何かを理解することになります。多重比較の質問の多くは、代わりに効果サイズの質問に変える必要があります。そしてもちろん、多くの人がまだビッグデータで行っているように、alpha = 0.05のテストを使用するという考え全体はばかげています。

そして最後に、小さな人口は資格がありません。場合によっては、人口が少なく、非常に簡単に調査し、最初の2つの基準を満たすために必要なすべてのデータを収集できます。データは、計算上の問題になるほど十分な大きさである必要があります。そのため、ある意味では、「ビッグデータ」は一時的な話題であり、おそらく厳密な定義を求めて永久に起こる現象であると認めなければなりません。「ビッグデータ」を大きくするもののいくつかは、数年後には消え、コンピューターの容量に基づいたハドレーのような定義は、古風なものに見えます。しかし、別のレベルでは、計算上の問題は、コンピューターの容量に関する問題ではなく、おそらく対処できないコンピューターの容量に関する問題です。その意味で、「定義」の問題は

このドメインに対する難しい計算上の問題の例や確固とした定義を提供していないことに気付くかもしれません(一般にcomp sciには多くの例があり、いくつかは適用できません)。少しオープンにしたままにする必要があると思うので、私は何も作りたくありません。時間の経過とともに、多くの人々の収集された作品は、このようなことを簡単にするために集まっており、多くの場合、この時点ではハードウェアよりもソフトウェア開発を通じてです。おそらく、この最後の要件をより強固に制限するために、フィールドをより完全に成熟させる必要がありますが、エッジは常にファジーになります。


ご意見ありがとうございます!このスレッドについて貴重な洞察を提供していただけると思います。ここでは、人口に対するデータのサイズが多少見落とされていると思います。
グメオ

1

ウィキペディアは非常に明確な定義を提供します

ビッグデータは、非常に大規模または複雑なデータセットの総称であり、従来のデータ処理アプリケーションでは不十分です。(ソース https://en.wikipedia.org/wiki/Big_data

私が知っている他の簡単な定義は

コンピューターのメモリに収まらないデータ。

残念ながら、私はそれに対する参照を覚えていません。他のすべてはこの定義から生まれます-どういうわけか大量のデータを処理する必要があります。


0

ビッグデータは、ビッグデータセット(数百万行および/または数十億行)で作業するか、どこでも収集できる幅広いデータリソースの情報/パターンを見つけようとすることへの参照です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.