「ビッグデータ」の定義は何ですか?


23

あるの?

私が見つけることができるすべての定義は、データのサイズ、複雑さ/多様性または速度を説明しています。

ウィキペディアの定義は、実際の番号で見つけた唯一のものです

ビッグデータサイズは、2012年現在、単一のデータセットで数十テラバイトから数ペタバイトのデータに至るまで、常に変化するターゲットです。

ただし、これは、次の段落で参照するMIKE2.0の定義と矛盾しているように見えます。これは、「大きな」データは小さく、3GBのデータのみを作成する航空機の100,000個のセンサーは大きいと見なされることを示しています。

IBMは次のように言っていますが:

ビッグデータは、サイズの問題よりも単純です。

彼らの定義でサイズを強調しました

オライリー "volume, velocity and variety"も同様に強調しています。よく説明されていますが、より詳細に、定義は他の人の再ハッシュであるようです-もちろんその逆です。

Computer Weeklyの記事タイトルは、「ビッグデータとは何か、それを使用して競争上の優位性を得るにはどうすればよいか」という記事をかなりうまく要約していると思います。

しかし、ZDNet は2012年から次のように勝ちまし

「ビッグデータ」は、IT市場の高性能コンピューティングニッチから浮上しているキャッチフレーズです...テクノロジーの10のサプライヤーからのプレゼンテーションを見てみると、15ほどの異なる定義が出てくる可能性があります。もちろん、各定義は、そのサプライヤの製品とサービスの必要性をサポートする傾向があります。想像してみろ。

基本的に、「ビッグデータ」は何らかの形で「ビッグ」です。

「大きな」とは何ですか?現時点で定量化できますか?

「大きな」が定量化できない場合、一般性だけに依存しない定義はありますか?


7
「「ビッグ」とは何ですか。現時点で定量化できますか?」確かに。ビッグは、現時点で処理できる以上のものです;)
Oded

1
@Oded、「ハンドル」を定義する必要があります:-)。
ベン

14
あなたが尋ねなければならないなら、あなたのものは数えるほど十分に大きくありません。;)
FrustratedWithFormsDesigner

@Ben-個人およびシステムごとに定義が異なります
...-Oded

4
「大きい」とは、「処理が難しい」ことを意味します。メモリに収まらないほど、ディスクをいっぱいにし、ネットワーク経由で転送するのに時間がかかる、など

回答:


42

ありません。それは流行語です。

ただし、重要な点は、データが従来のシステムの能力を超えていることです。データが大きすぎて最大のディスクに格納できません。クエリは特別な最適化なしでは膨大な時間がかかります。ネットワークまたはディスクは着信トラフィックフローをサポートできません。単純な古いデータビューでは、形状/データのサイズ/幅...

基本的に、データは、「ハードウェアを追加するだけ」ではカットされない、不明確な転換点を超えています。


+1、さらに、「大きな」と見なされるものは、より優れたハードウェアが追いつき、以前にカスタマイズされたツールが成熟し、標準化され、そのような問題に対処するために商業的に販売されるにつれて常に変化しています。
FrustratedWithFormsDesigner

言い換えれば、ノー、ノーアイディア、ノー、ノー:-)。
ベン

さらに、ビッグデータが大きなものになる前に、多くの企業や研究機関がすでにビッグデータを行っていました。ソーシャルメディア/オンラインビッグデータのすべての課題に対処するようになってから、それが主流になりました。
ポールヒームストラ

2

Oracleリンク(Immad Careemによるコメント)oracle.com/us/technologies/big-data/index.htmlで指摘されているとおりです。ビッグデータは、RDBMSに保存されているリレーショナルデータではないすべてです。誇大宣伝の数年前、それは単なる「大量のデータ」でした。今では成長し、マーケティング担当者によって何らかの特別なデータに昇格されました。

ビッグデータを現実のものと見なすには、いくつかの二次的な理由(マーケティング以外)があります。

  1. Map-Reduceの発明
  2. HadoopのようなNOSQLテクノロジー
  3. 非構造化データ型の需要に影響される従来のRDBMSのいくつかの進化
  4. おそらくEMC2 Corporationが提供するいくつかのハードウェアテクノロジー

2
「Map-Reduceの発明」?冗談です。
テラスティン

1
「リレーショナルデータではないすべて」とは、OracleのようにRDB中心の誰かからのみ得られる定義です(そしてそれは間違っています)。その定義では、すべてのSolRインデックス、すべてのMongoDBデータベース、およびすべてのBerkley DBは「ビッグデータ」です。そして、それはただ愚かです。
ヨアヒムザウアー


-1

O'Reillyやその他の人々が、11年以上前に最初に導入したガートナーの3Vのビッグデータをようやく見ることができてうれしいです。参考のために、ここで私は2001年に書いたオリジナル作品だ:http://blogs.gartner.com/doug-laney/deja-vvvue-others-claiming-gartners-volume-velocity-variety-construct-for-big-data/

ガートナーの最近更新された定義は、「ビッグデータとは、洞察の発見、意思決定、プロセスの自動化を強化するための革新的な形の情報処理を必要とする量、速度、および/または多様性を備えた情報資産」です。

また、テクノロジーの採用に関して規範的な3つのベクトルに沿ってデータの大きさを定量化する方法も開発しました。ただし、公開することはできません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.