当然のことながら、最近の「ビッグデータ」は誰もが自分が持っていると言いたいことであり、人々が用語を定義する方法にある程度のゆるみを伴います。ただし、一般的に、少なくとも、Hadoopなどのビッグデータテクノロジーで補完することなく、RDBMSなどの従来のテクノロジーで管理することが不可能な規模であれば、確かにビッグデータを扱っていると思います。
そのためには、データが実際にどれだけ大きくなければならないかは議論の余地があります。これは(やや挑発的な)ブログ投稿で、5 TB未満のデータでは実際にはそうではないと主張しています。(明確にするために、「5 TB未満はビッグデータではない」と主張していませんが、「5 TB未満ではHadoopが必要なほど大きくない」と主張しています。)
しかし、小さなデータセットであっても、Hadoopのようなビッグデータテクノロジーには、バッチ操作に適していること、非構造化データ(および構造が事前にわからないか変更される可能性のあるデータ)、水平スケーラビリティ(既存のサーバーを強化する代わりにノードを追加することによるスケーリング)、および(上記のリンクされた投稿ノートのコメンターの1つとして)データ処理を外部データセットと統合する機能(map-reduceの場所を考える別のサーバーを呼び出します)。NoSqlデータベースなどのビッグデータに関連する他のテクノロジーは、大量のデータセットを処理する一方で、高速なパフォーマンスと一貫した可用性を重視し、半非構造化データを処理し、水平に拡張することもできます。
もちろん、従来のRDBMSには、ACID保証(原子性、一貫性、分離性、耐久性)や特定の操作のパフォーマンス向上、標準化、成熟、および(多くのユーザーにとって)より馴染みのある独自の利点があります。紛れもなく「ビッグ」データであっても、データの少なくとも一部を従来のSQLデータベースにロードし、ビッグデータテクノロジーと組み合わせて使用することは理にかなっています。
したがって、より寛大な定義は、ビッグデータがある程度の付加価値を提供するのに十分な大きさである限り、ビッグデータがあるということです。しかし、ご覧のとおり、それはデータのサイズだけでなく、データの操作方法や、柔軟性、一貫性、パフォーマンスの面でどのような要件があるかに依存します。 データの使用方法は、データの使用目的(データマイニングなど)よりも質問に関連しています。とはいえ、データマイニングや機械学習などの使用は、使用するのに十分なデータセットがある場合に有用な結果をもたらす可能性が高くなります。