タグ付けされた質問 「big-data」

4
「ビッグデータ」の定義は何ですか?
あるの? 私が見つけることができるすべての定義は、データのサイズ、複雑さ/多様性または速度を説明しています。 ウィキペディアの定義は、実際の番号で見つけた唯一のものです ビッグデータサイズは、2012年現在、単一のデータセットで数十テラバイトから数ペタバイトのデータに至るまで、常に変化するターゲットです。 ただし、これは、次の段落で参照するMIKE2.0の定義と矛盾しているように見えます。これは、「大きな」データは小さく、3GBのデータのみを作成する航空機の100,000個のセンサーは大きいと見なされることを示しています。 IBMは次のように言っていますが: ビッグデータは、サイズの問題よりも単純です。 彼らの定義でサイズを強調しました。 オライリー "volume, velocity and variety"も同様に強調しています。よく説明されていますが、より詳細に、定義は他の人の再ハッシュであるようです-もちろんその逆です。 Computer Weeklyの記事タイトルは、「ビッグデータとは何か、それを使用して競争上の優位性を得るにはどうすればよいか」という記事をかなりうまく要約していると思います。 しかし、ZDNet は2012年から次のように勝ちました。 「ビッグデータ」は、IT市場の高性能コンピューティングニッチから浮上しているキャッチフレーズです...テクノロジーの10のサプライヤーからのプレゼンテーションを見てみると、15ほどの異なる定義が出てくる可能性があります。もちろん、各定義は、そのサプライヤの製品とサービスの必要性をサポートする傾向があります。想像してみろ。 基本的に、「ビッグデータ」は何らかの形で「ビッグ」です。 「大きな」とは何ですか?現時点で定量化できますか? 「大きな」が定量化できない場合、一般性だけに依存しない定義はありますか?

4
自宅でクラウドコンピューティングとビッグデータを学習する方法 [閉まっている]
ここで何が求められているかを伝えるのは難しいです。この質問は曖昧、曖昧、不完全、過度に広範、または修辞的であり、現在の形式では合理的に答えることができません。この質問を明確にして、再開できるようにするには、ヘルプセンターに アクセスしてください。 7年前に閉鎖されました。 自宅でクラウドコンピューティングとビッグデータを学びたいです。 これらの技術を自宅のPCで学習することはできますか? クラウドコンピューティングで学ぶべきテクノロジーはどれですか? ビッグデータ(Hadoop)を学習するためのテクノロジーはどれですか?

3
大量のRAMを必要とするアプリケーションにC ++またはJavaを選択しますか?[閉まっている]
閉じた。この質問は意見に基づいています。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集して事実と引用で答えられるように質問を更新してください。 6年前に閉鎖されました。 私は、主にプロセッサに依存し、ヒープ使用量が重い(少なくとも数ギガバイト)科学アプリケーションを考えています。1年のどの時期でもC ++を喜んで使用しますが、この場合、C ++メモリマネージャーにとって自然な断片化がJavaの圧縮コレクターの利点と比較して重大な問題になるのではないかと思います。 誰もこれに関連する実世界の例を指すことができますか?
11 java  c++  memory  big-data 

1
数百万のレコードでの部分的な名前の一致
私たちは、名前を照合するためのWebベースのアプリケーションを開発しました。名前をパーツに分割することで動作し、各パーツのSoundex値はデータベースに格納されます。レーベンシュタイン距離メトリックは、与えられた名前に対するパーセンテージ音のマッチングだけでなく、スペルを適用するために使用されます。 実行時に、すべてのレコードをメモリに読み込み、すべてのSoundex値とすべての名前のすべての部分のスペルにレーベンシュタイン距離を適用します。 最大で2万の名前があったため、これは最初は問題なく機能していましたが、現在、当社のクライアントの1つに3,000万の名前があります。リクエストごとにこの巨大なリストをメモリにロードし、このタイプのマッチングを適用することは、大量のメモリと実行時間を使用する悲惨なアプローチです。 サウンドとスペリングのパーセンテージマッチングを使用して、近い将来に3000万件以上のレコードのデータベースを検索するための提案を探しています。 コア機能 エンドユーザーは、照合する名前と最小パーセンテージを入力します。名前の任意の部分が指定された名前の指定されたパーセンテージまでの任意の部分と一致するすべての名前をデータベースに表示することになっています。完全な名前を一致させる必要はありません。割合までの一致が成功した場合は、どの部分でも成功します。例えば。 Given Name: Helen Hunt Name in DB: Holly Hunter 両方の名前の両方の部分は正確には一致していませんが、ある程度までは一致します。80%と想定します。したがって、ユーザーが80%と入力した場合、DB内の名前は一致する名前として表示される必要があります。

3
大量の_構造化_データを保存するにはどうすればよいですか?
アプリケーションは継続的に(ほぼ毎秒)ユーザーの位置を収集して保存します。 このデータは構造化されています。リレーショナルデータベースでは、次のように保存されます。 | user | timestamp | latitude | longitude | ただし、データが多すぎます。ユーザーごとに、毎日60×60×24 = 86,400レコードになります。ユーザー数が1000であっても、これは毎日86,400,000レコードを意味します。 そして、それは毎日86,400,000レコードだけではありません。これらのレコードが処理され、それらの処理されたバージョンも保存されるためです。したがって、その数に約2を掛けます。 データの使用方法 基本的に、位置データのより粗いバージョンを作成して、より簡単に使用できるようにする予定です。あれは: タイムスタンプ付きの受信データを並べ替えます。 このリストを順番に繰り返して、場所が大幅に変更されたかどうかを判断します(緯度と経度の変化量を確認してください)。 重要ではない場所の変更を出力の単一のエントリとして表します(したがって、出力は場所データのより粗いバージョンです)。 大幅な変更のためにさらに大きな緯度と経度の変更を要求することにより、出力でこのプロセスを繰り返します。したがって、前の出力から生成される出力は、さらに粗くなります。 プロセス全体を必要なだけ繰り返します。 さまざまな解像度を集計してユーザーに送信します。また、後で使用できるように、データのすべての解像度を保存します。 このデータを保存するには何を使用すればよいですか?リレーショナルデータベースまたはNoSQLソリューションを使用する必要がありますか?このアプリケーションを設計するとき、他に何を考慮すべきですか?

4
ビッグデータが機能する必要があるのはなぜですか?
最近、インターンシップのためにビッグデータに関連する新しいプロジェクトに取り組み始めました。私のマネージャーは関数型プログラミングの学習を始めることを推奨しました(彼らはScalaを強く推奨しました)。私はF#を使ってささやかな経験をしましたが、このプログラミングパラダイムを使用することの重要性を理解できませんでした。 ディーンはこのトピックについて興味深い話をし、ここで「ビッグデータ」を使用する理由についての彼の考えを共有しました:http : //www.youtube.com/watch?v=DFAdLCqDbLQ しかし、ビッグデータは意味がないので、あまり便利ではありませんでしたHadoopのみ。 BigDataは非常にあいまいな概念なので。しばらく忘れます。私は、データを処理するときにさまざまな側面を比較するための1つの簡単な例を考え出して、機能的な方法が高価であるかどうかを確認しました。関数型プログラミングが小さなデータに対して高価でメモリを消費する場合、なぜビッグデータに関数型プログラミングが必要なのですか? 派手なツールから遠く離れて、私は3つのアプローチを使用して1つの特定の人気のある問題の解決策を構築しようとしました:命令的な方法と機能的な方法(再帰、コレクションの使用)。時間と複雑さを比較して、3つのアプローチを比較しました。 Scalaを使用してこれらの関数を記述しました。3つのパラダイムを使用してアルゴリズムを記述するのに最適なツールだからです。 def main(args: Array[String]) { val start = System.currentTimeMillis() // Fibonacci_P val s = Fibonacci_P(400000000) val end = System.currentTimeMillis() println("Functional way: \n the Fibonacci sequence whose values do not exceed four million : %d \n Time : %d ".format(s, end - start)) val …

1
AST形状を定量的に比較する
同様のソースコードプログラム(C、C ++、Go、またはGCCでコンパイルされたもの)の抽象構文ツリーの形状をどのように比較できますか? 私は推測するソースコードの盗用検出は、そのような技術を使用しますが、私はそれと呼ばれることだろうかの見当がつかない... たとえば、統一を使用してASTを比較できますが、それはブール値の回答しか提供しません。数値の「距離」、またはある種の数値ベクトル(たとえば、機械学習や分類アルゴリズム、またはその他のビッグデータのものに後でフィードされる)を提供するいくつかの手法を探しています。 大規模なソースコードセットでのビッグデータや機械学習アプローチへの言及も歓迎します。 (このように広範またはあいまいな質問で申し訳ありません。使用する用語がわかりません) 2つのASTまたはプログラムを単純に比較したくありません。大量のプログラム(Debianディストリビューションのソースコードの半分など)を処理し、その中に同様のルーチンを見つけたいと思っています。私はすでにMELTを使用してGCC内部表現(Gimple)に取り組んでいるため、それを活用したいので、いくつかのメトリック(どれか?循環的複雑度はおそらく十分ではない)をデータベースなどに保存し、比較して処理します... 補遺:MOSSシステムと紙について発見されましたが、構文の形はまったく気にしていないようです。ツリーの編集距離も調べます。 ソースコードの類似性を探すことについて(JérémieSalvucciに感謝)Michel Chilowi​​czの博士論文(2010年11月フランス語)も発見
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.