データサイエンス scalability

12

多くの人々は、大きなデータセットが計算に関与していることを示す手段として、かなり商業的な方法でビッグデータという用語を使用しているため、潜在的なソリューションには優れたパフォーマンスが必要です。もちろん、ビッグデータには、スケーラビリティや効率などの関連用語が常に含まれていますが、問題をビッグデータの問題として正確に定義しているのは何ですか？計算は、データマイニング/情報検索などの特定の目的のセットに関連する必要がありますか、またはデータセットが十分に大きい場合、一般的なグラフ問題のアルゴリズムにビッグデータのラベルを付けることができますか？また、どのように大きいです十分な大きさ（これを定義することが可能である場合）？

86 bigdata scalability efficiency performance

4

Scalaを使用したデータサイエンスツール

SparkはScalaと完全に統合されていることを知っています。ユースケースは、特に大規模なデータセット向けです。Scalaを適切にサポートしている他のツールはどれですか？Scalaはより大きなデータセットに最適ですか？または、より小さなデータセットにも適していますか？

15 scalability scala

4

インフラストラクチャスタック/ワークフロー/パイプラインの例を探す

hadoop、monogodb / nosql、storm、kafkaなど、実世界のユースケースですべての「ビッグデータ」コンポーネントがどのように連携するかを理解しようとしています。これは、さまざまな種類がありますが、アプリケーション、webapp、オンラインショップの機械学習など、アプリケーションでの相互作用について詳しく知りたいと思います。ビスタ/セッション、トランザクションデータなどがあり、それを保存します。しかし、その場で推奨事項を作成したい場合は、私が持っているログの大きなデータベースでそのための遅いmap / reduceジョブを実行できません。インフラストラクチャの側面に関する詳細情報はどこで入手できますか？ほとんどのツールを単独で使用できると思いますが、それらを相互に接続することはそれ自体が芸術のようです。利用可能な公開例/ユースケースなどはありますか？個々のパイプラインはユースケースとユーザーに強く依存していることを理解していますが、おそらく単なる例が私にとって非常に役立つでしょう。

14 machine-learning bigdata efficiency scalability distributed

3

MongoDB用に作成されたmap-reduceアルゴリズムを後でHadoopに移植できますか？

私たちの会社には、多くの非構造化データを含むMongoDBデータベースがあり、その上でマップ削減アルゴリズムを実行して、レポートやその他の分析を生成する必要があります。必要な分析を実装するために選択する2つの方法があります。 1つのアプローチは、MongoDBからHadoopクラスターにデータを抽出し、Hadoopプラットフォームで完全に分析を行うことです。ただし、これには、プラットフォーム（ソフトウェアとハードウェア）の準備と、Hadoopで作業し、そのためのマップ縮小タスクを作成するようにチームを教育するために、かなりの投資が必要です。別のアプローチは、map-reduceアルゴリズムの設計に私たちの努力を注ぎ、MongoDB map-reduce機能でアルゴリズムを実行することです。このようにして、レポートを生成できる最終システムの初期プロトタイプを作成できます。MongoDBのmap-reduce機能はHadoopに比べてはるかに遅いことは知っていますが、現在のところ、データはそれほど大きくないため、少なくとも次の6か月間はボトルネックになりません。問題は、2番目のアプローチを使用してMongoDBのアルゴリズムを作成することで、それらを後で必要な変更とアルゴリズムの再設計をほとんど行わずにHadoopに移植できるかどうかです。MongoDBはJavaScriptをサポートするだけですが、プログラミング言語の違いは簡単に処理できます。しかし、MongoDBとHadoopのmap-reduceモデルには、Hadoopへの移植のためにアルゴリズムを大幅に再設計する必要がある根本的な違いはありますか？

11 scalability apache-hadoop map-reduce mongodb

3

科学計算に最適な言語[終了]

閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。この質問を改善したいですか？この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5年前に閉鎖されました。ほとんどの言語では、いくつかの科学計算ライブラリが利用できるようです。 Pythonは Scipy Rust 持っている SciRust C++持っているなど、いくつかのViennaCLとArmadillo Java持っているJava NumericsとColtだけでなく、他のいくつかの以下のような言語は言うまでもありませんRし、Julia科学技術計算のために明示的に設計されています。非常に多くのオプションを使用して、タスクに最適な言語をどのように選択しますか？さらに、どの言語が最もパフォーマンスが高くなりますか？PythonそしてR宇宙の中で最も牽引力を持っているように見えるが、それは、より良い選択となるように、論理的にコンパイルされた言語がそうです。そして、これまでに何よりも優れているFortranでしょうか？さらに、コンパイルされた言語はGPUアクセラレーションを備えている傾向がありますが、インタープリター言語はそうではRありPythonません。言語を選択するときは何を考慮すればよいですか。また、ユーティリティとパフォーマンスのバランスが最も良い言語はどれですか。また、私が見逃した重要な科学計算リソースを持つ言語はありますか？

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

3

さまざまな統計手法（回帰、PCAなど）は、サンプルのサイズと次元にどのように対応していますか？

サンプルサイズと次元に応じてスケーリングする方法を説明する統計手法の既知の一般的な表はありますか？たとえば、ある友人が先日、サイズnの1次元データを単純にクイックソートする計算時間はn * log（n）になると教えてくれました。したがって、たとえば、Xがd次元の変数であるXに対してyを回帰すると、O（n ^ 2 * d）になりますか？正確なガウスマルコフ解とニュートン法による数値最小二乗法で解を求めたい場合、どのようにスケーリングしますか？または、単純に解を取得するか、有意差検定を使用するか？私はここでの良い答えよりも良い答えの源（様々な統計的手法のスケーリングをまとめた論文のような）が欲しいと思います。たとえば、重回帰、ロジスティック回帰、PCA、Cox比例ハザード回帰、K平均クラスタリングなどのスケーリングを含むリストのように。

10 bigdata statistics efficiency scalability

1

信号エンコーディングの学習

マンチェスターでエンコードされたビットストリームをオーディオ信号として表す多数のサンプルがあります。それらがエンコードされる周波数は、それが高い場合の主要な周波数成分であり、バックグラウンドに一定量のホワイトノイズがあります。これらのストリームを手動でデコードしましたが、なんらかの機械学習手法を使用してエンコードスキームを学習できるかどうか疑問に思っていました。これにより、これらのスキームを手動で認識する時間を大幅に節約できます。難点は、異なる信号は異なる方法でエンコードされることです。複数のエンコード方式のデコードを学習できるモデルを構築することは可能ですか？そのようなモデルはどの程度堅牢であり、どのような手法を採用したいですか？独立成分分析（ICA）は、気になる周波数を分離するのに役立つようですが、エンコードスキームをどのように学習しますか？

9 machine-learning data-mining scalability algorithms feature-selection

3

異なるインフラストラクチャで実行された実験を比較する方法

私は分散アルゴリズムを開発しています。効率を改善するには、ディスクの数（マシンごとに1つ）と効率的なロードバランス戦略の両方に依存しています。ディスク数が増えると、I / Oに費やす時間を削減できます。また、効率的なロードバランスポリシーにより、データレプリケーションのオーバーヘッドをあまりかけずにタスクを分散できます。同じ問題を扱った文献に関する多くの研究があり、それらのそれぞれが彼らの提案を評価するために異なる実験を実行しています。いくつかの実験は提示された戦略に固有のものであり、弱いスケーリング（スケーラビリティ）や強いスケーリング（スピードアップ）などの他の実験はすべての作業に共通しています。問題は、通常、実験が完全に異なるインフラストラクチャ（ディスク、プロセッサ、マシン、ネットワーク）で実行され、評価対象によっては、偽/不公平な比較が発生する可能性があることです。たとえば、Infiniband接続の10台のマシンで実行しているアプリケーションで速度が100％向上する可能性がありますが、接続がイーサネットの場合、同じまたはさらに悪い結果が得られる可能性があります。では、さまざまな実験を正直に比較して、効率の向上を指摘するにはどうすればよいでしょうか。

8 bigdata efficiency performance scalability distributed

タグ付けされた質問 「scalability」

タグ付けされた質問「scalability」