タグ付けされた質問 「bigdata」

ビッグデータは、手持ちのデータベース管理ツールや従来のデータ処理アプリケーションを使用して処理することが困難になるほど大きく複雑なデータセットの集まりを表す用語です。課題には、キャプチャ、キュレーション、ストレージ、検索、共有、転送、分析、視覚化が含まれます。

1
リレーショナルデータベースのパフォーマンスが、非リレーショナルデータベースよりも優れている場合
MySQLのようなリレーショナルデータベースが、MongoDBのような非リレーショナルデータベースよりもパフォーマンスが優れている場合 先日、Quoraで、QuoraがまだMySQLをバックエンドとして使用している理由と、パフォーマンスが依然として良好であるという質問を見ました。

4
ビッグデータのケーススタディまたはユースケースの例
さまざまな業界がビッグデータ分析をどのように使用しているかについて、多くのブログや記事を読みました。しかし、これらの記事のほとんどは言及していません これらの企業が使用したデータ。データのサイズは? データの処理に使用したツールテクノロジーの種類 彼らが直面した問題は何であり、彼らがデータを得た洞察がどのように彼らが問題を解決するのを助けたか。 ニーズに合わせてツールやテクノロジーを選択した方法。 データからどのようなパターンを特定したか、データからどのようなパターンを探していたか。 誰かがこれらすべての質問に答えてくれるのか、少なくともいくつかの質問に答えるリンクを提供してくれるのではないかと思います。実世界の例を探しています。 金融業界がビッグデータ分析をどのように利用しているかを誰かが共有できたら素晴らしいと思います。

4
word2vecモデルのトレーニング中に転移学習を使用する利点を活用できますか?
Googleニュースデータなど、すでにトレーニング済みのモデルの事前トレーニング済みの重みを探しています。十分な量(10 GBなど)のデータを使用して新しいモデルをトレーニングするのは難しいと感じました。したがって、事前学習済みのレイヤーの重みを取得し、ドメイン固有の単語でそれらの重みを再学習できる転送学習の恩恵を受けたいと思います。したがって、トレーニングにかかる​​時間は比較的短くなります。どんな種類の助けも大歓迎です。前もって感謝します :)

8
Pythonはビッグデータに適していますか
私はこの記事で読んR言語はビッグデータに適してビッグデータを構成していること5TB、そしてそれがないながらにこのタイプのデータでの作業の実現可能性についての情報提供の良い仕事R、それはについてはほとんど情報を提供しますPython。Pythonこれだけのデータを扱うことができるのかと思っていました。
13 bigdata  python 

7
データサイエンティストの「旧名」とは何ですか?
「データサイエンス」や「データサイエンティスト」などの用語は、最近ますます使用されています。多くの企業が「データサイエンティスト」を採用しています。しかし、私はそれが完全に新しい仕事だとは思わない。データは過去から存在し、誰かがデータを処理する必要がありました。「データサイエンティスト」という用語は、より空想的で「セクシー」に聞こえるため、より一般的になると思います。過去にデータサイエンティストはどのように呼ばれていましたか?
12 bigdata 

2
プリファレンスマッチングアルゴリズム
次の問題の解決策を構築する必要がある場所で作業しているこのサイドプロジェクトがあります。 私は2つのグループの人々(クライアント)を持っています。グループAはB決まった製品を購入し、グループは売却するつもりですX。製品は、一連の属性を持っているx_i、と私の目的は、間の取引を促進することであるAとB自分の好みを照合することによってを。主なアイデアはA、Bその製品が彼のニーズにより適しているか、その逆の対応する各メンバーを指摘することです。 問題の複雑な側面: 属性のリストは有限ではありません。バイヤーは非常に特定の特性またはある種のデザインに興味があるかもしれませんが、これは人口の間ではまれであり、私は予測できません。以前にすべての属性をリストすることはできません。 属性は、連続、バイナリ、または数量化不可能(例:価格、機能、デザイン); この問題にアプローチし、自動化された方法で解決する方法に関する提案はありますか? また、可能であれば、他の同様の問題への参照も歓迎します。 素晴らしい提案!私が問題にアプローチすることを考えている方法との多くの類似点。 属性のマッピングに関する主な問題は、製品を説明する詳細レベルが各バイヤーに依存することです。車の例を見てみましょう。製品「車」には、性能、機械的構造、価格など、さまざまな属性があります。 安い車か電気自動車が欲しいだけだとしよう。わかりました。この製品の主な機能を表しているため、マッピングは簡単です。しかし、たとえば、デュアルクラッチトランスミッションまたはキセノンヘッドライトを搭載した車が欲しいとしましょう。データベースにはこの属性を持つ多くの車が存在する可能性がありますが、それらを探している人がいるという情報の前に、売り手にこのレベルの詳細を製品に入力するように頼みません。そのような手順では、すべての売り手がプラットフォームで自分の車を売ろうとする複雑で非常に詳細なフォームに記入する必要があります。うまくいきません。 しかし、それでも、私の課題は、検索で必要なだけ詳細になり、良い一致をすることです。したがって、私が考えているのは、潜在的な売り手のグループを絞り込むために、おそらく誰にでも関係のある製品の主要な側面をマッピングすることです。 次のステップは「洗練された検索」です。あまりにも詳細なフォームを作成しないようにするために、買い手と売り手に仕様のフリーテキストを書くよう依頼することができます。そして、いくつかの単語照合アルゴリズムを使用して、可能な一致を見つけます。売り手は買い手が必要とするものを「推測」できないため、これは問題の適切な解決策ではないことを理解していますが。しかし、私を近づけるかもしれません。 提案された重み付け基準は素晴らしいです。これにより、売り手が買い手のニーズと一致するレベルを定量化できます。ただし、各属性の重要性はクライアントごとに異なるため、スケーリング部分は問題になる可能性があります。何らかのパターン認識を使用するか、各購入者に各属性の重要度を入力するように依頼することを考えています。

2
StormとHadoop間のトレードオフ(MapReduce)
データ処理のためにHadoopクラスタでStormとMapReduceを選択する際のトレードオフについて、誰かが親切に教えてもらえますか?もちろん、明白なものは別として、Hadoop(HadoopクラスターのMapReduceを介した処理)はバッチ処理システムであり、Stormはリアルタイム処理システムです。 私はHadoop Eco Systemを少し使用しましたが、Stormは使用していません。たくさんのプレゼンテーションや記事を調べた後、満足できる包括的な答えを見つけることができませんでした。 注:ここでのトレードオフという用語は、同様のものと比較することを意図したものではありません。バッチ処理システムにない結果をリアルタイムで取得することの結果を表すことを目的としています。

3
巨大なデータベースへのクエリは、無視できるほどの待ち時間でどのように返されますか?
たとえば、Googleで何かを検索すると、結果はすぐに返されます。 Googleがアルゴリズムなどを使用してページをソートおよびインデックス付けすることを理解していますが、考えられるすべてのクエリの結果にインデックスを付けることは不可能だと思います(結果はパーソナライズされ、これによりさらに実行不可能になります)? さらに、Googleのハードウェアのハードウェアレイテンシは巨大ではないでしょうか。GoogleのデータがすべてTB / s SSDに保存されていたとしても、処理するデータの量が膨大であることを考えると、ハードウェアのレイテンシは非常に大きくなると思います。 MapReduceはこの問題の解決に役立ちますか? 編集:さて、私は人気のある検索がメモリにキャッシュできることを理解しています。しかし、不人気な検索はどうですか?私が行った最もあいまいな検索でさえ、検索が5秒を超えると報告されたことはないと思います。これはどのように可能ですか?
12 bigdata  google  search 

1
LSTMセルはいくつ使用すればよいですか?
使用する必要があるLSTMセルの最小、最大、および「妥当な」量に関する経験則(または実際の規則)はありますか?具体的には、TensorFlowとプロパティのBasicLSTMCellに関連していnum_unitsます。 私が定義する分類問題があると仮定してください: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples たとえば、トレーニングの例の数は次の数よりも多い必要がありますか? 4*((n+1)*m + m*m)*c cセルの数はどこですか?これに基づいています:LSTMネットワークのパラメーターの数を計算する方法?私が理解しているように、これはパラメータの総数を与えるはずであり、トレーニング例の数よりも少なくなければなりません。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

2
頻繁なパターンマイニングでは、FPGrowthはまだ「最先端」と見なされていますか?
私が頻繁にパターンマイニング(FPM)の問題を解決するアルゴリズムの開発を知っている限り、改善の道にはいくつかの主要なチェックポイントがあります。まず、Aprioriアルゴリズムは1993年にAgrawalらによって提案されました。、問題の形式化とともに。アルゴリズムは、ラティスを使用してデータを維持することにより、セット(パワーセット)からいくつかのセットを取り除くことができました2^n - 1。このアプローチの欠点は、拡張された各セットの頻度を計算するためにデータベースを再度読み取る必要があったことです。 その後、1997年にZakiら。はアルゴリズムEclatを提案しました。これは、各セットの結果の周波数をラティス内に挿入しました。これは、ラティスの各ノードで、ルートから参照先ノードへのアイテムを持つトランザクションIDのセットを追加することで行われました。主な貢献は、各セットの頻度を知るためにデータセット全体を再度読み取る必要がないことですが、そのようなデータ構造の構築を維持するために必要なメモリは、データセット自体のサイズを超える可能性があります。 2000年に、ハン等。は、FPTreeという名前のプレフィックスツリーデータ構造とともに、FPGrowthという名前のアルゴリズムを提案しました。このアルゴリズムは、重要なデータ圧縮を提供すると同時に、頻繁なアイテムセットのみが生成されることを許可しました(候補アイテムセットの生成なし)。これは主に、各トランザクションのアイテムを降順でソートすることによって行われたため、最も頻度の高いアイテムは、ツリーデータ構造内の繰り返しが最も少ないアイテムです。頻度はツリーを詳しく調べている間だけ下降するので、アルゴリズムは頻度の低いアイテムセットを取り除くことができます。 編集: 私の知る限り、これは最先端のアルゴリズムと考えることができますが、他の提案されたソリューションについて知りたいのですが。FPMの他のどのようなアルゴリズムが「最先端」と見なされていますか?そのようなアルゴリズムの直感 / 主な貢献は何ですか? 頻繁なパターンマイニングでは、FPGrowthアルゴリズムはまだ「最先端」と見なされていますか?そうでない場合、どのアルゴリズムが大規模なデータセットから頻繁なアイテムセットをより効率的に抽出する可能性がありますか?

4
HPCクラスターの操作
私の大学では、HPCコンピューティングクラスタを使用しています。クラスターを使用して分類子などをトレーニングします。そのため、通常、ジョブをクラスターに送信するには(たとえば、python scikit-learnスクリプト)、(他のものとともに)のようなコマンドを含むBashスクリプトを記述する必要がありqsub script.pyます。 ただし、このプロセスは非常にイライラします。通常、ラップトップでpythonスクリプトを作成し、サーバーにログインしてSVNリポジトリを更新するので、同じpythonスクリプトがそこにあります。次に、そのBashスクリプトを作成または編集して、bashスクリプトを実行できるようにします。 Pythonスクリプトの小さな更新ごとに、計算クラスターで実行するために多くの手順を実行する必要があるため、これは本当に苛立たしいことです。もちろん、サーバーにデータを配置してサーバー上のデータセットのパスを使用する必要がある場合、タスクはさらに複雑になります。 ここの多くの人がデータサイエンスタスクにコンピューティングクラスタを使用していると思います。クラスターへのジョブの送信を管理する方法を知りたいだけですか?

3
科学計算に最適な言語[終了]
閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5年前に閉鎖されました。 ほとんどの言語では、いくつかの科学計算ライブラリが利用できるようです。 Pythonは Scipy Rust 持っている SciRust C++持っているなど、いくつかのViennaCLとArmadillo Java持っているJava NumericsとColtだけでなく、他のいくつかの 以下のような言語は言うまでもありませんRし、Julia科学技術計算のために明示的に設計されています。 非常に多くのオプションを使用して、タスクに最適な言語をどのように選択しますか?さらに、どの言語が最もパフォーマンスが高くなりますか?PythonそしてR宇宙の中で最も牽引力を持っているように見えるが、それは、より良い選択となるように、論理的にコンパイルされた言語がそうです。そして、これまでに何よりも優れているFortranでしょうか?さらに、コンパイルされた言語はGPUアクセラレーションを備えている傾向がありますが、インタープリター言語はそうではRありPythonません。言語を選択するときは何を考慮すればよいですか。また、ユーティリティとパフォーマンスのバランスが最も良い言語はどれですか。また、私が見逃した重要な科学計算リソースを持つ言語はありますか?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
大規模なJSONデータセットでのPostgreSQLとMongoDBのどちらが速いですか?
9mのJSONオブジェクトがそれぞれ約300バイトの大きなデータセットがあります。それらはリンクアグリゲーターからの投稿です。基本的にはリンク(URL、タイトル、著者ID)とコメント(テキストと著者ID)+メタデータです。 子レコードを指すIDを持つ配列フィールドが1つあるという事実を除いて、それらはテーブルのリレーショナルレコードである可能性が非常に高いです。 どの実装がより堅固に見えますか? PostgreSQLデータベース上のJSONオブジェクト(1つの列を持つ1つの大きなテーブル、つまりJSONオブジェクト) MongoDB上のJSONオブジェクト JSONオブジェクトを列に分解し、PostgreSQLで配列を使用する 結合のパフォーマンスを最大化したいので、データをマッサージして、興味深い分析が見つかるまで調査できます。その時点で、データを各分析に固有の形式に変換する方が良いと思います。

2
スケーラブルな外れ値/異常検出
Hadoop、Hive、Elastic Search(その他)を使用してビッグデータインフラストラクチャをセットアップしようとしています。特定のデータセットに対していくつかのアルゴリズムを実行したいと思います。アルゴリズム自体をスケーラブルにしたいので、Weka、R、RHadoopなどのツールの使用は除外されます。ApacheのMahoutの図書館は良い選択肢であるように思われ、それが特徴回帰およびクラスタリングのタスクのためのアルゴリズムを。 私が見つけるのに苦労しているのは、異常または異常値の検出のためのソリューションです。 Mahoutには隠しマルコフモデルとさまざまなクラスタリング手法(K-Meansを含む)が備わっているため、これを使用して時系列で外れ値を検出するモデルを構築できるかどうか疑問に思っていました。これを経験した誰かが私に助言してくれるなら私は感謝しています 可能であれば、可能であれば それを行う方法に加えて 関与する努力の推定と このアプローチの精度/問題。

3
さまざまな統計手法(回帰、PCAなど)は、サンプルのサイズと次元にどのように対応していますか?
サンプルサイズと次元に応じてスケーリングする方法を説明する統計手法の既知の一般的な表はありますか?たとえば、ある友人が先日、サイズnの1次元データを単純にクイックソートする計算時間はn * log(n)になると教えてくれました。 したがって、たとえば、Xがd次元の変数であるXに対してyを回帰すると、O(n ^ 2 * d)になりますか?正確なガウスマルコフ解とニュートン法による数値最小二乗法で解を求めたい場合、どのようにスケーリングしますか?または、単純に解を取得するか、有意差検定を使用するか? 私はここでの良い答えよりも良い答えの源(様々な統計的手法のスケーリングをまとめた論文のような)が欲しいと思います。たとえば、重回帰、ロジスティック回帰、PCA、Cox比例ハザード回帰、K平均クラスタリングなどのスケーリングを含むリストのように。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.