データサイエンス bigdata

1

リレーショナルデータベースのパフォーマンスが、非リレーショナルデータベースよりも優れている場合

MySQLのようなリレーショナルデータベースが、MongoDBのような非リレーショナルデータベースよりもパフォーマンスが優れている場合先日、Quoraで、QuoraがまだMySQLをバックエンドとして使用している理由と、パフォーマンスが依然として良好であるという質問を見ました。

13 bigdata performance databases nosql

4

ビッグデータのケーススタディまたはユースケースの例

さまざまな業界がビッグデータ分析をどのように使用しているかについて、多くのブログや記事を読みました。しかし、これらの記事のほとんどは言及していませんこれらの企業が使用したデータ。データのサイズは？データの処理に使用したツールテクノロジーの種類彼らが直面した問題は何であり、彼らがデータを得た洞察がどのように彼らが問題を解決するのを助けたか。ニーズに合わせてツールやテクノロジーを選択した方法。データからどのようなパターンを特定したか、データからどのようなパターンを探していたか。誰かがこれらすべての質問に答えてくれるのか、少なくともいくつかの質問に答えるリンクを提供してくれるのではないかと思います。実世界の例を探しています。金融業界がビッグデータ分析をどのように利用しているかを誰かが共有できたら素晴らしいと思います。

13 data-mining bigdata usecase

4

word2vecモデルのトレーニング中に転移学習を使用する利点を活用できますか？

Googleニュースデータなど、すでにトレーニング済みのモデルの事前トレーニング済みの重みを探しています。十分な量（10 GBなど）のデータを使用して新しいモデルをトレーニングするのは難しいと感じました。したがって、事前学習済みのレイヤーの重みを取得し、ドメイン固有の単語でそれらの重みを再学習できる転送学習の恩恵を受けたいと思います。したがって、トレーニングにかかる時間は比較的短くなります。どんな種類の助けも大歓迎です。前もって感謝します：）

13 machine-learning bigdata word2vec

8

Pythonはビッグデータに適していますか

私はこの記事で読んR言語はビッグデータに適してビッグデータを構成していること5TB、そしてそれがないながらにこのタイプのデータでの作業の実現可能性についての情報提供の良い仕事R、それはについてはほとんど情報を提供しますPython。Pythonこれだけのデータを扱うことができるのかと思っていました。

13 bigdata python

7

データサイエンティストの「旧名」とは何ですか？

「データサイエンス」や「データサイエンティスト」などの用語は、最近ますます使用されています。多くの企業が「データサイエンティスト」を採用しています。しかし、私はそれが完全に新しい仕事だとは思わない。データは過去から存在し、誰かがデータを処理する必要がありました。「データサイエンティスト」という用語は、より空想的で「セクシー」に聞こえるため、より一般的になると思います。過去にデータサイエンティストはどのように呼ばれていましたか？

12 bigdata

2

プリファレンスマッチングアルゴリズム

次の問題の解決策を構築する必要がある場所で作業しているこのサイドプロジェクトがあります。私は2つのグループの人々（クライアント）を持っています。グループAはB決まった製品を購入し、グループは売却するつもりですX。製品は、一連の属性を持っているx_i、と私の目的は、間の取引を促進することであるAとB自分の好みを照合することによってを。主なアイデアはA、Bその製品が彼のニーズにより適しているか、その逆の対応する各メンバーを指摘することです。問題の複雑な側面：属性のリストは有限ではありません。バイヤーは非常に特定の特性またはある種のデザインに興味があるかもしれませんが、これは人口の間ではまれであり、私は予測できません。以前にすべての属性をリストすることはできません。属性は、連続、バイナリ、または数量化不可能（例：価格、機能、デザイン）; この問題にアプローチし、自動化された方法で解決する方法に関する提案はありますか？また、可能であれば、他の同様の問題への参照も歓迎します。素晴らしい提案！私が問題にアプローチすることを考えている方法との多くの類似点。属性のマッピングに関する主な問題は、製品を説明する詳細レベルが各バイヤーに依存することです。車の例を見てみましょう。製品「車」には、性能、機械的構造、価格など、さまざまな属性があります。安い車か電気自動車が欲しいだけだとしよう。わかりました。この製品の主な機能を表しているため、マッピングは簡単です。しかし、たとえば、デュアルクラッチトランスミッションまたはキセノンヘッドライトを搭載した車が欲しいとしましょう。データベースにはこの属性を持つ多くの車が存在する可能性がありますが、それらを探している人がいるという情報の前に、売り手にこのレベルの詳細を製品に入力するように頼みません。そのような手順では、すべての売り手がプラットフォームで自分の車を売ろうとする複雑で非常に詳細なフォームに記入する必要があります。うまくいきません。しかし、それでも、私の課題は、検索で必要なだけ詳細になり、良い一致をすることです。したがって、私が考えているのは、潜在的な売り手のグループを絞り込むために、おそらく誰にでも関係のある製品の主要な側面をマッピングすることです。次のステップは「洗練された検索」です。あまりにも詳細なフォームを作成しないようにするために、買い手と売り手に仕様のフリーテキストを書くよう依頼することができます。そして、いくつかの単語照合アルゴリズムを使用して、可能な一致を見つけます。売り手は買い手が必要とするものを「推測」できないため、これは問題の適切な解決策ではないことを理解していますが。しかし、私を近づけるかもしれません。提案された重み付け基準は素晴らしいです。これにより、売り手が買い手のニーズと一致するレベルを定量化できます。ただし、各属性の重要性はクライアントごとに異なるため、スケーリング部分は問題になる可能性があります。何らかのパターン認識を使用するか、各購入者に各属性の重要度を入力するように依頼することを考えています。

12 bigdata text-mining recommender-system

2

StormとHadoop間のトレードオフ（MapReduce）

データ処理のためにHadoopクラスタでStormとMapReduceを選択する際のトレードオフについて、誰かが親切に教えてもらえますか？もちろん、明白なものは別として、Hadoop（HadoopクラスターのMapReduceを介した処理）はバッチ処理システムであり、Stormはリアルタイム処理システムです。私はHadoop Eco Systemを少し使用しましたが、Stormは使用していません。たくさんのプレゼンテーションや記事を調べた後、満足できる包括的な答えを見つけることができませんでした。注：ここでのトレードオフという用語は、同様のものと比較することを意図したものではありません。バッチ処理システムにない結果をリアルタイムで取得することの結果を表すことを目的としています。

12 bigdata efficiency apache-hadoop distributed

3

巨大なデータベースへのクエリは、無視できるほどの待ち時間でどのように返されますか？

たとえば、Googleで何かを検索すると、結果はすぐに返されます。 Googleがアルゴリズムなどを使用してページをソートおよびインデックス付けすることを理解していますが、考えられるすべてのクエリの結果にインデックスを付けることは不可能だと思います（結果はパーソナライズされ、これによりさらに実行不可能になります）？さらに、Googleのハードウェアのハードウェアレイテンシは巨大ではないでしょうか。GoogleのデータがすべてTB / s SSDに保存されていたとしても、処理するデータの量が膨大であることを考えると、ハードウェアのレイテンシは非常に大きくなると思います。 MapReduceはこの問題の解決に役立ちますか？編集：さて、私は人気のある検索がメモリにキャッシュできることを理解しています。しかし、不人気な検索はどうですか？私が行った最もあいまいな検索でさえ、検索が5秒を超えると報告されたことはないと思います。これはどのように可能ですか？

12 bigdata google search

1

LSTMセルはいくつ使用すればよいですか？

使用する必要があるLSTMセルの最小、最大、および「妥当な」量に関する経験則（または実際の規則）はありますか？具体的には、TensorFlowとプロパティのBasicLSTMCellに関連していnum_unitsます。私が定義する分類問題があると仮定してください： t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples たとえば、トレーニングの例の数は次の数よりも多い必要がありますか？ 4*((n+1)*m + m*m)*c cセルの数はどこですか？これに基づいています：LSTMネットワークのパラメーターの数を計算する方法？私が理解しているように、これはパラメータの総数を与えるはずであり、トレーニング例の数よりも少なくなければなりません。

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

2

頻繁なパターンマイニングでは、FPGrowthはまだ「最先端」と見なされていますか？

私が頻繁にパターンマイニング（FPM）の問題を解決するアルゴリズムの開発を知っている限り、改善の道にはいくつかの主要なチェックポイントがあります。まず、Aprioriアルゴリズムは1993年にAgrawalらによって提案されました。、問題の形式化とともに。アルゴリズムは、ラティスを使用してデータを維持することにより、セット（パワーセット）からいくつかのセットを取り除くことができました2^n - 1。このアプローチの欠点は、拡張された各セットの頻度を計算するためにデータベースを再度読み取る必要があったことです。その後、1997年にZakiら。はアルゴリズムEclatを提案しました。これは、各セットの結果の周波数をラティス内に挿入しました。これは、ラティスの各ノードで、ルートから参照先ノードへのアイテムを持つトランザクションIDのセットを追加することで行われました。主な貢献は、各セットの頻度を知るためにデータセット全体を再度読み取る必要がないことですが、そのようなデータ構造の構築を維持するために必要なメモリは、データセット自体のサイズを超える可能性があります。 2000年に、ハン等。は、FPTreeという名前のプレフィックスツリーデータ構造とともに、FPGrowthという名前のアルゴリズムを提案しました。このアルゴリズムは、重要なデータ圧縮を提供すると同時に、頻繁なアイテムセットのみが生成されることを許可しました（候補アイテムセットの生成なし）。これは主に、各トランザクションのアイテムを降順でソートすることによって行われたため、最も頻度の高いアイテムは、ツリーデータ構造内の繰り返しが最も少ないアイテムです。頻度はツリーを詳しく調べている間だけ下降するので、アルゴリズムは頻度の低いアイテムセットを取り除くことができます。編集：私の知る限り、これは最先端のアルゴリズムと考えることができますが、他の提案されたソリューションについて知りたいのですが。FPMの他のどのようなアルゴリズムが「最先端」と見なされていますか？そのようなアルゴリズムの直感 / 主な貢献は何ですか？頻繁なパターンマイニングでは、FPGrowthアルゴリズムはまだ「最先端」と見なされていますか？そうでない場合、どのアルゴリズムが大規模なデータセットから頻繁なアイテムセットをより効率的に抽出する可能性がありますか？

12 bigdata data-mining efficiency state-of-the-art

4

HPCクラスターの操作

私の大学では、HPCコンピューティングクラスタを使用しています。クラスターを使用して分類子などをトレーニングします。そのため、通常、ジョブをクラスターに送信するには（たとえば、python scikit-learnスクリプト）、（他のものとともに）のようなコマンドを含むBashスクリプトを記述する必要がありqsub script.pyます。ただし、このプロセスは非常にイライラします。通常、ラップトップでpythonスクリプトを作成し、サーバーにログインしてSVNリポジトリを更新するので、同じpythonスクリプトがそこにあります。次に、そのBashスクリプトを作成または編集して、bashスクリプトを実行できるようにします。 Pythonスクリプトの小さな更新ごとに、計算クラスターで実行するために多くの手順を実行する必要があるため、これは本当に苛立たしいことです。もちろん、サーバーにデータを配置してサーバー上のデータセットのパスを使用する必要がある場合、タスクはさらに複雑になります。ここの多くの人がデータサイエンスタスクにコンピューティングクラスタを使用していると思います。クラスターへのジョブの送信を管理する方法を知りたいだけですか？

11 bigdata data-mining

3

科学計算に最適な言語[終了]

閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。この質問を改善したいですか？この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5年前に閉鎖されました。ほとんどの言語では、いくつかの科学計算ライブラリが利用できるようです。 Pythonは Scipy Rust 持っている SciRust C++持っているなど、いくつかのViennaCLとArmadillo Java持っているJava NumericsとColtだけでなく、他のいくつかの以下のような言語は言うまでもありませんRし、Julia科学技術計算のために明示的に設計されています。非常に多くのオプションを使用して、タスクに最適な言語をどのように選択しますか？さらに、どの言語が最もパフォーマンスが高くなりますか？PythonそしてR宇宙の中で最も牽引力を持っているように見えるが、それは、より良い選択となるように、論理的にコンパイルされた言語がそうです。そして、これまでに何よりも優れているFortranでしょうか？さらに、コンパイルされた言語はGPUアクセラレーションを備えている傾向がありますが、インタープリター言語はそうではRありPythonません。言語を選択するときは何を考慮すればよいですか。また、ユーティリティとパフォーマンスのバランスが最も良い言語はどれですか。また、私が見逃した重要な科学計算リソースを持つ言語はありますか？

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

3

大規模なJSONデータセットでのPostgreSQLとMongoDBのどちらが速いですか？

9mのJSONオブジェクトがそれぞれ約300バイトの大きなデータセットがあります。それらはリンクアグリゲーターからの投稿です。基本的にはリンク（URL、タイトル、著者ID）とコメント（テキストと著者ID）+メタデータです。子レコードを指すIDを持つ配列フィールドが1つあるという事実を除いて、それらはテーブルのリレーショナルレコードである可能性が非常に高いです。どの実装がより堅固に見えますか？ PostgreSQLデータベース上のJSONオブジェクト（1つの列を持つ1つの大きなテーブル、つまりJSONオブジェクト） MongoDB上のJSONオブジェクト JSONオブジェクトを列に分解し、PostgreSQLで配列を使用する結合のパフォーマンスを最大化したいので、データをマッサージして、興味深い分析が見つかるまで調査できます。その時点で、データを各分析に固有の形式に変換する方が良いと思います。

10 data-mining bigdata databases sql mongodb

2

スケーラブルな外れ値/異常検出

Hadoop、Hive、Elastic Search（その他）を使用してビッグデータインフラストラクチャをセットアップしようとしています。特定のデータセットに対していくつかのアルゴリズムを実行したいと思います。アルゴリズム自体をスケーラブルにしたいので、Weka、R、RHadoopなどのツールの使用は除外されます。ApacheのMahoutの図書館は良い選択肢であるように思われ、それが特徴回帰およびクラスタリングのタスクのためのアルゴリズムを。私が見つけるのに苦労しているのは、異常または異常値の検出のためのソリューションです。 Mahoutには隠しマルコフモデルとさまざまなクラスタリング手法（K-Meansを含む）が備わっているため、これを使用して時系列で外れ値を検出するモデルを構築できるかどうか疑問に思っていました。これを経験した誰かが私に助言してくれるなら私は感謝しています可能であれば、可能であればそれを行う方法に加えて関与する努力の推定とこのアプローチの精度/問題。

10 data-mining bigdata algorithms outlier

3

さまざまな統計手法（回帰、PCAなど）は、サンプルのサイズと次元にどのように対応していますか？

サンプルサイズと次元に応じてスケーリングする方法を説明する統計手法の既知の一般的な表はありますか？たとえば、ある友人が先日、サイズnの1次元データを単純にクイックソートする計算時間はn * log（n）になると教えてくれました。したがって、たとえば、Xがd次元の変数であるXに対してyを回帰すると、O（n ^ 2 * d）になりますか？正確なガウスマルコフ解とニュートン法による数値最小二乗法で解を求めたい場合、どのようにスケーリングしますか？または、単純に解を取得するか、有意差検定を使用するか？私はここでの良い答えよりも良い答えの源（様々な統計的手法のスケーリングをまとめた論文のような）が欲しいと思います。たとえば、重回帰、ロジスティック回帰、PCA、Cox比例ハザード回帰、K平均クラスタリングなどのスケーリングを含むリストのように。

10 bigdata statistics efficiency scalability

タグ付けされた質問 「bigdata」

タグ付けされた質問「bigdata」