データサイエンス efficiency

12

多くの人々は、大きなデータセットが計算に関与していることを示す手段として、かなり商業的な方法でビッグデータという用語を使用しているため、潜在的なソリューションには優れたパフォーマンスが必要です。もちろん、ビッグデータには、スケーラビリティや効率などの関連用語が常に含まれていますが、問題をビッグデータの問題として正確に定義しているのは何ですか？計算は、データマイニング/情報検索などの特定の目的のセットに関連する必要がありますか、またはデータセットが十分に大きい場合、一般的なグラフ問題のアルゴリズムにビッグデータのラベルを付けることができますか？また、どのように大きいです十分な大きさ（これを定義することが可能である場合）？

86 bigdata scalability efficiency performance

5

モデルが適切でないのはいつですか？

ロジックは、モデルを適切に適合させないことで、一般化する能力が向上するとしばしば述べています。とはいえ、明らかに、ある時点でモデルを不十分に適合させると、データの複雑さに関係なくモデルが悪化します。モデルが適切なバランスを取り、モデル化しようとするデータを十分に満たしていないことをどのように確認しますか？注：これは、「なぜオーバーフィットが悪いのか」という私の質問へのフォローアップです。

56 efficiency algorithms parameter

5

シーボーンヒートマップを大きくする

corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか？

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

4

インフラストラクチャスタック/ワークフロー/パイプラインの例を探す

hadoop、monogodb / nosql、storm、kafkaなど、実世界のユースケースですべての「ビッグデータ」コンポーネントがどのように連携するかを理解しようとしています。これは、さまざまな種類がありますが、アプリケーション、webapp、オンラインショップの機械学習など、アプリケーションでの相互作用について詳しく知りたいと思います。ビスタ/セッション、トランザクションデータなどがあり、それを保存します。しかし、その場で推奨事項を作成したい場合は、私が持っているログの大きなデータベースでそのための遅いmap / reduceジョブを実行できません。インフラストラクチャの側面に関する詳細情報はどこで入手できますか？ほとんどのツールを単独で使用できると思いますが、それらを相互に接続することはそれ自体が芸術のようです。利用可能な公開例/ユースケースなどはありますか？個々のパイプラインはユースケースとユーザーに強く依存していることを理解していますが、おそらく単なる例が私にとって非常に役立つでしょう。

14 machine-learning bigdata efficiency scalability distributed

1

XGBRegressorとxgboost.trainの大きな速度差は？

次のコードを使用してモデルをトレーニングする場合： import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) 約1分で終了します。 Sci-Kit学習メソッドを使用してモデルをトレーニングする場合： import xgboost as xg max_depth = 3 min_child_weight = 10 subsample = 0.5 colsample_bytree = 0.6 objective = …

13 machine-learning python decision-trees xgboost efficiency

2

StormとHadoop間のトレードオフ（MapReduce）

データ処理のためにHadoopクラスタでStormとMapReduceを選択する際のトレードオフについて、誰かが親切に教えてもらえますか？もちろん、明白なものは別として、Hadoop（HadoopクラスターのMapReduceを介した処理）はバッチ処理システムであり、Stormはリアルタイム処理システムです。私はHadoop Eco Systemを少し使用しましたが、Stormは使用していません。たくさんのプレゼンテーションや記事を調べた後、満足できる包括的な答えを見つけることができませんでした。注：ここでのトレードオフという用語は、同様のものと比較することを意図したものではありません。バッチ処理システムにない結果をリアルタイムで取得することの結果を表すことを目的としています。

12 bigdata efficiency apache-hadoop distributed

2

頻繁なパターンマイニングでは、FPGrowthはまだ「最先端」と見なされていますか？

私が頻繁にパターンマイニング（FPM）の問題を解決するアルゴリズムの開発を知っている限り、改善の道にはいくつかの主要なチェックポイントがあります。まず、Aprioriアルゴリズムは1993年にAgrawalらによって提案されました。、問題の形式化とともに。アルゴリズムは、ラティスを使用してデータを維持することにより、セット（パワーセット）からいくつかのセットを取り除くことができました2^n - 1。このアプローチの欠点は、拡張された各セットの頻度を計算するためにデータベースを再度読み取る必要があったことです。その後、1997年にZakiら。はアルゴリズムEclatを提案しました。これは、各セットの結果の周波数をラティス内に挿入しました。これは、ラティスの各ノードで、ルートから参照先ノードへのアイテムを持つトランザクションIDのセットを追加することで行われました。主な貢献は、各セットの頻度を知るためにデータセット全体を再度読み取る必要がないことですが、そのようなデータ構造の構築を維持するために必要なメモリは、データセット自体のサイズを超える可能性があります。 2000年に、ハン等。は、FPTreeという名前のプレフィックスツリーデータ構造とともに、FPGrowthという名前のアルゴリズムを提案しました。このアルゴリズムは、重要なデータ圧縮を提供すると同時に、頻繁なアイテムセットのみが生成されることを許可しました（候補アイテムセットの生成なし）。これは主に、各トランザクションのアイテムを降順でソートすることによって行われたため、最も頻度の高いアイテムは、ツリーデータ構造内の繰り返しが最も少ないアイテムです。頻度はツリーを詳しく調べている間だけ下降するので、アルゴリズムは頻度の低いアイテムセットを取り除くことができます。編集：私の知る限り、これは最先端のアルゴリズムと考えることができますが、他の提案されたソリューションについて知りたいのですが。FPMの他のどのようなアルゴリズムが「最先端」と見なされていますか？そのようなアルゴリズムの直感 / 主な貢献は何ですか？頻繁なパターンマイニングでは、FPGrowthアルゴリズムはまだ「最先端」と見なされていますか？そうでない場合、どのアルゴリズムが大規模なデータセットから頻繁なアイテムセットをより効率的に抽出する可能性がありますか？

12 bigdata data-mining efficiency state-of-the-art

3

科学計算に最適な言語[終了]

閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。この質問を改善したいですか？この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5年前に閉鎖されました。ほとんどの言語では、いくつかの科学計算ライブラリが利用できるようです。 Pythonは Scipy Rust 持っている SciRust C++持っているなど、いくつかのViennaCLとArmadillo Java持っているJava NumericsとColtだけでなく、他のいくつかの以下のような言語は言うまでもありませんRし、Julia科学技術計算のために明示的に設計されています。非常に多くのオプションを使用して、タスクに最適な言語をどのように選択しますか？さらに、どの言語が最もパフォーマンスが高くなりますか？PythonそしてR宇宙の中で最も牽引力を持っているように見えるが、それは、より良い選択となるように、論理的にコンパイルされた言語がそうです。そして、これまでに何よりも優れているFortranでしょうか？さらに、コンパイルされた言語はGPUアクセラレーションを備えている傾向がありますが、インタープリター言語はそうではRありPythonません。言語を選択するときは何を考慮すればよいですか。また、ユーティリティとパフォーマンスのバランスが最も良い言語はどれですか。また、私が見逃した重要な科学計算リソースを持つ言語はありますか？

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

3

さまざまな統計手法（回帰、PCAなど）は、サンプルのサイズと次元にどのように対応していますか？

サンプルサイズと次元に応じてスケーリングする方法を説明する統計手法の既知の一般的な表はありますか？たとえば、ある友人が先日、サイズnの1次元データを単純にクイックソートする計算時間はn * log（n）になると教えてくれました。したがって、たとえば、Xがd次元の変数であるXに対してyを回帰すると、O（n ^ 2 * d）になりますか？正確なガウスマルコフ解とニュートン法による数値最小二乗法で解を求めたい場合、どのようにスケーリングしますか？または、単純に解を取得するか、有意差検定を使用するか？私はここでの良い答えよりも良い答えの源（様々な統計的手法のスケーリングをまとめた論文のような）が欲しいと思います。たとえば、重回帰、ロジスティック回帰、PCA、Cox比例ハザード回帰、K平均クラスタリングなどのスケーリングを含むリストのように。

10 bigdata statistics efficiency scalability

1

最も効率的なデータインデックス付け手法は何ですか

誰もが知っているように、Lucene（Javaの場合）またはLucene.NET（.NETの場合）、MurMurHash、B + Treeなど、よく知られたインデックス作成アプリを使用したいくつかのデータインデックス作成手法があります。No-Sql/オブジェクトの場合指向データベース（私はC＃で少し書いたり遊んだりしようとしています）、どの手法を提案しますか？ MurMurhash-2について読み、特にv3のコメントでMurmurは非常に高速であると述べています。Lucene.Netにも良いコメントがあります。しかし、一般的に彼らのメモリフットプリントはどうですか？LuceneやMurmurよりもフットプリントが少ない（そしてもちろん高速の方が望ましい場合）効率的なソリューションはありますか？または、最良の結果を得るために特別なインデックス構造を作成する必要がありますか？私が自分で書き込もうとすると、データノードの1％やデータノードの5％など、適切なインデックス付けに受け入れられるスケールはありますか？任意の有用なヒントをいただければ幸いです。

10 nosql efficiency indexing data-indexing-techniques .net

4

ライブラリの使用中に効率を上げることが難しいのはなぜですか？

小さなデータベース処理は、Python / Perl / ...スクリプトで簡単に取り組むことができます。このスクリプトは、言語自体のライブラリやユーティリティを使用します。ただし、パフォーマンスに関しては、C / C ++ /低水準言語に手を伸ばす傾向があります。コードをニーズに合わせて調整できる可能性が、これらの言語をBigDataにとって非常に魅力的なものにしているようです-メモリ管理、並列処理、ディスクアクセス、さらには低レベルの最適化（C / C ++レベルのアセンブリ構造による）までも。もちろん、そのような一連の利点はコストなしでは得られません。コードを書くこと、そして時にはホイールを再発明することさえも、非常に高価で面倒なことです。利用できるライブラリはたくさんありますが、パフォーマンスを付与する必要があるときはいつでも、自分でコードを書く傾向があります。大規模なデータベースの処理中にライブラリを使用してパフォーマンスアサーションを無効にするものは何ですか？たとえば、Webページを継続的にクロールし、収集されたデータを解析する起業家について考えてみましょう。スライディングウィンドウごとに、抽出されたデータに対して異なるデータマイニングアルゴリズムが実行されます。開発者は、利用可能なライブラリ/フレームワーク（クロール、テキスト処理、データマイニングなど）を使用しないのはなぜですか？すでに実装されているものを使用すると、プロセス全体のコーディングの負担が軽減されるだけでなく、時間を大幅に節約できます。シングルショットで：自分でコードを書くことがパフォーマンスの保証になるのは何ですか？高いパフォーマンスを保証する必要があるときに、フレームワーク/ライブラリに依存することが危険なのはなぜですか？

10 bigdata efficiency performance

2

取得したデータからのスパムのフィルタリング

データセット内のエントリを検索する一部のユーザーがブロックされたソースから特定の情報を探している可能性があるため、ブラックリストを使用してスパムをフィルタリングすることは良いアプローチではないと聞いたことがあります。また、ブロックされた各スパマーの現在の状態を継続的に検証し、サイト/ドメインが依然としてスパムデータを広めているかどうかを確認することは負担になります。非常に大規模なデータセットでのフィルタリングをサポートするために、あらゆるアプローチが効率的でスケーラブルでなければならないことを考えると、偏見のない方法でスパムを取り除くために利用できる戦略は何ですか？編集：可能であれば、戦略の例は、その背後にある直感だけでも、答えとともに大歓迎です。

8 bigdata efficiency

3

異なるインフラストラクチャで実行された実験を比較する方法

私は分散アルゴリズムを開発しています。効率を改善するには、ディスクの数（マシンごとに1つ）と効率的なロードバランス戦略の両方に依存しています。ディスク数が増えると、I / Oに費やす時間を削減できます。また、効率的なロードバランスポリシーにより、データレプリケーションのオーバーヘッドをあまりかけずにタスクを分散できます。同じ問題を扱った文献に関する多くの研究があり、それらのそれぞれが彼らの提案を評価するために異なる実験を実行しています。いくつかの実験は提示された戦略に固有のものであり、弱いスケーリング（スケーラビリティ）や強いスケーリング（スピードアップ）などの他の実験はすべての作業に共通しています。問題は、通常、実験が完全に異なるインフラストラクチャ（ディスク、プロセッサ、マシン、ネットワーク）で実行され、評価対象によっては、偽/不公平な比較が発生する可能性があることです。たとえば、Infiniband接続の10台のマシンで実行しているアプリケーションで速度が100％向上する可能性がありますが、接続がイーサネットの場合、同じまたはさらに悪い結果が得られる可能性があります。では、さまざまな実験を正直に比較して、効率の向上を指摘するにはどうすればよいでしょうか。

8 bigdata efficiency performance scalability distributed

タグ付けされた質問 「efficiency」

タグ付けされた質問「efficiency」