タグ付けされた質問 「performance」

12
ビッグデータはどのくらいですか?
多くの人々は、大きなデータセットが計算に関与していることを示す手段として、かなり商業的な方法でビッグデータという用語を使用しているため、潜在的なソリューションには優れたパフォーマンスが必要です。もちろん、ビッグデータには、スケーラビリティや効率などの関連用語が常に含まれていますが、問題をビッグデータの問題として正確に定義しているのは何ですか? 計算は、データマイニング/情報検索などの特定の目的のセットに関連する必要がありますか、またはデータセットが十分に大きい場合、一般的なグラフ問題のアルゴリズムにビッグデータのラベルを付けることができますか?また、どのように大きいです十分な大きさ(これを定義することが可能である場合)?

4
pandas.DataFrame.isinを並行して実行する簡単な方法はありますか?
DataFrame.isinパンダの機能を多用するモデリングおよびスコアリングプログラムを使用して、数千の特定のページごとに個々のユーザーのFacebookの「いいね」のレコードのリストを検索します。これは、1つのコアでのみ実行され、残りは数十個のコアで同時に実行されるため、モデリングやスコアリングの部分よりも、プログラムの最も時間のかかる部分です。 私は手動でデータフレームをチャンクに分割し、操作を並行して実行できることを知っていますが、それを自動的に行う簡単な方法はありますか?言い換えれば、簡単に委任された操作を実行していることを認識し、それを自動的に配布するパッケージがありますか?おそらくそれはあまりにも多くを求めていますが、私は過去にPythonですでに利用可能なものに十分驚いていましたので、尋ねる価値があると思います。 これがどのように達成されるかについてのその他の提案(魔法のユニコーンパッケージによってでなくても!)も歓迎します。主に、ソリューションのコーディングに同量の時間を費やすことなく、実行ごとに15〜20分間削る方法を見つけようとしています。

3
職場での期待をどのように管理していますか?
データサイエンス、機械学習、およびすべてのサクセスストーリーに関連するすべての問題により、データサイエンティストとその予測モデルからの正当化された期待と過剰な期待の両方があります。 統計学者、機械学習の専門家、データサイエンティストの実践に対する私の質問は、特にモデルの予測精度に関して、社内のビジネスマンからの期待をどのように管理していますか?簡単に言えば、最高のモデルが90%の精度しか達成できず、上級管理職が99%以上を期待している場合、このような状況をどのように処理しますか?

1
リレーショナルデータベースのパフォーマンスが、非リレーショナルデータベースよりも優れている場合
MySQLのようなリレーショナルデータベースが、MongoDBのような非リレーショナルデータベースよりもパフォーマンスが優れている場合 先日、Quoraで、QuoraがまだMySQLをバックエンドとして使用している理由と、パフォーマンスが依然として良好であるという質問を見ました。

3
サンプルサイズが異なるさまざまな分類器のパフォーマンスの測定
現在、テキストから抽出されたさまざまなエンティティでいくつかの異なる分類子を使用しており、特定のデータセット全体でそれぞれの分類子がどれだけうまく機能しているかの要約として精度/リコールを使用しています。 これらの分類器のパフォーマンスを同様の方法で比較する有意義な方法があるかどうか疑問に思っていますが、分類されているテストデータの各エンティティの総数も考慮しますか? 現在、パフォーマンスの尺度として精度/リコールを使用しているため、次のようなものがあります。 Precision Recall Person classifier 65% 40% Company classifier 98% 90% Cheese classifier 10% 50% Egg classifier 100% 100% ただし、これらを実行しているデータセットには、10万人、5万社、500チーズ、1卵が含まれている可能性があります。 では、上記の表に追加できる要約統計量はありますが、これは各アイテムの合計数も考慮に入れていますか?または、たとえば、卵分類器の100%prec / recが1つのデータ項目だけでは意味がないかもしれないという事実を測定する方法はありますか? このような分類子が何百もあったとしましょう。「どの分類子がパフォーマンスが低いのか、どの分類子がパフォーマンスが低いかどうかを判断するのに十分なテストデータがない」などの質問に答える良い方法を探していると思います。

4
パフォーマンス測定:なぜリコールと呼ばれるのですか?
精度は、関連する検索されたインスタンスの割合ですが、再現率(感度とも呼ばれます)は、検索された関連するインスタンスの割合です。 私はそれらの意味を知っていますが、なぜそれがリコールと呼ばれるのか分かりませんか?私は英語のネイティブスピーカーではありません。思い出すということは覚えているということを知っているのですが、この意味とこの概念との関連性がわかりません!カバーされたインスタンスの数を示しているため、カバレッジの方が良かったのかもしれません。 しかも感度も鈍感! これらの単語をコンセプトに関連付けて、意味を理解するのを手伝っていただけませんか。

3
科学計算に最適な言語[終了]
閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5年前に閉鎖されました。 ほとんどの言語では、いくつかの科学計算ライブラリが利用できるようです。 Pythonは Scipy Rust 持っている SciRust C++持っているなど、いくつかのViennaCLとArmadillo Java持っているJava NumericsとColtだけでなく、他のいくつかの 以下のような言語は言うまでもありませんRし、Julia科学技術計算のために明示的に設計されています。 非常に多くのオプションを使用して、タスクに最適な言語をどのように選択しますか?さらに、どの言語が最もパフォーマンスが高くなりますか?PythonそしてR宇宙の中で最も牽引力を持っているように見えるが、それは、より良い選択となるように、論理的にコンパイルされた言語がそうです。そして、これまでに何よりも優れているFortranでしょうか?さらに、コンパイルされた言語はGPUアクセラレーションを備えている傾向がありますが、インタープリター言語はそうではRありPythonません。言語を選択するときは何を考慮すればよいですか。また、ユーティリティとパフォーマンスのバランスが最も良い言語はどれですか。また、私が見逃した重要な科学計算リソースを持つ言語はありますか?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

4
特徴選択方法のパフォーマンスを比較する方法は?
いくつかの特徴選択 /変数選択アプローチがあります(たとえば、Guyon&Elisseeff、2003 ; Liu et al。、2010を参照): フィルター方法(例:相関ベース、エントロピーベース、ランダムフォレスト重要度ベース)、 ラッパーメソッド(たとえば、前方検索、山登り検索)、および 特徴選択がモデル学習の一部である埋め込みメソッド。 公開されているアルゴリズムの多くは、R、Pythonなどの機械学習ツールにも実装されています。 異なる特徴選択アルゴリズムを比較し、特定の問題/データセットに最適な方法を選択するための適切な方法は何ですか?さらなる質問は、特徴選択アルゴリズムのパフォーマンスを測定する既知のメトリックがあるかどうかです。

4
ライブラリの使用中に効率を上げることが難しいのはなぜですか?
小さなデータベース処理は、Python / Perl / ...スクリプトで簡単に取り組むことができます。このスクリプトは、言語自体のライブラリやユーティリティを使用します。ただし、パフォーマンスに関しては、C / C ++ /低水準言語に手を伸ばす傾向があります。コードをニーズに合わせて調整できる可能性が、これらの言語をBigDataにとって非常に魅力的なものにしているようです-メモリ管理、並列処理、ディスクアクセス、さらには低レベルの最適化(C / C ++レベルのアセンブリ構造による)までも。 もちろん、そのような一連の利点はコストなしでは得られません。コードを書くこと、そして時にはホイールを再発明することさえも、非常に高価で面倒なことです。利用できるライブラリはたくさんありますが、パフォーマンスを付与する必要があるときはいつでも、自分でコードを書く傾向があります。大規模なデータベースの処理中にライブラリを使用してパフォーマンスアサーションを無効にするものは何ですか? たとえば、Webページを継続的にクロールし、収集されたデータを解析する起業家について考えてみましょう。スライディングウィンドウごとに、抽出されたデータに対して異なるデータマイニングアルゴリズムが実行されます。開発者は、利用可能なライブラリ/フレームワーク(クロール、テキスト処理、データマイニングなど)を使用しないのはなぜですか?すでに実装されているものを使用すると、プロセス全体のコーディングの負担が軽減されるだけでなく、時間を大幅に節約できます。 シングルショットで: 自分でコードを書くことがパフォーマンスの保証になるのは何ですか? 高いパフォーマンスを保証する必要があるときに、フレームワーク/ライブラリに依存することが危険なのはなぜですか?

3
Pandasデータフレームのフィルタリング速度を改善する
19列と約25万行のデータセットがあります。私はより大きなデータセットを扱ってきましたが、今度はパンダスが私の神経で遊ぶことにしました。 いくつかの単純なルールに基づいて、元のデータセットを3つのサブデータフレームに分割しようとしました。ただし、コードの実行には時間がかかります。フィルタリングのためだけに約15〜20秒。 コードのパフォーマンスを向上させる代替方法はありますか? import pandas as pd #read dataset df = pd.read_csv('myData.csv') #create a dataframe with col1 10 and col2 <= 15 df1 = df[(df.col1 == 10) & (df.col2 <= 15)] df = df[~df.isin(df1)].dropna() #create a dataframe with col3 7 and col4 >= 4 df2 = df[(df.col3 == 7) & …

1
SMOTE手法を使用してデータセットのバランスをとるのに使用される最良のパフォーマンスメトリックは何ですか
スモートテクニックを使用してデータセットをオーバーサンプリングし、バランスのとれたデータセットを手に入れました。私が直面した問題は、パフォーマンスメトリックです。精度、再現率、f1メジャー、不均衡データセットの精度は、均衡データセットよりも優れています。 データセットのバランスがモデルのパフォーマンスを向上させる可能性があることを示すために、どの測定を使用できますか? 注意:roc_auc_scoreは、データセットが不均衡なroc_auc_scoreよりも、バランスのとれたデータセットで優れています。これは、優れたパフォーマンス測定と見なすことができますか?説明の後、コードを実装し、この結果を得ました import pandas as pd import numpy as np from sklearn import preprocessing import matplotlib.pyplot as plt plt.rc("font", size=14) from sklearn.svm import LinearSVC from sklearn.svm import SVC from sklearn.cross_validation import train_test_split,StratifiedShuffleSplit,cross_val_score import seaborn as sns from scipy import interp from time import * from sklearn import metrics X=dataCAD.iloc[:,0:71] …

1
トレーニングRNNがGPUを100%使用しないのはなぜですか?
RNNのトレーニングが通常、GPUの100%を使用しないのはなぜですか。 たとえば、Ubuntu 14.04.4 LTS x64上のMaxwell Titan XでこのRNNベンチマークを実行すると、GPU使用率は90%未満になります。 ベンチマークは次のコマンドを使用して起動されました: python rnn.py -n 'fastlstm' -l 1024 -s 30 -b 128 ボトルネックを診断するにはどうすればよいですか?

3
異なるインフラストラクチャで実行された実験を比較する方法
私は分散アルゴリズムを開発しています。効率を改善するには、ディスクの数(マシンごとに1つ)と効率的なロードバランス戦略の両方に依存しています。ディスク数が増えると、I / Oに費やす時間を削減できます。また、効率的なロードバランスポリシーにより、データレプリケーションのオーバーヘッドをあまりかけずにタスクを分散できます。 同じ問題を扱った文献に関する多くの研究があり、それらのそれぞれが彼らの提案を評価するために異なる実験を実行しています。いくつかの実験は提示された戦略に固有のものであり、弱いスケーリング(スケーラビリティ)や強いスケーリング(スピードアップ)などの他の実験はすべての作業に共通しています。 問題は、通常、実験が完全に異なるインフラストラクチャ(ディスク、プロセッサ、マシン、ネットワーク)で実行され、評価対象によっては、偽/不公平な比較が発生する可能性があることです。たとえば、Infiniband接続の10台のマシンで実行しているアプリケーションで速度が100%向上する可能性がありますが、接続がイーサネットの場合、同じまたはさらに悪い結果が得られる可能性があります。 では、さまざまな実験を正直に比較して、効率の向上を指摘するにはどうすればよいでしょうか。

2
結果に自信を抱くものは何ですか?上司の読み書きができない技術者に自分の作品を提示できるのはどの時点だと思いますか?
モデルが得られるデータと同じくらい優れていることを理解しています。設計が悪いと、本当に悪いデータが生成される可能性があります。非ランダムサンプリング、不均衡/不完全な設計、交絡は、データ分析を非常に困難にする可能性があります。 彼らが有用なモデルを実行したと確信できるのはどの時点ですか?トレーニング/テストデータセットで相互検証を行い、それを1日と呼びますか?明らかに「すべてのモデルが間違っている、いくつかは有用である」が、ある時点で、LASSOingによる過度のパラメーターの除外と、BICを下げることによる奇妙な変換とのトレードオフが明らかになります。 一日の終わりにtl; drを実行すると、「会社/プロジェクトに正しいことをしたので、これでうまくいく」
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.