タグ付けされた質問 「bigdata」

ビッグデータは、手持ちのデータベース管理ツールや従来のデータ処理アプリケーションを使用して処理することが困難になるほど大きく複雑なデータセットの集まりを表す用語です。課題には、キャプチャ、キュレーション、ストレージ、検索、共有、転送、分析、視覚化が含まれます。

12
ビッグデータはどのくらいですか?
多くの人々は、大きなデータセットが計算に関与していることを示す手段として、かなり商業的な方法でビッグデータという用語を使用しているため、潜在的なソリューションには優れたパフォーマンスが必要です。もちろん、ビッグデータには、スケーラビリティや効率などの関連用語が常に含まれていますが、問題をビッグデータの問題として正確に定義しているのは何ですか? 計算は、データマイニング/情報検索などの特定の目的のセットに関連する必要がありますか、またはデータセットが十分に大きい場合、一般的なグラフ問題のアルゴリズムにビッグデータのラベルを付けることができますか?また、どのように大きいです十分な大きさ(これを定義することが可能である場合)?

9
R言語はビッグデータに適していますか
Rには、データ分析(JAGS、BUGS、ARULESなど)を目的とした多くのライブラリがあり、J.Krusche、Doing Bayesian Data Analysisなどの一般的な教科書で言及されています。B.ランツ、「Rによる機械学習」。 データセットをビッグデータと見なすための5TBのガイドラインを見てきました。 私の質問は次のとおりです。Rはビッグデータの問題で一般的に見られるデータ量に適していますか?このサイズのデータ​​セットでRを使用するときに使用する戦略はありますか?
48 bigdata  r 

9
大量の(バイナリ)データのバージョン管理を処理する方法
私は地球物理学の博士課程の学生であり、大量の画像データ(数十GB、数万のファイル)を扱っています。私はプロジェクトの歴史を十分に知ってsvnおりgit、大切にし、簡単に連携し、ディスクの破損から保護する能力を備えています。私は見つけることgitも一貫性のあるバックアップを持つために非常に役立つが、私はそのgitのが効率的に大量のバイナリデータを扱うことができない知っています。 修士課程の研究では、同様のサイズのデータ​​セット(画像も)に取り組み、さまざまなサーバー/デバイスでさまざまなバージョンを追跡するのに多くの問題がありました。ネットワーク上で100GBを差分するのは本当に面白くなく、多くの時間と労力がかかります。 科学の他の人たちも同様の問題を抱えているようですが、良い解決策を見つけることができませんでした。 私は研究所のストレージ設備を使いたいので、「ダム」サーバーを使用できるものが必要です。また、可能な限りネットワーク上で数百GBの転送を避けたいので、ポータブルハードディスクに追加のバックアップを作成したいと思います。したがって、複数のリモートロケーションを処理できるツールが必要です。 最後に、他の研究者が使用できるものが本当に必要なので、それは非常に単純である必要はありませんが、数時間で学習できるはずです。 私は多くの異なるソリューションを評価しましたが、法案に合うものはありません: SVNはやや非効率的であり、スマートサーバーが必要です hg bigfile / largefileは1つのリモートのみを使用できます git bigfile / mediaはリモートを1つしか使用できませんが、あまり効率的でもありません 屋根裏部屋にはログや差分機能がないようです bupは本当に良さそうですが、動作するには「スマート」サーバーが必要です 私は試してみましたがgit-annex、これは私がそれを行うために必要なすべてのことを行います(そしてそれ以上)私はこれを数日間使用しましたが、頭を動かすことができなかったので、他の同僚が興味を持っているとは思いません。 研究者は大規模なデータセットをどのように扱い、他の研究グループは何を使用していますか? 明確にするために、私は主に、この特定のデータセットだけでなく、他の研究者がこの状況にどのように対処するかに興味があります。ほとんどの人がこの問題を抱えているはずですが、それを解決した人は誰も知りません。元のデータのバックアップを保持し、このバージョン管理機能をすべて忘れる必要がありますか?それは他のみんながやっていることですか?

11
C(またはC ++)のデータサイエンス
私はR言語プログラマーです。私は、データサイエンティストと見なされているが、CS以外の学問分野から来た人々のグループにも所属しています。 これは、データサイエンティストとしての私の役割ではうまく機能しますが、R他のスクリプト/ Web言語の基本的な知識しか持たずにキャリアを開始することにより、2つの重要な分野でやや不十分だと感じました。 プログラミング理論の確かな知識の欠如。 競争力のあるような、より速く、より広く使われている言語のスキルのレベルの欠如C、C++およびJavaパイプラインとビッグデータの計算を高速化するだけでなく、より容易に高速に開発することができDS /データ製品を作成するために利用することができ、バックエンドスクリプトまたはスタンドアロンアプリケーション。 解決策はもちろん簡単です。プログラミングについて学びましょう。これは、いくつかのクラス(現在はCプログラミング)に登録することで行っていることです。 しかし、今私はアドレスの問題#1、#2上記に始めていることを、私は「自分自身を求めて左てるだけのような言語どのように生きているCとC++、データ・サイエンスのため?」。 たとえば、データを非常にすばやく移動し、ユーザーとうまくやり取りできますが、高度な回帰、機械学習、テキストマイニング、その他の高度な統計操作についてはどうでしょうか。 そう。C仕事をすることができます-高度な統計、ML、AI、およびデータサイエンスの他の分野で利用できるツールは何ですか?またはC、Rスクリプトや他の言語を呼び出すことでプログラミングすることで得られる効率のほとんどを失う必要がありますか? 私はこれまでCで見つけた最高のリソースが呼び出されるライブラリであるシャーク与え、C/ C++サポートベクターマシン、線形回帰(ない非線形および多項プロビットのような他の先進回帰、など)、およびその他の最終候補リストを使用する能力を(素晴らしいが)統計関数。


5
パンダで分析するために20GBファイルを開く
現在、機械学習の目的でパンダとpythonを使用してファイルを開こうとしていますが、それらをすべてDataFrameに入れることが理想的です。現在、ファイルのサイズは18 GBで、RAMは32 GBですが、メモリエラーが発生し続けます。 あなたの経験からそれは可能ですか?そうでない場合、これを回避するより良い方法を知っていますか?(ハイブテーブル?RAMのサイズを64に増やしますか?データベースを作成し、Pythonからアクセスします)

1
xgboostがsklearn GradientBoostingClassifierよりもずっと速いのはなぜですか?
私は、100個の数値特徴を備えた50kの例で勾配ブースティングモデルをトレーニングしようとしています。XGBClassifier一方、私のマシンで43秒以内に、ハンドル500本の木、GradientBoostingClassifierハンドルのみ10樹木(!)1分2秒:(私は気にしませんでしたでは、それは時間がかかるだろうと500本の木を育てるしようとしている。私は、同じ使用していますlearning_rateし、max_depth設定を、 下記参照。 XGBoostがこれほど速くなったのはなぜですか?sklearnの人が知らない勾配ブースティングのためのいくつかの新しい実装を使用していますか?それとも、「角を切り」、より浅い木を育てるのですか? PS私はこの議論を知っています:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyが、そこに答えを得ることができませんでした... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

6
ビッグデータでSVDとPCAを行う方法は?
大量のデータセット(約8 GB)があります。機械学習を使用して分析したいと思います。したがって、SVDを使用してからPCAを使用して、効率のためにデータの次元を減らす必要があると思います。ただし、MATLABとOctaveはそのような大きなデータセットを読み込むことができません。 このような大量のデータでSVDを実行するために使用できるツールは何ですか?

3
データサイエンスプロジェクトのアイデア[終了]
閉じた。この質問は意見に基づいています。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集して事実と引用で答えられるように質問を更新してください。 5年前に閉鎖されました。 これがこの質問をするのにふさわしい場所であるかどうかはわかりませんが、データサイエンスに専念するコミュニティが私の意見では最も適切な場所であるはずです。 データサイエンスと機械学習を始めたばかりです。私は8か月ほど作業できる長期プロジェクトのアイデアを探しています。 データサイエンスと機械学習の組み合わせは素晴らしいでしょう。 コアの概念を理解し、同時にそれらを実装するのに役立つほど大きなプロジェクトは非常に有益です。

4
膨大なデータのPythonでのt-sne実装の速度を改善する
それぞれ200次元のほぼ100万のベクトルで次元削減を行いたい(doc2vec)。モジュールのTSNE実装を使用していsklearn.manifoldますが、主な問題は時間の複雑さです。でもmethod = barnes_hut、計算速度はまだ遅いです。メモリー不足になることもあります。 130G RAMを搭載した48コアプロセッサで実行しています。並列に実行する方法や、プロセスを高速化するために豊富なリソースを使用する方法はありますか。

2
セマンティック分析のためにビッグデータでliblinearを使用する
Libsvmを使用して、データをトレーニングし、セマンティック分析の問題の分類を予測します。ただし、セマンティック分析はn次元の問題に関係するため、大規模データのパフォーマンスの問題があります。 昨年、Liblinearがリリースされ、パフォーマンスのボトルネックを解決できます。しかし、メモリが多すぎます。あるMapReduceはビッグデータに意味解析の問題を解決する唯一の方法?または、Liblinearでメモリのボトルネックを改善できる他の方法はありますか?


5
シーボーンヒートマップを大きくする
corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

4
インフラストラクチャスタック/ワークフロー/パイプラインの例を探す
hadoop、monogodb / nosql、storm、kafkaなど、実世界のユースケースですべての「ビッグデータ」コンポーネントがどのように連携するかを理解しようとしています。これは、さまざまな種類がありますが、アプリケーション、webapp、オンラインショップの機械学習など、アプリケーションでの相互作用について詳しく知りたいと思います。 ビスタ/セッション、トランザクションデータなどがあり、それを保存します。しかし、その場で推奨事項を作成したい場合は、私が持っているログの大きなデータベースでそのための遅いmap / reduceジョブを実行できません。インフラストラクチャの側面に関する詳細情報はどこで入手できますか?ほとんどのツールを単独で使用できると思いますが、それらを相互に接続することはそれ自体が芸術のようです。 利用可能な公開例/ユースケースなどはありますか?個々のパイプラインはユースケースとユーザーに強く依存していることを理解していますが、おそらく単なる例が私にとって非常に役立つでしょう。

3
p値はいつ欺くのですか?
p値が統計的有意性を判断する最善の方法ではない場合、注意すべきデータ条件は何ですか?このカテゴリに分類される特定の問題タイプはありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.