タグ付けされた質問 「bigdata」

ビッグデータは、手持ちのデータベース管理ツールや従来のデータ処理アプリケーションを使用して処理することが困難になるほど大きく複雑なデータセットの集まりを表す用語です。課題には、キャプチャ、キュレーション、ストレージ、検索、共有、転送、分析、視覚化が含まれます。

3
定期的に増加する機能セットの処理
私は詐欺検出システムに取り組んでいます。この分野では、新しい詐欺が定期的に発生するため、新しい機能をモデルに継続的に追加する必要があります。 (開発プロセスの観点から)それを処理する最良の方法は何ですか?新しい特徴を特徴ベクトルに追加して分類器を再トレーニングするだけでは、古い特徴の再学習に時間がかかりすぎるため、単純なアプローチのように見えます。 私は、各機能(またはいくつかの関連機能)の分類子をトレーニングし、それらの分類子の結果を全体的な分類子と組み合わせる方法について考えています。このアプローチの欠点はありますか?分類子全体のアルゴリズムを選択するにはどうすればよいですか?

4
ライブラリの使用中に効率を上げることが難しいのはなぜですか?
小さなデータベース処理は、Python / Perl / ...スクリプトで簡単に取り組むことができます。このスクリプトは、言語自体のライブラリやユーティリティを使用します。ただし、パフォーマンスに関しては、C / C ++ /低水準言語に手を伸ばす傾向があります。コードをニーズに合わせて調整できる可能性が、これらの言語をBigDataにとって非常に魅力的なものにしているようです-メモリ管理、並列処理、ディスクアクセス、さらには低レベルの最適化(C / C ++レベルのアセンブリ構造による)までも。 もちろん、そのような一連の利点はコストなしでは得られません。コードを書くこと、そして時にはホイールを再発明することさえも、非常に高価で面倒なことです。利用できるライブラリはたくさんありますが、パフォーマンスを付与する必要があるときはいつでも、自分でコードを書く傾向があります。大規模なデータベースの処理中にライブラリを使用してパフォーマンスアサーションを無効にするものは何ですか? たとえば、Webページを継続的にクロールし、収集されたデータを解析する起業家について考えてみましょう。スライディングウィンドウごとに、抽出されたデータに対して異なるデータマイニングアルゴリズムが実行されます。開発者は、利用可能なライブラリ/フレームワーク(クロール、テキスト処理、データマイニングなど)を使用しないのはなぜですか?すでに実装されているものを使用すると、プロセス全体のコーディングの負担が軽減されるだけでなく、時間を大幅に節約できます。 シングルショットで: 自分でコードを書くことがパフォーマンスの保証になるのは何ですか? 高いパフォーマンスを保証する必要があるときに、フレームワーク/ライブラリに依存することが危険なのはなぜですか?

1
異なるPythonカーネル間でDataFrameをリロードしないでください
変数(大きなテーブル/データフレーム)をメモリに保持し、複数のipythonノートブックで共有する方法はありますか? 私はMATLABの永続変数に概念的に似ている何かを探しています。そこで、複数の個別のエディター(ノートブック)からカスタム関数/ライブラリーを呼び出し、その外部関数に結果(または大きなテーブル)をキャッシュさせることができます。 頻繁に使用するテーブル(ノートブックから呼び出されるカスタムライブラリを介して読み込まれる)の再読み込みは避けたいと思います。これは、新しい分析を開始するたびに約2〜3分かかるためです。

3

2
線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。 私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression?上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか?決定を下すためにデータセットを調べる必要がある特性は何ですか?そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression?
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 

2
スマートフォンのデータセット問題を使用した人間活動認識
私はこのコミュニティに不慣れです。うまくいけば、私の質問がここに収まるでしょう。学部のデータ分析コースの一環として、スマートフォンのデータセットを使用して、人間の行動認識に関するプロジェクトを行うことにしました。私に関する限り、このトピックは機械学習とサポートベクターマシンに関連しています。私はまだこの技術に詳しくないので、助けが必要です。 私はこのプロジェクトのアイデアに従うことにしましたhttp://www.inf.ed.ac.uk/teaching/courses/dme/2014/datasets.htmlプロジェクトの目標は、人間とは何か活動を決定です(一番上の最初のプロジェクトを)スマートフォン(Samsung Galaxy S II)が被験者の腰に記録したデータから(例:WALKING、WALKING_UPSTAIRS、WALKING_DOWNSTAIRS、SITTING、STANDING、LAYING)内蔵の加速度計とジャイロスコープを使用して、データには3軸の線形加速度と50Hzの一定速度での3軸の角速度が含まれます。 すべてのデータセットは、いくつかの説明と機能ラベルが付いた1つのフォルダーに含まれています。データは「テスト」ファイルと「トレーニング」ファイルに分割され、データは次の形式で表されます。 2.5717778e-001 -2.3285230e-002 -1.4653762e-002 -9.3840400e-001 -9.2009078e-001 -6.6768331e-001 -9.5250112e-001 -9.2524867e-001 -6.7430222e-001 -8.9408755e-001 -5.5457721e-001 -4.6622295e-001 7.1720847e-001 6.3550240e-001 7.8949666e-001 -8.7776423e-001 -9.9776606e-001 -9.9841381e-001 -9.3434525e-001 -9.7566897e-001 -9.4982365e-001 -8.3047780e-001 -1.6808416e-001 -3.7899553e-001 2.4621698e-001 5.2120364e-001 -4.8779311e-001 4.8228047e-001 -4.5462113e-002 2.1195505e-001 -1.3489443e-001 1.3085848e-001 -1.4176313e-002 -1.0597085e-001 7.3544013e-002 -1.7151642e-001 4.0062978e-002 7.6988933e-002 -4.9054573e-001 -7.0900265e-001 そして、それはファイルに含まれる内容のごく一部にすぎません。 このデータが何を表し、どのように解釈できるのか、私にはよくわかりません。また、データの分析、分類、およびクラスタリングには、どのツールを使用する必要がありますか?このデータをラベルを含めてExcelに入れて、たとえばRまたはPythonを使用してサンプルデータを抽出し、これに取り組む方法はありますか? ヒント/ヒントをいただければ幸いです。

1
パンダのinterpolate()とfillna()の違い
Interpolateとfillnaメソッドはna値を埋めるのと同じ働きをするので。この2つの基本的な違いは何ですか。これらの2つの異なる方法を持つことの重要性は何ですか?誰でも簡単な言葉で私を説明できますか?私はすでに公式ドキュメントを訪問し、違いを知りたいと思っていました

2
ビッグデータセットの機械学習のベストプラクティス
私はマスターを卒業しようとしており、機械学習について学び、それを使って研究プロジェクトを実行していました。ビッグデータセット(100 GBまたはTBなど)で機械学習タスクを実行するときの業界のベストプラクティスについて知りたいです。仲間のデータサイエンティストが彼らの経験を共有できるかどうか感謝します。ここに私の質問があります: 明らかに、非常に大きなデータセットはトレーニングに長い時間がかかります(数日または数週間になる場合があります)。多くの場合、さまざまなモデル(SVM、ニューラルネットワークなど)をトレーニングして、より良いパフォーマンスモデルを比較して見つける必要があります。業界のプロジェクトでは、できるだけ早く結果を出したいのですが、最高のパフォーマンスが得られると思います。トレーニングとテストの時間を短縮するためのヒントはありますか?データセットをサブセット化することをお勧めする場合は、データセットをサブセット化して、データセットのシナリオのすべてまたは大部分をカバーするのに最適な方法を知りたいと思います。 交差適合を実行すると、過剰適合が減少する可能性があるため、より良いことはわかっています。ただし、相互検証はトレーニングにも時間がかかり、相互検証でトレーニングされたモデルは直接実装されない可能性があります(Python sklearnエクスペリエンスから言えば、実装するクロス検証テストの後に、モデルをデータセットで再度トレーニングする必要があります)。通常、ビッグデータプロジェクトで相互検証を行っていますか、それともトレーニングテストの分割で問題を解決していますか? フィードバックに感謝します。

1
「ビジネスインテリジェンス」における「インテリジェンス」の本来の意味
「インテリジェンス」という用語は、もともと「ビジネスインテリジェンス」で何を表していますか。「人工知能」や「諜報機関」で使われている意味ですか? 言い換えれば、「ビジネスインテリジェンス」とは、「ビジネスにおいて賢くインテリジェントに行動する」または「ビジネスに関するデータと情報を収集する」という意味ですか。 この質問は、データサイエンスチームの一部のフェローの間での議論のテーマだったので、他の専門家から質問したいと思いました。両方の意味が当てはまると言うかもしれませんが、1980年代に提案された単語の本来の意図された意味を求めています。 受け入れられる答えは間違いなく元の参照を引用するはずであり、個人的な意見は私が求めているものではありません。

1
Apache Stormのカスケードエラー
TwitterによるSummingbirdのプレゼンテーションと資料を見てみると、SummingbirdでStormとHadoopのクラスターを一緒に使用する理由の1つは、Stormを介して処理するとエラーが連鎖的に発生することです。このエラーのカスケードとその累積を回避するために、Hadoopクラスターを使用してデータをバッチ処理し、同じデータがHadoopによって処理された後にStormの結果を破棄します。 このエラーの蓄積が発生する理由は何ですか?そして、なぜそれがHadoopに存在しないのですか?私はストームで働いたことがないので、その理由はわかりません。それは、Stormがリアルタイムでデータを処理するために、データを処理するために何らかの近似アルゴリズムを使用しているためですか?または原因は何か他にありますか?

2
取得したデータからのスパムのフィルタリング
データセット内のエントリを検索する一部のユーザーがブロックされたソースから特定の情報を探している可能性があるため、ブラックリストを使用してスパムをフィルタリングすることは良いアプローチではないと聞いたことがあります。また、ブロックされた各スパマーの現在の状態を継続的に検証し、サイト/ドメインが依然としてスパムデータを広めているかどうかを確認することは負担になります。 非常に大規模なデータセットでのフィルタリングをサポートするために、あらゆるアプローチが効率的でスケーラブルでなければならないことを考えると、偏見のない方法でスパムを取り除くために利用できる戦略は何ですか? 編集:可能であれば、戦略の例は、その背後にある直感だけでも、答えとともに大歓迎です。

3
異なるインフラストラクチャで実行された実験を比較する方法
私は分散アルゴリズムを開発しています。効率を改善するには、ディスクの数(マシンごとに1つ)と効率的なロードバランス戦略の両方に依存しています。ディスク数が増えると、I / Oに費やす時間を削減できます。また、効率的なロードバランスポリシーにより、データレプリケーションのオーバーヘッドをあまりかけずにタスクを分散できます。 同じ問題を扱った文献に関する多くの研究があり、それらのそれぞれが彼らの提案を評価するために異なる実験を実行しています。いくつかの実験は提示された戦略に固有のものであり、弱いスケーリング(スケーラビリティ)や強いスケーリング(スピードアップ)などの他の実験はすべての作業に共通しています。 問題は、通常、実験が完全に異なるインフラストラクチャ(ディスク、プロセッサ、マシン、ネットワーク)で実行され、評価対象によっては、偽/不公平な比較が発生する可能性があることです。たとえば、Infiniband接続の10台のマシンで実行しているアプリケーションで速度が100%向上する可能性がありますが、接続がイーサネットの場合、同じまたはさらに悪い結果が得られる可能性があります。 では、さまざまな実験を正直に比較して、効率の向上を指摘するにはどうすればよいでしょうか。

1
データセット全体で構築できない場合、データセットの「チャンク」で線形モデルを構築できますか?
データセット全体でモデルを構築できない場合、データセットの「チャンク」で線形モデルを構築できますか? 特に、私はまだ88kを超える変数(機能)を残しており、大量のメモリがなければ、それらを使って多くを行うことはできません。しかし、「ブロック」でモデルを実行すると、ブロック間で発生する相互作用が失われますか、またはこれらを「集約」するためのテクニックはありますか?

2
分散PCAの仕組みを理解する
ビッグデータ分析プロジェクトの一環として、 クラウドコンピューティングシステムを使用して、一部のデータに対してPCAを実行する必要があります。 私の場合、私は仕事、特にSparkにAmazon EMRを使用しています。 「How to-Perform-PCA-in-Spark」の質問はさておき、クラウドベースのアーキテクチャでPCを計算する場合、舞台裏で物事がどのように機能するかを理解したいと思います。 たとえば、データのPCを決定する手段の1つは、特徴の共分散行列を計算することです。 たとえば、HDFSベースのアーキテクチャを使用している場合、元のデータは複数のノードに分散されており、各ノードがXレコードを受信して​​いると思います。 次に、各ノードに部分的なデータしかない場合、共分散行列はどのように計算されますか? これは単なる例です。私は、このすべての舞台裏のブードゥー教を説明する紙やドキュメントを探していますが、自分のニーズ(おそらく、Googleのスキルが低い)に対して十分なものを見つけることができませんでした。 だから私は基本的に私の質問を要約することができます\は以下でなければなりません: 1.クラウドアーキテクチャ上の分散型PCAの仕組み できれば、いくつかの学術論文またはその他の種類の説明も含みます。 2. D-PCAのSpark実装 Sparkはそれをどのように行うのですか?彼らはそれをより効率的にするために彼らのアーキテクチャに「ひねり」を持っていますか、またはRDDオブジェクトの使用はどのように効率の改善に貢献していますか?等 それに関するオンラインレッスンのプレゼンテーションも素晴らしいでしょう。 いくつかの読書資料を提供できる人には、事前に感謝します。

2
Lambdaアーキテクチャ-マージレイヤー/クエリレイヤーの実装方法
ラムダアーキテクチャについて読んでいます。 それは理にかなっている。キューベースのデータ取り込みがあります。非常に新しいデータ用のメモリ内ストアがあり、古いデータ用のHDFSがあります。 これでデータセット全体ができました。私たちのシステムで。とても良い。 ただし、アーキテクチャ図は、マージレイヤーがバッチレイヤーとスピードレイヤーの両方を一度にクエリできることを示しています。 どうやってするか? バッチレイヤーは、おそらくマップ削減ジョブまたはHIVEクエリです。スピードレイヤークエリは、おそらくスパーク上で実行されるscalaプログラムです。 これらをどのようにマージしますか? 何かアドバイスはありますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.