タグ付けされた質問 「data-mining」

大きく複雑なデータセットのパターンを探すアクティビティ。通常はアルゴリズムの手法を強調しますが、その目的に関連するスキル、アプリケーション、または方法論のセットも含まれる場合があります。

2
テキスト検索エンジンを構築するには?
HTML文字列があり、その文字列に関連する単語が含まれているかどうかを確認したいと考えています。 関連性は、テキストの頻度に基づいて測定できます。 私の問題を説明する例: this is an awesome bike store bikes can be purchased online. the bikes we own rock. check out our bike store now 次に、他のいくつかの単語をテストします。 bike repairs dog poo bike repairs関連としてマークするdog poo必要がありますが、関連としてマークしないでください。 質問: これはどのように行うことができますか? inまたはなどのあいまいな単語を除外する方法or あなたのアイデアをありがとう! 私はそれがどんなキーワードがウェブサイトに関連しているのかを理解するためにグーグルがすることだと思います。私は基本的に彼らのページ上のランキングを再現しようとしています。

1
指定された変数に直交する(相関しない)予測を生成する
私が持っているXマトリックス、y変数、および他の変数をORTHO_VAR。私はをy使用して変数を予測する必要がありますXが、そのモデルからの予測は、可能な限りORTHO_VAR相関する一方で、直交する必要がありますy。 私は予測がノンパラメトリックな方法で生成されることを望みxgboost.XGBRegressorますが、どうしても必要な場合は線形法を使用できます。 このコード: import numpy as np import pandas as pd from sklearn.datasets import make_regression from xgboost import XGBRegressor ORTHO_VAR = 'ortho_var' TARGET = 'target' PRED = 'yhat' # Create regression dataset with two correlated targets X, y = make_regression(n_features=20, random_state=245, n_targets=2) indep_vars = ['var{}'.format(i) for i in range(X.shape[1])] # …
8 correlation  machine-learning  dataset  logistic-regression  prediction  linear-regression  prediction  dummy-variables  neural-network  image-classification  python  k-nn  python  neural-network  neural-network  deep-learning  keras  tensorflow  image-classification  tensorflow  reinforcement-learning  policy-gradients  machine-learning  decision-trees  neural-network  overfitting  data-analysis  metric  python  scikit-learn  distance  scipy  machine-learning  python  scikit-learn  decision-trees  logistic-regression  keras  image-classification  implementation  machine-learning  python  scikit-learn  random-forest  decision-trees  machine-learning  feature-selection  feature-engineering  word2vec  word-embeddings  natural-language-process  scikit-learn  time-series  clustering  k-means  python  cross-validation  pyspark  statistics  cross-validation  multiclass-classification  evaluation  machine-learning  nlp  machine-translation  neural-network  deep-learning  keras  tensorflow  image-classification  machine-learning  python  similarity  distance  lstm  text  named-entity-recognition  machine-learning  keras  optimization  gan  learning-rate  neural-network  data-mining  dataset  databases  books  neural-network  rnn 

3
データマイニングと機械学習プロセスを接続する方法
スクレイピングやAPIを介してデータを収集するデータマイニングサービスをGoogle Goで作成したいと考えています。 ただし、Goには優れたMLサポートがないため、PythonでMLを実行したいと考えています。 Webの背景があるので、両方のサービスをRPCのようなものに接続しますが、これはデータサイエンスの一般的な問題であると思うので、もっと良い解決策があると思います。 たとえば、ほとんどの(Web)プロトコルには以下がありません。 プロセス間のバッファリング 複数インスタンスでのクラスタリング では、データサイエンティストはさまざまな言語/プロセスを接続するために何(ライブラリの種類)を使用するのでしょうか。 ボードー

2
分散PCAの仕組みを理解する
ビッグデータ分析プロジェクトの一環として、 クラウドコンピューティングシステムを使用して、一部のデータに対してPCAを実行する必要があります。 私の場合、私は仕事、特にSparkにAmazon EMRを使用しています。 「How to-Perform-PCA-in-Spark」の質問はさておき、クラウドベースのアーキテクチャでPCを計算する場合、舞台裏で物事がどのように機能するかを理解したいと思います。 たとえば、データのPCを決定する手段の1つは、特徴の共分散行列を計算することです。 たとえば、HDFSベースのアーキテクチャを使用している場合、元のデータは複数のノードに分散されており、各ノードがXレコードを受信して​​いると思います。 次に、各ノードに部分的なデータしかない場合、共分散行列はどのように計算されますか? これは単なる例です。私は、このすべての舞台裏のブードゥー教を説明する紙やドキュメントを探していますが、自分のニーズ(おそらく、Googleのスキルが低い)に対して十分なものを見つけることができませんでした。 だから私は基本的に私の質問を要約することができます\は以下でなければなりません: 1.クラウドアーキテクチャ上の分散型PCAの仕組み できれば、いくつかの学術論文またはその他の種類の説明も含みます。 2. D-PCAのSpark実装 Sparkはそれをどのように行うのですか?彼らはそれをより効率的にするために彼らのアーキテクチャに「ひねり」を持っていますか、またはRDDオブジェクトの使用はどのように効率の改善に貢献していますか?等 それに関するオンラインレッスンのプレゼンテーションも素晴らしいでしょう。 いくつかの読書資料を提供できる人には、事前に感謝します。


3
多数の値に対する1つのホットエンコーディング
カテゴリ変数が取り得る値の数が多い場合、1つのホットエンコーディングをどのように使用しますか? 私の場合は56の値です。そのため、通常の方法のように、トレーニングデータセットに56列(56バイナリフィーチャ)を追加する必要があります。これにより、複雑さが大幅に増加し、トレーニング時間が増加します。 それでは、このような場合にどのように対処しますか?

1
SQL Server Analysis ServicesとRの違いは何ですか?
これは、意見が多すぎて幅広い質問かもしれませんが、SQL Server Analysis Serviceデータマイニングプロジェクトを使用したさまざまなアルゴリズムの実行とRの使用についての情報を探すのは本当に難しいと感じています。 SSASについては誰も使用していないようなので、SSASについては何も考えていません。:) データベースガイ 始める前に、はっきりさせておきます。私はデータベース担当者であり、データサイエンティストではありません。私は主にRを使用するデータサイエンティストである人々と協力しています。私は、これらの人たちがデータを分析および処理できる大きなデータセットを作成するのを支援します。 ここでの私の目的は、SQL Serverに付属しているツールを活用することです。R、SAS、SSPSなどの他のメソッドやツールと比較して、だれもそれがどのように機能するかについての手がかりがないためです。キャンプ。 SSAS OLAPキューブの作成以外にSQL Server Analysis Services(SSAS)を実際に使用したことはありません。SSASを知っている人は、キューブでデータマイニングタスクを実行したり、SQL Serverのデータで直接実行したりすることもできます。 SSASデータマイニングには、さまざまなアルゴリズムタイプが用意されています。 分類アルゴリズムは、データセット内の他の属性に基づいて、1つ以上の離散変数を予測します。 回帰アルゴリズムは、データセット内の他の属性に基づいて、利益や損失などの1つ以上の連続変数を予測します。 セグメンテーションアルゴリズムは、類似したプロパティを持つアイテムのグループまたはクラスターにデータを分割します。 アソシエーションアルゴリズムは、データセット内の異なる属性間の相関関係を見つけます。この種のアルゴリズムの最も一般的なアプリケーションは、マーケットバスケット分析で使用できる相関ルールの作成です。 シーケンス分析アルゴリズムは、Webパスフローなど、データ内の頻繁なシーケンスまたはエピソードを要約します。 離散列の予測 これらのさまざまなアルゴリズムオプションを使用して、データから一般的な予測を始めることができます。たとえば、入力列Ageに対して、予測可能な列Bike Buyersに基づいて自転車を購入する人を簡単に見つけるなどです。ヒストグラムは、人の年齢がその人が自転車を購入するかどうかを区別するのに役立つことを示しています。 連続列の予測 Microsoftディシジョンツリーアルゴリズムが連続した予測可能な列に基づいてツリーを構築すると、各ノードには回帰式が含まれます。分割は、回帰式の非線形点で発生します。たとえば、次の図について考えます。 比較 その一部については、データに対してさまざまなアルゴリズムを実行でき、SSASでデータに対して実行するさまざまな機能を利用できるように思えます。また、Visual Studioで独自のアルゴリズムを開発し、SSASに展開できるようです(間違いではない場合)。 では、Rの言語とツールに関して、ここで何が欠けているのでしょうか。SSASなどよりも複雑なアルゴリズムを展開および編集する柔軟性が高いだけですか?

1
単純ベイズ分類器はトレーニングで欠落データをどのように処理しますか?
Naive Bayesは、トレーニングまたはテスト/分類インスタンスに存在するかどうかに応じて、欠落データを異なる方法で処理します。 インスタンスを分類するとき、欠損値のある属性は確率計算に含まれません(http://www.inf.ed.ac.uk/teaching/courses/iaml/slides/naive-2x2.pdf) トレーニングでは、「[値が不足している]インスタンスは、属性値とクラスの組み合わせの頻度カウントに含まれていません。」(http://www.csee.wvu.edu/~timm/cs591o/old/BasicMethods.html) これは、特定のトレーニングレコードがトレーニングフェーズに含まれていないことを意味しますか?それとも別の意味ですか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.