タグ付けされた質問 「data-mining」

大きく複雑なデータセットのパターンを探すアクティビティ。通常はアルゴリズムの手法を強調しますが、その目的に関連するスキル、アプリケーション、または方法論のセットも含まれる場合があります。

4
データ分析をデバッグする方法は?
私は偵察がかなり典型的であるという次の問題に遭遇しました。 数百万行という大きなデータがあります。たとえば、いくつかのサブクエリで構成されるSQLクエリなど、重要な分析をいくつか実行します。たとえば、プロパティXが時間の経過とともに増加しているという結果が出ました。 これにつながる可能性のある2つの可能性があります。 Xは確かに時間とともに増加しています 分析にバグがあります 2番目ではなく1番目が発生したことをテストするにはどうすればよいですか?中間結果は何百万行にも及ぶ可能性があるため、ステップワイズデバッガーが存在しても、役に立ちません。 私が考え得る唯一のことは、テストしたいプロパティを持つ小さな合成データセットを何らかの方法で生成し、ユニットテストとして分析を実行することでした。これを行うためのツールはありますか?特に、SQLに限定されません。

1
ElasticSearchに保存されている顧客データのクラスタリング
elasticsearchクラスターに多数の顧客プロファイルが保存されています。これらのプロファイルは、電子メールサブスクリプションのターゲットグループの作成に使用されます。 ターゲットグループは現在、elasticsearchファセット検索機能を使用して手動で形成されています(23歳のすべての男性顧客に1台の車と3人の子供を連れて行くなど)。 データサイエンス、機械学習、クラスタリングなどを使用して、興味深いグループを自動的に検索するにはどうすればよいですか? rプログラミング言語はこのタスクに適したツールのようですが、そのようなグループ検索の方法論を形成することはできません。1つの解決策は、何とかして最大の顧客クラスターを見つけてターゲットグループとして使用することです。そのため、問題は次のとおりです。 同様の顧客の最大のクラスターを自動的に選択するにはどうすればよいですか(現時点ではわからないパラメーターで同様)。 例:私のプログラムはelasticsearchに接続し、顧客データをCSVにオフロードし、R言語スクリプトを使用すると、大部分の顧客が子供を持たない男性であり、別の大部分の顧客が車を持ち、目の色が茶色であることがわかります。

3
数学の畳み込みとCNNの関係
畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか?gウェイトをかけるフィルターのような機能ですか?
10 machine-learning  neural-network  deep-learning  cnn  convolution  machine-learning  ensemble-modeling  machine-learning  classification  data-mining  clustering  machine-learning  feature-selection  convnet  pandas  graphs  ipython  machine-learning  apache-spark  multiclass-classification  naive-bayes-classifier  multilabel-classification  machine-learning  data-mining  dataset  data-cleaning  data  machine-learning  data-mining  statistics  correlation  machine-learning  data-mining  dataset  data-cleaning  data  beginner  career  python  r  visualization  machine-learning  data-mining  nlp  stanford-nlp  dataset  linear-regression  time-series  correlation  anomaly-detection  ensemble-modeling  data-mining  machine-learning  python  data-mining  recommender-system  machine-learning  cross-validation  model-selection  scoring  prediction  sequential-pattern-mining  categorical-data  python  tensorflow  image-recognition  statistics  machine-learning  data-mining  predictive-modeling  data-cleaning  preprocessing  classification  deep-learning  tensorflow  machine-learning  algorithms  data  keras  categorical-data  reference-request  loss-function  classification  logistic-regression  apache-spark  prediction  naive-bayes-classifier  beginner  nlp  word2vec  vector-space-models  scikit-learn  decision-trees  data  programming 

3

2
線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。 私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression?上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか?決定を下すためにデータセットを調べる必要がある特性は何ですか?そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression?
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 

3
NASDAQ取引データ
練習する株式データを見つけようとしていますが、これに適したリソースはありますか?私はこれを見つけました:ftp : //emi.nasdaq.com/ITCH/ですが、現在の年しかありません。 私はすでにプロトコルを解析する方法を持っていますが、比較するためにいくつかのデータが欲しいです。価格、取引、日付の統計情報がある限り、同じ形式である必要はありません。

5
ストップワードの良いリストを作成する方法
ストップワードのリストをキュレートする方法に関するヒントを探しています。誰かが前処理とフィルタリングのためにデータセット自体からストップワードリストを抽出するための良い方法を知っている/誰かが推奨できるか? データ: 数年にわたる可変長の膨大な量の人間によるテキスト入力(検索用語と全文(最大200文字))。テキストには大量のスパム(ボットからのマシン入力、単一の単語、愚かな検索、製品の検索など)が含まれており、数%しか役に立たないようです。時々(ごくまれに)人々が本当にかっこいい質問をして私の側を探すことに気づきました。これらの質問はとてもかっこいいので、時間をかけて人々がどのように検索しているか、人々が私のウェブサイトの使用に興味を持っているトピックを確認するために、それらをより深く調べる価値があると思います。 私の問題: 前処理(つまり、スパムのドロップ)に本当に苦労しています。私はすでにウェブからいくつかのストップワードリスト(NLTKなど)を試しましたが、これらはこのデータセットに関する私のニーズに実際には役立ちません。 あなたのアイデアと議論の人々をありがとう!

2
Amazonでのユーザーの購入行動をモデル化する方法は?
データサイエンスの最後のコースプロジェクトでは、次のことを提案しました。 与えるアマゾンのレビューデータセットを、私たちは、Amazonに広告を配置するための戦略的な位置を決定するアルゴリズム(約パーソナライズページランクに基づいてthatsの)を思い付くする予定。たとえば、Amazonには何百万もの商品があります。そして、データセットは、どの製品が関連しているか、どの製品がまとめられ、一緒に表示されたかなどのアイデアを提供します(この情報も表示および購入されたこの情報を使用してグラフを作成できます)。 14年。これらすべての情報を使用して、Amazonで製品を評価/ランク付けします。あなたは、Amazonのベンダーであり、製品ページへのトラフィックを改善したいと考えています。当社のアルゴリズムは、最大のトラフィックを引き出すことができるように広告を配置できるグラフ内の戦略的位置を特定するのに役立ちます。 今、私たちの教授の質問は、実際のユーザーなしでアルゴリズムをどのように検証するのですか?私たちは言った- ユーザーの固定セットをモデル化できます。一部のユーザーは、第1ホップまたは第5ホップよりも頻繁に第3ホップをフォローalso_boughtしてalso_viewedリンクします。そこにユーザーの行動は通常分散されます。他の一部のユーザーは、最初のホップを超えて移動することはほとんどありません。この一連のユーザーの行動は指数関数的に分散されます。 私たちの教授は言った-ユーザーがどのようなディストリビューションをフォローしても、ユーザーは同様の製品のリンクを使用してナビゲートしています。また、ランク付けアルゴリズムは、類似性b / w 2製品を考慮して製品をランク付けします。そのため、この検証アルゴリズムを使用するのはちょっと簡単cheatingです。アルゴリズムに対してより現実的で直交する、他のユーザーの動作が付属しています。 ユーザーの行動をモデル化する方法に関するアイデアはありますか?アルゴについての詳細を提供させていただきます。

1
ILPを使用しないリレーショナルデータマイニング
分類モデルを作成する必要があるリレーショナルデータベースの巨大なデータセットを持っています。通常、この状況では、帰納論理プログラミング(ILP)を使用しますが、特殊な状況により、それはできません。 これに取り組むもう1つの方法は、外国との関係があるときに値を集計しようとすることです。しかし、私はいくつかの名目上の属性について何千もの重要で異なる行を持っています(例:いくつかの異なる薬の処方に関連する患者)。そのため、名目属性の個別の行ごとに新しい属性を作成せずにそれを行うことはできません。さらに、これを行うと、ほとんどの新しい列にNULL値が含まれます。 何千もの新しい列を作成するピボットなどの手法に頼らずにリレーショナルデータベースをデータマイニングできる非ILPアルゴリズムはありますか?

1
信号エンコーディングの学習
マンチェスターでエンコードされたビットストリームをオーディオ信号として表す多数のサンプルがあります。それらがエンコードされる周波数は、それが高い場合の主要な周波数成分であり、バックグラウンドに一定量のホワイトノイズがあります。 これらのストリームを手動でデコードしましたが、なんらかの機械学習手法を使用してエンコードスキームを学習できるかどうか疑問に思っていました。これにより、これらのスキームを手動で認識する時間を大幅に節約できます。難点は、異なる信号は異なる方法でエンコードされることです。 複数のエンコード方式のデコードを学習できるモデルを構築することは可能ですか?そのようなモデルはどの程度堅牢であり、どのような手法を採用したいですか?独立成分分析(ICA)は、気になる周波数を分離するのに役立つようですが、エンコードスキームをどのように学習しますか?

2
スマートフォンのデータセット問題を使用した人間活動認識
私はこのコミュニティに不慣れです。うまくいけば、私の質問がここに収まるでしょう。学部のデータ分析コースの一環として、スマートフォンのデータセットを使用して、人間の行動認識に関するプロジェクトを行うことにしました。私に関する限り、このトピックは機械学習とサポートベクターマシンに関連しています。私はまだこの技術に詳しくないので、助けが必要です。 私はこのプロジェクトのアイデアに従うことにしましたhttp://www.inf.ed.ac.uk/teaching/courses/dme/2014/datasets.htmlプロジェクトの目標は、人間とは何か活動を決定です(一番上の最初のプロジェクトを)スマートフォン(Samsung Galaxy S II)が被験者の腰に記録したデータから(例:WALKING、WALKING_UPSTAIRS、WALKING_DOWNSTAIRS、SITTING、STANDING、LAYING)内蔵の加速度計とジャイロスコープを使用して、データには3軸の線形加速度と50Hzの一定速度での3軸の角速度が含まれます。 すべてのデータセットは、いくつかの説明と機能ラベルが付いた1つのフォルダーに含まれています。データは「テスト」ファイルと「トレーニング」ファイルに分割され、データは次の形式で表されます。 2.5717778e-001 -2.3285230e-002 -1.4653762e-002 -9.3840400e-001 -9.2009078e-001 -6.6768331e-001 -9.5250112e-001 -9.2524867e-001 -6.7430222e-001 -8.9408755e-001 -5.5457721e-001 -4.6622295e-001 7.1720847e-001 6.3550240e-001 7.8949666e-001 -8.7776423e-001 -9.9776606e-001 -9.9841381e-001 -9.3434525e-001 -9.7566897e-001 -9.4982365e-001 -8.3047780e-001 -1.6808416e-001 -3.7899553e-001 2.4621698e-001 5.2120364e-001 -4.8779311e-001 4.8228047e-001 -4.5462113e-002 2.1195505e-001 -1.3489443e-001 1.3085848e-001 -1.4176313e-002 -1.0597085e-001 7.3544013e-002 -1.7151642e-001 4.0062978e-002 7.6988933e-002 -4.9054573e-001 -7.0900265e-001 そして、それはファイルに含まれる内容のごく一部にすぎません。 このデータが何を表し、どのように解釈できるのか、私にはよくわかりません。また、データの分析、分類、およびクラスタリングには、どのツールを使用する必要がありますか?このデータをラベルを含めてExcelに入れて、たとえばRまたはPythonを使用してサンプルデータを抽出し、これに取り組む方法はありますか? ヒント/ヒントをいただければ幸いです。


5
コサイン類似度によるクラスタリング
大きなデータセットとそれらの間のコサイン類似度があります。予想するクラスターの数を事前に指定する必要なく、類似のオブジェクトをまとめるコサイン類似度を使用してそれらをクラスター化したいと思います。 私はDBSCANとAffinity Propagationのsklearnドキュメントを読みました。どちらも距離行列(コサイン類似度行列ではない)を必要とします。 本当に、私はa)距離メトリックとb)事前に指定された数のクラスターを必要としないアルゴリズムを探しています。 誰かがそれを行うアルゴリズムを知っていますか?

2
NLPを使用してユーザーの説明の分類を自動化する
会社が所有する製品に関する顧客からの苦情の巨大なファイルがあり、それらの説明についてデータ分析を行い、それぞれにカテゴリをタグ付けしたいと考えています。 たとえば、顧客の苦情から、製品のソフトウェアおよびハードウェア側の苦情の数を把握する必要があります。現在、私はデータ分析を行うためにExcelを使用しています。これは、苦情にタグ名を取得するためにかなりの量の手動作業を求めています。 このプロセスを自動化するモデルを構築およびトレーニングする方法はNLPにありますか?私は過去2日間、NLPに関するものを読んでいますが、NLPにはこの問題への取り組みを始めるための優れた機能がたくさんあるようです。誰かが、NLPを使用してこの問題に対処する方法を教えてくれませんか?

3
広告配信以外のユーザーデータ収集の用途は何ですか?
これは、この質問に最も適した場所のようです。 すべてのウェブサイトはユーザーのデータを収集しますが、一部は使いやすさとパーソナライズのためですが、ソーシャルネットワークのような大部分は、ウェブ上のすべての動きを追跡し、一部の無料アプリは携帯電話のスキャンテキストメッセージ、通話履歴などを追跡します。 このすべてのデータの吸い上げは、広告主にプロファイルを販売するためだけのものですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.