タグ付けされた質問 「data-mining」

大きく複雑なデータセットのパターンを探すアクティビティ。通常はアルゴリズムの手法を強調しますが、その目的に関連するスキル、アプリケーション、または方法論のセットも含まれる場合があります。


3
不均衡で不均一な負のバックグラウンドを持つ1クラスの差別的分類?
{protein}シーケンスを特定のクラス(ニューロペプチドホルモン前駆体)に属するかどうかに分類するために、既存の教師付き分類子の改善に取り組んでいます。 約1,300万のタンパク質配列のバックグラウンド(「不明/不十分な注釈付きのバックグラウンド」)に対して約1,150の既知の「陽性」、またはさまざまな特性で注釈付けされた約100,000のレビューされた関連タンパク質があります(ただし、 「ネガティブ」な方法)。 私の以前の実装では、これをバイナリ分類問題と見なしていました。ポジティブセット=ニューロペプチドとしてマークされたタンパク質。ネガティブセット:ほぼ同様の長さ方向の分布の残りのタンパク質の中から1,300サンプル(合計)のランダムサンプリング。 それはうまくいきましたが、マシンの識別能力を大幅に改善したいです(現在、ランダムにサンプリングされた複数のネガティブセットで、精度、AUC、F1、CVで測定すると約83〜86%です)。 私の考えは次のとおりでした:1)これをマルチクラスの問題にし、プロパティ/機能クラスによって、(おそらく)ランダムにサンプリングされた別のセットとともに、明確にネガティブになる2-3種類のタンパク質を選択します。(ここでの優先順位は、特性/特徴がポジティブセットに似ているネガティブセットですが、定義する特性があります)。2)1つのクラスの学習-素晴らしいと思いますが、私が理解するように、それは異常検出のためだけのものであり、差別的なアプローチよりもパフォーマンスが劣ります。 *)きれいに聞こえるPU学習について聞いたことがありますが、私はプログラミングN00bであり、そのための既存の実装については知りません。(Python / sci-kitで学習)。 それでは、アプローチ1は理論上のPOVで意味がありますか?複数のネガセットを作成する最良の方法はありますか?(「ネガティブ」タンパク質の大規模な[50K]ピックを使用することもできますが、それらはすべて非常に大きく異なるため、分類器がそれらを1つの大きなアンバランスミックスとしてどれだけうまく処理できるかわかりません。 )。ありがとう!

5
シーボーンヒートマップを大きくする
corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

2
Mahoutのアイテムベースとユーザーベースの推奨の違い
ユーザーベースの推奨事項とアイテムベースの推奨事項がどれだけ正確に異なるかを知りたい。 それを定義します ユーザーベース:同様のユーザーを見つけてアイテムを推奨します。多くの場合、ユーザーの動的な性質のため、これをスケーリングするのは困難です。 アイテムベース:アイテム間の類似性を計算し、推奨事項を作成します。通常、アイテムはあまり変化しないため、多くの場合、オフラインで計算できます。 しかし、2種類の推奨事項がありますが、私が理解しているのは、これらの両方が何らかのデータモデル(たとえば、1,2または1,2、.5としてitem1、item2、valueまたはuser1、user2、valueが値ではない場合)必須)そして、選択した類似度測定値とリコメンダービルトイン関数としてすべての計算を実行し、同じデータに対してユーザー/アイテムベースの推奨の両方を実行できます(これは正しい仮定ですか??)。 したがって、これら2つのタイプのアルゴリズムがどのように正確にどの側面で異なるかを知りたいと思います。


2
属性を使用してユーザープロファイルを分類/クラスター化する
Webサイトから製品を購入するユーザーのデータセットがあります。 私が持っている属性は、ユーザーID、ユーザーの地域(状態)、製品のカテゴリーID、製品のキーワードID、WebサイトのキーワードID、および製品の消費額です。 目標は、製品とWebサイトの情報を使用して、「男性の若いゲーマー」や「家にいる」など、ユーザーが誰であるかを特定することです。 以下のサンプル画像を添付しました。 製品にはすべて1940の一意のカテゴリと13845の一意のキーワードがあります。Webサイトには、13063個の一意のキーワードがあります。それは毎日のログデータなので、データセット全体が巨大です。 これらは監視されていないため、クラスタリングを考えていますが、それらのIDは順序付けられた番号であり、数値の意味はありません。その場合、アルゴリズムの適用方法がわかりません。私も分類を考えています。購入した製品の販売額に基づいてクラスの列を追加した場合。クラスタリングがより好ましいと思います。キーワードidの次元は10000を超える可能性があるため、この場合にどのアルゴリズムを使用する必要があるかわかりません(各製品には多くのキーワードがあるため、Webサイトも同様です)。このプロジェクトにはSparkを使用する必要があります。 誰かがいくつかのアイデアや提案を手伝ってくれますか? どうもありがとうございます!

1
ファジートークンのシーケンス内の文法を認識する
主にアイテムのリストを含むテキストドキュメントがあります。 各アイテムは、異なるタイプの複数のトークンのグループです:FirstName、LastName、BirthDate、PhoneNumber、City、Occupationなど。トークンは単語のグループです。 アイテムは複数の行に配置できます。 ドキュメントのアイテムはほぼ同じトークン構文を持っていますが、必ずしも完全に同じである必要はありません。 それらは、アイテム間だけでなくアイテム間でも、より多く/より少ないトークンである場合があります。 FirstName LastName BirthDate PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber Occupation UnrecognizedToken FirstName LastName PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber City Occupation 目標は、使用されている文法を識別することです。例えば Occupation City 最後に、すべてのアイテムを特定します。完全に一致するとは限りません。 短く読みやすくするために、代わりにいくつかのエイリアスA、B、C、D、...を使用して、これらのトークンタイプを指定しましょう。 例えば A B C D F A B C D …

1
Neo4j対OrientDB対Titan
私は社会関係マイニングに関連するデータサイエンスプロジェクトに取り組んでおり、いくつかのグラフデータベースにデータを保存する必要があります。最初は、データベースとしてNeo4jを選択しました。しかし、Neo4jの継ぎ目はうまく拡張できません。私が見つけた代替手段は、TitanとoriebtDBです。これら3つのデータベースについてこの比較を行ってきましたが、これらのデータベースについてさらに詳しく知りたいと思います。だから、誰かが最高のものを選ぶのに私を助けることができますか?主に、これらのデータベースのパフォーマンス、スケーリング、利用可能なオンラインドキュメント/チュートリアル、Pythonライブラリのサポート、クエリ言語の複雑さ、グラフアルゴリズムのサポートを比較したいと思います。他にも良いデータベースオプションはありますか?

4
ビッグデータのケーススタディまたはユースケースの例
さまざまな業界がビッグデータ分析をどのように使用しているかについて、多くのブログや記事を読みました。しかし、これらの記事のほとんどは言及していません これらの企業が使用したデータ。データのサイズは? データの処理に使用したツールテクノロジーの種類 彼らが直面した問題は何であり、彼らがデータを得た洞察がどのように彼らが問題を解決するのを助けたか。 ニーズに合わせてツールやテクノロジーを選択した方法。 データからどのようなパターンを特定したか、データからどのようなパターンを探していたか。 誰かがこれらすべての質問に答えてくれるのか、少なくともいくつかの質問に答えるリンクを提供してくれるのではないかと思います。実世界の例を探しています。 金融業界がビッグデータ分析をどのように利用しているかを誰かが共有できたら素晴らしいと思います。


4
決定木とKNN
どのケースでデシジョンツリーを使用し、他のケースではKNNを使用した方が良いですか? 特定のケースでそれらの1つを使用する理由 そして、別のケースで他の?(アルゴリズムではなく、その機能を見ることにより) これについての説明や参考文献はありますか?

2
抄録をクロールするためのAPIはありますか?
論文名のリストが非常に長い場合、インターネットまたはデータベースからこれらの論文の要約を取得するにはどうすればよいですか? 紙の名前は「公衆衛生の領域のためのWebマイニングにおけるユーティリティの評価」のようなものです。 誰かが私に解決策を与えることができるAPIを知っていますか?Google学者をクロールしようとしましたが、Googleがクローラーをブロックしました。

2
航空運賃-競争力のある価格設定行動と価格の相関関係を検出するには、どのような分析を使用する必要がありますか?
航空会社の価格設定行動、特に競合他社の価格設定に対する航空会社の反応を調査したいと思います。 より複雑な分析についての私の知識はかなり限られていると言えますが、データの全体的なビューを収集するために、ほとんどすべての基本的な方法を実行しました。これには、類似のパターンを識別するのにすでに役立つ簡単なグラフが含まれます。SAS Enterprise 9.4も使用しています。 しかし、私はより多くの数値ベースのアプローチを探しています。 データセット 私が使用している(自己)収集データセットには、約54.000の運賃が含まれています。すべての運賃は、毎日(毎晩00:00)60日以内に収集されました。 したがって、その時間枠内のすべての運賃は、運賃の利用可能日および運賃の回収日までに通過するフライトの出発日を条件としてnnn回発生します。 (フライトの出発日が過去の場合、フライトの運賃を徴収することはできません) 基本的に次のように見える書式なし:(偽のデータ) +--------------------+-----------+--------------------+--------------------------+---------------+ | requestDate | price| tripStartDeparture | tripDestinationDeparture | flightCarrier | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 725.32 | 16APR2015:10:50:02 | 23APR2015:21:55:04 | XA | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 966.32 | 16APR2015:13:20:02 | 23APR2015:19:00:04 | XY | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 915.32 …

2
頻繁なパターンマイニングでは、FPGrowthはまだ「最先端」と見なされていますか?
私が頻繁にパターンマイニング(FPM)の問題を解決するアルゴリズムの開発を知っている限り、改善の道にはいくつかの主要なチェックポイントがあります。まず、Aprioriアルゴリズムは1993年にAgrawalらによって提案されました。、問題の形式化とともに。アルゴリズムは、ラティスを使用してデータを維持することにより、セット(パワーセット)からいくつかのセットを取り除くことができました2^n - 1。このアプローチの欠点は、拡張された各セットの頻度を計算するためにデータベースを再度読み取る必要があったことです。 その後、1997年にZakiら。はアルゴリズムEclatを提案しました。これは、各セットの結果の周波数をラティス内に挿入しました。これは、ラティスの各ノードで、ルートから参照先ノードへのアイテムを持つトランザクションIDのセットを追加することで行われました。主な貢献は、各セットの頻度を知るためにデータセット全体を再度読み取る必要がないことですが、そのようなデータ構造の構築を維持するために必要なメモリは、データセット自体のサイズを超える可能性があります。 2000年に、ハン等。は、FPTreeという名前のプレフィックスツリーデータ構造とともに、FPGrowthという名前のアルゴリズムを提案しました。このアルゴリズムは、重要なデータ圧縮を提供すると同時に、頻繁なアイテムセットのみが生成されることを許可しました(候補アイテムセットの生成なし)。これは主に、各トランザクションのアイテムを降順でソートすることによって行われたため、最も頻度の高いアイテムは、ツリーデータ構造内の繰り返しが最も少ないアイテムです。頻度はツリーを詳しく調べている間だけ下降するので、アルゴリズムは頻度の低いアイテムセットを取り除くことができます。 編集: 私の知る限り、これは最先端のアルゴリズムと考えることができますが、他の提案されたソリューションについて知りたいのですが。FPMの他のどのようなアルゴリズムが「最先端」と見なされていますか?そのようなアルゴリズムの直感 / 主な貢献は何ですか? 頻繁なパターンマイニングでは、FPGrowthアルゴリズムはまだ「最先端」と見なされていますか?そうでない場合、どのアルゴリズムが大規模なデータセットから頻繁なアイテムセットをより効率的に抽出する可能性がありますか?

3
Python用のすぐに使える優れた言語モデルはありますか?
私はアプリケーションのプロトタイプを作成していますが、生成されたいくつかの文の複雑さを計算するための言語モデルが必要です。 すぐに使用できるPythonのトレーニング済み言語モデルはありますか?のような単純なもの model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 一部のフレームワークを確認しましたが、必要なものが見つかりませんでした。私は次のようなものを使用できることを知っています: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) これはブラウンコーパスの優れたチューリング確率分布を使用していますが、1bワードデータセットなどの大きなデータセットで巧妙に作成されたモデルを探していました。一般的なドメイン(ニュースだけでなく)の結果を実際に信頼できるもの
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.