データサイエンス data-mining

4

重心のランダムな初期化が使用される場合、K平均の異なる実行は異なる合計SSEを生成します。そして、それはアルゴリズムのパフォーマンスにおいて重要です。この問題を解決するための効果的なアプローチは何ですか？最近のアプローチは高く評価されています。

17 data-mining clustering k-means

3

不均衡で不均一な負のバックグラウンドを持つ1クラスの差別的分類？

{protein}シーケンスを特定のクラス（ニューロペプチドホルモン前駆体）に属するかどうかに分類するために、既存の教師付き分類子の改善に取り組んでいます。約1,300万のタンパク質配列のバックグラウンド（「不明/不十分な注釈付きのバックグラウンド」）に対して約1,150の既知の「陽性」、またはさまざまな特性で注釈付けされた約100,000のレビューされた関連タンパク質があります（ただし、「ネガティブ」な方法）。私の以前の実装では、これをバイナリ分類問題と見なしていました。ポジティブセット=ニューロペプチドとしてマークされたタンパク質。ネガティブセット：ほぼ同様の長さ方向の分布の残りのタンパク質の中から1,300サンプル（合計）のランダムサンプリング。それはうまくいきましたが、マシンの識別能力を大幅に改善したいです（現在、ランダムにサンプリングされた複数のネガティブセットで、精度、AUC、F1、CVで測定すると約83〜86％です）。私の考えは次のとおりでした：1）これをマルチクラスの問題にし、プロパティ/機能クラスによって、（おそらく）ランダムにサンプリングされた別のセットとともに、明確にネガティブになる2-3種類のタンパク質を選択します。（ここでの優先順位は、特性/特徴がポジティブセットに似ているネガティブセットですが、定義する特性があります）。2）1つのクラスの学習-素晴らしいと思いますが、私が理解するように、それは異常検出のためだけのものであり、差別的なアプローチよりもパフォーマンスが劣ります。 *）きれいに聞こえるPU学習について聞いたことがありますが、私はプログラミングN00bであり、そのための既存の実装については知りません。（Python / sci-kitで学習）。それでは、アプローチ1は理論上のPOVで意味がありますか？複数のネガセットを作成する最良の方法はありますか？（「ネガティブ」タンパク質の大規模な[50K]ピックを使用することもできますが、それらはすべて非常に大きく異なるため、分類器がそれらを1つの大きなアンバランスミックスとしてどれだけうまく処理できるかわかりません。）。ありがとう！

16 machine-learning data-mining python classification

5

シーボーンヒートマップを大きくする

corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか？

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

2

Mahoutのアイテムベースとユーザーベースの推奨の違い

ユーザーベースの推奨事項とアイテムベースの推奨事項がどれだけ正確に異なるかを知りたい。それを定義しますユーザーベース：同様のユーザーを見つけてアイテムを推奨します。多くの場合、ユーザーの動的な性質のため、これをスケーリングするのは困難です。アイテムベース：アイテム間の類似性を計算し、推奨事項を作成します。通常、アイテムはあまり変化しないため、多くの場合、オフラインで計算できます。しかし、2種類の推奨事項がありますが、私が理解しているのは、これらの両方が何らかのデータモデル（たとえば、1,2または1,2、.5としてitem1、item2、valueまたはuser1、user2、valueが値ではない場合）必須）そして、選択した類似度測定値とリコメンダービルトイン関数としてすべての計算を実行し、同じデータに対してユーザー/アイテムベースの推奨の両方を実行できます（これは正しい仮定ですか??）。したがって、これら2つのタイプのアルゴリズムがどのように正確にどの側面で異なるかを知りたいと思います。

15 machine-learning data-mining algorithms recommender-system

3

なぜアンサンブルはそれほど不当に効果的ですか

学習者の集団が可能な限り最高のモデル結果をもたらすことは公理的になったようです。たとえば、単一モデルがKaggleなどの競争に勝つ場合は、はるかにまれになっています。アンサンブルが非常に効果的である理由について理論的な説明はありますか？

14 machine-learning data-mining predictive-modeling

2

属性を使用してユーザープロファイルを分類/クラスター化する

Webサイトから製品を購入するユーザーのデータセットがあります。私が持っている属性は、ユーザーID、ユーザーの地域（状態）、製品のカテゴリーID、製品のキーワードID、WebサイトのキーワードID、および製品の消費額です。目標は、製品とWebサイトの情報を使用して、「男性の若いゲーマー」や「家にいる」など、ユーザーが誰であるかを特定することです。以下のサンプル画像を添付しました。製品にはすべて1940の一意のカテゴリと13845の一意のキーワードがあります。Webサイトには、13063個の一意のキーワードがあります。それは毎日のログデータなので、データセット全体が巨大です。これらは監視されていないため、クラスタリングを考えていますが、それらのIDは順序付けられた番号であり、数値の意味はありません。その場合、アルゴリズムの適用方法がわかりません。私も分類を考えています。購入した製品の販売額に基づいてクラスの列を追加した場合。クラスタリングがより好ましいと思います。キーワードidの次元は10000を超える可能性があるため、この場合にどのアルゴリズムを使用する必要があるかわかりません（各製品には多くのキーワードがあるため、Webサイトも同様です）。このプロジェクトにはSparkを使用する必要があります。誰かがいくつかのアイデアや提案を手伝ってくれますか？どうもありがとうございます！

14 machine-learning data-mining classification clustering

1

ファジートークンのシーケンス内の文法を認識する

主にアイテムのリストを含むテキストドキュメントがあります。各アイテムは、異なるタイプの複数のトークンのグループです：FirstName、LastName、BirthDate、PhoneNumber、City、Occupationなど。トークンは単語のグループです。アイテムは複数の行に配置できます。ドキュメントのアイテムはほぼ同じトークン構文を持っていますが、必ずしも完全に同じである必要はありません。それらは、アイテム間だけでなくアイテム間でも、より多く/より少ないトークンである場合があります。 FirstName LastName BirthDate PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber Occupation UnrecognizedToken FirstName LastName PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber City Occupation 目標は、使用されている文法を識別することです。例えば Occupation City 最後に、すべてのアイテムを特定します。完全に一致するとは限りません。短く読みやすくするために、代わりにいくつかのエイリアスA、B、C、D、...を使用して、これらのトークンタイプを指定しましょう。例えば A B C D F A B C D …

13 data-mining clustering text-mining time-series correlation

1

Neo4j対OrientDB対Titan

私は社会関係マイニングに関連するデータサイエンスプロジェクトに取り組んでおり、いくつかのグラフデータベースにデータを保存する必要があります。最初は、データベースとしてNeo4jを選択しました。しかし、Neo4jの継ぎ目はうまく拡張できません。私が見つけた代替手段は、TitanとoriebtDBです。これら3つのデータベースについてこの比較を行ってきましたが、これらのデータベースについてさらに詳しく知りたいと思います。だから、誰かが最高のものを選ぶのに私を助けることができますか？主に、これらのデータベースのパフォーマンス、スケーリング、利用可能なオンラインドキュメント/チュートリアル、Pythonライブラリのサポート、クエリ言語の複雑さ、グラフアルゴリズムのサポートを比較したいと思います。他にも良いデータベースオプションはありますか？

13 data-mining graphs databases social-network-analysis

4

ビッグデータのケーススタディまたはユースケースの例

さまざまな業界がビッグデータ分析をどのように使用しているかについて、多くのブログや記事を読みました。しかし、これらの記事のほとんどは言及していませんこれらの企業が使用したデータ。データのサイズは？データの処理に使用したツールテクノロジーの種類彼らが直面した問題は何であり、彼らがデータを得た洞察がどのように彼らが問題を解決するのを助けたか。ニーズに合わせてツールやテクノロジーを選択した方法。データからどのようなパターンを特定したか、データからどのようなパターンを探していたか。誰かがこれらすべての質問に答えてくれるのか、少なくともいくつかの質問に答えるリンクを提供してくれるのではないかと思います。実世界の例を探しています。金融業界がビッグデータ分析をどのように利用しているかを誰かが共有できたら素晴らしいと思います。

13 data-mining bigdata usecase

1

1つのホットエンコーディングと1つのアウトエンコーディングの違いは何ですか？

私はプレゼンテーションを読んでおり、one out out encodingを使用しないことを推奨していますが、1つのhot encodingで大丈夫です。どちらも同じだと思いました。誰もがそれらの違いを説明できますか？

13 machine-learning data-mining feature-selection feature-extraction feature-engineering

4

決定木とKNN

どのケースでデシジョンツリーを使用し、他のケースではKNNを使用した方が良いですか？特定のケースでそれらの1つを使用する理由そして、別のケースで他の？（アルゴリズムではなく、その機能を見ることにより）これについての説明や参考文献はありますか？

13 machine-learning data-mining decision-trees

2

抄録をクロールするためのAPIはありますか？

論文名のリストが非常に長い場合、インターネットまたはデータベースからこれらの論文の要約を取得するにはどうすればよいですか？紙の名前は「公衆衛生の領域のためのWebマイニングにおけるユーティリティの評価」のようなものです。誰かが私に解決策を与えることができるAPIを知っていますか？Google学者をクロールしようとしましたが、Googleがクローラーをブロックしました。

13 data-mining machine-learning

2

航空運賃-競争力のある価格設定行動と価格の相関関係を検出するには、どのような分析を使用する必要がありますか？

航空会社の価格設定行動、特に競合他社の価格設定に対する航空会社の反応を調査したいと思います。より複雑な分析についての私の知識はかなり限られていると言えますが、データの全体的なビューを収集するために、ほとんどすべての基本的な方法を実行しました。これには、類似のパターンを識別するのにすでに役立つ簡単なグラフが含まれます。SAS Enterprise 9.4も使用しています。しかし、私はより多くの数値ベースのアプローチを探しています。データセット私が使用している（自己）収集データセットには、約54.000の運賃が含まれています。すべての運賃は、毎日（毎晩00:00）60日以内に収集されました。したがって、その時間枠内のすべての運賃は、運賃の利用可能日および運賃の回収日までに通過するフライトの出発日を条件としてnnn回発生します。（フライトの出発日が過去の場合、フライトの運賃を徴収することはできません）基本的に次のように見える書式なし：（偽のデータ） +--------------------+-----------+--------------------+--------------------------+---------------+ | requestDate | price| tripStartDeparture | tripDestinationDeparture | flightCarrier | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 725.32 | 16APR2015:10:50:02 | 23APR2015:21:55:04 | XA | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 966.32 | 16APR2015:13:20:02 | 23APR2015:19:00:04 | XY | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 915.32 …

12 data-mining dataset regression correlation visualization

2

頻繁なパターンマイニングでは、FPGrowthはまだ「最先端」と見なされていますか？

私が頻繁にパターンマイニング（FPM）の問題を解決するアルゴリズムの開発を知っている限り、改善の道にはいくつかの主要なチェックポイントがあります。まず、Aprioriアルゴリズムは1993年にAgrawalらによって提案されました。、問題の形式化とともに。アルゴリズムは、ラティスを使用してデータを維持することにより、セット（パワーセット）からいくつかのセットを取り除くことができました2^n - 1。このアプローチの欠点は、拡張された各セットの頻度を計算するためにデータベースを再度読み取る必要があったことです。その後、1997年にZakiら。はアルゴリズムEclatを提案しました。これは、各セットの結果の周波数をラティス内に挿入しました。これは、ラティスの各ノードで、ルートから参照先ノードへのアイテムを持つトランザクションIDのセットを追加することで行われました。主な貢献は、各セットの頻度を知るためにデータセット全体を再度読み取る必要がないことですが、そのようなデータ構造の構築を維持するために必要なメモリは、データセット自体のサイズを超える可能性があります。 2000年に、ハン等。は、FPTreeという名前のプレフィックスツリーデータ構造とともに、FPGrowthという名前のアルゴリズムを提案しました。このアルゴリズムは、重要なデータ圧縮を提供すると同時に、頻繁なアイテムセットのみが生成されることを許可しました（候補アイテムセットの生成なし）。これは主に、各トランザクションのアイテムを降順でソートすることによって行われたため、最も頻度の高いアイテムは、ツリーデータ構造内の繰り返しが最も少ないアイテムです。頻度はツリーを詳しく調べている間だけ下降するので、アルゴリズムは頻度の低いアイテムセットを取り除くことができます。編集：私の知る限り、これは最先端のアルゴリズムと考えることができますが、他の提案されたソリューションについて知りたいのですが。FPMの他のどのようなアルゴリズムが「最先端」と見なされていますか？そのようなアルゴリズムの直感 / 主な貢献は何ですか？頻繁なパターンマイニングでは、FPGrowthアルゴリズムはまだ「最先端」と見なされていますか？そうでない場合、どのアルゴリズムが大規模なデータセットから頻繁なアイテムセットをより効率的に抽出する可能性がありますか？

12 bigdata data-mining efficiency state-of-the-art

3

Python用のすぐに使える優れた言語モデルはありますか？

私はアプリケーションのプロトタイプを作成していますが、生成されたいくつかの文の複雑さを計算するための言語モデルが必要です。すぐに使用できるPythonのトレーニング済み言語モデルはありますか？のような単純なもの model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 一部のフレームワークを確認しましたが、必要なものが見つかりませんでした。私は次のようなものを使用できることを知っています： from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) これはブラウンコーパスの優れたチューリング確率分布を使用していますが、1bワードデータセットなどの大きなデータセットで巧妙に作成されたモデルを探していました。一般的なドメイン（ニュースだけでなく）の結果を実際に信頼できるもの

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

タグ付けされた質問 「data-mining」

タグ付けされた質問「data-mining」