タグ付けされた質問 「data-mining」

大きく複雑なデータセットのパターンを探すアクティビティ。通常はアルゴリズムの手法を強調しますが、その目的に関連するスキル、アプリケーション、または方法論のセットも含まれる場合があります。

13
数値データとカテゴリデータが混在するK平均クラスタリング
データセットには、いくつかの数値属性と1つのカテゴリが含まれています。 、と言いますNumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr、 はCategoricalAttr、次の3つの可能な値のいずれかを取ります:CategoricalAttrValue1、CategoricalAttrValue2またはCategoricalAttrValue3。 Octave https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/のデフォルトのk-meansクラスタリングアルゴリズムの実装を使用しています。数値データのみで機能します。 だから私の質問:カテゴリ属性CategoricalAttrを3つの数値(バイナリ)変数に分割するのは正しいIsCategoricalAttrValue1, IsCategoricalAttrValue2, IsCategoricalAttrValue3ですか?

8
Pythonでのオープンソースの異常検出
問題の背景: 私は、IT監視スペースで見つかったログファイルに似たログファイルを含むプロジェクトに取り組んでいます(ITスペースを最もよく理解しています)。これらのログファイルは時系列データであり、さまざまなパラメーターの数百/数千の行に編成されています。各パラメーターは数値(浮動)であり、各時点に重要な値またはエラー値があります。私の仕事は、異常検出(スパイク、フォール、一部のパラメーターが同期していない異常なパターン、奇妙な1次/ 2次などの派生動作など)のためにログファイルを監視することです。 同様の課題で、SplunkとPrelertを試しましたが、現在はオープンソースのオプションを検討しています。 制約: よく知っているのでPythonに限定しています。Rへの切り替えと関連する学習曲線を遅らせたいと思っています。R(または他の言語/ソフトウェア)に対する圧倒的なサポートがないように思われない限り、このタスクのためにPythonに固執したいと思います。 また、私は今のところWindows環境で作業しています。Windowsで小さなログファイルをサンドボックス化し続けたいのですが、必要に応じてLinux環境に移行できます。 リソース: 結果として行き止まりで以下をチェックアウトしました。 Pythonや不正検出のための機械学習アルゴリズムを実装するためのR。ここの情報は役立ちますが、残念ながら、適切なパッケージを見つけるのに苦労しています: Twitterの「AnomalyDetection」はRにあり、Pythonに固執したいと思います。さらに、Pythonポートの特異性は、Windows環境での実装で問題を引き起こすようです。 私の次の試みであるSkylineは、(GitHubの問題から)ほぼ廃止されたようです。オンラインがあまりサポートされていないように思えるので、私はこれについて深く掘り下げていません。 scikit-learn私はまだ調査中ですが、これははるかにマニュアルのようです。草むらのアプローチは私には問題ありませんが、学習ツールの私のバックグラウンドは弱いので、Splunk + Prelertに似たアルゴリズムのような技術的側面のブラックボックスのようなものが欲しいです。 問題の定義と質問: パッケージまたはライブラリを介してPythonの時系列ログファイルからの異常検出プロセスを自動化するのに役立つオープンソースソフトウェアを探しています。 そのようなことは、当面のタスクを支援するために存在しますか、それとも私の心の中に想像上のものがありますか? 背景の基礎や概念など、目標を達成するための具体的な手順を誰でも支援できますか? これは、尋ねるのに最適なStackExchangeコミュニティですか、それともStats、Math、またはSecurityまたはStackoverflowがより良いオプションですか? EDIT [2015年7月23日] に最新のアップデートがありますpyculiarityをしているように見える固定 Windows環境のために!私はまだ確認していませんが、コミュニティにとって別の便利なツールになるはずです。 編集[2016-01-19] マイナーアップデート。これに取り組む時間はありませんでしたが、特定の詳細な研究を続ける前に、この問題の基礎を理解するために一歩後退しています。たとえば、私が取っている2つの具体的な手順は次のとおりです。 異常検出のためのWikipedia記事[ https://en.wikipedia.org/wiki/Anomaly_detection ] から始めて、完全に理解し、[ https://などの他のリンクされたWikipedia記事の概念階層を上下に移動しますen.wikipedia.org/wiki/K-nearest_neighbors_algorithm ]、その後に、[ https://en.wikipedia.org/wiki/Machine_learning ]。 Chandola et al 2009 "Anomaly Detection:A Survey" [ http://www-users.cs.umn.edu/~banerjee/papers/09/anomaly.pdf ]およびHodge et al 2004 によって行われたすばらしい調査でのテクニックの調査「異常値検出方法の調査」[ http://eprints.whiterose.ac.uk/767/1/hodgevj4.pdf ]。 …

2
サポートベクターマシンはまだニッチで「最先端」と見なされていますか?
この質問は、別の質問で私が見たコメントへの回答です。 コメントはCourseraの機械学習コースシラバスに関するもので、「SVMは今ではあまり使用されていません」と書かれています。 関連する講義を自分で終えたばかりであり、SVMの理解は、それらが分類のための堅牢で効率的な学習アルゴリズムであり、カーネルを使用する場合、おそらく10から1000までの機能をカバーする「ニッチ​​」トレーニングサンプルの数は、おそらく100〜10,000です。トレーニングサンプルの制限は、コアアルゴリズムが、元の特徴の数ではなく、トレーニングサンプルの数に基づく次元を持つ正方行列から生成された結果の最適化を中心に展開するためです。 それで、私が見たコメントは、コースが行われてからの実際の変更について言及しています。もしそうなら、その変更は何ですか:SVMの「スイートスポット」をカバーする新しいアルゴリズム、SVMの計算上の利点を意味するより良いCPU ?それとも、コメント者の意見や個人的な経験でしょうか? たとえば、「サポートベクターマシンは時代遅れです」などの検索を試みましたが、他の何かを支持してドロップされたことを示唆するものは何も見つかりませんでした。 そしてウィキペディアにはこれがあります:http : //en.wikipedia.org/wiki/Support_vector_machine#Issues。。。主な問題点は、モデルの解釈の難しさのようです。ブラックボックス予測エンジンではSVMは問題ありませんが、洞察の生成にはあまり適していません。私はそれを大きな問題として見ていません。仕事に適したツールを選ぶ際に考慮すべきもう一つの小さなことです(トレーニングデータや学習タスクなどの性質とともに)。


1
xgboostがsklearn GradientBoostingClassifierよりもずっと速いのはなぜですか?
私は、100個の数値特徴を備えた50kの例で勾配ブースティングモデルをトレーニングしようとしています。XGBClassifier一方、私のマシンで43秒以内に、ハンドル500本の木、GradientBoostingClassifierハンドルのみ10樹木(!)1分2秒:(私は気にしませんでしたでは、それは時間がかかるだろうと500本の木を育てるしようとしている。私は、同じ使用していますlearning_rateし、max_depth設定を、 下記参照。 XGBoostがこれほど速くなったのはなぜですか?sklearnの人が知らない勾配ブースティングのためのいくつかの新しい実装を使用していますか?それとも、「角を切り」、より浅い木を育てるのですか? PS私はこの議論を知っています:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyが、そこに答えを得ることができませんでした... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

6
ビッグデータでSVDとPCAを行う方法は?
大量のデータセット(約8 GB)があります。機械学習を使用して分析したいと思います。したがって、SVDを使用してからPCAを使用して、効率のためにデータの次元を減らす必要があると思います。ただし、MATLABとOctaveはそのような大きなデータセットを読み込むことができません。 このような大量のデータでSVDを実行するために使用できるツールは何ですか?

3
ジニ係数とジニ不純物-決定木
問題は、意思決定ツリーの構築に関するものです。ウィキペディアによると、「ジニ係数」は「ジニ不純物」と混同しないでください。ただし、ディシジョンツリーを構築するときに両方のメジャーを使用できます。これらは、アイテムのセットを分割するときの選択をサポートできます。 1)「ジニ不純物」-これは標準の決定木分割メトリックです(上記のリンクを参照)。 2)「ジニ係数」-各分割は、AUC基準に基づいて評価できます。分割シナリオごとに、ROC曲線を作成し、AUCメトリックを計算できます。ウィキペディアによると、AUC =(GiniCoeff + 1)/ 2; 質問は次のとおりです。これらの対策はどちらも同等ですか?一方では、Gini係数をGini不純物と混同しないでください。一方、これらの両方の手段は、同じことを行うために使用できます-決定木の分割の品質を評価します。

3
なぜXGBoostとランダムフォレストが必要なのですか?
いくつかの概念については明確ではありませんでした。 XGBoostは、弱い学習者を強い学習者に変換します。これを行う利点は何ですか?多くの弱学習器を組み合わせるだけではなく単一のツリーを使用していますか? ランダムフォレストはツリーを作成するために、木から様々なサンプルを使用しています。だけではなく、単数形の木を使用して、この方法の利点は何ですか?

3
NLPと機械学習のコミュニティがディープラーニングに関心を持っているのはなぜですか?
このトピックに関する質問がいくつかありますので、お役に立てば幸いです。私はディープラーニングの分野で初めての経験がありますが、いくつかのチュートリアルを行いましたが、概念を互いに関連付けたり区別したりすることはできません。

4
潜在的な特徴の意味?
推奨システムの行列因子分解について学習しており、この用語latent featuresが頻繁に出現するのを見ていますが、それが何を意味するのか理解できません。機能が何であるかは知っていますが、潜在的な機能の概念がわかりません。説明してください。または、少なくともそれについて読むことができる紙/場所を指し示しますか?

4
データサイエンスはデータマイニングと同じですか?
このフォーラムで議論されるデータサイエンスには、大規模なデータが分析されるいくつかの同義語または少なくとも関連分野があると確信しています。 私の特定の質問は、データマイニングに関するものです。数年前にデータマイニングの大学院クラスを受講しました。データサイエンスとデータマイニングの違いは何ですか?特に、データマイニングに習熟するためには、さらに何を検討する必要がありますか?

2
季節性やその他のパタ​​ーンが変化する時系列に対処する方法は?
バックグラウンド 私は、エネルギーメーターの測定値の時系列データセットに取り組んでいます。シリーズの長さはメートルによって異なります-私が数年持っているものもあれば、数ヶ月しかいないものもあります。 私が取り組んできたものの1つは、これらの時系列のクラスタリングです。私の仕事は今のところ学術的であり、データの他の分析も行っていますが、クラスタリングを実行するという特定の目標があります。 さまざまな機能(週末と平日で使用される割合、異なる時間ブロックで使用される割合など)を計算する初期作業を行いました。その後、動的タイムワーピング(DTW)を使用して異なるシリーズ間の距離を取得し、差分値に基づいてクラスタリングを検討することに進み、これに関連するいくつかの論文を見つけました。 質問 特定のシリーズの季節性の変化により、クラスタリングが不正確になりますか?もしそうなら、どのように対処しますか? 私の懸念は、時系列のパターンが変更された場合、DTWによって取得された距離が誤解を招く可能性があることです。これにより、誤ったクラスタリングが発生する可能性があります。 上記が不明な場合は、次の例を検討してください。 例1 メーターの真夜中から午前8時までの測定値が低く、次の1時間は測定値が急激に増加し、午前9時から午後5時まで高値を維持し、次の1時間にわたって急激に減少し、午後6時から深夜まで低値を維持します。メーターは、このパターンを毎日数か月間一貫して継続しますが、読み取り値が1日を通して一貫したレベルにとどまるパターンに変わります。 例2 メーターは、ほぼ毎月消費されるエネルギー量を示します。数年後、夏季のエネルギー使用量が通常の量に戻る前のパターンに変わります。 可能な方向 私は、時系列全体を比較し続けることができるかどうか疑問に思っていましたが、パターンを大幅に変更する場合は、それらを分割し、別のシリーズと見なします。ただし、これを行うには、そのような変更を検出できる必要があります。また、これが適切な方法なのか、データを操作するのかわからないだけです。 また、データを分割し、それを多くの別個の時系列として考慮することも検討しました。たとえば、毎日/メーターの組み合わせを個別のシリーズと考えることができます。ただし、毎週/毎月/毎年のパターンを検討する場合は、同様に行う必要があります。私が考えて、これは動作しますが、それは潜在的にかなり厄介だと私は欠けていることにもっと良い方法があるのなら、私はこの道を行くことを憎みます。 さらなる注記 これらは、コメントに出てきたもの、またはコメントが原因で私が考えたもので、関連性があるかもしれません。関連情報を取得するためにすべてを読み通す必要がないように、ここに配置しています。 私はPythonで作業していますが、Rの方が適している場所にはrpyがあります。私は必ずしもPythonの答えを探しているわけではありません-誰かが実際に何をすべきかについての答えを持っているなら、実装の詳細を自分で理解して幸せです。 私はたくさんの「ラフドラフト」コードを実行しています。DTWをいくつか実行したり、いくつかの異なるタイプのクラスタリングを実行したりしています。本当に探しているのは、距離を見つける前にデータを処理する方法、クラスタリングを実行する方法などに関連しています。 これらの論文は時系列とDTWについて特に有益であり、トピック領域の背景が必要な場合に役立つことがあります:http : //www.cs.ucr.edu/~eamonn/selected_publications.htm


4
単一のイベントが縦断データに影響を与える可能性を分析するには、どの統計モデルを使用する必要がありますか
特定のイベントがいくつかの縦断データに影響を与える可能性を分析するために使用する式、方法、またはモデルを見つけようとしています。Googleで何を検索すればよいかわかりません。 シナリオの例を次に示します。 毎日平均100人のウォークイン顧客がいるビジネスを所有しているイメージ。ある日、あなたは毎日あなたの店に来るウォークイン客の数を増やしたいと決めたので、あなたは店の外で狂気のスタントを引いて注意を引きます。来週には、1日平均125人の顧客がいます。 次の数か月間、あなたは再びビジネスを獲得し、おそらくそれをもう少し長く維持したいと決めたので、他のランダムなことを試して、より多くの顧客を獲得します。残念ながら、あなたは最高のマーケティング担当者ではなく、あなたの戦術のいくつかはほとんどまたはまったく効果がなく、他のものはマイナスの影響さえ持っています。 個々のイベントがウォークイン顧客の数にプラスまたはマイナスの影響を与える可能性を判断するために、どのような方法論を使用できますか?相関関係は必ずしも因果関係とは限りませんが、特定のイベント後のクライアントのビジネスにおける日々の歩行の増加または減少の可能性を判断するためにどのような方法を使用できますか? ウォークイン顧客の数を増やしようとする試みの間に相関関係があるかどうかを分析することに興味はありませんが、他のすべてとは独立した単一のイベントが影響を与えたかどうかは分析しません。 この例はかなり不自然で単純化されているため、私が使用している実際のデータについて簡単に説明します。 特定のマーケティング代理店が新しいコンテンツを公開したり、ソーシャルメディアキャンペーンを実行したりする際に、クライアントのウェブサイトに与える影響を特定しようとしています。各クライアントには、5ページから100万をはるかに超えるサイズのWebサイトがあります。過去5年間にわたって、各代理店は、クライアントごとに、行われた作業の種類、影響を受けたWebサイト上のWebページの数、費やされた時間数など、すべての作業に注釈を付けました。 データウェアハウスにアセンブルした(スター/スノーフレークスキーマの束に配置した)上記のデータを使用して、1つの作業(時間内の1つのイベント)が影響を与えた可能性を判断する必要があります特定の作業によって影響を受ける、すべてまたはすべてのページに到達するトラフィック。Webサイトにある40種類のコンテンツのモデルを作成しました。これらのモデルは、そのコンテンツタイプのページが発売日から現在までに経験する可能性のある典型的なトラフィックパターンを説明しています。適切なモデルに関連して正規化された、特定の作業の結果として特定のページが受信した増加または減少した訪問者の最高数と最低数を判断する必要があります。 私は基本的なデータ分析(線形および重回帰、相関など)の経験がありますが、この問題を解決するためのアプローチ方法に困惑しています。過去に私は通常、特定の軸について複数の測定値を使用してデータを分析しました(たとえば、温度対渇き対動物、および動物全体で温帯の増加に伴う渇きへの影響を決定しました)、私は上記の影響を分析しようとしています非線形であるが予測可能な(または少なくともモデル化可能な)縦断的データセットのある時点での単一イベントの 私は困惑しています:( ヘルプ、ヒント、ポインタ、推奨事項、または指示は非常に役立ち、私は永遠に感謝します!


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.