タグ付けされた質問 「clustering」

クラスター分析またはクラスター化は、同じグループ(クラスターと呼ばれる)内のオブジェクトが他のグループ(クラスター)内のオブジェクトよりも(何らかの意味で)互いに類似するようにオブジェクトのセットをグループ化するタスクです。これは、探索的データマイニングの主要なタスクであり、統計データ分析の一般的な手法であり、機械学習、パターン認識、画像分析、情報検索などの多くの分野で使用されています。

2
useragent、ip、session_idによる一意の訪問者のクラスタリング
フォームのWebサイトアクセスデータsession_id, ip, user_agent、およびオプションでタイムスタンプを使用して、以下の条件に従って、セッションを一意の訪問者にどのようにクラスター化するのが最適ですか? session_id:は、すべての新しい訪問者に与えられるIDです。有効期限はありませんが、ユーザーがCookieを受け入れない/ Cookieをクリアする/ブラウザーを変更する/デバイスを変更すると、ユーザーは認識されなくなります IP 異なるユーザー間で共有することができ(無料のwi-fiカフェ、またはISPがIPを再割り当てすることを想像してください)、多くの場合、少なくとも2人の自宅と職場があります。 User_agentブラウザとOSのバージョンであり、デバイスを区別できます。たとえば、ユーザーは電話とラップトップの両方を使用する可能性がありますが、windows + appleラップトップを使用する可能性は低いです。同じセッションIDに複数のユーザーエージェントが存在することはほとんどありません。 データはフィドルのように見えるかもしれません:http ://sqlfiddle.com/#!2/ c4de40/1 もちろん、私たちは仮定について話していますが、それは可能な限り現実に近づくことです。たとえば、セッションIDが異なる限られた時間枠で同じipとuseragentに遭遇した場合、エッジケースの例外を除いて、それは同じユーザーであるという公正な仮定になります。 編集:問題が解決される言語は無関係であり、それは主に実装ではなくロジックに関するものです。擬似コードは問題ありません。 編集:フィドルの遅い性質のため、代わりにmysqlを読む/実行することができます: select session_id, floor(rand()*256*256*256*256) as ip_num , floor(rand()*1000) as user_agent_id from (select 1+a.nr+10*b.nr as session_id, ceil(rand()*3) as nr from (select 1 as nr union all select 2 union all select 3 union all select 4 …
15 clustering 

2
属性を使用してユーザープロファイルを分類/クラスター化する
Webサイトから製品を購入するユーザーのデータセットがあります。 私が持っている属性は、ユーザーID、ユーザーの地域(状態)、製品のカテゴリーID、製品のキーワードID、WebサイトのキーワードID、および製品の消費額です。 目標は、製品とWebサイトの情報を使用して、「男性の若いゲーマー」や「家にいる」など、ユーザーが誰であるかを特定することです。 以下のサンプル画像を添付しました。 製品にはすべて1940の一意のカテゴリと13845の一意のキーワードがあります。Webサイトには、13063個の一意のキーワードがあります。それは毎日のログデータなので、データセット全体が巨大です。 これらは監視されていないため、クラスタリングを考えていますが、それらのIDは順序付けられた番号であり、数値の意味はありません。その場合、アルゴリズムの適用方法がわかりません。私も分類を考えています。購入した製品の販売額に基づいてクラスの列を追加した場合。クラスタリングがより好ましいと思います。キーワードidの次元は10000を超える可能性があるため、この場合にどのアルゴリズムを使用する必要があるかわかりません(各製品には多くのキーワードがあるため、Webサイトも同様です)。このプロジェクトにはSparkを使用する必要があります。 誰かがいくつかのアイデアや提案を手伝ってくれますか? どうもありがとうございます!

2
10 ^ 10ポイントのアルゴリズムのような高速k-means?
10次​​元の点のセットでk-meansクラスタリングを実行しようとしています。キャッチ:10 ^ 10ポイントがあります。 最大のクラスター(たとえば、10〜100個のクラスター)の中心とサイズだけを探しています。各ポイントがどのクラスターになるかは気にしません。k-meansの使用は特に重要ではありません。私は同様の効果を探していますが、近似的なk-meansまたは関連するアルゴリズムは素晴らしいでしょう(ミニバッチ-SGD平均、...)。GMMはある意味でk-meansと同じ問題なので、同じサイズのデータ​​でGMMを実行することも興味深いです。 この規模では、データをサブサンプリングしても結果はおそらく大幅に変わりません。データの1/10000番目のサンプルを使用して同じ上位10クラスターを見つける確率は非常に良好です。しかしそれでも、それは10 ^ 6ポイントの問題であり、扱いやすいものの端にあります。

1
ファジートークンのシーケンス内の文法を認識する
主にアイテムのリストを含むテキストドキュメントがあります。 各アイテムは、異なるタイプの複数のトークンのグループです:FirstName、LastName、BirthDate、PhoneNumber、City、Occupationなど。トークンは単語のグループです。 アイテムは複数の行に配置できます。 ドキュメントのアイテムはほぼ同じトークン構文を持っていますが、必ずしも完全に同じである必要はありません。 それらは、アイテム間だけでなくアイテム間でも、より多く/より少ないトークンである場合があります。 FirstName LastName BirthDate PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber Occupation UnrecognizedToken FirstName LastName PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber City Occupation 目標は、使用されている文法を識別することです。例えば Occupation City 最後に、すべてのアイテムを特定します。完全に一致するとは限りません。 短く読みやすくするために、代わりにいくつかのエイリアスA、B、C、D、...を使用して、これらのトークンタイプを指定しましょう。 例えば A B C D F A B C D …

1
2つの機能と時系列のイベントに基づいて顧客を分類する
私が設計しているアルゴリズムの次のステップに何をすべきかについての助けが必要です。 NDAのせいで、あまり開示することはできませんが、一般的でわかりやすいものにしようと思います。 基本的に、アルゴリズムのいくつかのステップの後、私はこれを持っています: 私が持っている各顧客と、彼らが1か月間に行うイベントについて、最初のステップでイベントをいくつかのカテゴリにクラスター化しました(各顧客は、1からxが1から25までのカテゴリに分けられたイベントを持ち、通常、最初のカテゴリは他のカテゴリよりもイベントの密度が高くなります)。 各カテゴリと顧客について、1時間あたりの月のイベントを集約する時系列を作成しました(これらのイベントがいつ行われるかのパターンを取得します)。また、私は、男が少なくとも1つのイベントを実行する1か月(30日間)の日数と、少なくとも1つのイベントの合計に対する少なくとも1つのイベントの日数に基づいて、いくつかの正規化変数を使用していますイベント(すべてのクラスターを集約)。1つ目は、その月の顧客の活動度の比率を示し、2つ目は、他のカテゴリに対してカテゴリを重み付けします。 ファイナルテーブルは次のようになります |*Identifier*| *firstCat* | *feature1* | *feature2* | { *(TIME SERIES)* } CustomerID | ClusterID | DaysOver30 | DaysOverTotal | Events9AM Events10AM ... xx | 1 | 0,69 | 0,72 | 0,2 0,13 ... xx | 2 | 0,11 | 0,28 | 0,1 0,45 ... …

1
MinHashing vs SimHashing
クラスター化する5つのセットがあるとします。ここで説明するSimHashingテクニックは次のとおりです。 https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ たとえば、結果が次の場合、3つのクラスター({A}、{B,C,D}および{E})を生成できます。 A -> h01 B -> h02 C -> h02 D -> h02 E -> h03 同様に、MMDSブックの第3章で説明されているMinHashingテクニック: http://infolab.stanford.edu/~ullman/mmds/ch3.pdf 結果が次の場合、同じ3つのクラスターを生成することもできます。 A -> h01 - h02 - h03 B -> h04 - h05 - h06 | C -> h04 - h07 - h08 | D -> h09 - h10 - …

1
LSTMセルはいくつ使用すればよいですか?
使用する必要があるLSTMセルの最小、最大、および「妥当な」量に関する経験則(または実際の規則)はありますか?具体的には、TensorFlowとプロパティのBasicLSTMCellに関連していnum_unitsます。 私が定義する分類問題があると仮定してください: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples たとえば、トレーニングの例の数は次の数よりも多い必要がありますか? 4*((n+1)*m + m*m)*c cセルの数はどこですか?これに基づいています:LSTMネットワークのパラメーターの数を計算する方法?私が理解しているように、これはパラメータの総数を与えるはずであり、トレーニング例の数よりも少なくなければなりません。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

1
継続的なオンラインクラスター識別のソリューション?
架空のオンラインクラスタリングアプリケーションの例を紹介します。 時間nで、ポイント1、2、3、4が青いクラスターAに割り当てられ、ポイントb、5、6、7が赤いクラスターBに割り当てられます。 時間n + 1で、青いクラスターAに割り当てられる新しいポイントaが導入されますが、ポイントbも青いクラスターAにも割り当てられます。 最後に、ポイント1、2、3、4、a、bはAに属し、ポイント5、6、7はBに属します。私にはこれは合理的に思えます。 一見単純そうに見えるのは、実際には少しトリッキーです-タイムステップ全体で識別子を維持するためです。より境界線の例でこの点を明確にしてみましょう: 緑の点は2つの青と2つの赤の点を1つのクラスターに統合し、私は任意に青に着色することを決めました-これはすでに私の人間のヒューリスティックな考え方です! この決定を行うコンピューターは、ルールを使用する必要があります。たとえば、ポイントがクラスターにマージされる場合、クラスターのIDは過半数によって決定されます。この場合、ドローに直面します-青(ここでは青)クラスターの青と赤の両方が有効な選択肢である可能性があります。 緑の点に近い5番目の赤い点を想像してください。次に、大部分が赤(3赤vs 2青)になるので、新しいクラスターには赤を選択するのが適切です。ただし、右端のクラスターの赤をより明確に選択することは、それらが赤であり、おそらくそのままであるはずなので、矛盾します。 。 これについて考えるのはおかしい。結局のところ、これには完璧なルールはないと思います。むしろ、安定性基準を最適化するヒューリスティックです。 これは最終的に私の質問につながります: この「問題」には、参照できる名前がありますか? これに対する「標準」ソリューションはありますか... ...多分そのためのRパッケージさえありますか? 反復クラスタリングにおけるクラスターIDの合理的な継承

4
テキスト処理でのクラスタリングの使用
こんにちは、データサイエンススタックの最初の質問です。テキスト分類のアルゴリズムを作成したい。大量のテキストと記事があるとします。約5000のプレーンテキストとしましょう。最初に単純な関数を使用して、4つ以上のすべての文字単語の頻度を決定します。次に、これを各トレーニングサンプルの機能として使用します。ここで、私のアルゴリズムがトレーニングセットをその特徴に応じてクラスター化できるようにしたいと思います。これは、記事内の各単語の頻度です。(この例では、記事ごとに異なる機能があるため、記事ごとに独自の機能があります。たとえば、記事には10の「水」と23の「純粋」があり、別の記事には8の「政治」と14の「レバレッジ」があります)。この例に最適なクラスタリングアルゴリズムを提案できますか?

3
科学計算に最適な言語[終了]
閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5年前に閉鎖されました。 ほとんどの言語では、いくつかの科学計算ライブラリが利用できるようです。 Pythonは Scipy Rust 持っている SciRust C++持っているなど、いくつかのViennaCLとArmadillo Java持っているJava NumericsとColtだけでなく、他のいくつかの 以下のような言語は言うまでもありませんRし、Julia科学技術計算のために明示的に設計されています。 非常に多くのオプションを使用して、タスクに最適な言語をどのように選択しますか?さらに、どの言語が最もパフォーマンスが高くなりますか?PythonそしてR宇宙の中で最も牽引力を持っているように見えるが、それは、より良い選択となるように、論理的にコンパイルされた言語がそうです。そして、これまでに何よりも優れているFortranでしょうか?さらに、コンパイルされた言語はGPUアクセラレーションを備えている傾向がありますが、インタープリター言語はそうではRありPythonません。言語を選択するときは何を考慮すればよいですか。また、ユーティリティとパフォーマンスのバランスが最も良い言語はどれですか。また、私が見逃した重要な科学計算リソースを持つ言語はありますか?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

1
Hartigan-Wong k-means法と他のアルゴリズムでの収束
私は、主statsにR言語のパッケージに実装されているさまざまなk平均クラスタリングアルゴリズムを理解しようとしています。 私はロイドのアルゴリズムとマックイーンのオンラインアルゴリズムを理解しています。それらを理解する方法は次のとおりです。 ロイドのアルゴリズム: 最初に、「k」個のクラスターの重心として機能する「k」個のランダムな観測値が選択されます。次に、重心が収束するまで、次のステップが反復で発生します。 各観測値と選択された重心間のユークリッド距離が計算されます。 各重心に最も近い観測値は、「k」バケット内でタグ付けされます。 各バケットのすべての観測値の平均は、新しい重心として機能します。 新しい重心は古い重心を置き換え、古い重心と新しい重心が収束していない場合、反復はステップ1に戻ります。 収束する条件は次のとおりです。古い重心と新しい重心がまったく同じであるか、重心の差が小さい(10 ^ -3のオーダー)か、最大反復回数(10または100)に達しています。 MacQueenのアルゴリズム: これは、最初の「k」インスタンスが重心として選択されるオンラインバージョンです。 次に、各インスタンスは、そのインスタンスに最も近い重心に応じてバケットに配置されます。それぞれの重心が再計算されます。 各インスタンスが適切なバケットに配置されるまで、この手順を繰り返します。 このアルゴリズムには反復が1つしかなく、ループは 'x'インスタンスに対して続行されます Hartigan-Wongアルゴリズム: すべてのポイント/インスタンスをランダムなバケットに割り当て、それぞれの重心を計算します。 最初のインスタンスから始めて、最も近い重心を見つけ、そのバケットを割り当てます。バケットが変更された場合、新しい重心、つまり、新しく割り当てられたバケットの重心と古いバケット割り当ての重心が、変更の影響を受ける2つの重心であるため、それらを再計算します。 すべてのポイントをループして、新しい重心を取得します。 ポイント2と3の2回目の反復を実行します。これは、一種のクリーンアップ操作を実行し、漂遊ポイントを正しいバケットに再割り当てします。 したがって、このアルゴリズムは、収束結果を確認する前に2回の反復を実行します。 さて、Hartigan-Wongアルゴリズムのポイント4で私が考えることがアルゴリズムの正しい方法であるかどうかはわかりません。私の質問は、次のHartigan-Wongのメソッドがk-meansを実装する正しい方法であるかどうかです。この方法の反復は2つだけですか?そうでない場合、収束の条件は何ですか(いつ停止するか)? 私が理解しているもう1つの可能な実装の説明は次のとおりです。 すべてのポイント/インスタンスをランダムなバケットに割り当て、それぞれの重心を計算します。 最初のインスタンスから始めて、最も近い重心を見つけ、そのバケットを割り当てます。バケットが変更された場合は、新しい重心、つまり新しく割り当てられたバケットの重心と古いバケット割り当ての重心が変更の影響を受ける2つの重心であるため、それらを再計算します。 いずれかの時点でバケットに変更があったら、最初のインスタンスに戻って手順を繰り返します。 すべてのインスタンスが反復され、どのポイントもバケットを変更しない場合、反復は終了します。 このように、インスタンスがバケットを変更するたびに、データセットの最初から何度も繰り返される多くの反復があります。 説明があれば役に立ちます。これらの方法のいずれかについて私の理解が間違っている場合はお知らせください。
10 r  clustering  k-means 

3
ログファイル分析:値部分から情報部分を抽出
ある製品のいくつかのログファイルにデータセットを構築しようとしています。 異なるログファイルには、独自のレイアウトとコンテンツがあります。私はそれらを一緒にグループ化することに成功しました、あと1ステップだけ... 確かに、ログ「メッセージ」は最良の情報です。私はそれらすべてのメッセージの包括的なリストを持っているわけではありません。そのリストは毎日変更される可能性があるため、それらに基づいてハードコードすることは悪い考えです。 私がやりたいのは、識別テキストを値テキストから分離することです(たとえば、「ロードされたファイルXXX」は(識別:「ロードされたファイル」、値:「XXX」)になります)。残念ながら、この例は単純であり、実際にはさまざまなレイアウトがあり、場合によっては複数の値があります。 文字列カーネルを使用することを考えていましたが、クラスタリングを目的としています...そしてクラウティングはここでは適用されません(メッセージのさまざまなタイプの数はわかりませんが、多すぎます)。 何か考えはありますか? ご協力いただきありがとうございます。 PS:プログラミングをしている人にとっては、これは理解しやすいかもしれません。コードにログが含まれているとしましょうprintf( "blabla%s"、 "xxx")-> "blabla"と "xxx"を分離させたい

1
ElasticSearchに保存されている顧客データのクラスタリング
elasticsearchクラスターに多数の顧客プロファイルが保存されています。これらのプロファイルは、電子メールサブスクリプションのターゲットグループの作成に使用されます。 ターゲットグループは現在、elasticsearchファセット検索機能を使用して手動で形成されています(23歳のすべての男性顧客に1台の車と3人の子供を連れて行くなど)。 データサイエンス、機械学習、クラスタリングなどを使用して、興味深いグループを自動的に検索するにはどうすればよいですか? rプログラミング言語はこのタスクに適したツールのようですが、そのようなグループ検索の方法論を形成することはできません。1つの解決策は、何とかして最大の顧客クラスターを見つけてターゲットグループとして使用することです。そのため、問題は次のとおりです。 同様の顧客の最大のクラスターを自動的に選択するにはどうすればよいですか(現時点ではわからないパラメーターで同様)。 例:私のプログラムはelasticsearchに接続し、顧客データをCSVにオフロードし、R言語スクリプトを使用すると、大部分の顧客が子供を持たない男性であり、別の大部分の顧客が車を持ち、目の色が茶色であることがわかります。

3
数学の畳み込みとCNNの関係
畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか?gウェイトをかけるフィルターのような機能ですか?
10 machine-learning  neural-network  deep-learning  cnn  convolution  machine-learning  ensemble-modeling  machine-learning  classification  data-mining  clustering  machine-learning  feature-selection  convnet  pandas  graphs  ipython  machine-learning  apache-spark  multiclass-classification  naive-bayes-classifier  multilabel-classification  machine-learning  data-mining  dataset  data-cleaning  data  machine-learning  data-mining  statistics  correlation  machine-learning  data-mining  dataset  data-cleaning  data  beginner  career  python  r  visualization  machine-learning  data-mining  nlp  stanford-nlp  dataset  linear-regression  time-series  correlation  anomaly-detection  ensemble-modeling  data-mining  machine-learning  python  data-mining  recommender-system  machine-learning  cross-validation  model-selection  scoring  prediction  sequential-pattern-mining  categorical-data  python  tensorflow  image-recognition  statistics  machine-learning  data-mining  predictive-modeling  data-cleaning  preprocessing  classification  deep-learning  tensorflow  machine-learning  algorithms  data  keras  categorical-data  reference-request  loss-function  classification  logistic-regression  apache-spark  prediction  naive-bayes-classifier  beginner  nlp  word2vec  vector-space-models  scikit-learn  decision-trees  data  programming 

2
線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。 私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression?上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか?決定を下すためにデータセットを調べる必要がある特性は何ですか?そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression?
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.