タグ付けされた質問 「unsupervised-learning」

次元削減のためのクラスタリングおよび特徴抽出を含む、ラベルのないデータの非表示(統計)構造の検索。

2
音声分類のための畳み込み深い信念ネットワークを理解するにはどうすればよいですか?
「では、階層表現のスケーラブルな教師なし学習のためのたたみ込みの深い信念ネットワーク Leeらによる」。al。(PDF)たたみ込みDBNが提案されています。また、メソッドは画像分類のために評価されます。小さなコーナーやエッジなどの自然なローカル画像機能があるため、これは論理的に聞こえます。 で、「教師なし機能畳み込み深い信念ネットワークを使用してオーディオ分類のための学習・リーらによって」。al。この方法は、さまざまなタイプの分類のオーディオに適用されます。話者識別、性別識別、電話分類、およびいくつかの音楽ジャンル/アーティスト分類。 このネットワークのたたみ込み部分は、画像をエッジとして説明できるように、音声に対してどのように解釈できますか?

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
連続変数とバイナリ変数が混在するt-SNE
現在、t-SNEを使用した高次元データの可視化について調査しています。バイナリ変数と連続変数が混在しているデータがあり、そのデータはバイナリデータを非常に簡単にクラスター化しているようです。もちろん、これはスケーリングされた(0と1の間の)データの場合に予想されます。ユークリッド距離は、バイナリ変数間で常に最大/最小になります。t-SNEを使用して混合バイナリ/連続データセットをどのように処理する必要がありますか?バイナリ列を削除する必要がありますか?metric使用できる別のものはありますか? 例として、次のpythonコードを考えます。 x1 = np.random.rand(200) x2 = np.random.rand(200) x3 = np.r_[np.ones(100), np.zeros(100)] X = np.c_[x1, x2, x3] # plot of the original data plt.scatter(x1, x2, c=x3) # … format graph だから私の生データは: ここで、色は3番目のフィーチャ(x3)の値です。3Dでは、データポイントは2つの平面(x3 = 0平面とx3 = 1平面)にあります。 次に、t-SNEを実行します。 tsne = TSNE() # sci-kit learn implementation X_transformed = StandardScaler().fit_transform(X) tsne = TSNE(n_components=2, …

1
ガウス混合の成分の最適数
したがって、k平均法でクラスターの最適な数の「アイデア」を取得することは十分に文書化されています。ガウス混合でこれを行うことに関する記事を見つけましたが、私がそれを確信していると確信していないので、よく理解していません。これを行う...より穏やかな方法はありますか?


1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
クラスタリング問題の機能選択
教師なしアルゴリズム(クラスタリング)を使用して、異なるデータセットをグループ化しようとしています。問題は、私が多くの機能(〜500)と少量のケース(200-300)を持っていることです。 これまでは、データを常にトレーニングセットとしてラベル付けしていた分類問題のみを使用していました。そこで、機能の事前選択にいくつかの基準(つまり、random.forest.importanceまたはinformation.gain)を使用し、次に、さまざまな学習者に順次転送選択を使用して、関連する機能を見つけました。 これで、教師なし学習の場合、事前選択の基準がなく、順次フォワード選択を使用できないことがわかります(少なくともmlrパッケージでは使用できません)。 クラスタリングアルゴリズムに適用する少数の機能を見つける前に主成分分析を実行できるかどうか疑問に思っていました。それとも他のアイデアはありますか? ありがとう 編集: さて、オンラインで調査した後、質問を少し更新できます。まず、次の2つの理由により、アルゴリズムをクラスタリングする前にPCAの使用を妨げる記事をいくつか読んだことがあります。 PCはすべての機能の機能であるため、結果を初期データセットに関連付けることが難しく、解釈が難しくなります。 さらに、実際には機能のごく一部しかクラスタリングに役立たないという問題がある場合、これらの機能がサンプル間の最大の分散(PCが行うこと)も説明しているとは言えません。 PCAは発表されていません... これで、クラスタリングのために順次フォワード選択を行うという最初のアイデアに戻りました。 どのパフォーマンス指標をお勧めしますか?(ダンインデックスについて考えました)どのクラスタリングアルゴリズムが多かれ少なかれ同じサイズのクラスターをもたらすでしょうか?(階層的クラスタリングでは、通常、1つの異常値を持つ1つのクラスターと残りすべての異常値を持つ別のクラスターを取得します->したがって、異常値から何らかの形で保護するものが必要になります) 皆さんが私を助けてくれることを願っています...

1
このオートエンコーダーネットワークを正しく機能させることができません(畳み込みレイヤーとmaxpoolレイヤーを使用)
オートエンコーダネットワークは、通常の分類子MLPネットワークよりも扱いにくいようです。ラザニアを数回使用した後、再構成された出力で得られるすべてのものが、入力桁が実際に何であるかを区別せずに、MNISTデータベースのすべての画像のぼやけた平均化に最もよく似ているものです。 私が選択したネットワーク構造は、次のカスケードレイヤーです。 入力レイヤー(28x28) 2Dたたみ込み層、フィルターサイズ7x7 最大プーリングレイヤー、サイズ3x3、ストライド2x2 高密度(完全に接続された)平坦化層、10ユニット(これがボトルネックです) 高密度(完全接続)レイヤー、121ユニット レイヤーを11x11に変形 2Dたたみ込み層、フィルターサイズ3x3 2Dアップスケーリングレイヤーファクター2 2Dたたみ込み層、フィルターサイズ3x3 2Dアップスケーリングレイヤーファクター2 2Dたたみ込み層、フィルターサイズ5x5 機能の最大プーリング(31x28x28から28x28へ) すべての2Dたたみ込み層には、バイアスが解除された、シグモイドアクティベーションと31のフィルターがあります。 完全に接続されたすべての層には、シグモイドアクティベーションがあります。 使用される損失関数は二乗誤差であり、更新関数はadagradです。学習用のチャンクの長さは100サンプルで、1000エポックに乗算されます。 以下は問題の説明です:上の行はネットワークの入力として設定されたいくつかのサンプルで、下の行は再構成です: 完全を期すために、私が使用したコードは次のとおりです。 import theano.tensor as T import theano import sys sys.path.insert(0,'./Lasagne') # local checkout of Lasagne import lasagne from theano import pp from theano import function import gzip import numpy as np from …

6
異常検出のための機能を準備/構築する方法(ネットワークセキュリティデータ)
私の目標は、侵入検出の目的でクラスタリング/異常検出を使用して、ネットワークログ(Apache、syslog、Active Directoryセキュリティ監査など)を分析することです。 ログから、IPアドレス、ユーザー名、ホスト名、宛先ポート、送信元ポートなどのテキストフィールドがたくさんあります(合計15〜20フィールド)。ログに攻撃があるかどうかはわかりませんが、最も疑わしいイベント(異常値)を強調表示したいと思います。 通常、異常検出は、確率/頻度が低いポイントを異常としてマークします。ただし、ログレコードの半分には、フィールドの一意の組み合わせが含まれています。したがって、データセット内のレコードの半分は、可能な限り低い頻度になります。 クラスタリングに基づく異常検出を使用する場合(たとえば、クラスタを見つけてから、すべてのクラスタの中心から離れているポイントを選択する)、異なるポイント間の距離を見つける必要があります。私は15〜20個のフィールドを持っているので、ユーザー名、ポート、IPアドレスなどの次元の多次元スペースになります。ただし、マハラノビス距離は正規分布の特徴にのみ適用できます。これは、データポイント間の距離を見つけてクラスターを構築する方法がないことを意味します... たとえば、20レコードのデータセットに、ユーザーAlice、Bob、Carol、Dave、Eve、Frankがいるとします。それらは、データベース内で次の数の発生を持つ可能性があります:2,5,2,5,1,5。ユーザー名を数字に単にマッピングする場合、例えば Alice --> 1 Bob --> 2 Carol --> 3 Dave --> 4 Eve --> 5 Frank --> 6 次に、ユーザー名の確率分布は次のようになります。 p(1)= 0.1、p(2)= 0.25、p(3)= 0.1、p(4)= 0.25、p(5)= 0.05、p(6)= 0.25 もちろん、これは正規分布ではなく、ユーザー名を別の方法でマッピングできるため、これもあまり意味がありません... したがって、ユーザー名、アクション、ポート番号、IPアドレスなどのフィールドを番号に単純にマッピングしても、何も起こりません。 したがって、教師なしの異常/外れ値の検出を可能にするために、テキストフィールドがどのように処理/機能が通常構築されるかについてお聞きしたいと思います。 編集:データ構造。 データベーステーブルに約100列あり、Active Directoryイベントからの情報が含まれています。この100列から(私の観点から)最も重要なのは、SubjectUser、TargetUser、SourceIPaddress、SourceHostName、SourcePort、Computer、DestinationIPaddress、DestinationHostName、DestinationPort、Action、Status、FilePath、EventID、WeekDay、DayTimeです。 イベントはActive Directoryイベントであり、EventIDはログに記録されたもの(たとえば、Kerberosチケットの作成、ユーザーログオン、ユーザーログオフなど)を定義します。 データサンプルは次のようになります。 + ------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -+ | ID …

4
2 X 3テーブルで複数の事後カイ2乗検定を実行する方法
私のデータセットは、沿岸、ミッドチャネル、オフショアの3つのサイトタイプでの生物の全死亡率または生存率で構成されています。下の表の数字は、サイトの数を表しています。 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 100%の死亡率が発生したサイトの数がサイトのタイプに基づいて重要かどうかを知りたいです。2 x 3カイ2乗を実行すると、重要な結果が得られます。実行できる事後的なペアワイズ比較はありますか、または実際にロジスティックANOVAまたは二項分布の回帰を使用する必要がありますか?ありがとう!

2
ハイパーラインからの距離に応じたSVM信頼度
確率的マルチクラス分類器の場合、各クラスへの新しい点メンバーシップの確率を取得できます。3つのクラスの場合、得られると仮定します。したがって、の最も可能性の高いクラスはです。今、私たちはの会員のスコアを取得することができ、マルチクラスSVMがあるとし(hyperlinesからの距離に応じて)各クラスにします。3クラスの場合には、我々が入手したとする、どのようにこの場合の最も可能性の高い2番目、3番目、最初のクラスである(これらを変換せずに確率から得点)?通常私は例えばのように正と負の値を取得しますy i P (y a | x )> P (y b | x )> P (y c | x )y a x S c o r e (y a | x )、S c o r e (y b | x )、S c o r e (y cバツxxy私yiy_iP(ya| x)>P(yb| x)>P(yc| x)P(ya|x)>P(yb|x)>P(yc|x)P(y_a|x) …

2
混合ガウスモデルを使用する理由
私は混合ガウスモデル(GMM)について学習していますが、なぜこのアルゴリズムを使用する必要があるのか​​について混乱しています。 このアルゴリズムは、クラスタリングに関して、平均などの他の標準的なクラスタリングアルゴリズムよりもどのように優れていますか?手段は、パーティションにデータを、アルゴリズムガウス混合モデルは、各データポイントの明確なセットのメンバーシップを生成しないのに対し、明確なセットのメンバーシップとクラスター。GMMを使用して、あるデータポイントが別のデータポイントに近いと言う指標は何ですか?KKKKKKKKK GMMが生成する最終的な確率分布をどのように利用できますか?最終確率分布を取得するとします。ここで、は重みです。データ適合する確率分布を取得しました。どうすればよいですか?f(x | w )f(バツ|w)f(x|w)wwwバツバツx 以下のために、私の前の時点でフォローアップする手段、終了時に、我々は一連の取得我々は集合として表すことができるクラスター、であり、ものを。しかし、GMMのために、私は得るすべてが1つの配布であるである1つの事。これをKクラスターにクラスター化するためにどのように使用できますか?KKKKKK{S1、… 、SK}{S1、…、SK}\{S_1, \ldots, S_K\}KKKf(x | w )=Σi = 1Nw私N(x |μ私、Σ私)f(バツ|w)=Σ私=1Nw私N(バツ|μ私、Σ私)f(x|w) = \sum\limits_{i=1}^N w_i \mathcal{N}(x|\mu_i, \Sigma_i)111KKK

1
クラスター化にLDA over GMMを使用する場合
168次元のユーザーアクティビティを含むデータセットがあり、教師なし学習を使用してクラスターを抽出します。潜在的ディリクレ配分(LDA)でトピックモデリングアプローチを使用するか、ベイジアンアプローチに近いガウス混合モデル(GMM)を使用するかは、私には明らかではありません。その点で私は2つの関連する質問があります: 2つの方法の主な違いは何ですか?私は2つのモデルの基本を知っていますが、実際に一方が他方とどう違うのかについて知りたいです。問題/データの何かが、1つのモデルの方が適しているかどうかを教えてくれますか? 両方の方法をデータに適用した場合、結果を比較してどちらの方法が優れているかを確認するにはどうすればよいですか? 更新 168人のユーザーアクティビティ変数はアクティビティのカウントであり、正の離散値を保持します。そこには、最大値はありませんが、変数の約90%が間隔の値を達成する。[0,3][0,3][0,3] これらのアクティビティ変数のすべてを、それがゼロか非ゼロかを表すバイナリ変数として単純にモデル化することは理にかなっているかもしれませんが、問題を特定するのに十分な知識はまだありません。私たちが探している主なものは、ユーザーアクティビティのさまざまなクラスターへの洞察です。

2
(K-平均)クラスタリング手法で平均値のみが使用されるのはなぜですか?
K-meansなどのクラスタリング手法では、ユークリッド距離が使用するメトリックです。結果として、各クラスター内の平均値のみを計算します。そして、各平均値までの距離に基づいて要素が調整されます。 ガウス関数がメトリックとして使用されないのはなぜですか?を使用する代わりにxi -mean(X)、を使用できますexp(- (xi - mean(X)).^2/std(X).^2)。したがって、クラスター間の類似性が測定されるだけでなく(平均)、クラスター内の類似性も考慮されます(標準)。これもガウス混合モデルと同等ですか? ここでは私の質問を超えていますが、平均シフトは上記と同じ質問が発生する可能性があると思います。

1
自己組織化マップとカーネルk平均法
アプリケーションの場合は、データ(潜在的に高次元)をクラスター化し、クラスターに属する確率を抽出します。現時点では、自己組織化マップまたはカーネルk-meansを使用して作業を行うことを検討しています。このタスクの各分類子の長所と短所は何ですか?この場合にパフォーマンスを発揮する可能性のある他のクラスタリングアルゴリズムがありませんか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.