タグ付けされた質問 「unsupervised-learning」

次元削減のためのクラスタリングおよび特徴抽出を含む、ラベルのないデータの非表示(統計)構造の検索。

3
k-meansクラスター分析の結果のきれいなプロットを作成する方法は?
Rを使用してK-meansクラスタリングを実行しています。14個の変数を使用してK-meansを実行しています K-meansの結果をプロットする美しい方法は何ですか? 既存の実装はありますか? 14個の変数があると、結果のプロットが複雑になりますか? GGclusterと呼ばれるクールなものを見つけましたが、まだ開発中です。また、サモンマッピングについても読みましたが、あまり理解していませんでした。これは良い選択肢でしょうか?

2
教師なしクラスタリングに人工ニューラルネットワークANNを使用するにはどうすればよいですか?
artificial neural network (ANN)予測の誤差を減らすことでフィッティングを改善するために、逆伝播を使用して教師付き方法でをトレーニングする方法を理解しています。ANNは教師なし学習に使用できると聞いたことがありますが、最適化段階を導くための何らかのコスト関数なしでこれを行うにはどうすればよいですか?k-meansまたはEMアルゴリズムでは、各反復が増加するように検索する関数があります。 ANNを使用してクラスタリングを実行するにはどうすればよいですか?また、同じ場所でデータポイントをグループ化するためにどのメカニズムを使用しますか? (さらにレイヤーを追加するとどのような追加機能がもたらされますか?)


4
スパースコーディングとオートエンコーダーの違いは何ですか?
スパースコーディングは、入力ベクトル(<-なぜこれが必要なのか)を表すために、基底ベクトルの過剰なセットを学習することと定義されます。スパースコーディングとオートエンコーダーの違いは何ですか?スパースコーディングとオートエンコーダを使用するのはいつですか?

3
ロジスティック回帰の95%信頼区間を手動で計算することと、Rでconfint()関数を使用することに違いがあるのはなぜですか?
皆さん、私は説明できない奇妙なことに気づきました、できますか?要約すると、ロジスティック回帰モデルで信頼区間を計算する手動のアプローチとR関数confint()は異なる結果をもたらします。 Hosmer&LemeshowのApplied Logistic Regression(第2版)を行ってきました。第3章には、オッズ比と95%の信頼区間を計算する例があります。Rを使用すると、モデルを簡単に再現できます。 Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

2
階層的クラスタリングのための正しいリンケージ方法の選択
Google BigQueryのredditデータダンプから収集および処理したデータに対して階層クラスタリングを実行しています。 私のプロセスは次のとおりです。 / r / politicsで最新の1000件の投稿を取得 すべてのコメントを集める データを処理し、n x mデータマトリックスを計算します(n:users / samples、m:posts / features) 階層的クラスタリングの距離行列を計算する リンク方法を選択して、階層クラスタリングを実行します データを樹状図としてプロットする 私の質問は、最適なリンケージ方法がどのように決定されるのですか?私は現在、使用していますWardが、私が使用してするかどうか私は知らないsingle、complete、average、など? 私はこのようなものに非常に新しいですが、私は1つが確かではないので、オンラインで明確な答えを見つけることができません。それでは、私のアプリケーションにとって良いアイデアは何でしょうか?n x mマトリックスに多くのゼロがあるという意味で、データは比較的まばらであることに注意してください(ほとんどの人は、数件以上の投稿にコメントしません)。

2
教師あり学習、教師なし学習、強化学習:ワークフローの基本
教師あり学習 1)人間が入力データと出力データに基づいて分類器を構築する 2)その分類器はデータのトレーニングセットでトレーニングされます 3)その分類器はデータのテストセットでテストされます 4)出力が満足できる場合の展開 「このデータを分類する方法を知っているので、ソートするためにあなた(分類器)が必要なだけ」の場合に使用します。 メソッドのポイント:ラベルをクラス分けするか、実数を生成する 教師なし学習 1)人間は入力データに基づいてアルゴリズムを構築します 2)そのアルゴリズムは、データのテストセット(アルゴリズムが分類子を作成する)でテストされます。 3)分類子が満足できる場合の展開 「このデータを分類する方法がわからない場合、アルゴリズムを使用して分類子を作成できますか?」 方法のポイント:ラベルを分類する、または予測する(PDF) 強化学習 1)人間は入力データに基づいてアルゴリズムを構築します 2)そのアルゴリズムは、ユーザーがアルゴリズムが行ったアクションを介してアルゴリズムに報酬を与えるか罰する入力データに依存する状態を提示します。これは時間とともに継続します 3)そのアルゴリズムは報酬/罰から学び、それ自体を更新します、これは続きます 4)常に本番環境にあり、州からのアクションを提示できるように実際のデータを学習する必要があります 「このデータを分類する方法がわかりません。このデータを分類してもらえますか。それが正しい場合は報酬を、そうでない場合は罰します。」 これはこれらのプラクティスの種類の流れですか、彼らが何をするかについて多くを聞きますが、実用的で模範的な情報は驚くほど少ないです!

5
統計と機械学習の2つのグループを区別する:仮説検定対分類対クラスタリング
AとBというラベルの付いた2つのデータグループ(それぞれ200個のサンプルと1つの機能を含むなど)があり、それらが異なるかどうかを知りたいとします。私はできた: a)統計的検定(t検定など)を実行して、統計的に異なるかどうかを確認します。 b)教師付き機械学習を使用します(サポートベクトル分類子またはランダムフォレスト分類子など)。データの一部でこれをトレーニングし、残りの部分で検証できます。機械学習アルゴリズムがその後残りを正しく分類する場合、サンプルが微分可能であると確信できます。 c)教師なしアルゴリズム(K-Meansなど)を使用して、すべてのデータを2つのサンプルに分割します。次に、これらの2つのサンプルがラベルAとBに一致するかどうかを確認できます。 私の質問は: これら3つの異なる方法はどのように重複/排他的ですか? b)とc)は科学的な議論に役立ちますか? 方法b)とc)のサンプルAとBの違いの「有意性」を取得するにはどうすればよいですか? データに1つの機能ではなく複数の機能がある場合、何が変わりますか? サンプル数が異なる場合、たとえば100対300の場合はどうなりますか?


5
各クラスターのポイント数が等しいクラスタリング手順?
にいくつかのポイントがあり、ポイントをクラスター化して次のようにします。X={x1,...,xn}X={x1,...,xn}X=\{x_1,...,x_n\}RpRpR^p 各クラスターには、等しい数のの要素が含まれます。(クラスターの数が分割すると仮定します。)XXXnnn 各クラスターは、平均のクラスターのように、ある意味で「空間的に凝集」しています。kkk これらのいずれかを満たす多くのクラスタリング手順を考えるのは簡単ですが、誰もが両方を一度に取得する方法を知っていますか?

3
毎日の時系列分析
私は時系列分析を行おうとしており、この分野は初めてです。2006年から2009年までのイベントを毎日数えており、時系列モデルをそれに合わせたいと考えています。これが私が達成した進歩です。 timeSeriesObj = ts(x,start=c(2006,1,1),frequency=365.25) plot.ts(timeSeriesObj) 結果のプロットは次のとおりです。 データに季節性と傾向があるかどうかを確認するには、この投稿に記載されている手順に従います。 ets(x) fit <- tbats(x) seasonal <- !is.null(fit$seasonal) seasonal そしてロブ・J・ハインドマンのブログで: library(fma) fit1 <- ets(x) fit2 <- ets(x,model="ANN") deviance <- 2*c(logLik(fit1) - logLik(fit2)) df <- attributes(logLik(fit1))$df - attributes(logLik(fit2))$df #P value 1-pchisq(deviance,df) どちらの場合も、季節性がないことを示しています。 シリーズのACFとPACFをプロットすると、次のようになります。 私の質問は: これは、毎日の時系列データを処理する方法ですか?このページは、週ごとと年ごとのパターンを検討する必要があることを示唆していますが、そのアプローチは明確ではありません。 ACFプロットとPACFプロットを取得した後、どのように進めるかわかりません。 auto.arima関数を単純に使用できますか? fit <-arima(myts、order = c(p、d、q) ***** Auto.Arimaの結果を更新****** ここでRob Hyndmanのコメントに従ってデータの頻度を7に変更すると、auto.arimaは季節ARIMAモデルを選択して出力します。 …

3
教師付きクラスタリングまたは分類?
2番目の質問は、Web上のどこかで「教師ありクラスタリング」について話している議論で見つけたということです。私が知る限り、クラスタリングは教師なしです。「分類」に関する違いは何ですか? それについて話している多くのリンクがあります: http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf など...


3
トレーニングとして肯定的なケースのみで結果を予測する方法は?
簡単にするために、スパム/非スパム電子メールの典型的な例に取り組んでいるとしましょう。 20000通のメールがあります。これらのうち、2000年はスパムであることは知っていますが、スパムではないメールの例はありません。残りの18000がスパムかどうかを予測したいと思います。理想的には、私が探している結果は、電子メールがスパムである確率(またはp値)です。 この状況で賢明な予測を行うために、どのアルゴリズムを使用できますか? 現時点では、距離ベースの方法で、自分のメールが既知のスパムメールにどれだけ似ているかを考えています。どのようなオプションがありますか? より一般的には、教師あり学習方法を使用できますか、それを行うためにトレーニングセットに否定的なケースが必要になる必要がありますか?教師なし学習アプローチに限定されていますか?半教師あり方法はどうですか?

2
半教師あり学習の多様な仮定とは何ですか?
半教師あり学習における多様な仮定の意味を理解しようとしています。誰でも簡単に説明できますか?私はその背後にある直感をつかむことができません。 データは、高次元の空間に埋め込まれた低次元の多様体上にあると言います。意味がわかりませんでした。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.