タグ付けされた質問 「unsupervised-learning」

次元削減のためのクラスタリングおよび特徴抽出を含む、ラベルのないデータの非表示(統計)構造の検索。

1
遠隔監視:監視あり、半監視、またはその両方?
「遠隔監視」とは、弱くラベル付けされたトレーニングセットが与えられると分類器が学習される学習スキームです(トレーニングデータはヒューリスティック/ルールに基づいて自動的にラベル付けされます)。ラベル付きデータがヒューリスティック/自動ラベル付けされている場合、教師あり学習と半教師あり学習の両方にこのような「遠隔監視」を含めることができると思います。ただし、このページでは、「遠隔監視」は「半監視学習」と定義されます(つまり、「半監視」に限定されます)。 私の質問は、「遠隔監視」はもっぱら準監視を指しているのでしょうか?私の意見では、教師あり学習と半教師あり学習の両方に適用できます。信頼できる参照があれば提供してください。


4
階層的クラスタリングの欠点を理解する方法は?
誰かが階層的クラスタリングの長所と短所を説明できますか? 階層的クラスタリングには、Kの意味と同じ欠点がありますか? 階層的クラスタリングのKを超える利点は何ですか? 階層的クラスタリングに対してKを使用する場合、およびその逆の場合はいつですか? この投稿への回答では、kの欠点が非常によく説明されています。 K-meansの欠点を理解する方法

4
勾配ブースティングマシンの精度は、反復回数が増えると低下します
caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。 小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 


3
データブレンドとは
この用語は、メソッド関連のスレッドで頻繁に使用されます。 されたブレンドデータマイニングと統計的学習における具体的な方法を?Googleから関連する結果を取得できません。 ブレンディングは多くのモデルの結果を混合し、より良い結果をもたらしているようです。それについてもっと知るのに役立つリソースはありますか?

4
人工ニューラルネットワークとは何ですか?
ニューラルネットワークの文献を詳しく調べると、ニューロモーフィックトポロジ(「ニューラルネットワーク」のようなアーキテクチャ)を使用した他の方法を特定することができます。そして、私は普遍近似定理について話していません。以下に例を示します。 それから、不思議に思う:人工ニューラルネットワークの定義は何ですか?そのトポロジーはすべてをカバーしているように見えます。 例: 最初に行う識別の1つは、PCAと、エンコーダーとデコーダーの結合重みとボトルネックレイヤーのしきい値付きアクティブ化を備えた線形オートエンコーダーの間です。 また、線形モデル(特別なロジスティック回帰)と、非表示層および単一の出力層のないニューラルネットワークとの間で共通の識別が行われます。この識別はいくつかの扉を開きます。 フーリエ級数とテイラー級数?ANN。SVM?ANN。ガウス過程?ANN(無限の非表示ユニットを持つ単一の非表示レイヤー)。 そのため、同様に簡単に、これらのアルゴリズムの特殊な損失関数を持つ任意の正規化バージョンをニューラルネットワークフレームワークに組み込むことができます。 しかし、掘り下げるほど、より多くの類似点が現れます。Deep Neural Decision Treesに出会ったところです。これにより、ディシジョンツリーを使用して特定のANNアーキテクチャを識別し、ANNメソッド(勾配降下逆伝搬など)で学習できるようになりました。これから、ニューラルネットワークトポロジのみからランダムフォレストと勾配ブーストディシジョンツリーを構築できます。 すべてを人工ニューラルネットワークとして表現できる場合、人工ニューラルネットワークを定義するものは何ですか?

3
非負行列因子分解で潜在因子の最適数を選択する方法は?
行列の所与Vm×nVm×n\mathbf V^{m \times n}、非負行列因子分解(NMF)は、2つの非負行列発見Wm×kWm×k\mathbf W^{m \times k}及びHk×nHk×n\mathbf H^{k \times n}(すなわち、すべての要素と≥0≥0\ge 0)として分解行列を表します。 V≈WH,V≈WH,\mathbf V \approx \mathbf W\mathbf H, WW\mathbf WHH\mathbf H∥ V−WH∥2.‖V−WH‖2。\|\mathbf V-\mathbf W\mathbf H\|^2. NMFで数値を推定する一般的な方法はありますか?たとえば、そのためにクロス検証をどのように使用できますか?kkk

4
クラスターの形状を測定する方法は?
この質問は明確に定義されていないことを知っていますが、一部のクラスターは楕円形であるか、低次元空間にあり、他のクラスターは非線形の形状をしています(2Dまたは3Dの例)。 クラスターの非線形性(または「形状」)の尺度はありますか? 2Dおよび3D空間では、クラスターの形状を見るのは問題ではありませんが、より高次元の空間では形状について何かを言うことは問題です。特に、凸クラスターがどの程度であるかの尺度はありますか? 私はこの質問に対して、人々がクラスターについて話すが、それらを見ることができない他の多くのクラスター化の質問に触発されました(高次元の空間で)。さらに、2D曲線には非線形性の尺度がいくつかあることを知っています。

3
分類にT-SNEを使用してハイパーパラメーターを選択する
私が取り組んでいる特定の問題(競合)には、次の設定があります:21の機能([0,1]の数値)とバイナリ出力。約100 Kの行があります。設定は非常に騒々しいようです。 私と他の参加者はしばらくの間機能生成を適用し、この設定ではt分布の確率的近傍埋め込みがかなり強力であることが判明しました。 私はこの記事「t-SNEを効果的に使用する方法」に出くわしましたが、それでも分類の設定で最適なハイパーパラメーターを選択する方法について結論を出すことはできません。 経験則(特徴の数、埋め込みの次元->困惑の選択)はありますか? さまざまな設定を繰り返すのに時間がかかりすぎるため、現時点ではアドホック設定を適用します。コメントありがとうございます。

4
データセットのランダムサブサンプルを使用してK平均センターを初期化していますか?
特定のデータセットがある場合、そのデータセットのランダムサンプルを使用してクラスターセンターを初期化するのはどれくらい賢明でしょうか。 たとえば、が欲しいとし5 clustersます。私は取る5 random samples、と言うのsize=20%元のデータセットで。次に、これら5つのランダムサンプルのそれぞれの平均を取り、それらの平均を5つの初期クラスターセンターとして使用できますか?私はこれをどこで読んだのか分かりませんが、皆さんがアイデアについてどう思うか知りたいと思いました。 更新:このスレッドを参照してくださいK-meansクラスタリングの初期化:既存のメソッドは何ですか?さまざまな初期化方法についての一般的な議論。

1
遠隔監視、自己訓練、自己監視学習、および弱い監視の間に違いはありますか?
私が読んだことから: 遠隔監督: A Distant supervision algorithm usually has the following steps: 1] It may have some labeled training data 2] It "has" access to a pool of unlabeled data 3] It has an operator that allows it to sample from this unlabeled data and label them and this operator is …

4
交差検証により、グラウンドトゥルースのないデータセット上のさまざまなクラスタリング手法を比較できますか?
現在、根拠のないテキストドキュメントデータセットを分析しようとしています。k分割交差検証を使用して、さまざまなクラスタリング手法を比較できると言われました。ただし、私が過去に見た例では、グラウンドトゥルースを使用しています。このデータセットでk-fold平均を使用して結果を検証する方法はありますか?

2
DDoSフィルタリングに機械学習を適用する
でスタンフォード大学の機械学習コースのAndrew NgがITでMLを適用述べました。しばらくして、私たちのサイトで中程度のサイズ(約2万ボット)のDDoSを取得したとき、単純なニューラルネットワーク分類子を使用してそれと戦うことにしました。 私は約30分でこのpythonスクリプトを書きました:https : //github.com/SaveTheRbtz/junk/tree/master/neural_networks_vs_ddos pyBrainを使用し、3つのnginxログを入力として受け取ります。そのうち2つはニューラルネットワークをトレーニングするために使用します。 良いクエリで 悪いものと そして分類のための1つのログ 悪いクエリから。 0.0.0.0 - - [20/Dec/2011:20:00:08 +0400] "POST /forum/index.php HTTP/1.1" 503 107 "http://www.mozilla-europe.org/" "-" ...そして、良いです... 0.0.0.0 - - [20/Dec/2011:15:00:03 +0400] "GET /forum/rss.php?topic=347425 HTTP/1.0" 200 1685 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; pl; rv:1.9) Gecko/2008052906 Firefox/3.0" ...辞書を作成します: ['__UA___OS_U', '__UA_EMPTY', '__REQ___METHOD_POST', '__REQ___HTTP_VER_HTTP/1.0', '__REQ___URL___NETLOC_', …

5
名目変数/循環変数のSOMクラスタリング
名目上の入力のクラスタリングに精通している人がいるかどうか疑問に思っています。私はソリューションとしてSOMを検討してきましたが、どうやらそれは数値機能でのみ機能します。カテゴリ機能の拡張機能はありますか?具体的には、「Days of the Week」が可能な機能として考えていました。もちろん、数値特徴に変換することも可能です(つまり、月-日が1〜7に対応)。ただし、太陽と月(1&7)の間のユークリッド距離は、月から火(1&2)までの距離と同じではありません。 )。どんな提案やアイデアも大歓迎です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.