タグ付けされた質問 「unsupervised-learning」

次元削減のためのクラスタリングおよび特徴抽出を含む、ラベルのないデータの非表示(統計)構造の検索。

1
xgboostがsklearn GradientBoostingClassifierよりもずっと速いのはなぜですか?
私は、100個の数値特徴を備えた50kの例で勾配ブースティングモデルをトレーニングしようとしています。XGBClassifier一方、私のマシンで43秒以内に、ハンドル500本の木、GradientBoostingClassifierハンドルのみ10樹木(!)1分2秒:(私は気にしませんでしたでは、それは時間がかかるだろうと500本の木を育てるしようとしている。私は、同じ使用していますlearning_rateし、max_depth設定を、 下記参照。 XGBoostがこれほど速くなったのはなぜですか?sklearnの人が知らない勾配ブースティングのためのいくつかの新しい実装を使用していますか?それとも、「角を切り」、より浅い木を育てるのですか? PS私はこの議論を知っています:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyが、そこに答えを得ることができませんでした... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 


2
サポートベクターマシンにはどのような学習問題が適していますか?
サポートベクターマシンを使用して特定の学習問題に取り組むことができることを示す特徴または特性は何ですか? 言い換えれば、学習の問題を見ると、ニューラルネットワークやデシジョンツリーなどではなく、「これには間違いなくSVMを使用する必要があります」ということになります。

5
シーボーンヒートマップを大きくする
corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

3
制限付きボルツマンマシン(RBM)の背後にある直感
CourseraのGeoff HintonのNeural Networksコースを受講し、制限付きボルトマンのマシンを紹介しましたが、RBMの背後にある直感を理解していませんでした。 このマシンでエネルギーを計算する必要があるのはなぜですか?そして、このマシンでの確率の使用は何ですか?このビデオも見ました。ビデオでは、計算ステップの前に確率とエネルギーの方程式を書いただけで、どこでも使用するようには見えませんでした。 上記に加えて、尤度関数が何のためにあるのか分かりませんか?

4
word2vecを使用して目に見えない単語を識別し、それらをすでにトレーニングされたデータに関連付ける方法
私はword2vec gensimモデルに取り組んでいて、それが本当に面白いと思いました。私は、モデルでチェックしたときに未知の/目に見えない単語が、トレーニングされたモデルから同様の用語を取得できる方法を見つけることに興味があります。 これは可能ですか?これのためにword2vecを微調整できますか?または、トレーニングコーパスには、類似性を見つけたいすべての単語が必要です。

3
画像からの教師なし特徴抽出にGANを使用する方法
2つのネットワーク(生成的および識別的)が互いに競合する間、GANがどのように機能するかを理解しました。私はDCGAN(たたみ込み弁別器とたたみ込みジェネレーターを備えたGAN)を構築しました。これにより、MNISTデータセットと同様の手書き数字が正常に生成されます。 画像から特徴を抽出するためのGANのアプリケーションについては、たくさん読んだことがあります。トレーニングされたGANモデル(MNISTデータセット上)を使用して、MNIST手書きのdigist画像から特徴を抽出するにはどうすればよいですか?

3

2
線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。 私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression?上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか?決定を下すためにデータセットを調べる必要がある特性は何ですか?そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression?
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 

2
CNNをオートエンコーダとしてトレーニングすることには意味がありますか?
私は脳波データの分析に取り組んでいますが、最終的には分類する必要があります。ただし、レコーディングのラベルを取得するにはいくらか費用がかかるため、非常に大量のラベルなしデータをより適切に利用するために、教師なしアプローチを検討するようになりました。 これは当然、スタックオートエンコーダの検討につながりますが、これは良いアイデアかもしれません。ただし、畳み込みニューラルネットワークを使用することも意味があります。これは、何らかのフィルタリングがEEGに対して非常に有用なアプローチであり、考慮されるエポックが全体ではなくローカルで分析される必要があるためです。 2つのアプローチを組み合わせる良い方法はありますか?人々がCNNを使用するとき、彼らは一般的に教師付きトレーニングを使用しているようです、または何ですか?私の問題についてニューラルネットワークを探索することの2つの主な利点は、教師なしの側面と微調整であるようです(たとえば、人口データにネットワークを作成し、次に個人を微調整することは興味深いでしょう)。 それで、CNNが「不自由な」オートエンコーダであるかのようにCNNを事前トレーニングできるのか、それとも無意味なのか、誰かが知っていますか? たとえば、深い信念ネットワークなど、他のアーキテクチャを検討する必要がありますか?

2
オートエンコーダーをクラスタリングにどのように使用できますか?
ラベルのない時間領域信号のセットがあるとします。それらを2つまたは3つのクラスにクラスター化したい。オートエンコーダーは、入力の圧縮を学習する監視なしネットワークです。したがって、入力、重みと、バイアスと、および出力を指定すると、次の関係が見つかります。x(i)x(i)x^{(i)}W1W1W_1W2W2W_2b1b1b_1b2b2b_2x^(i)x^(i)\hat{x}^{(i)} z(i)=W1x(i)+b1z(i)=W1x(i)+b1z^{(i)} =W_1x^{(i)}+b_1 x^(i)=W2z(i)+b2x^(i)=W2z(i)+b2\hat{x}^{(i)} =W_2z^{(i)}+b_2 したがって、は圧縮形式であり、は後者の再構成です。ここまでは順調ですね。z(i)z(i)z^{(i)}x(i)x(i)x^{(i)}x^(i)x^(i)\hat{x}^{(i)} 私が理解していないのは、これをクラスタリングに使用する方法です(それを行う方法がある場合)。たとえば、このペーパーの最初の図には、よくわからないブロック図があります。フィードフォワードネットワークへの入力としてを使用しますが、そのネットワークのトレーニング方法については言及されていません。私が無視しているものがあるのか​​、それとも論文が不完全なのかわかりません。また、最後のこのチュートリアルは、オートエンコーダーによって学習された重みを示しています。これらは、CNNが画像を分類するために学習するカーネルのようです。ですから...オートエンコーダの重みは、フィードフォワードネットワークで分類のためになんらかの方法で使用できると思いますが、その方法はわかりません。z(i)z(i)z^{(i)} 私の疑問は: もし長さの時間領域信号である(すなわち、X ^ {(I)} \で\ mathbb {R} ^ {1 \回N} )、缶Z ^ {(I)}ベクトルだけでも?換言すれば、それはのための理にかなっている^ {(I)} Zことがマトリックスよりもその寸法が大きいのいずれかで1?そうではないと思いますが、確認したいだけです。x(i)x(i)x^{(i)}NNNx(i)∈R1×Nx(i)∈R1×Nx^{(i)}\in\mathbb{R}^{1\times N}z(i)z(i)z^{(i)}z(i)z(i)z^{(i)}111 これらの量のどれが分類器への入力になりますか?たとえば、信号を分類したいクラスと同じ数の出力ユニットを持つ従来のMLPを使用したい場合、この完全に接続されたネットワークの入力(z(i)z(i)z^{(i)}、x^(i)x^(i)\hat{x}^{(i)}、他のもの)? このMLPで学習した重みとバイアスをどのように使用できますか?使用可能なラベルは絶対にないと想定しているため、ネットワークをトレーニングすることは不可能です。学習したとは、完全に接続されたネットワークで何らかの形で役立つはずですが、それらの使用方法はわかりません。WiWiW_ibibib_i 観察:MLPは最も基本的なアーキテクチャであるため、例としてMLPを使用したことに注意してください。ただし、質問は、時間領域信号の分類に使用できる他のすべてのニューラルネットワークに適用されます。

2
高次元データのクラスタリング
TL; DR:ラベル付けされていないデータの大きな画像データセット(生のピクセルが約36 GiB)がある場合、K最初にクラスターの数を知らずに(ピクセル値に基づいて)画像をクラスター化するにはどうすればよいですか? 私は現在、画像をクラスター化するための教師なし学習プロジェクトに取り組んでいます。16x16x3のRGBピクセル値でMNISTをクラスタリングすると考えてください。クラスタリングする必要があるのは約4800万の例だけです。それらのアイデンティティを知らなくても、一部の画像は同じソースからのものであるため、確実に関連していることはわかりますが、たとえばK、セットでK平均法を「ただ」実行するための適切な方法もまだわかりません。 t-SNEを使用して手動の2D埋め込みを実行し、埋め込みスペースで手動でクラスター化することを考えていました(16x16x3-d で手動で実行するよりも簡単なタスク)。ただし、すべてのt-SNE実装で、データをメモリにロードする必要がありました。最初にt-SNEを実行し、次にt-SNE埋め込みデータでK-meansを実行することも考えましたが、MNISTからのt-SNEの結果を見ると、これらのクラスターが歪んでいる可能性があり、歪んでいる可能性があることは明らかです非線形の方法で。したがって、私がを知っていたKとしても、クラスターはおそらく分割されます。K平均にマハラノビス距離を使用することは興味深いかもしれませんが、そもそも共分散がわからないので、これも行き止まりのようです。 現在、サンプルでPCA圧縮を実行して、少なくともt-SNEのメモリをいくらか取り戻すことができるかどうかを試していますが、それが機能する場合と機能しない場合があります。 誰かが私にこれを行うための正しい方向へのポインタを与えることができますか(理想的には、Python、TensorFlow、またはApache Beam / Dataflowコンテキストでは必ずしも必要ではありません)?私は少し前にストリーミング/ボールK-meansの移植に取り組んでいましたが、「オンデマンド」で新しいクラスターを作成するという優れた特性がありますが、それをPython / TensorFlow / Dataflowに再び実装する前に、誰かができることを望んでいましたどこから始めるべきか、何を避けるべきか、いくつかのアイデアを教えてください。

1
見込み客の採点モデルのアイデア
クライアントに転向する可能性が高い見込み顧客(企業)を特定するためのモデルについて考えなければならないのですが、どのようなモデルが有用かについてのアドバイスを探しています。 私は私の知る限り、ある必要がありますデータベースは、(私はそれらをまだ持っていない)list of current clients(換言すれば、converted prospectsその機能()とsize、revenue、age、location、および、そのようなもの)list of prospects私はスコアに持っている(ということ)とその機能。ただし、以前は見込み客でしたが、クライアントへの変換に失敗した企業のリストはありません(もしそうだった場合は、ランダムフォレストを選択できたと思います。もちろん、ランダムフォレストを使用しますが、2つのデータベースの結合でランダムフォレストを実行し、クライアントをconverted見込み顧客として扱うことは悪い考えだと思いますnon-converted...) ですから、見込み客のリストから、既存のクライアントのように見える人を見つける必要があります。それにはどのようなモデルを使用できますか? (「クライアントの価値を評価し、これを同様の見込み客に適用する」、「各見込み客が廃業する可能性を評価する」などの点についても検討して、スコアリングの価値をさらに絞り込みますが、それはちょっと私の質問の範囲外です)。 ありがとう

3
これらの異常値を検出できる異常値検出はどれですか。
ベクトルがあり、その中の異常値を検出したい。 次の図は、ベクトルの分布を示しています。赤い点は異常値です。青い点は通常の点です。イエローポイントも正常です。 赤い点を異常値として検出できる異常値検出方法(ノンパラメトリック手法)が必要です。IQR、標準偏差などの方法をテストしましたが、黄色の点も異常値として検出されました。 赤い点だけを検出するのは難しいことはわかっていますが、この問題を解決する方法(方法の組み合わせも含む)があるはずだと思います。 ポイントは、1日のセンサーの読み取り値です。ただし、システムの再構成により、センサーの値は変化します(環境は静的ではありません)。再構成の時期は不明です。青い点は再構成前の期間です。黄色の点は、再構成後の値で、読み取り値の分布に偏差を引き起こします(正常です)。赤い点は、黄色い点を違法に変更した結果です。つまり、検出すべき異常です。 カーネル平滑化関数の推定( 'pdf'、 'survivor'、 'cdf'など)が役立つかどうか疑問に思っています。問題を解決するためのコンテキストで使用する主な機能(または他のスムージング方法)と正当化について誰かが助けになりますか?

6
高次元バイナリスパースデータのクラスタリングアルゴリズム
以下のような10,000遺伝子のデータセットがあります person gene1 gene2 ... gene10000 ethnic 1 0 1 1 asian 2 1 0 1 European 各行は、人がDNAに遺伝子を持っているかどうかを意味します。上記のデータに基づいて、さまざまな民族グループを分類しようとしています。しかし、最初にいくつかのクラスタリングアルゴリズムを使用して、さまざまな民族グループのクラスターがどのように見えるかを視覚化したいと思います。このクラスタリングアルゴリズムを使用してグループを分類することはありません。適切な個別のクラスターや重複するクラスターなどがある場合、それがどのように見えるかを視覚化するためだけに使用されます。 このタイプのデータセットには、いくつかのクラスタリングアルゴリズムをお勧めします。また、次元は10000です。これはクラスタリングの問題になるのでしょうか?最初にいくつかの次元削減アルゴリズムを使用する必要がありますか?もしそうなら、あなたの推奨事項を教えてください。前もって感謝します。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.