タグ付けされた質問 「feature-extraction」

変数または(予測または説明に使用される)回帰または回帰のようなモデル(クラスタリング、判別のような)で使用されます。このタグを使用して、そのような変数の作成またはそれらの中から最適な変数を選択することについて質問します。

3
画像からの教師なし特徴抽出にGANを使用する方法
2つのネットワーク(生成的および識別的)が互いに競合する間、GANがどのように機能するかを理解しました。私はDCGAN(たたみ込み弁別器とたたみ込みジェネレーターを備えたGAN)を構築しました。これにより、MNISTデータセットと同様の手書き数字が正常に生成されます。 画像から特徴を抽出するためのGANのアプリケーションについては、たくさん読んだことがあります。トレーニングされたGANモデル(MNISTデータセット上)を使用して、MNIST手書きのdigist画像から特徴を抽出するにはどうすればよいですか?

1
たたみ込み層は通常のたたみ込みネットワークとどのように異なりますか?
現在、この論文の結果を再現する作業をしています。この論文では、特徴抽出にCNNを使用する方法について説明し、RBNを使用して事前トレーニングされたDnn-hmmの音響モデルを使用しています。 セクションIIIサブセクションAは、入力データを表すことができるさまざまな方法を述べています。静的、デルタ、デルタデルタのスペクトルプロットを縦に積み重ねることにしました。 したがって、次のようになります。 その後、ネットワークはどうあるべきかを説明します。彼らは畳み込みネットワークを使用すると述べていますが、ネットワークの構造については何もありませんか?さらに、ネットワークは常に畳み込み層と呼ばれますか?通常のネットワーク畳み込みニューラルネットワーク(cnn)と比較して、違いがあると思います。 ペーパーは違いに関してこれを述べます: (セクションIIIサブセクションBから) ただし、畳み込み層は、2つの重要な点で標準の完全に接続された非表示層とは異なります。まず、各畳み込み単位は、入力のローカル領域からのみ入力を受け取ります。これは、各単位が入力のローカル領域のいくつかの特徴を表すことを意味します。第2に、畳み込み層の単位自体をいくつかの特徴マップに編成できます。同じ特徴マップ内のすべての単位は同じ重みを共有しますが、下位層の異なる場所から入力を受け取ります 私が不思議に思っていたもう1つのことは、dnn-hmm音響モデルに供給するために必要な出力パラメーターの数が実際に紙に記述されているかどうかです。フィルターの数、フィルターのサイズなど、ネットワークの一般的な詳細をデコードできないようです。


3
通常、RNNにはCNNよりも隠れ層が少ないのはなぜですか?
CNNは何百もの隠れ層を持つことができ、それらはしばしば画像データで使用されるため、多くの層を持つとより複雑になります。 ただし、私が見た限りでは、RNNには通常、2〜4などのいくつかのレイヤーがあります。たとえば、心電図(ECG)の分類では、4層のLSTMと10〜15層のCNNを使用した論文で同様の結果が得られました。 これは、RNN / LSTMが(勾配消失の問題により)より深い場合、トレーニングが難しくなるためか、RNN / LSTMがシーケンシャルデータをすばやくオーバーフィットする傾向があるためですか?

2
2つのWord2vecベクトルを平均して単一の単語の統一表現を取得する
Word2vecアルゴリズムのトレーニング済みデータに取り組んでいます。元の状態を保つには単語が必要なので、前処理段階では単語を小文字にしません。したがって、異なるバリエーションの単語があります(たとえば、「地球」と「地球」)。 私が考えることのできる唯一の方法は、「地球」と「地球」のベクトルを平均して、単語を表す単一のベクトルを作成することです。(特徴ベクトルの次元は類似しているため) これは「大丈夫」な方法ですか?そうでない場合、この問題を処理するための良い方法は何でしょうか? 注:前処理ですべての単語を下げることは、現時点ではオプションではありません。 編集:フィーチャの寸法が本当に直線的であるかどうかに関する情報も役立ちます。 編集2:両方からの回答を組み合わせるpatapouf_aiとyazhi最良の結果が得られました。これらはどのように組み合わされますか?加重平均は結果を改善しましたが、スケーリングされたシグモイド関数に単語の頻度を置くと、単語の頻度を線形的に使用することで、単語の頻度よりも重要度が高くなるため、最良の結果が得られました。

1
ドキュメント分類:機能フィルタリングの前または後のtf-idf?
文書分類プロジェクトで、サイトのコンテンツを取得し、コンテンツに応じて多数のラベルの1つをWebサイトに割り当てています。 これにはtf-idfが非常に役立つことがわかりました。しかし、それをいつ使うべきか正確には分かりませんでした。 特定のトピックに関連するウェブサイトが繰り返し言及していると仮定すると、これは私の現在のプロセスでした: サイトのコンテンツを取得し、プレーンテキストを解析する コンテンツの正規化とステム トークン化してユニグラムにします(おそらくバイグラムも) 指定されたドキュメントの各ユニグラムの数を取得し、長さが短く出現頻度の低い単語をフィルタリングします 結果セットでNaiveBayesなどの分類子をトレーニングします 私の質問は次のとおりです:tf-idfはここにどこに適合しますか?正規化/ステミングの前に?正規化後、トークン化前?トークン化した後? どんな洞察もいただければ幸いです。 編集: よく調べてみると、TF-IDFの動作について誤解していたのではないかと思います。上記のステップ4 で、データ全体を一度にTF-IDF にフィードする必要がありますか?たとえば、私のデータが次のような場合: [({tokenized_content_site1}, category_string_site1), ({tokenized_content_site2}, category_string_site2), ... ({tokenized_content_siten}, category_string_siten)}] ここで、最も外側の構造は、タプルを含み、辞書(またはハッシュマップ)と文字列を含むリストです。 私が養うために必要があります全体所望の効果を達成するために、一度にTF-IDFの計算にそのデータのか?具体的には、これを行うためにscikit-learn TfidfVectorizerを検討してきましたが、例がかなりまばらなので、その使用については少しわかりません。

4
散布図からの特徴抽出
次のような散布図があるとします。 私はこのような散布図をたくさん持っているので(x,y)、NNに入力するために特徴変換、つまり単一の用語でスカッシュを実行したいと思います。どのタイプの変換x/y、(x/y)^2または他の変換がこのタイプのグラフで最も効果的に機能するか、つまり、単一の項に押しつぶしながら分離をさらに増やします。


1
機能を抽出し、監視ツールからのアラートメールを適切なカテゴリに分類する方法
私の会社は多くのクライアントにマネージドサービスを提供しています。お客様は通常、次の監視ツールを使用してサーバー/ウェブアプリを監視します。 OpsView ナギオス Pingdom カスタムシェルスクリプト 問題が見つかると、Opsチームにアラートメールが送信され、問題を修正するためのアクションが行われます。 何千ものサーバーを管理しているため、運用チームの受信トレイは常に電子メールアラートで溢れています。カスケード効果がある単一の問題でも、20〜30通の電子メールをトリガーできます。 今、私がやりたいのは、サーバーのIPアドレス、問題のタイプ、問題の重大度などのアラート電子メールから重要な機能を抽出し、電子メールを適切なカテゴリに分類できるシステムを実装することです。CPU-Load-Customer1-Server2, MySQL-Replication-Customer2-DBServer3その後、運用チームが問題をより迅速に修正できるように、各カテゴリに対して事前に定義された一連のデバッグ手順を用意します。また、機能エクストラクタは、問題の入力データをチームに提供します。 これまでのところ、教師付き学習手法、つまりラベル付きトレーニングデータ(クラスターデータ)でNaiveBayesClassifierをトレーニングし、新しい未確認のメールを適切なクラスター/カテゴリに分類できました。電子メールは特定のテンプレートに基づいているため、分類子の精度は非常に高くなります。ただし、カスタムスクリプトからアラートメールを受信することもあるので、テンプレートに従っていない可能性があります。そこで、教師あり学習ではなく、教師なし学習を試したいと思います。KMeansクラスタリングを調べています。しかし、やはり問題は、事前にクラスターの数がわからないことです。では、この使用例に最適なアルゴリズムはどれですか?現在、分類にはPythonのTextBlobライブラリを使用しています。 また、アラートメールから機能を抽出するために、NLTK(http://www.nltk.org/book/ch07.html)ライブラリを調べています。試してみましたが、適切な英語のパラグラフ/テキストでうまく機能するようですが、アラートメールの場合は、多くの不要な機能が抽出されました。同じための既存のソリューションはすでにありますか?そうでない場合、同じものを実装するための最良の方法は何ですか?どのライブラリ、どのアルゴリズムですか? PS:私はデータサイエンティストではありません。 メールの例: PROBLEM: CRITICAL - Customer1_PROD - Customer1_PROD_SLAVE_DB_01 - CPU Load Avg Service: CPU Load Avg Host: Customer1_PROD_SLAVE_DB_01 Alias: Customer1_PROD_SLAVE_DB_01 Address: 10.10.0.100 Host Group Hierarchy: Opsview > Customer1 - BIG C > Customer1_PROD State: CRITICAL Date & Time: Sat …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.