データサイエンス

データサイエンスの専門家、機械学習の専門家、およびこの分野に関する知識が豊富な方へ

4
歪んだマルチクラスデータ
50クラスの約100,000サンプルを含むデータセットがあります。新しいデータをトレーニングして予測するために、RBFカーネルでSVMを使用しています。ただし、データセットが異なるクラスに偏っていることが問題です。 たとえば、クラス1-30(それぞれ〜3%)、クラス31-45(それぞれ〜0.6%)、クラス46-50(それぞれ〜0.2%) テストセットがトレーニングセットと同じクラス分布を持っている場合でも、モデルがトレーニングセットであまり頻繁に発生しないクラスを予測することはほとんどありません。 過半数のクラスをマイナークラスに縮小する「アンダーサンプリング」などの手法があることを知っています。しかし、これは非常に多くの異なるクラスがある場合にここで適用できますか?このケースを処理するのに役立つ他の方法はありますか?


3
精度と再現率の逆の関係
精度と再現率を学習するために検索を行ったところ、一部のグラフが精度と再現率の逆関係を表していることがわかり、主題を明確にするためにそれについて考え始めました。逆の関係が常に成り立つのだろうか?バイナリ分類の問題があり、ポジティブとネガティブのラベル付きクラスがあるとします。トレーニング後、実際のポジティブな例のいくつかは真のポジティブとして予測され、それらのいくつかは偽陰性であり、実際のネガティブの例のいくつかは真のネガティブとして予測され、いくつかはそれらの偽陽性です。精度を計算して再現するために、次の式を使用します および偽陰性を減らすと真陽性が増加し、その場合はそうしませんt精度と再現率の両方が増加しますか?PR E 、C 、I S I O N =TPTP+ FPPrecision=TPTP+FPPrecision = \frac{TP}{TP + FP}R e c a l l =TPTP+ FNRecall=TPTP+FNRecall = \frac{TP}{TP + FN}

2
word2vecまたはGloVeに2つの行列が必要な理由
Word2vecとGloVeは、最もよく知られている2つの単語埋め込み方法です。多くの研究は、これらの2つのモデルは実際には互いに非常に接近しており、いくつかの仮定の下では、コーパス内の単語の共起のppmiの行列因数分解を実行することを指摘しました。 それでも、これらのモデルに2つの行列(1つではなく)が実際に必要な理由を理解できません。UとVに同じものを使用できませんか?勾配降下の問題ですか、それとも別の理由がありますか? 誰かが私に言ったのは、1つの単語の埋め込みuとvは、単語がそれ自体のコンテキストでめったに出現しないという事実を表現するのに十分なはずであるためです。しかし、それは私にはわかりません。


5
Word Embeddings(word2vec)で作業するときにトレーニング例のさまざまな長さを克服する方法
私は、word2vecを単語表現として使用して、ツイートに対する感情分析に取り組んでいます。 word2vecモデルをトレーニングしました。しかし、分類子をトレーニングするときに、すべてのツイートの長さが異なり、分類子(RandomForest)はすべての例を同じサイズにする必要があるという問題に直面しています。 現在、すべてのつぶやきについて、そのつぶやきのベクトル表現で終わるように、すべての単語のベクトルを平均化しています。 例:私のword2vecモデルは、各単語をサイズ300のベクトルとして表します。 私はTweet110ワード、Tweet25ワードで構成されています。 だから私がすることは、 Tweet1 (v1_Tweet1 + v2_Tweet1 + ... +v10_Tweet1)/10 = v_Tweet1 #avg vector of 300 elements. の場合Tweet2: (v1_Tweet2 + v2_Tweet2 + ... +v5_Tweet1)/5 = v_Tweet2 #avg vector of 300 elements. * v1_TweetXであるため、TweetXの最初の単語のベクトルなど。 これは正常に機能しますが、列車のさまざまなサイズと分類子のテキストの例を克服するために他にどのようなアプローチをとっていますか。 ありがとう。

1
Rのキャレットパッケージの180のアルゴリズムのどれが実行可能ですか?
Rのキャレットパッケージは180モデルで動作します。著者は、パッケージの一部がトップチョイスモデルよりも処理が遅いか、精度が低い可能性があることを警告しています。 著者はこれについて間違っていません。私はBorutaモデルとevtreeモデルをトレーニングしようとしましたが、クラスターで5時間を超えて実行した後はあきらめなければなりませんでした。 著者は一連の機械学習ベンチマークにリンクしていますが、それらは少数のアルゴリズムのパフォーマンスをカバーし、さまざまな実装を比較しています。 180のモデルのうちどれを試してみる価値があるか、どれが非常に不正確か、不合理に遅いかについてのガイダンスとして、他に参考にできるリソースはありますか?


5
ストップワードの良いリストを作成する方法
ストップワードのリストをキュレートする方法に関するヒントを探しています。誰かが前処理とフィルタリングのためにデータセット自体からストップワードリストを抽出するための良い方法を知っている/誰かが推奨できるか? データ: 数年にわたる可変長の膨大な量の人間によるテキスト入力(検索用語と全文(最大200文字))。テキストには大量のスパム(ボットからのマシン入力、単一の単語、愚かな検索、製品の検索など)が含まれており、数%しか役に立たないようです。時々(ごくまれに)人々が本当にかっこいい質問をして私の側を探すことに気づきました。これらの質問はとてもかっこいいので、時間をかけて人々がどのように検索しているか、人々が私のウェブサイトの使用に興味を持っているトピックを確認するために、それらをより深く調べる価値があると思います。 私の問題: 前処理(つまり、スパムのドロップ)に本当に苦労しています。私はすでにウェブからいくつかのストップワードリスト(NLTKなど)を試しましたが、これらはこのデータセットに関する私のニーズに実際には役立ちません。 あなたのアイデアと議論の人々をありがとう!


1
Kerasモデルが背景を認識することを学ぶのはなぜですか?
私はPascal VOC2012でこのDeeplabv3 +のKeras実装をトレーニングするために、事前トレーニング済みのモデル(そのデータセットでもトレーニング済み)を使用してトレーニングしています。 精度がすぐに1.0に収束する奇妙な結果が得られました。 5/5 [==============================] - 182s 36s/step - loss: 26864.4418 - acc: 0.7669 - val_loss: 19385.8555 - val_acc: 0.4818 Epoch 2/3 5/5 [==============================] - 77s 15s/step - loss: 42117.3555 - acc: 0.9815 - val_loss: 69088.5469 - val_acc: 0.9948 Epoch 3/3 5/5 [==============================] - 78s 16s/step - loss: 45300.6992 …

4
SGDClassifier:以前は未知のラベルを使用したオンライン学習/ partial_fit
私のトレーニングセットには、約5万のエントリが含まれています。毎週、5,000エントリが追加されます。しかし、同じ量が「消えます」(しばらくしてから削除する必要のあるユーザーデータであるため)。 したがって、後で完全なデータセットにアクセスできないため、オンライン学習を使用します。現在は機能するを使用してSGDClassifierいますが、大きな問題があります。新しいカテゴリが表示され、最初のモデルにはなかったため、モデルを使用できなくなりましたfit。 SGDClassifierまたは他のモデルで方法はありますか?ディープラーニング? 今からゼロから始めなければならないかどうか(つまりSGDClassifier、以外のものを使用するかどうか)は関係ありませんが、新しいラベルでオンライン学習を可能にするものが必要です。

2
バッチ正規化は、シグモイドがReLUよりもうまく機能することを意味しますか?
バッチ正規化とReLUはどちらも、勾配の消失問題に対する解決策です。バッチ正規化を使用している場合、シグモイドを使用する必要がありますか?それとも、batchnormを使用する場合でも価値のあるReLUの機能はありますか? 私は、batchnormで行われた正規化がゼロのアクティベーションを負に送信すると思います。これは、batchnormが「dead ReLU」問題を解決することを意味しますか? しかし、タンとロジスティックの継続的な性質は魅力的なままです。batchnormを使用している場合、tanhはReLUよりもうまく機能しますか? 答えはきっと決まると思います。では、あなたの経験で何がうまくいきましたか、そしてあなたのアプリケーションの顕著な特徴は何ですか?


2
特定の単語を名前、携帯電話番号、住所、電子メール、州、郡、市などとして分類するために使用される機械/ディープラーニング/ nlpテクニック
一連の単語または文字列をスキャンし、機械学習またはディープラーニングを使用して、それらを名前、携帯電話番号、住所、都市、州、国、およびその他のエンティティとして分類できるインテリジェントモデルを生成しようとしています。 私はアプローチを探していましたが、残念ながら、どのようなアプローチを取るべきかわかりませんでした。文字列が名前であるか都市であるかなどを予測するために、バッグオブワードモデルとグローブワードの埋め込みを試しました。 しかし、私はバッグオブワードモデルでは成功しませんでした。GloVeには、埋め込み例でカバーされていない名前がたくさんあります。-laurenはGloveに存在し、laurenaは存在しません 私はこの投稿をここで見つけましたが、それは合理的な答えでしたが、NLPとSVMがそれを解決するために使用されたという事実を除いて、その問題を解決するために使用されたアプローチはできませんでした。 どんな提案もありがたいです よろしくお願いいたします。SaiCharan Adurthi。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.