データサイエンス classification

2

Java Weka APIでカスタムストップワードフィルターを使用するにはどうすればよいですか？

Java Weka APIを使用して分類モデルを構築しています。組み込みのストップワードフィルターを使用できます。ただし、問題にはカスタムフィルターを使用する必要があります。Java Weka APIでカスタムストップワードフィルターを使用する方法がわかりません。

8 classification java weka

1

分類のROC曲線からAUCを計算するにはどうすればよいですか？

TPRとFPRに基づいて、バイナリ分類モデルのROC曲線を生成しました。AUC値の計算方法はわかりません。AUC値の計算を手伝っていただけると助かります。

8 machine-learning classification

1

VCディメンションの正確な定義は何ですか？

私はAndrew Ng Stanfordの講義から機械学習を勉強していて、VC次元の理論に出くわしました。講義と私が理解したことによると、VCディメンションの定義は、分類器によって粉砕できるようにポイントのセットを見つけることができ（つまり、すべての可能な2 nラベリングを正しく分類する）、粉砕できるn + 1ポイントのセットを見つけることができない場合（つまり、任意のセットの場合）n + 1ポイントには、分類子がすべてのポイントを正しく分離できないように、少なくとも1つのラベル付け順序があります）。VCディメンションはnです。んnn2ん2n2^nn + 1n+1n+1n + 1n+1n+1んnn また、教授は例を取り、これをうまく説明しました。それは：みましょう、 H= { S 、E 、T 、O 、F l i n e a r c l a s s i f i e r s i n 2 D i m e n s i o …

8 machine-learning classification vc-theory

1

分類のための畳み込みネットワーク、照明に非常に敏感

畳み込みネットワークをトレーニングして、機械コンポーネントの画像を良品または不良品として分類しました。テストの精度は高いものの、照明がわずかに異なる画像ではモデルのパフォーマンスが低いことに気付きました。私が検出しようとしている機能は微妙であり、照明がモデルを誤作動させて多くの偽陰性を呼び出しているようです。すべてではありませんが、ほとんどのトレーニングデータとテストデータは、拡散照明下で撮影された画像から得られました。私がモデルを試した新しい画像は、焦点を当てたライトで撮影されました。ヒストグラムの等化（CLAHE）が役立つことを願って、モデルに供給する前に画像の等化を行い、トレーニングとテストデータのためにこれを行いました。そのときの問題は精度が高かったことですが、モデルは画像とラベルの間に他の相関関係を学習したようです。等化後、画像のすべてが目立ち、欠陥はさらに微妙になり、人間の目でも検出するのが難しくなります。同じコンポーネントが同じ照明で、異なる方向のライトで撮影された場合でも、モデルの予測は変化しました。だから私の質問は、データの終わりやモデルで何ができるのですか？

8 machine-learning classification deep-learning image-classification

1

線形非分離データは、ロジスティック回帰の多項式機能を使用して学習できますか？

私は知っているPolynomial Logistic Regression簡単に、以下の画像のような典型的なデータを学ぶことができます：私は、次の2つのデータも使用して学習することができるかどうかを疑問に思いましたか。 Polynomial Logistic Regression 私はもっと説明を追加する必要があると思います。最初の形状を想定します。この2次元入力（x1 ^ 2 ...など）に追加の多項式特徴を追加すると、データを分離できる決定境界を作成できます。X1 ^ 2 + X2 ^ 2 = bを選択するとします。これにより、データを分離できます。追加の機能を追加すると、波状の形状（波状の円や波状の省略記号など）が表示されますが、2番目のグラフのデータを分離することはできませんか？

8 machine-learning classification

2

MNIST分類のために荒廃したニューラルネットワークを過剰適合させないのはなぜですか？

MNIST分類のための単純なニューラルネットワーク（NN）があります。これには、それぞれ500個のニューロンを持つ2つの非表示層が含まれています。したがって、NNの寸法は784-500-500-10です。ReLUはすべてのニューロンで使用され、softmaxは出力で使用され、クロスエントロピーは損失関数です。オーバーフィットがNNを荒廃させないように見えるのはなぜ私を困惑させるのですか NNのパラメーター（重み）の数を考慮します。およそただし、私の実験では、NNのトレーニングに6000の例（MNISTトレーニングセットの10分の1）のみを使用しました。（これは単に実行時間を短く保つためです。トレーニング例をさらに使用すると、トレーニングとテストのエラーはどちらも大幅に減少します。）私は実験を10回繰り返しました。単純な確率的勾配降下法が使用されます（RMSプロップまたは運動量なし）。正則化/ドロップアウト/早期停止は使用されませんでした。報告されたトレーニングエラーとテストエラーは次のとおりです。784 × 500 + 500 × 500 + 500 × 10 = 647000。784×500+500×500+500×10=647000。784\times500+500\times 500+500\times 10=647000.600060006000 番号。Et r a i n（％）EトンのE S T（％）17.811.7210.313.9３9.113.2411.014.158.712.169.213.279.313.388.311.9910.313.4108.612.7番号。12３45678910Etra私ん（％）7.810.39.111.08.79.29.38.310.38.6Etest（％）11.713.913.214.112.113.213.311.913.412.7\begin{array}{|l|c|c|c|c|c|c|c|c|c|c|} \hline \textrm{No.} & 1 & 2 & 3 &4 &5&6&7&8&9&10\\ \hline E_{train}(\%) & 7.8 & 10.3 & 9.1 & 11.0 & 8.7 & 9.2 & …

8 machine-learning neural-network classification overfitting

1

スパイキングニューラルネットワークが他のアルゴリズムより優れている（非スパイキング）ドメインはありますか？

Echo State NetworksやLiquid State Machinesなどのリザーバーコンピューティングテクニックについて読んでいます。どちらの方法も、ランダムに接続された（または接続されていない）スパイキングニューロンの母集団に入力を供給することと、出力を生成する比較的単純な読み出しアルゴリズム（線形回帰など）を含みます。ニューロンの母集団の重みは、固定されているか、STDPのようなヘブライアンのようなローカルアクティビティルールによってトレーニングされています。これらの手法は、重要な時間コンポーネントを持つ多次元入力をモデル化するときにうまく機能します。ただし、スパイクニューロンの膜電位の計算には微分方程式の積分が含まれ、計算コストが高くなる可能性があります。リザーバーコンピューティングテクニックの追加の計算の複雑さの方が、予測または分類タスクのゲインよりも優れている例はありますか？たとえば、RNN、ANN、SVM、DNN、CNN、またはその他のアルゴリズムに基づいて、比較的複雑なアーキテクチャよりもSNN技術が優れているケースはありますか？

8 machine-learning classification neural-network deep-learning svm

4

スパムメールの検出を学ぶには？

スパムメール検出機能がどのように実行されるかを知りたい。私は市販の製品を作るつもりはありません。それは私にとって真剣な学習課題になります。したがって、私はフォローできる既存のプロジェクト、ソースコード、記事、論文などのリソースを探しています。私は例で学びたいのですが、一から学ぶだけでは十分ではないと思います。ベイジアンで手を汚したいのが理想です。そのようなものはありますか？プログラミング言語は私にとって問題ではありません。

8 machine-learning classification text-mining

1

テキストデータを300のカテゴリに分類するためにどの分類アルゴリズムを試すか

ヘルスケアドメインのテキストデータが40000行あります。データには、テキスト（2〜5文）の1つの列と、そのカテゴリの1つの列があります。それを300のカテゴリーに分類したい。一部のカテゴリは独立していますが、いくらか関連しています。カテゴリ間のデータの分布も均一ではありません。つまり、一部のカテゴリ（そのうちの約40）には、2〜3行程度のデータしかありません。各クラス/カテゴリのログ確率を添付しています。（またはクラスの分布）ここに。

8 machine-learning classification nlp text-mining

1

ドキュメント分類：機能フィルタリングの前または後のtf-idf？

文書分類プロジェクトで、サイトのコンテンツを取得し、コンテンツに応じて多数のラベルの1つをWebサイトに割り当てています。これにはtf-idfが非常に役立つことがわかりました。しかし、それをいつ使うべきか正確には分かりませんでした。特定のトピックに関連するウェブサイトが繰り返し言及していると仮定すると、これは私の現在のプロセスでした：サイトのコンテンツを取得し、プレーンテキストを解析するコンテンツの正規化とステムトークン化してユニグラムにします（おそらくバイグラムも）指定されたドキュメントの各ユニグラムの数を取得し、長さが短く出現頻度の低い単語をフィルタリングします結果セットでNaiveBayesなどの分類子をトレーニングします私の質問は次のとおりです：tf-idfはここにどこに適合しますか？正規化/ステミングの前に？正規化後、トークン化前？トークン化した後？どんな洞察もいただければ幸いです。編集：よく調べてみると、TF-IDFの動作について誤解していたのではないかと思います。上記のステップ4 で、データ全体を一度にTF-IDF にフィードする必要がありますか？たとえば、私のデータが次のような場合： [({tokenized_content_site1}, category_string_site1), ({tokenized_content_site2}, category_string_site2), ... ({tokenized_content_siten}, category_string_siten)}] ここで、最も外側の構造は、タプルを含み、辞書（またはハッシュマップ）と文字列を含むリストです。私が養うために必要があります全体所望の効果を達成するために、一度にTF-IDFの計算にそのデータのか？具体的には、これを行うためにscikit-learn TfidfVectorizerを検討してきましたが、例がかなりまばらなので、その使用については少しわかりません。

8 classification feature-selection feature-extraction

2

NLPを使用してユーザーの説明の分類を自動化する

会社が所有する製品に関する顧客からの苦情の巨大なファイルがあり、それらの説明についてデータ分析を行い、それぞれにカテゴリをタグ付けしたいと考えています。たとえば、顧客の苦情から、製品のソフトウェアおよびハードウェア側の苦情の数を把握する必要があります。現在、私はデータ分析を行うためにExcelを使用しています。これは、苦情にタグ名を取得するためにかなりの量の手動作業を求めています。このプロセスを自動化するモデルを構築およびトレーニングする方法はNLPにありますか？私は過去2日間、NLPに関するものを読んでいますが、NLPにはこの問題への取り組みを始めるための優れた機能がたくさんあるようです。誰かが、NLPを使用してこの問題に対処する方法を教えてくれませんか？

8 data-mining classification nlp categorical-data

1

ランダムフォレストでのtf-idfとtfの違い

私は、分類子としてランダムフォレストを使用したテキスト分類問題と、バッグオブワードアプローチに取り組んでいます。私は、ランダムフォレスト（scikitに存在するもの）の基本的な実装を使用しています。これは、分割ごとに1つの変数にバイナリ条件を作成します。これを考えると、単純なtf（項頻度）機能の使用に違いがありますか？各単語には、ドキュメント内の出現回数を表す関連する重み、またはtf-idf（用語の頻度*逆のドキュメントの頻度）があり、用語の頻度には、ドキュメントの総数間の比率を表す値も乗算されます。および単語を含むドキュメントの数）？私の意見では、これらの2つのアプローチの間に違いはないはずです。違いは各機能のスケーリング係数だけなのでですが、分割は単一の機能のレベルで行われるため、違いはないはずです。私の推論は正しいですか？

8 classification text-mining random-forest

2

n個の異なる分類から集約混同行列を取得する方法

方法論の精度をテストしたい。私はそれを約400回実行し、実行ごとに異なる分類を得ました。また、グラウンドトゥルース、つまり、テストする実際の分類もあります。分類ごとに混同行列を計算しました。次に、全体的な混同行列を取得するために、これらの結果を集計します。どうすればそれを達成できますか？全体の混同行列を取得するために、すべての混同行列を合計できますか？

8 classification confusion-matrix accuracy

2

適切なMLアプローチの選択についてコンセンサスはありますか？

私は現在データサイエンスを勉強しており、目まぐるしく変化するさまざまな基本的な回帰/分類手法（線形、ロジスティック、ツリー、スプライン、ANN、SVM、MARSなど...）とさまざまな方法を教えられています追加のツール（ブートストラップ、ブースティング、バギング、アンサンブル、リッジ/ラッソ、CVなど）。技術にはコンテキストが与えられる場合があります（例：小さい/大きいデータセットに適している、少数/多数の予測子に適しているなど）が、ほとんどの場合、回帰または分類の問題にはオプションの目まいがする配列が存在するから選択します。今すぐデータサイエンスの仕事を始めて、モデリングの問題が発生した場合、基本的な構成で知っているすべての手法を試して、交差検証を使用して評価し、最良のものを選択することほどよいことはないと思います。しかし、これにはそれ以上のものがあるに違いありません。私は、経験豊富なデータサイエンティストがテクニックのカタログをよく知っていて、精神的なフローチャートに従って、すべてのテクニックを無意識に試すのではなく、どのテクニックを試すかを決定すると思います。私はこのフローチャートがa）関数の関数であると想像します。b）変数タイプ。c）考えられる関係（線形/非線形）に関するドメイン知識。d）データセットのサイズ。e）計算時間などに関する制約。手法を選択するために、従うべき従来のフローチャートに同意したものはありますか？それとも、「多くのことを試して、クロスバリデーションなど、目的のメジャーで最も効果的なものを確認する」ということになるのでしょうか。

8 machine-learning neural-network deep-learning classification data-science-model

1

時系列データを分類する最良の方法は何ですか？LSTMまたは別の方法を使用する必要がありますか？

生の加速度計データx、y、zを対応するラベルに分類しようとしています。最良の結果を得るための最良のアーキテクチャは何ですか？または、入力ノードと出力ノードを備えたケラ上に構築されたLSTMアーキテクチャについて何か提案はありますか？

8 classification keras time-series lstm multiclass-classification

タグ付けされた質問 「classification」

タグ付けされた質問「classification」