タグ付けされた質問 「classification」

データセットの新しいインスタンスが属する1つまたは複数のカテゴリを識別する教師あり学習のインスタンス。

3
マルチパーティシステムでの選挙の結果を計算するために使用する回帰
議会選挙の結果を予測したい。私の出力は、各当事者が受け取る%になります。3つ以上の関係者がいるため、ロジスティック回帰は実行可能なオプションではありません。パーティごとに個別の回帰を行うこともできますが、その場合、結果は何らかの形で互いに独立しています。結果の合計が100%になるとは限りません。 どの回帰(または他の方法)を使用する必要がありますか?特定のライブラリを介してRまたはPythonでこのメソッドを使用することは可能ですか?

2
SVMとロジスティック回帰の違い
私は読んでいてSVM、カーネル化されSVMsていないのは線形セパレータにすぎないという点に直面しました。したがって、SVM境界とロジスティック回帰の唯一の違いは、境界を選択する基準ですか? どうやら、SVM最大マージン分類子を選択し、ロジスティック回帰はcross-entropy損失を最小化するものです。SVM ロジスティック回帰またはその逆のパフォーマンスが向上する状況はありますか?

3
科学計算に最適な言語[終了]
閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5年前に閉鎖されました。 ほとんどの言語では、いくつかの科学計算ライブラリが利用できるようです。 Pythonは Scipy Rust 持っている SciRust C++持っているなど、いくつかのViennaCLとArmadillo Java持っているJava NumericsとColtだけでなく、他のいくつかの 以下のような言語は言うまでもありませんRし、Julia科学技術計算のために明示的に設計されています。 非常に多くのオプションを使用して、タスクに最適な言語をどのように選択しますか?さらに、どの言語が最もパフォーマンスが高くなりますか?PythonそしてR宇宙の中で最も牽引力を持っているように見えるが、それは、より良い選択となるように、論理的にコンパイルされた言語がそうです。そして、これまでに何よりも優れているFortranでしょうか?さらに、コンパイルされた言語はGPUアクセラレーションを備えている傾向がありますが、インタープリター言語はそうではRありPythonません。言語を選択するときは何を考慮すればよいですか。また、ユーティリティとパフォーマンスのバランスが最も良い言語はどれですか。また、私が見逃した重要な科学計算リソースを持つ言語はありますか?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
固定されていないカテゴリデータを使用して分類するにはどうすればよいですか?
カテゴリカルデータと数値データの両方に分類問題があります。私が直面している問題は、カテゴリデータが固定されていないことです。つまり、ラベルを予測したい新しい候補者には、事前に観察されなかった新しいカテゴリがある可能性があります。 例えば、私のカテゴリーデータであった場合、sex唯一の可能なラベルがないだろうfemale、maleとother、ないかは重要。ただし、私のカテゴリー変数はcity、予測しようとしている人物が私の分類子が見たことのない新しい都市を持っている可能性があるためです。 これらの用語で分類を行う方法があるのか​​、またはこの新しいカテゴリーデータを考慮して再度トレーニングを行う必要があるのか​​と思います。

3
データセットを不均衡と見なす必要があるのはいつですか?
データセット内の正と負の例の数が不均衡な状況に直面しています。 私の質問は、データセットである種のバランシングを強制するために大きなカテゴリをサブサンプリングする必要があるときを教えてくれる経験則がありますか? 例: 正の例の数が1,000で負の例の数が10,000の場合、データセット全体で分類器をトレーニングする必要がありますか、それとも負の例をサブサンプリングする必要がありますか? 1,000の正の例と100,000の負の例についても同じ質問です。 10,000人が肯定的で1,000人が否定的である場合も同じ質問です。 等...

1
Rのグラフ用の(ラベル伝播アルゴリズム/頻繁なサブグラフマイニング)のライブラリ
問題の一般的な説明 いくつかの頂点が3つまたは4つの可能な値を持つタイプでラベル付けされているグラフがあります。他の頂点については、タイプは不明です。私の目標は、グラフを使用して、ラベル付けされていない頂点のタイプを予測することです。 可能なフレームワーク 私はこれを、私の文献を読んだことに基づいて、ラベル伝播問題の一般的なフレームワークに適合していると思います(たとえば、この論文とこの論文を参照してください)。 しばしば言及されているもう一つの方法は、あるFrequent Subgraph Miningアルゴリズムが好き含む、SUBDUE、SLEUTH、とgSpan。 Rで見つかりました 私は見つけることができた唯一のラベル伝播実装がRあるlabel.propagation.community()からigraphライブラリ。ただし、その名前が示すように、ほとんどの場合、ラベルなしの頂点を分類するためではなく、コミュニティを見つけるために使用されます。 subgraphMiningライブラリへの参照(ここでは例)もいくつかあるようですが、CRANにないようです。 質問 説明されているタスクのライブラリまたはフレームワークを知っていますか?

4
いくつかのタイプのモデルがほとんど同じ結果をもたらすのはなぜですか?
約40万件のレコードと9つの変数のデータセットを分析しています。従属変数はバイナリです。私はロジスティック回帰、回帰木、ランダムフォレスト、および勾配ブースト木を取り付けました。別のデータセットで検証すると、それらすべてがほぼ同じ適合度の数値を与えます。 これはなぜですか?変数比に対する私の観察が非常に高いためだと思います。これが正しい場合、どのモデルの変数比に対して、異なるモデルが異なる結果を出し始めますか?

3
検証の損失または精度の早期停止?
私は現在ニューラルネットワークをトレーニングしていますが、早期停止基準を実装するためにどちらを使用するかを決定できません:検証の損失、または精度/ f1score / auc /検証セットで計算されたものなどのメトリック。 私の研究では、両方の立場を擁護する記事に出くわしました。Kerasはデフォルトで検証の損失に思われますが、私は反対のアプローチ(例:ここ)についても説得力のある答えに出くわしました。 誰でも、検証ロスを使用するタイミングと特定のメトリックを使用するタイミングについて指示がありますか?

1
英語の文章の複雑さを判断するにはどうすればよいですか?
私は人々が第二言語として英語を学ぶのを助けるアプリに取り組んでいます。文章が追加のコンテキストを提供することで言語の学習に役立つことを検証しました。60人の生徒の教室で小規模な調査を実施しました。 私はWikipediaから10万以上の文をさまざまな英語の単語(Barronsの800の単語と1000の最も一般的な英語の単語を含む)についてマイニングしました データ全体はhttps://buildmyvocab.inで入手できます コンテンツの品質を維持するために、理解しにくい可能性があるため、160文字を超える文章は除外しました。 次のステップとして、このコンテンツを理解しやすい順に並べ替えるプロセスを自動化できるようにしたいと考えています。私自身は英語を母国語としない人です。簡単な文章と難しい文章を区別するために使用できる機能を知りたい。 また、これは可能だと思いますか?

3
最適な通話時間を予測する
カリフォルニア州のさまざまな都市にいる顧客のセット、各顧客の呼び出し時間、および呼び出しのステータス(顧客が呼び出しに応答する場合はTrue、応答しない場合はFalse)を含むデータセットがあります。 電話に出る確率が高くなるように、将来の顧客を呼び込む適切な時期を見つけなければなりません。それで、この問題の最良の戦略は何ですか?時間(0、1、2、... 23)がクラスである分類問題と見なす必要がありますか?それとも、時間が連続変数である回帰タスクと見なす必要がありますか?電話に出る確率が高いことを確認するにはどうすればよいですか? 任意の助けいただければ幸いです。同様の問題を紹介していただければ幸いです。 以下はデータのスナップショットです。

2
scikit分類器が分類にかかる時間はどれくらいですか?
100万のラベル付きドキュメントで構成されるコーパスのテキスト分類にscikit線形サポートベクターマシン(SVM)分類器を使用することを計画しています。私がやろうとしていることは、ユーザーがキーワードを入力すると、分類子はまずそれをカテゴリーに分類し、次にそのカテゴリーのカテゴリーのドキュメント内で後続の情報検索クエリが発生することです。少し質問があります: 分類にそれほど時間がかからないことを確認するにはどうすればよいですか?より良い結果を得るために、ユーザーが分類が完了するのを待つ時間を費やす必要はありません。 ウェブサイト/ウェブアプリケーションにPythonのscikitライブラリを使用することはこれに適していますか? アマゾンまたはフリップカートがユーザークエリで分類を実行する方法を知っている人はいますか?それとも完全に異なるロジックを使用していますか?

3
数学の畳み込みとCNNの関係
畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか?gウェイトをかけるフィルターのような機能ですか?
10 machine-learning  neural-network  deep-learning  cnn  convolution  machine-learning  ensemble-modeling  machine-learning  classification  data-mining  clustering  machine-learning  feature-selection  convnet  pandas  graphs  ipython  machine-learning  apache-spark  multiclass-classification  naive-bayes-classifier  multilabel-classification  machine-learning  data-mining  dataset  data-cleaning  data  machine-learning  data-mining  statistics  correlation  machine-learning  data-mining  dataset  data-cleaning  data  beginner  career  python  r  visualization  machine-learning  data-mining  nlp  stanford-nlp  dataset  linear-regression  time-series  correlation  anomaly-detection  ensemble-modeling  data-mining  machine-learning  python  data-mining  recommender-system  machine-learning  cross-validation  model-selection  scoring  prediction  sequential-pattern-mining  categorical-data  python  tensorflow  image-recognition  statistics  machine-learning  data-mining  predictive-modeling  data-cleaning  preprocessing  classification  deep-learning  tensorflow  machine-learning  algorithms  data  keras  categorical-data  reference-request  loss-function  classification  logistic-regression  apache-spark  prediction  naive-bayes-classifier  beginner  nlp  word2vec  vector-space-models  scikit-learn  decision-trees  data  programming 

3

2
線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。 私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression?上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか?決定を下すためにデータセットを調べる必要がある特性は何ですか?そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression?
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 

3
単語のバッグアプローチを使用するだけでなく、単語の順序を考慮してテキストを分類するにはどうすればよいですか?
メッセージボード上のスパム投稿を分類するために、bag-of-words手法を使用する単純ベイズ分類器を作成しました。それは機能しますが、私のモデルが単語の順序とフレーズを考慮した場合、はるかに良い結果が得られると思います。(例:「ライブガール」がジャンクである可能性が最も高いとしても、「ガール」と「ライブ」は高いスパムスコアをトリガーしない場合があります)。単語の順序を考慮したモデルを構築するにはどうすればよいですか? 私はn-gram(check-out-these、out-these-live、these-live-girls)を保存することを検討しましたが、これはスコアを保持する辞書のサイズを根本的に増やして、非常に言葉遣いは似ていますが、順序が異なります。 私はベイジアン分類に縛られていませんが、統計に強いバックグラウンドがない人が手に入れて実装できるものを望んでいます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.