タグ付けされた質問 「logistic-regression」

一般に、ロジスティック関数を使用する統計的手順、最も一般的には、さまざまな形式のロジスティック回帰を指します。

4
Scikit-learn:SGDClassifierにロジスティック回帰だけでなく予測もさせる
ロジスティック回帰をトレーニングする方法は、scikit-learnがインターフェイスを提供する確率的勾配降下を使用することです。 私がやりたいのは、scikit-learnのSGDClassifierを取得して、ここでロジスティック回帰と同じスコアを取得することです。ただし、スコアが同等ではないため、機械学習の機能強化が欠落している必要があります。 これが私の現在のコードです。ロジスティック回帰と同じ結果を生成するSGDClassifierには何が欠けていますか? from sklearn import datasets from sklearn.linear_model import LogisticRegression from sklearn.linear_model import SGDClassifier import numpy as np import pandas as pd from sklearn.cross_validation import KFold from sklearn.metrics import accuracy_score # Note that the iris dataset is available in sklearn by default. # This data is also conveniently preprocessed. …



2
テキストの分類:異なる種類の機能の組み合わせ
私が取り組んでいる問題は、短いテキストを複数のクラスに分類することです。私の現在のアプローチは、tf-idf加重項頻度を使用し、単純な線形分類器(ロジスティック回帰)を学習することです。これはかなりうまく機能します(テストセットで約90%のマクロF-1、トレーニングセットで約100%)。大きな問題は、目に見えない単語/ n-gramです。 私は、他の機能、たとえば分布類似性(word2vecで計算)を使用して計算された固定サイズのベクトル、または例の他のカテゴリ機能を追加して、分類器を改善しようとしています。私の考えは、単語の袋からスパース入力フィーチャにフィーチャを追加するだけでした。ただし、これにより、テストおよびトレーニングセットのパフォーマンスが低下します。追加の機能自体は、テストセットで約80%のF-1を提供するため、不要ではありません。機能のスケーリングも役に立たなかった。私の現在の考えでは、この種の機能は(スパース)ワードオブワード機能とうまく混同されません。 質問は次のとおりです。追加機能が追加情報を提供すると仮定して、それらを組み込む最良の方法は何ですか?別々の分類子をトレーニングし、それらをある種のアンサンブル作業で組み合わせることができますか(これには、おそらく、異なる分類子の機能間の相互作用をキャプチャできないという欠点があります)。他に考慮すべき複雑なモデルはありますか?

3
ロジスティック回帰におけるコスト関数のPython実装:ある式ではドット乗算、別の式では要素ごとの乗算
ロジスティック回帰の設定におけるPython、numpyおよび行列の乗算に関連する非常に基本的な質問があります。 まず、数学表記を使用していないことをおaび申し上げます。 マトリックスドット乗算と要素ごとのプルティプリケーションの使用について混乱しています。コスト関数は次のように与えられます: そして、Pythonで私はこれを次のように書いています cost = -1/m * np.sum(Y * np.log(A) + (1-Y) * (np.log(1-A))) しかし、たとえばこの式(最初の式-wに関するJの微分) は dw = 1/m * np.dot(X, dz.T) 上記でドット乗算を使用するのが正しい理由がわかりませんが、コスト関数では要素ごとの乗算を使用します。 cost = -1/m * np.sum(np.dot(Y,np.log(A)) + np.dot(1-Y, np.log(1-A))) これは詳しく説明されていませんが、質問は非常に単純なので、基本的なロジスティック回帰の経験がある人でも私の問題を理解できると思います。

5
バイナリ分類アルゴリズムを選択
バイナリ分類の問題があります: トレーニングセットの約1000サンプル バイナリ、数値、カテゴリを含む10の属性 このタイプの問題に最適なアルゴリズムはどれですか? デフォルトでは、比較的クリーンでノイズのないデータに最適であると考えられているため、SVM(名目上の属性値がバイナリフィーチャに変換された予備)から開始します。

4
決定木またはロジスティック回帰?
私は分類の問題に取り組んでいます。同じ数のカテゴリ変数と連続変数を含むデータセットがあります。使用するテクニックを知るにはどうすればよいですか?決定木とロジスティック回帰の間で ロジスティック回帰が連続変数により適し、決定木が連続+カテゴリー変数により適していると仮定するのは正しいでしょうか?

2
不均衡データのバイナリ分類モデル
次の仕様のデータセットがあります。 2,821陽性の193,176サンプルのトレーニングデータセット 673個の陽性の82,887個のサンプルを含むテストデータセット 10個の機能があります。 バイナリ分類(0または1)を実行したい。私が直面している問題は、データのバランスが非常に悪いことです。いくつかの機能エンジニアリングとともにデータを正規化およびスケーリングし、いくつかの異なるアルゴリズムを使用した後、これらは私が達成できる最高の結果です。 mean square error : 0.00804710026904 Confusion matrix : [[82214 667] [ 0 6]] すなわち、6つの正のヒットのみです。これはロジスティック回帰を使用しています。これを使って試したさまざまなことを次に示します。 RandomForest、DecisionTree、SVMなどのさまざまなアルゴリズム 関数を呼び出すためのパラメーター値の変更 複雑な機能を含む直感ベースの機能エンジニアリング さて、私の質問は: ポジティブヒットの数を改善するにはどうすればよいですか? そのような場合に過剰適合があるかどうかをどのように判断できますか?(私はプロットなどを試みました) 多分これが私が持っている可能性のある最良の適合である場合、どの時点で結論づけることができますか?(673のうち6ヒットのみを考えると悲しいようです) パターン認識が向上してヒットが増えるように、ポジティブサンプルインスタンスの重量を増やす方法はありますか? どのグラフィックプロットを使用すると、外れ値や、どのパターンが最適かについての直感を検出できますか? Pythonでscikit-learnライブラリを使用していますが、すべての実装はライブラリ関数です。 編集: 他のいくつかのアルゴリズムの結果は次のとおりです。 ランダムフォレスト分類子(n_estimators = 100) [[82211 667] [ 3 6]] 決定木: [[78611 635] [ 3603 38]]

2
非対称コスト関数を使用した線形回帰?
私はいくつかの値を予測したいのですが、可能な限り低く、よりも大きい間で最適化する予測を取得しようとしています。つまり、 Y(x )Y(x)Y(x)Y^(x )Y^(x)\hat Y(x)Y(x )Y(x)Y(x)コスト{ Y(X )≳ Y^(X )} > >コスト{ Y^(X )≳ Y(x )}cost{Y(x)≳Y^(x)}>>cost{Y^(x)≳Y(x)}\text{cost}\left\{ Y(x) \gtrsim \hat Y(x) \right\} >> \text{cost}\left\{ \hat Y(x) \gtrsim Y(x) \right\} 単純な線形回帰は完全にうまくいくと思います。だから私はこれを手動で実装する方法をいくらか知っていますが、私はこの種の問題を抱えた最初の人ではないと思います。私がやりたいことをしているパッケージ/ライブラリ(できればpython)がありますか?探す必要があるキーワードは何ですか? 関数Y_0(x)> 0を知っていたらY0(x )> 0Y0(x)>0Y_0(x) > 0、Y(x )> Y0(x )Y(x)>Y0(x)Y(x) > Y_0(x)ます。これらの制限を実装する最良の方法は何ですか?

2
scikit-learnはデフォルトで正則化を使用しますか?
いくつかの偽のデータにロジスティック曲線を当てはめたところです。データは基本的にステップ関数にしました。 data = -------------++++++++++++++ しかし、当てはめた曲線を見ると、勾配は非常に小さいです。クロスエントロピーを仮定して、コスト関数を最小化する関数がステップ関数です。なぜステップ関数のように見えないのですか?デフォルトで行われるL1またはL2の正規化はありますか?

3
Python用のすぐに使える優れた言語モデルはありますか?
私はアプリケーションのプロトタイプを作成していますが、生成されたいくつかの文の複雑さを計算するための言語モデルが必要です。 すぐに使用できるPythonのトレーニング済み言語モデルはありますか?のような単純なもの model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 一部のフレームワークを確認しましたが、必要なものが見つかりませんでした。私は次のようなものを使用できることを知っています: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) これはブラウンコーパスの優れたチューリング確率分布を使用していますが、1bワードデータセットなどの大きなデータセットで巧妙に作成されたモデルを探していました。一般的なドメイン(ニュースだけでなく)の結果を実際に信頼できるもの
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 


2
SVMとロジスティック回帰の違い
私は読んでいてSVM、カーネル化されSVMsていないのは線形セパレータにすぎないという点に直面しました。したがって、SVM境界とロジスティック回帰の唯一の違いは、境界を選択する基準ですか? どうやら、SVM最大マージン分類子を選択し、ロジスティック回帰はcross-entropy損失を最小化するものです。SVM ロジスティック回帰またはその逆のパフォーマンスが向上する状況はありますか?

1
xgboost binary:logisticとreg:logisticの違いは何ですか
binary:logisticとreg:logisticのxgboostのRの違いは何ですか?評価指標のみですか? はいの場合、バイナリ分類のRMSEはエラー率とどのように比較されますか?メトリック間の関係は多かれ少なかれ単調であり、1つのメトリックのチューニングからの出力は、これらの2つのアプローチ間で大幅に異なるべきではありませんか?

3
科学計算に最適な言語[終了]
閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5年前に閉鎖されました。 ほとんどの言語では、いくつかの科学計算ライブラリが利用できるようです。 Pythonは Scipy Rust 持っている SciRust C++持っているなど、いくつかのViennaCLとArmadillo Java持っているJava NumericsとColtだけでなく、他のいくつかの 以下のような言語は言うまでもありませんRし、Julia科学技術計算のために明示的に設計されています。 非常に多くのオプションを使用して、タスクに最適な言語をどのように選択しますか?さらに、どの言語が最もパフォーマンスが高くなりますか?PythonそしてR宇宙の中で最も牽引力を持っているように見えるが、それは、より良い選択となるように、論理的にコンパイルされた言語がそうです。そして、これまでに何よりも優れているFortranでしょうか?さらに、コンパイルされた言語はGPUアクセラレーションを備えている傾向がありますが、インタープリター言語はそうではRありPythonません。言語を選択するときは何を考慮すればよいですか。また、ユーティリティとパフォーマンスのバランスが最も良い言語はどれですか。また、私が見逃した重要な科学計算リソースを持つ言語はありますか?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.