タグ付けされた質問 「logistic-regression」

一般に、ロジスティック関数を使用する統計的手順、最も一般的には、さまざまな形式のロジスティック回帰を指します。

4
これは特徴エンジニアリングの良い習慣ですか?
機能エンジニアリングについて実際的な質問があります...ロジスティック回帰を使用して住宅価格を予測し、郵便番号を含む一連の機能を使用したいとします。次に、機能の重要度を確認したところ、zipはかなり優れた機能であることがわかったので、zipに基づいていくつかの機能を追加することにしました。各ジップの病院の。これらの4つの新機能により、モデルのパフォーマンスが向上しました。だから私はさらにzip関連の機能を追加します...そしてこのサイクルが繰り返されます。最終的に、モデルはこれらのzip関連の機能によって支配されますよね? 私の質問: そもそもこれらを行うことには意味がありますか? はいの場合、このサイクルを停止するのに適切なタイミングを知るにはどうすればよいですか? そうでない場合、なぜでしょうか?

4
Rで順序回帰を学習しますか?
私はプロジェクトに取り組んでおり、スピードを上げるためのリソースが必要です。 データセットは、30程度の変数で約35000観測です。変数の約半分はカテゴリ型であり、いくつかはさまざまな可能な値を持っています。つまり、カテゴリ型変数をダミー変数に分割すると、30を超える変数になります。しかし、おそらく最大で数百程度です。(n> p)。 私たちが予測したい応答は、5つのレベル(1,2,3,4,5)の序数です。予測子は、連続型とカテゴリー型の混合であり、それぞれの約半分です。これらは、これまでの私の考え/計画です。1.応答を連続として扱い、バニラ線形回帰を実行します。2.ノミナルおよびオーディナルロジスティックおよびプロビット回帰を実行する3. MARSおよび/または別の種類の非線形回帰を使用する 私は線形回帰に精通しています。MARSはHastieとTibshiraniによって十分に説明されています。しかし、序数のロジット/プロビットに関しては、特に非常に多くの変数と大きなデータセットに関して、私は途方に暮れています。 これまでのところ、rパッケージglmnetcrが私の最善の策であるようですが、ドキュメントでは、必要な場所に移動するのに十分ではありません。 詳細はどこで確認できますか?

2
多数の機能を備えたロジスティック回帰を実行するにはどうすればよいですか?
330のサンプルと各サンプルに27の特徴を持つデータセットがあり、ロジスティック回帰のバイナリクラスの問題があります。 「10の場合のルール」によると、各機能を含めるには少なくとも10のイベントが必要です。しかし、私は20%の陽性クラスと80%の陰​​性クラスの不均衡なデータセットを持っています。 その結果、イベントは70件になり、ロジスティックモデルに含めることができる機能は約7/8だけになります。 すべての機能を予測変数として評価したいのですが、機能を手動で選択したくありません。 それであなたは何を提案しますか?7つの機能をすべて組み合わせる必要がありますか?アソシエーションモデルで各機能を単独で評価し、最終的なモデルに最適な機能のみを選択する必要がありますか? カテゴリカルな機能と継続的な機能の扱いについても知りたいのですが、混在させることはできますか?カテゴリー[0-1]と連続[0-100]がある場合、正規化する必要がありますか? 私は現在Pythonを使用しています。 あなたの助けをありがとう!

3
数学の畳み込みとCNNの関係
畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか?gウェイトをかけるフィルターのような機能ですか?
10 machine-learning  neural-network  deep-learning  cnn  convolution  machine-learning  ensemble-modeling  machine-learning  classification  data-mining  clustering  machine-learning  feature-selection  convnet  pandas  graphs  ipython  machine-learning  apache-spark  multiclass-classification  naive-bayes-classifier  multilabel-classification  machine-learning  data-mining  dataset  data-cleaning  data  machine-learning  data-mining  statistics  correlation  machine-learning  data-mining  dataset  data-cleaning  data  beginner  career  python  r  visualization  machine-learning  data-mining  nlp  stanford-nlp  dataset  linear-regression  time-series  correlation  anomaly-detection  ensemble-modeling  data-mining  machine-learning  python  data-mining  recommender-system  machine-learning  cross-validation  model-selection  scoring  prediction  sequential-pattern-mining  categorical-data  python  tensorflow  image-recognition  statistics  machine-learning  data-mining  predictive-modeling  data-cleaning  preprocessing  classification  deep-learning  tensorflow  machine-learning  algorithms  data  keras  categorical-data  reference-request  loss-function  classification  logistic-regression  apache-spark  prediction  naive-bayes-classifier  beginner  nlp  word2vec  vector-space-models  scikit-learn  decision-trees  data  programming 

3

1
Octaveにシグモイド関数を実装するにはどうすればよいですか?[閉まっている]
休業。この質問には詳細または明確さが必要です。現在、回答を受け付けていません。 この質問を改善してみませんか?詳細を追加し、この投稿を編集して問題を明確にしてください。 2年前休業。 シグモイド関数がhθ(x)= g(θ^(T)x)として定義されている場合、g = zeros(size(z))が指定されている場合、この関数をOctaveにどのように実装できますか?

1
SVMとヒンジ損失の関係は何ですか?
私の同僚と私は、ロジスティック回帰とSVMの違いに頭を抱えようとしています。明らかに、それらは異なる目的関数を最適化しています。SVMは、ヒンジ損失を単に最適化する判別型分類器であると言うほど簡単ですか?それともそれよりも複雑ですか?サポートベクターはどのように機能しますか?スラック変数はどうですか?シグモイドアクティベーション関数を備えたディープニューラルネットワークを構築できないのに、なぜディープSVMを構築できないのですか?

1
指定された変数に直交する(相関しない)予測を生成する
私が持っているXマトリックス、y変数、および他の変数をORTHO_VAR。私はをy使用して変数を予測する必要がありますXが、そのモデルからの予測は、可能な限りORTHO_VAR相関する一方で、直交する必要がありますy。 私は予測がノンパラメトリックな方法で生成されることを望みxgboost.XGBRegressorますが、どうしても必要な場合は線形法を使用できます。 このコード: import numpy as np import pandas as pd from sklearn.datasets import make_regression from xgboost import XGBRegressor ORTHO_VAR = 'ortho_var' TARGET = 'target' PRED = 'yhat' # Create regression dataset with two correlated targets X, y = make_regression(n_features=20, random_state=245, n_targets=2) indep_vars = ['var{}'.format(i) for i in range(X.shape[1])] # …
8 correlation  machine-learning  dataset  logistic-regression  prediction  linear-regression  prediction  dummy-variables  neural-network  image-classification  python  k-nn  python  neural-network  neural-network  deep-learning  keras  tensorflow  image-classification  tensorflow  reinforcement-learning  policy-gradients  machine-learning  decision-trees  neural-network  overfitting  data-analysis  metric  python  scikit-learn  distance  scipy  machine-learning  python  scikit-learn  decision-trees  logistic-regression  keras  image-classification  implementation  machine-learning  python  scikit-learn  random-forest  decision-trees  machine-learning  feature-selection  feature-engineering  word2vec  word-embeddings  natural-language-process  scikit-learn  time-series  clustering  k-means  python  cross-validation  pyspark  statistics  cross-validation  multiclass-classification  evaluation  machine-learning  nlp  machine-translation  neural-network  deep-learning  keras  tensorflow  image-classification  machine-learning  python  similarity  distance  lstm  text  named-entity-recognition  machine-learning  keras  optimization  gan  learning-rate  neural-network  data-mining  dataset  databases  books  neural-network  rnn 

2
Coursera ML-最適化アルゴリズムの選択は、マルチクラスロジスティック回帰の精度に影響しますか?
最近、Pythonを使用したCourseraでのAndrew Ngの機械学習の演習3を完了しました。 演習のパート1.4から1.4.1を最初に完了すると、トレーニング済みモデルが予想される94.9%に一致する精度を持っていることを確認するのが困難になりました。デバッグして、コストと勾配関数にバグがないこと、および予測子コードが正しく機能していることを確認した後でも、精度は90.3%しかありませんでした。で共役勾配(CG)アルゴリズムを使用していましたscipy.optimize.minimize。 好奇心から、別のアルゴリズムを試すことにし、ブロイデン-フレッチャー-ゴールドファーブ-シャノン(BFGS)を使用しました。驚いたことに、精度は大幅に96.5%に向上し、予想を上回りました。これら2つの異なる結果のCGとBFGSの比較は、ノートブックのヘッダー「最適化アルゴリズムの違いによる精度の違い」の下で確認できます。 最適化アルゴリズムの選択が異なるため、この精度の違いの理由はありますか?はいの場合、誰かが理由を説明できますか? また、これを引き起こしている関数にバグがないことを確認するためだけにコードをレビューしていただければ幸いです。 ありがとうございました。 編集:ここで、読者にJupyterノートブックへのリンクを紹介するのではなく、このページで行うコメントのリクエストに、質問に含まれるコードを追加しました。 モデルのコスト関数: def sigmoid(z): return 1 / (1 + np.exp(-z)) def compute_cost_regularized(theta, X, y, lda): reg =lda/(2*len(y)) * np.sum(theta[1:]**2) return 1/len(y) * np.sum(-y @ np.log(sigmoid(X@theta)) - (1-y) @ np.log(1-sigmoid(X@theta))) + reg def compute_gradient_regularized(theta, X, y, lda): gradient = np.zeros(len(theta)) XT = X.T beta …

1
SparkとRのロジスティック回帰が同じデータに対して異なるモデルを返すのはなぜですか?
R(glm)とSpark(LogisticRegressionWithLBFGS)のロジスティック回帰モデルを390 obsのデータセットで比較しました。14変数の。 結果は切片と重みで完全に異なります。これを説明するには? 以下はSpark(LogisticRegressionWithLBFGS)の結果です。 model.intercept : 1.119830027739959 model.weights : GEST 0.30798496002530473 DILATE 0.28121771009716895 EFFACE 0.01780105068588628 CONSIS -0.22782058111362183 CONTR -0.8094592237248102 MEMBRAN-1.788173534959893 AGE -0.05285751197750732 STRAT -1.6650305527536942 GRAVID 0.38324952943210994 PARIT -0.9463956993328745 DIAB 0.18151162744507293 TRANSF -0.7413500749909346 GEMEL 1.5953124037323745 Rの結果は次のとおりです。 Estimate Std. Error z value Pr(>|z|) (Intercept) 3.0682091 3.3944407 0.904 0.366052 GEST 0.0086545 0.1494487 0.058 …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.