タグ付けされた質問 「scikit-learn」

Python用の機械学習ライブラリ。このタグは、(a)scikit-learnが質問の重要な部分または予想される回答として含まれているトピックトピックの質問に使用し、&(b)はscikit-learnの使い方だけではありません。

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
Scikit二項偏差損失関数
これはscikit GradientBoostingの2項偏差偏差関数です。 def __call__(self, y, pred, sample_weight=None): """Compute the deviance (= 2 * negative log-likelihood). """ # logaddexp(0, v) == log(1.0 + exp(v)) pred = pred.ravel() if sample_weight is None: return -2.0 * np.mean((y * pred) - np.logaddexp(0.0, pred)) else: return (-2.0 / sample_weight.sum() * np.sum(sample_weight * ((y * pred) …

1
まれなイベントをどのように予測しますか?
私は保険リスク予測モデルの開発に取り組んでいます。これらのモデルは、航空会社のノーショー予測、ハードウェア障害検出などの「まれなイベント」のものです。データセットを準備していたため、分類を適用しようとしましたが、否定的なケースの割合が高いため、有用な分類子を取得できませんでした。 私は高校の統計コース以外に統計とデータのモデリングの経験があまりないので、ちょっと混乱しています。 最初に思ったように、私は不均質なポアソンプロセスモデルを使用することを考えています。イベントデータ(日付、緯度、経度)に基づいて分類し、特定の場所の特定の日の特定の時間におけるリスクの可能性を適切に推定しました。 知りたいのですが、まれなイベントを予測するための方法論やアルゴリズムは何ですか? この問題に取り組むためのアプローチとして何をお勧めしますか?

4
Pythonでの主成分分析と回帰
私はSASで行ったいくつかの作業をPythonで再現する方法を理解しようとしています。多重共線性が問題となるこのデータセットを使用して、Pythonで主成分分析を実行したいと思います。scikit-learnとstatsmodelsを確認しましたが、それらの出力を取得してSASと同じ結果構造に変換する方法がわかりません。1つには、SASを使用するPROC PRINCOMPと相関行列でPCAを実行するように見えますが、Pythonライブラリのほとんど(すべて?)はSVDを使用しているようです。 データセット、最初の列は、応答変数であり、次の5はpred1-pred5呼ばれる予測変数です。 SASでは、一般的なワークフローは次のとおりです。 /* Get the PCs */ proc princomp data=indata out=pcdata; var pred1 pred2 pred3 pred4 pred5; run; /* Standardize the response variable */ proc standard data=pcdata mean=0 std=1 out=pcdata2; var response; run; /* Compare some models */ proc reg data=pcdata2; Reg: model response = pred1 pred2 pred3 …

1
scikit-learn PythonのElasticNetとRのGlmnetの違い
同じデータセットElasticNetでPythonとglmnetRのscikit-learnでElastic Netモデルをフィッティングすると、同じ算術結果が生成されるかどうかを確認しようとした人はいますか?私はパラメーターの多くの組み合わせ(2つの関数は引数に渡すデフォルト値が異なるため)を試し、データをスケーリングしましたが、2つの言語間で同じモデルを生成するものはないようです。誰かが同じ問題に直面しましたか?

2
ランダムフォレストのマルチクラスよりもランダムフォレストの1対すべてを使用した方がパフォーマンスが良いですか?
私は9つの可能なラベルを持つマルチクラス問題に取り組んでいます。そのため、約50.000の例とそれぞれ約200の特徴で構成されるデータセットがあります。各例は1つのクラスにのみ属することができます。データは、異なるラベル間でかなりバランスが取れています。 その堅牢性とスケーラビリティを考慮して、学習方法としてランダムフォレスト(1,000本の木の集合)を使用することにしました。このデータセットが与えられたモデルのパフォーマンス精度を評価するために、私はstratified5Fold交差検証を使用しました(私はscikit-learn 0.18を使用しています)。 ランダムフォレストは本質的にマルチクラスデータセットを処理できるため、指定されたデータセットで直接使用し、79.5 0.3の精度を得ました。私はまた、機能がより重要性、簡単属性から抽出することができる何か持っていた知ることに興味があったfeature_importances_でRandomForestClassifier scikitのを。ただし、データセットはバランスが取れており、予想通り、200のうち異なるクラスに寄与するフィーチャの数はほぼ同じであることを考えると、どのフィーチャが各クラスに最も寄与するかを特定できませんでした。±±\pm 結果として、私は同じランダムフォレストのセットアップを使用して、1対すべての戦略を採用しました(ところで、oneVsAll戦略を使用するときにデータの不均衡を考慮に入れるとコストに敏感です)。これにより、各クラスと残りの機能はより重要です。これについて私が得た結果は合理的です。さらに、この戦略を使用してモデルのパフォーマンスを確認したところ、88.7 0.2の精度が得られました。これは、マルチクラスのランダムフォレストがマルチクラスの性質を考慮してより適切に分類することを期待していたので、驚きました。±±\pm 私はこれで正しいですか?このような精度の違いはもっともらしいでしょうか?さらに、ランダムフォレスト自体がoneVsAll戦略などの「ハッキング」なしでマルチクラスの問題に取り組むことができるという条件で、上記の戦略はOKで公正に採用されていますか?

1
ランダムフォレストの確率的予測と多数決
Scikitの学習では、モデル集約手法に多数決投票ではなく確率的予測を使用しているようですが、その理由は説明されていません(1.9.2.1。ランダムフォレスト)。 理由は明確に説明されていますか?さらに、ランダムフォレストのバギングに使用できるさまざまなモデル集約手法に関する優れた論文またはレビュー記事はありますか? ありがとう!

2
マルチクラス分類でのScikit SVMの出力は常に同じラベルを与える
私は現在、次のコードでScikit Learnを使用しています: clf = svm.SVC(C=1.0, tol=1e-10, cache_size=600, kernel='rbf', gamma=0.0, class_weight='auto') そして、7つの異なるラベルを持つデータのセットを当てはめて予測します。奇妙な出力が出ました。検証セットで予測ラベルを使用する相互検証手法に関係なく、常にラベル7になります。 完全なデフォルトパラメータ(svm.SVC())を含む他のいくつかのパラメータを試しますが、私が使用するカーネルメソッドがのrbf代わりにあるpolyか、linearそれが機能しない限り、polyおよびに対しては非常にうまく機能しlinearます。 その上、検証データの代わりに列車データの予測をすでに試みており、完全に適合しています。 誰かがこの種の問題を以前に見て、ここで何が起こっているのか知っていますか? 私はクラスの分布を詳細に見ることはありませんが、約30%は7、14%は4であるべきだと思います。 私は手動の1-vs-rest実装を試みても、まだ役に立ちません。

1
観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか?
私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA(0,2,1)モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値(IO)TSAを検出しました。 この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか?Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか? これが私の値です。 VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

2
分類の目的でPCAをテストデータに適用する
最近、素晴らしいPCAについて学び、scikit-learnのドキュメントで概説されている例を実行しました。 分類の目的でPCAを新しいデータポイントに適用する方法を知りたいです。 PCAを2次元平面(x、y軸)で視覚化した後、データポイントを分割する線を描画して、片側が別の分類になり、もう一方が別の分類になるようにすることができます。この「境界」を描画して新しいデータポイントに適用するにはどうすればよいですか?

1
ロジスティック回帰問題のdecision_function、predict_proba、predict functionの違いは何ですか?
私はsklearnのドキュメントを調べてきましたが、ロジスティック回帰のコンテキストでこれらの関数の目的を理解できません。decision_functionそれが超平面とテストインスタンス間の距離と述べています。この特定の情報はどのように役立ちますか?そしてこれはどのように関連しpredict、predict-proba方法ですか?

3
scikit learnを使用した特徴選択後のフィルターされた特徴の識別
Pythonの特徴選択方法のコードは次のとおりです。 from sklearn.svm import LinearSVC from sklearn.datasets import load_iris iris = load_iris() X, y = iris.data, iris.target X.shape (150, 4) X_new = LinearSVC(C=0.01, penalty="l1", dual=False).fit_transform(X, y) X_new.shape (150, 3) しかし、新しいX(依存変数-X_new)を取得した後、どの変数が削除され、どの変数がこの新しい更新された変数で考慮されるかをどのようにして知ることができますか?(どれが削除されたか、どれがデータに存在するか。) この識別情報を取得するのは、新しいテストデータに同じフィルタリングを適用するためです。

2
入れ子の交差検証の実装
私は入れ子の交差検証の私の理解が正しいかどうかを把握しようとしています。したがって、このおもちゃの例を書いて、私が正しいかどうかを確認します。 import operator import numpy as np from sklearn import cross_validation from sklearn import ensemble from sklearn.datasets import load_boston # set random state state = 1 # load boston dataset boston = load_boston() X = boston.data y = boston.target outer_scores = [] # outer cross-validation outer = cross_validation.KFold(len(y), n_folds=3, shuffle=True, …

4
Rの離散時間イベント履歴(生存)モデル
Rに離散時間モデルを適合させようとしていますが、その方法がわかりません。 従属変数を時間監視ごとに1つずつ異なる行に編成し、glm関数をlogitまたはcloglogリンクで使用できることを読みました。この意味で、私は3つの列があります:ID、Event(各time-obsで1または0)およびTime Elapsed(観測の開始以降)、および他の共変量。 モデルに合うようにコードを書くにはどうすればよいですか?従属変数はどれですか?Event従属変数として使用できTime Elapsed、共変量に含めることができると思います。しかし、どうなりIDますか?必要ですか? ありがとう。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

2
調整されたランドインデックスと調整された相互情報量
クラスタリングのパフォーマンスを評価しようとしています。メトリックに関するスキスチ学習ドキュメントを読んでいました。ARIとAMIの違いがわかりません。彼らは2つの異なる方法で同じことをしているように私には思えます。 ドキュメントからの引用: グラウンドトゥルースクラスの割り当てlabels_trueと、同じサンプルlabels_predのクラスタリングアルゴリズムの割り当てに関する知識がある場合、調整されたRandインデックスは、順列を無視し、偶然に正規化して、2つの割り当ての類似性を測定する関数です。 対 グラウンドトゥルースクラスの割り当てlabels_trueと、同じサンプルlabels_predのクラスタリングアルゴリズムの割り当てに関する知識がある場合、相互情報は、順列を無視して2つの割り当ての一致を測定する関数です... AMIはより最近提案され、正規化されています。機会。 クラスタリング評価で両方を使用する必要がありますか、それとも冗長ですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.