タグ付けされた質問 「python」

Pythonは、機械学習で一般的に使用されるプログラミング言語です。このタグは、(a)質問の重要な部分または予想される回答として「Python」が含まれる、* on-topic *の質問に使用します。(b)「Python」の使い方について「*」*ではありません。

6
アンサンブルメソッドの実装方法を学習するためのリソース
私はそれらがどのように機能するか(理論的に)は理解していますが、アンサンブル法(投票、加重混合など)を実際に使用する方法はわかりません。 アンサンブルメソッドを実装するための優れたリソースは何ですか? Pythonでの実装に関する特定のリソースはありますか? 編集: コメントに関する議論に基づいていくつかを整理するために、randomForestなどのアンサンブルアルゴリズムを探していません。代わりに、異なるアルゴリズムの異なる分類をどのように組み合わせることができるのか疑問に思っています。 たとえば、誰かがロジスティック回帰、SVM、およびその他の方法を使用して、特定の観測のクラスを予測するとします。これらの予測に基づいてクラスの最適な推定値を取得するための最善の方法は何ですか?

3
統計ワークベンチとしてのRuby
また、これは非常に多くの関係する質問ですワークベンチの統計情報としてPythonと統計作業台として優れ。RubyとPythonについて大きな議論があることは知っていますが、これはこの質問のポイントではありません。RubyはPythonよりも速く、非常に自然な構文を持っていると統計を理解するのに役立ち、Rの良い代替品になる可能性があると思いました(これも私の興味であり、Rに関する他の質問で引用されました)。たとえば、私が見たGoogle Techの講義の1つで(ここでリンクされている質問で引用されているように、講師はforループの作成中にRが遅いと文句を言います)。RubyにはRailsもあります。そのため、両方を統合する可能性があるかもしれません(PythonにはDjangoがありますが、私はここには入りません)。 したがって、質問は同じですが、私の興味のために、Rubyに: R、SPSS、Python、Excelなどを置き換える「統計ワークベンチ」としてRubyを使用したい場合、何をお勧めできますか? あなたの経験に基づいて、私は何を獲得し、失いますか? 以前のPythonとExcelの質問に基づいてこの質問を検討していることに注意してください。RubyとPython(またはExcel)を使用しても同じ影響があると思われる場合は、そう言って、前の質問の引数を指してください。この質問の目的は、同じ答えに対して前の質問を複製することではありません。ただし、違いはあると思います(言語の速度や構文など)が、Rubyの推奨事項や、たとえば、 PythonまたはExcel。そのため、これらの非常に類似した質問に対する他の言語/プログラムに対する以前の回答を検討してください。 編集:答えが逆になっているように見えるので、強調するために、私が探していた答えは、私がリンクしているPythonの質問で選ばれた答えのようなものです。Rubyとともに統計を学習することではありません。私はRで統計を学ぶという質問を指摘しました。可能であれば素晴らしいのですが、同時にRubyで統計を学ぶことを期待していません。この質問の統計情報の背景を推測できます。
13 r  python  software  ruby 

4
ベイズ確率理論や例によるグラフィカルモデルに関するチュートリアルはありますか?
Rでベイジアン確率理論を学習することへの参照を見てきましたが、おそらくPythonで特にこのようなものがあるのではないかと思っていましたか?ベイズ確率理論、推論、最尤推定、グラフィカルモデル、およびソートの学習を対象としていますか?

9
Pythonで決定木をブーストしましたか?[閉まっている]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新して、相互検証のトピックになるようにします。 4か月前に閉鎖されました。 ブーストされた決定木をトレーニングするための優れたpythonライブラリはありますか?
13 python  cart  boosting 

2
BICを使用してKMEANSのkの数を推定する
現在、おもちゃのデータセット(ofc iris(:))のBICを計算しようとしています。ここに示すように結果を再現したいです(図5)。 これには2つの問題があります。 表記: n私n私n_i =クラスターの要素数私私i C私C私C_i =クラスター中心座標私私i バツjバツjx_j =クラスター iに割り当てられたデータポイント私私i mmm =クラスターの数 1)式で定義された分散 (2): ∑私= 1n私− m∑j = 1n私∥ Xj− C私∥2∑私=1n私−m∑j=1n私‖バツj−C私‖2 \sum_i = \frac{1}{n_i-m}\sum_{j=1}^{n_i}\Vert x_j - C_i \Vert^2 私が見る限り、クラスター内の要素よりもクラスターmmmが多い場合、分散が負になる可能性があることは問題であり、カバーされません。これは正しいです? 2)正しいBICを計算するためにコードを機能させることができません。うまくいけばエラーはありませんが、誰かが確認できれば幸いです。方程式全体は式で見つけることができます。(5)論文の中。私はscikit learnを使用して、すべてを(キーワード:Pを正当化するために)使用しています。 from sklearn import cluster from scipy.spatial import distance import sklearn.datasets from sklearn.preprocessing import StandardScaler import matplotlib.pyplot as plt …

2
カルマンフィルターの使用方法
2D空間(サーフェス)にオブジェクトの軌跡があります。軌跡は一連の(x,y)座標として与えられます。私の測定値はノイズが多く、時には明らかな外れ値があることを知っています。だから、私は私の観測をフィルタリングしたい。 カルマンフィルターを理解している限り、それはまさに必要なことを行います。だから、私はそれを使用しようとします。ここで python実装を見つけました。そして、これはドキュメントが提供する例です: from pykalman import KalmanFilter import numpy as np kf = KalmanFilter(transition_matrices = [[1, 1], [0, 1]], observation_matrices = [[0.1, 0.5], [-0.3, 0.0]]) measurements = np.asarray([[1,0], [0,0], [0,1]]) # 3 observations kf = kf.em(measurements, n_iter=5) (filtered_state_means, filtered_state_covariances) = kf.filter(measurements) (smoothed_state_means, smoothed_state_covariances) = kf.smooth(measurements) 入力と出力の解釈に問題があります。それmeasurementsが私の測定値(座標)であると思います。例の測定値は整数であるため、少し混乱していますが。 私もいくつか提供する必要がtransition_matricesありobservation_matricesます。そこにどんな価値を置くべきですか?これらの行列はどういう意味ですか? 最後に、出力はどこにありますか?それがあるべきfiltered_state_meansかsmoothed_state_means。これらの配列には正しい形状があります(2, n_observations)。ただし、これらの配列の値は元の座標から離れすぎています。 それでは、このカルマンフィルターの使用方法は?

1
GBMパッケージとGBMを使用したキャレット
私はを使用してモデルのチューニングを行ってきましたがcaret、gbmパッケージを使用してモデルを再実行しています。caretパッケージが使用gbmし、出力が同じである必要があることは私の理解です。ただし、を使用した簡単なテスト実行でdata(iris)は、評価指標としてRMSEとR ^ 2を使用したモデルで約5%の不一致が示されています。を使用して最適なモデルのパフォーマンスを見つけたいが、部分的な依存関係プロットを利用するためにcaret再実行しgbmます。再現性のために以下のコード。 私の質問は次のとおりです。 1)これらの2つのパッケージは同じであっても違いがあるのはなぜですか(確率的ですが、5%がやや大きな違いであることがわかります。特に、次のような素晴らしいデータセットを使用していない場合 iris、モデリングの) 。 2)両方のパッケージを使用する利点または欠点はありますか? 3)無関係:irisデータセットを使用した場合、最適な値interaction.depthは5ですが、読み取り値が最大値floor(sqrt(ncol(iris)))である2 を超えるはずです。これは厳密な経験則ですか、それとも非常に柔軟ですか。 library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) …

4
グラディエントディセントをオプティマイザーとして使用して、学習率を(体系的に)調整する方法は?
ML / DLフィールドの部外者。Tensorflowに基づくUdacity Deep Learningコースを開始しました。課題3の問題4を行います。次の設定で学習率を調整しようとしています: バッチサイズ128 ステップ数:2エポックを満たすのに十分 隠しレイヤーのサイズ:1024、305、75 重みの初期化:標準で切り捨てられた通常。sqrt(2 / n)の偏差。nは前のレイヤーのサイズ ドロップアウト維持確率:0.75 正則化:適用されません 学習率アルゴリズム:指数関数的減衰 学習率パラメーターをいじくりまわした。ほとんどの場合、効果がないようです。ここにコード ; 結果: Accuracy learning_rate decay_steps decay_rate staircase 93.7 .1 3000 .96 True 94.0 .3 3000 .86 False 94.0 .3 3000 .96 False 94.0 .3 3000 .96 True 94.0 .5 3000 .96 True 学習率を体系的に調整するにはどうすればよいですか? 学習率はステップ数とどのように関係していますか?

1
Pythonでの順序ロジスティック回帰
Pythonで順序ロジスティック回帰を実行したいと思います-3つのレベルといくつかの説明要因を持つ応答変数に対して。このstatsmodelsパッケージは、バイナリロジットモデルと多項ロジット(MNLogit)モデルをサポートしていますが、順序付けられたロジットはサポートしていません。基礎となる数学はそれほど変わらないので、これらを使用して簡単に実装できるのだろうか?(または、動作する他のPythonパッケージを高く評価します。)

1
MCMCで自己相関プロットを解釈する方法
「子犬の本」としても知られるジョンK.クルシュケの本Doing Bayesian Data Analysisを読んで、ベイジアン統計に精通しています。第9章では、この単純な例で階層モデルを紹介します: 及びベルヌーイ観察は3枚のコイン、それぞれ10のフリップあります。1つは9つのヘッド、他の5つはヘッド、もう1つは1つのヘッドです。yj iθjμκ〜BのEのR 、N 、O 、U 、L L I(θj)〜BのEのトン(μκ、(1-μ)κ)〜BのE T(Aμ、Bμ)〜G A M M A(Sκ、Rκ)yj私〜Bernoあなたはll私(θj)θj〜Beta(μκ、(1−μ)κ)μ〜Beta(Aμ、Bμ)κ〜Gamma(Sκ、Rκ)\begin{align} y_{ji} &\sim {\rm Bernoulli}(\theta_j) \\ \theta_j &\sim {\rm Beta}(\mu\kappa, (1-\mu)\kappa) \\ \mu &\sim {\rm Beta}(A_\mu, B_\mu) \\ \kappa &\sim {\rm Gamma}(S_\kappa, R_\kappa) \end{align} ハイパーパラメーターを推測するためにpymcを使用しました。 with pm.Model() as model: # define the mu = …

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
なぜこの分布は均一なのですか?
私たちはベイジアン統計検定を調査していますが、奇妙な(少なくとも私にとって)現象に出くわします。 次の場合を考えてみましょう。AまたはBのどちらの母集団のコンバージョン率が高いかを測定することに関心があります。健全性チェックでは、を設定しpA=pBpA=pBp_A = p_Bます。つまり、変換の確率は両方のグループで等しくなります。二項モデルを使用して人工データを生成しnA∼Binomial(N,pA)nA∼Binomial(N,pA)n_A \sim \text{Binomial}(N, p_A) 次に、ベイジアンベータ二項モデルを使用してを推定し、各変換レートの事後確率を取得します。たとえば、pA,pBpA,pBp_A, p_BPA∼Beta(1+nA,N−nA+1)PA∼Beta(1+nA,N−nA+1)P_A \sim \text{Beta}(1 + n_A, N - n_A +1 ) 検定統計量は経由でを計算して計算されます。S=P(PA>PB|N,nA,nB)S=P(PA>PB|N,nA,nB)S = P(P_A > P_B\; |\; N, n_A, n_B) 私が驚いたのは、場合、です。私は、サンプルサイズNが大きくなると、0.5を中心に0.5に収束し、さらには0.5に収束すると考えていました。 pA=pBpA=pBp_A = p_BS∼Uniform(0,1)S∼Uniform(0,1)S \sim \text{Uniform(0,1)}NNN 私の質問は、 p_A = p_BのときにS \ sim \ text {Uniform(0,1)} なのはなぜですか?S∼Uniform(0,1)S∼Uniform(0,1)S \sim \text{Uniform(0,1)}pA=pBpA=pBp_A = p_B デモするPythonコードを次に示します。 %pylab from …

1
ガウス混合モデル(GMM)を操作するためのPythonパッケージ
PythonでGaussian Mixture Models(GMM)を操作するために使用できるオプションがいくつかあるようです。一見すると、少なくとも次のものがあります。 PyMix- http: //www.pymix.org/pymix/index.php 混合モデリングのツール PyEM- http: //www.ar.media.kyoto-u.ac.jp/members/david/softwares/em/ は、Scipyツールボックスの一部であり、GMMの更新に焦点を当てているようです:sklearn.mixtureとして知られるようになりました 。 PyPR- http: //pypr.sourceforge.net/ パターン認識およびGMMを含む関連ツール ...そしておそらく他の人。それらはすべて、作成とサンプリング、パラメータ推定、クラスタリングなどを含む、GMMの最も基本的なニーズを提供するようです。 それらの違いは何ですか?また、特定のニーズに最適なものを判断するにはどうすればよいですか? 参照:http : //www.scipy.org/Topical_Software

1
Scikit predict_proba出力の解釈
Pythonでscikit-learnライブラリを使用しています。以下のコードでは、確率を予測していますが、出力の読み方がわかりません。 試験データ from sklearn.ensemble import RandomForestClassifier as RF from sklearn import cross_validation X = np.array([[5,5,5,5],[10,10,10,10],[1,1,1,1],[6,6,6,6],[13,13,13,13],[2,2,2,2]]) y = np.array([0,1,1,0,1,2]) データセットを分割する X_train, X_test, y_train, y_test = cross_validation.train_test_split(X, y, test_size=0.5, random_state=0) 確率を計算する clf = RF() clf.fit(X_train,y_train) pred_pro = clf.predict_proba(X_test) print pred_pro 出力 [[ 1. 0.] [ 1. 0.] [ 0. 1.]] X_testリストには3つの配列(6つのサンプルとtest_size = …

2
エラー分布のファミリとしてポアソン、ガンマ、またはトゥイーディー分布を使用して、Python / scikit-learnでGLMを評価することは可能ですか?
いくつかのPythonとSklearnを学習しようとしていますが、私の仕事では、ポアソン、ガンマ、特にTweedieファミリの誤差分布を使用する回帰を実行する必要があります。 それらについてのドキュメントには何も見当たらないが、それらはRディストリビューションのいくつかの部分にあるので、誰かがPythonのどこかで実装を見たのではないかと思っていた。あなたがTweedieディストリビューションのSGD実装に向けて私を向けることができれば、それはさらに格好良いでしょう!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.