タグ付けされた質問 「python」

Pythonは、機械学習で一般的に使用されるプログラミング言語です。このタグは、(a)質問の重要な部分または予想される回答として「Python」が含まれる、* on-topic *の質問に使用します。(b)「Python」の使い方について「*」*ではありません。


2
ロジスティック回帰:Scikit Learn vs Statsmodels
これら2つのライブラリのロジスティック回帰からの出力が異なる結果を与える理由を理解しようとしています。 私は、UCLAのidreのからのデータセットを使用していますチュートリアル予測、admitに基づいてgre、gpaとrank。rankはカテゴリ変数として扱われるため、最初にrank_1ドロップされてダミー変数に変換されます。インターセプト列も追加されます。 df = pd.read_csv("https://stats.idre.ucla.edu/stat/data/binary.csv") y, X = dmatrices('admit ~ gre + gpa + C(rank)', df, return_type = 'dataframe') X.head() > Intercept C(rank)[T.2] C(rank)[T.3] C(rank)[T.4] gre gpa 0 1 0 1 0 380 3.61 1 1 0 1 0 660 3.67 2 1 0 0 0 800 4.00 3 1 …

3
TensorflowでPCAを超えるオートエンコーダーを構築する
ニューラルネットワークでデータの次元数を削減するヒントンとサラクーディノフ、サイエンス 2006は、ディープオートエンコーダーの使用による非線形PCAを提案しました。Tensorflowを使用してPCAオートエンコーダーを何度も構築およびトレーニングしようとしましたが、線形PCAよりも良い結果を得ることができませんでした。 オートエンコーダを効率的にトレーニングするにはどうすればよいですか? (@amoebaによる後の編集:この質問の元のバージョンには、正しく動作しなかったPython Tensorflowコードが含まれていました。編集履歴で見つけることができます。)

7
検証の精度が変動するのはなぜですか?
MRIデータを使用して癌に対する反応を予測する4層CNNがあります。ReLUアクティベーションを使用して、非線形性を導入します。列車の精度と損失はそれぞれ単調に増加および減少します。しかし、私のテストの精度は大きく変動し始めます。学習率を変更して、レイヤー数を減らしてみました。しかし、それは変動を止めるものではありません。私もこの答えを読み、その答えの指示に従ってみましたが、再び運はありませんでした。誰が私が間違っているのかを理解するのを手伝ってもらえますか?

2
libsvmデータ形式[終了]
サポートベクターの分類にlibsvm(http://www.csie.ntu.edu.tw/~cjlin/libsvm/)ツールを使用しています。ただし、入力データの形式については混乱しています。 READMEから: トレーニングおよびテストデータファイルの形式は次のとおりです。 <label> <index1>:<value1> <index2>:<value2> ... . . . 各行にはインスタンスが含まれ、「\ n」文字で終了します。分類の場合<label>、クラスラベルを示す整数です(マルチクラスがサポートされます)。回帰の場合<label>は、任意の実数のターゲット値です。1クラスのSVMの場合、使用されないため、任意の数にすることができます。このペア<index>:<value>は、特徴(属性)値を与えます<index>。1から始まる整数<value> で、実数です。唯一の例外は、<index>0から始まる事前計算済みカーネル です。事前に計算されたカーネルのセクションを参照してください。インデックスは昇順でなければなりません。テストファイルのラベルは、精度またはエラーの計算にのみ使用されます。不明な場合は、最初の列に数字を入力します。 次の質問があります。 の使用は何<index>ですか?どんな目的に役立ちますか? 異なるデータインスタンスの同じインデックス値に対応はありますか? 間にインデックスが欠落/スキップした場合はどうなりますか? libsvmのパッケージに含まれるデータファイル* heart_scale *は12行目でインデックスが2から始まる<value>ため、質問します。注:パッケージに付属のtools / checkdata.pyツールには、* heart_scale *ファイルが正しいと記載されています。

2
Kolmogorov-Smirnov検定のp値を解釈する方法(python)?
同じディストリビューションから取得された場合、テストする2つのサンプル(Pythonを使用)があります。そのためには、scipy.statsの統計関数ks_2sampを使用します。2つの値が返され、それらを解釈する方法に問題があります。助けてください!
30 python 

1
sklearnの分類レポートの数字はどういう意味ですか?
以下に、sklearnのsklearn.metrics.classification_reportドキュメントから抜粋した例を示します。 私が理解していないのは、クラスが予測ラベルであると信じる各クラスにf1スコア、精度、リコール値がある理由です。f1スコアはモデルの全体的な精度を示していると思います。また、サポート列は何を教えてくれますか?私はそれに関する情報を見つけることができませんでした。 print(classification_report(y_true, y_pred, target_names=target_names)) precision recall f1-score support class 0 0.50 1.00 0.67 1 class 1 0.00 0.00 0.00 1 class 2 1.00 0.67 0.80 3 avg / total 0.70 0.60 0.61 5

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

2
Pythonのscikit-learn LDAが正しく機能しないのはなぜですか?また、SVDを介してLDAを計算する方法
私はscikit-learn次元削減のために機械学習ライブラリ(Python)の線形判別分析(LDA)を使用していましたが、結果に少し興味がありました。私は今、LDAが何をしているのか疑問に思っていscikit-learnます。その結果、例えば、手動でのアプローチやRで行われたLDAとは異なった結果になります。 基本的に最も懸念さscikit-plotれるのは、相関0があるはずの2つの変数間の相関を示すことです。 テストでは、Irisデータセットを使用し、最初の2つの線形判別式は次のようになりました。 IMG-1 scikit-learn経由のLDA これは、私がscikit-learn ドキュメントで見つけた結果と基本的に一致しています。 今、私はLDAを段階的に通り抜けて、異なる予測を得ました。何が起こっているのかを知るために、さまざまなアプローチを試しました。 IMG-2。生データのLDA(センタリングなし、標準化なし) そして、最初にデータを標準化(zスコア正規化;単位分散)した場合のステップバイステップのアプローチになります。同じことを平均中心化のみで行いました。これにより、同じ相対投影画像が得られるはずです(実際にそうなりました)。 IMG-3。平均中心化または標準化後の段階的なLDA IMG-4。RのLDA(デフォルト設定) IMG-3のLDAは、データを中央に配置したため(推奨されるアプローチ)、RでLDAを実行した誰かが投稿で見つけたものとまったく同じに見えます。 参照用コード すべてのコードをここに貼り付けたくはありませんでしたが、LDAプロジェクションで使用したいくつかのステップ(以下を参照)に分けてIPythonノートブックとしてアップロードしました。 ステップ1:d次元平均ベクトルの計算m私= 1n私∑X ∈ D私nバツkm私=1n私∑バツ∈D私nバツk\mathbf m_i = \frac{1}{n_i} \sum\limits_{\mathbf x \in D_i}^n \; \mathbf x_k ステップ2:散布図の計算 2.1クラス内散布行列は、次の方程式によって計算されますS W = C Σ I = 1、S I = C Σ I = 1 N Σのx ∈ D I(X …

5
変化点分析のためのPythonモジュール
時系列の変化点分析を実行するPythonモジュールを探しています。さまざまなアルゴリズムがありますが、それぞれのアルゴリズムを手動でロールすることなく、それらのいくつかの有効性を調査したいと思います。 理想的には、bcp(Bayesian Change Point)やRのstrucchangeパッケージのようないくつかのモジュールが欲しいです。 以下に施設がないことに驚いています。 statsmodels.tsa:時系列統計分析ツール scikits.timeseries:scipyを拡張する時系列分析ツール scipy.signal:scipyの信号処理ツール Pythonに変更点検出アルゴリズムを備えたモジュールはありますか?

2
Scikit-learnの平均絶対パーセントエラー(MAPE)[終了]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新して、相互検証のトピックになるようにします。 2年前に閉店。 Pythonとscikit-learnを使用して予測の平均絶対パーセント誤差(MAPE)を計算するにはどうすればよいですか? docsから、回帰のこれらの4つのメトリック関数のみがあります。 metrics.explained_variance_score(y_true、y_pred) metrics.mean_absolute_error(y_true、y_pred) metrics.mean_squared_error(y_true、y_pred) metrics.r2_score(y_true、y_pred)

1
ケラス、SGD学習率の減衰はどのように機能しますか?
ドキュメントhttp://keras.io/optimizers/を見ると、SGDに減衰用のパラメーターがあります。私はこれが時間の経過とともに学習率を低下させることを知っています。しかし、私はそれが正確に機能する方法を理解することはできません。lr = lr * (1 - decay) それは指数関数的であるような学習率を掛けた値ですか?また、モデルが使用している学習率をどのように確認できますか?model.optimizer.lr.get_value()いくつかのエポックにわたってフィットを実行した後に印刷すると、減衰を設定しても、元の学習率が返されます。 また、運動量を使用するためにnesterov = Trueを設定する必要がありますか、または使用できる運動量の種類が2つだけありますか。たとえば、これを行うポイントがありますsgd = SGD(lr = 0.1, decay = 1e-6, momentum = 0.9, nesterov = False)

5
正弦波の予測でニューラルネットワークを改善するにはどうすればよいですか?
ここでは、見て: あなたは場所を正確にトレーニングデータの終了を確認することができます。トレーニングデータから行くまで1。−1−1-1111 Kerasと、tanhアクティベーションを使用した1-100-100-2の高密度ネットワークを使用しました。pとqの2つの値pとqから結果を計算します。このように、1より小さい値のみを使用して、任意のサイズの数値を実現できます。 私はまだこの分野の初心者であるため、簡単に説明してください。

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
マルチラベル分類器でscikit-learnの相互検証関数を使用する方法
5つのクラスがあり、各インスタンスがこれらのクラスの1つ以上に属することができるデータセットでさまざまな分類子をテストしているので、特にscikit-learnのマルチラベル分類子を使用していますsklearn.multiclass.OneVsRestClassifier。次に、を使用して相互検証を実行しsklearn.cross_validation.StratifiedKFoldます。これにより、次のエラーが生成されます。 Traceback (most recent call last): File "mlfromcsv.py", line 93, in <module> main() File "mlfromcsv.py", line 77, in main test_classifier_multilabel(svm.LinearSVC(), X, Y, 'Linear Support Vector Machine') File "mlfromcsv.py", line 44, in test_classifier_multilabel scores = cross_validation.cross_val_score(clf_ml, X, Y_list, cv=cv, score_func=metrics.precision_recall_fscore_support, n_jobs=jobs) File "/usr/lib/pymodules/python2.7/sklearn/cross_validation.py", line 1046, in cross_val_score X, y = check_arrays(X, …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.