統計とビッグデータ python

4

そこの一般的な機能である条件付き確率場でPythonの？広く使用され、人気のあるものは見つかりません！

32 machine-learning classification python conditional-random-field

2

これら2つのライブラリのロジスティック回帰からの出力が異なる結果を与える理由を理解しようとしています。私は、UCLAのidreのからのデータセットを使用していますチュートリアル予測、admitに基づいてgre、gpaとrank。rankはカテゴリ変数として扱われるため、最初にrank_1ドロップされてダミー変数に変換されます。インターセプト列も追加されます。 df = pd.read_csv("https://stats.idre.ucla.edu/stat/data/binary.csv") y, X = dmatrices('admit ~ gre + gpa + C(rank)', df, return_type = 'dataframe') X.head() > Intercept C(rank)[T.2] C(rank)[T.3] C(rank)[T.4] gre gpa 0 1 0 1 0 380 3.61 1 1 0 1 0 660 3.67 2 1 0 0 0 800 4.00 3 1 …

31 regression logistic python scikit-learn statsmodels

3

TensorflowでPCAを超えるオートエンコーダーを構築する

ニューラルネットワークでデータの次元数を削減するヒントンとサラクーディノフ、サイエンス 2006は、ディープオートエンコーダーの使用による非線形PCAを提案しました。Tensorflowを使用してPCAオートエンコーダーを何度も構築およびトレーニングしようとしましたが、線形PCAよりも良い結果を得ることができませんでした。オートエンコーダを効率的にトレーニングするにはどうすればよいですか？（@amoebaによる後の編集：この質問の元のバージョンには、正しく動作しなかったPython Tensorflowコードが含まれていました。編集履歴で見つけることができます。）

31 pca python deep-learning tensorflow autoencoders

7

検証の精度が変動するのはなぜですか？

MRIデータを使用して癌に対する反応を予測する4層CNNがあります。ReLUアクティベーションを使用して、非線形性を導入します。列車の精度と損失はそれぞれ単調に増加および減少します。しかし、私のテストの精度は大きく変動し始めます。学習率を変更して、レイヤー数を減らしてみました。しかし、それは変動を止めるものではありません。私もこの答えを読み、その答えの指示に従ってみましたが、再び運はありませんでした。誰が私が間違っているのかを理解するのを手伝ってもらえますか？

31 machine-learning python deep-learning

2

libsvmデータ形式[終了]

サポートベクターの分類にlibsvm（http://www.csie.ntu.edu.tw/~cjlin/libsvm/）ツールを使用しています。ただし、入力データの形式については混乱しています。 READMEから：トレーニングおよびテストデータファイルの形式は次のとおりです。 <label> <index1>:<value1> <index2>:<value2> ... . . . 各行にはインスタンスが含まれ、「\ n」文字で終了します。分類の場合<label>、クラスラベルを示す整数です（マルチクラスがサポートされます）。回帰の場合<label>は、任意の実数のターゲット値です。1クラスのSVMの場合、使用されないため、任意の数にすることができます。このペア<index>:<value>は、特徴（属性）値を与えます<index>。1から始まる整数<value> で、実数です。唯一の例外は、<index>0から始まる事前計算済みカーネルです。事前に計算されたカーネルのセクションを参照してください。インデックスは昇順でなければなりません。テストファイルのラベルは、精度またはエラーの計算にのみ使用されます。不明な場合は、最初の列に数字を入力します。次の質問があります。の使用は何<index>ですか？どんな目的に役立ちますか？異なるデータインスタンスの同じインデックス値に対応はありますか？間にインデックスが欠落/スキップした場合はどうなりますか？ libsvmのパッケージに含まれるデータファイル* heart_scale *は12行目でインデックスが2から始まる<value>ため、質問します。注：パッケージに付属のtools / checkdata.pyツールには、* heart_scale *ファイルが正しいと記載されています。

31 machine-learning svm python libsvm c++

2

Kolmogorov-Smirnov検定のp値を解釈する方法（python）？

同じディストリビューションから取得された場合、テストする2つのサンプル（Pythonを使用）があります。そのためには、scipy.statsの統計関数ks_2sampを使用します。2つの値が返され、それらを解釈する方法に問題があります。助けてください！

30 python

1

sklearnの分類レポートの数字はどういう意味ですか？

以下に、sklearnのsklearn.metrics.classification_reportドキュメントから抜粋した例を示します。私が理解していないのは、クラスが予測ラベルであると信じる各クラスにf1スコア、精度、リコール値がある理由です。f1スコアはモデルの全体的な精度を示していると思います。また、サポート列は何を教えてくれますか？私はそれに関する情報を見つけることができませんでした。 print(classification_report(y_true, y_pred, target_names=target_names)) precision recall f1-score support class 0 0.50 1.00 0.67 1 class 1 0.00 0.00 0.00 1 class 2 1.00 0.67 0.80 3 avg / total 0.70 0.60 0.61 5

29 machine-learning python scikit-learn precision-recall

1

lmerモデルからの効果の再現性の計算

混合効果モデリングによる測定の再現性（別名信頼性、別名クラス内相関）の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

2

Pythonのscikit-learn LDAが正しく機能しないのはなぜですか？また、SVDを介してLDAを計算する方法

私はscikit-learn次元削減のために機械学習ライブラリ（Python）の線形判別分析（LDA）を使用していましたが、結果に少し興味がありました。私は今、LDAが何をしているのか疑問に思っていscikit-learnます。その結果、例えば、手動でのアプローチやRで行われたLDAとは異なった結果になります。基本的に最も懸念さscikit-plotれるのは、相関0があるはずの2つの変数間の相関を示すことです。テストでは、Irisデータセットを使用し、最初の2つの線形判別式は次のようになりました。 IMG-1 scikit-learn経由のLDA これは、私がscikit-learn ドキュメントで見つけた結果と基本的に一致しています。今、私はLDAを段階的に通り抜けて、異なる予測を得ました。何が起こっているのかを知るために、さまざまなアプローチを試しました。 IMG-2。生データのLDA（センタリングなし、標準化なし）そして、最初にデータを標準化（zスコア正規化;単位分散）した場合のステップバイステップのアプローチになります。同じことを平均中心化のみで行いました。これにより、同じ相対投影画像が得られるはずです（実際にそうなりました）。 IMG-3。平均中心化または標準化後の段階的なLDA IMG-4。RのLDA（デフォルト設定） IMG-3のLDAは、データを中央に配置したため（推奨されるアプローチ）、RでLDAを実行した誰かが投稿で見つけたものとまったく同じに見えます。参照用コードすべてのコードをここに貼り付けたくはありませんでしたが、LDAプロジェクションで使用したいくつかのステップ（以下を参照）に分けてIPythonノートブックとしてアップロードしました。ステップ1：d次元平均ベクトルの計算m私= 1n私∑X ∈ D私nバツkm私=1n私∑バツ∈D私nバツk\mathbf m_i = \frac{1}{n_i} \sum\limits_{\mathbf x \in D_i}^n \; \mathbf x_k ステップ2：散布図の計算 2.1クラス内散布行列は、次の方程式によって計算されますS W = C Σ I = 1、S I = C Σ I = 1 N Σのx ∈ D I（X …

26 python scikit-learn dimensionality-reduction discriminant-analysis svd

5

変化点分析のためのPythonモジュール

時系列の変化点分析を実行するPythonモジュールを探しています。さまざまなアルゴリズムがありますが、それぞれのアルゴリズムを手動でロールすることなく、それらのいくつかの有効性を調査したいと思います。理想的には、bcp（Bayesian Change Point）やRのstrucchangeパッケージのようないくつかのモジュールが欲しいです。以下に施設がないことに驚いています。 statsmodels.tsa：時系列統計分析ツール scikits.timeseries：scipyを拡張する時系列分析ツール scipy.signal：scipyの信号処理ツール Pythonに変更点検出アルゴリズムを備えたモジュールはありますか？

24 time-series python change-point

2

Scikit-learnの平均絶対パーセントエラー（MAPE）[終了]

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新して、相互検証のトピックになるようにします。 2年前に閉店。 Pythonとscikit-learnを使用して予測の平均絶対パーセント誤差（MAPE）を計算するにはどうすればよいですか？ docsから、回帰のこれらの4つのメトリック関数のみがあります。 metrics.explained_variance_score（y_true、y_pred） metrics.mean_absolute_error（y_true、y_pred） metrics.mean_squared_error（y_true、y_pred） metrics.r2_score（y_true、y_pred）

24 predictive-models python scikit-learn mape

1

ケラス、SGD学習率の減衰はどのように機能しますか？

ドキュメントhttp://keras.io/optimizers/を見ると、SGDに減衰用のパラメーターがあります。私はこれが時間の経過とともに学習率を低下させることを知っています。しかし、私はそれが正確に機能する方法を理解することはできません。lr = lr * (1 - decay) それは指数関数的であるような学習率を掛けた値ですか？また、モデルが使用している学習率をどのように確認できますか？model.optimizer.lr.get_value()いくつかのエポックにわたってフィットを実行した後に印刷すると、減衰を設定しても、元の学習率が返されます。また、運動量を使用するためにnesterov = Trueを設定する必要がありますか、または使用できる運動量の種類が2つだけありますか。たとえば、これを行うポイントがありますsgd = SGD(lr = 0.1, decay = 1e-6, momentum = 0.9, nesterov = False)

23 neural-networks python

5

正弦波の予測でニューラルネットワークを改善するにはどうすればよいですか？

ここでは、見て：あなたは場所を正確にトレーニングデータの終了を確認することができます。トレーニングデータから行くまで1。−1−1-1111 Kerasと、tanhアクティベーションを使用した1-100-100-2の高密度ネットワークを使用しました。pとqの2つの値pとqから結果を計算します。このように、1より小さい値のみを使用して、任意のサイズの数値を実現できます。私はまだこの分野の初心者であるため、簡単に説明してください。

21 regression neural-networks python keras

4

新しいベクターをPCA空間に投影する方法は？

主成分分析（PCA）を実行した後、新しいベクトルをPCA空間に投影します（つまり、PCA座標系で座標を見つけます）。を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか？

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

2

マルチラベル分類器でscikit-learnの相互検証関数を使用する方法

5つのクラスがあり、各インスタンスがこれらのクラスの1つ以上に属することができるデータセットでさまざまな分類子をテストしているので、特にscikit-learnのマルチラベル分類子を使用していますsklearn.multiclass.OneVsRestClassifier。次に、を使用して相互検証を実行しsklearn.cross_validation.StratifiedKFoldます。これにより、次のエラーが生成されます。 Traceback (most recent call last): File "mlfromcsv.py", line 93, in <module> main() File "mlfromcsv.py", line 77, in main test_classifier_multilabel(svm.LinearSVC(), X, Y, 'Linear Support Vector Machine') File "mlfromcsv.py", line 44, in test_classifier_multilabel scores = cross_validation.cross_val_score(clf_ml, X, Y_list, cv=cv, score_func=metrics.precision_recall_fscore_support, n_jobs=jobs) File "/usr/lib/pymodules/python2.7/sklearn/cross_validation.py", line 1046, in cross_val_score X, y = check_arrays(X, …

20 cross-validation python multi-class scikit-learn multilabel

タグ付けされた質問 「python」

タグ付けされた質問「python」