統計とビッグデータ python

2

ほとんどが相関性が高く、非常にノイズが多い（たとえばテクニカルインジケーター）ほとんどが金融変数（120の機能、4 kの例）のデータセットがあるため、モデルトレーニング（バイナリ分類）で使用するために最大20-30を選択したいと思います-増加/減少）。機能のランキングにランダムフォレストを使用することを考えていました。それらを再帰的に使用するのは良い考えですか？たとえば、最初のラウンドで最悪の20％をドロップし、2番目も同様に、目的の数の機能を取得するまで続けます。RFで相互検証を使用する必要がありますか？（CVを使用しないのは直感的です。なぜなら、CVはRFで既に行われていることだからです。）また、ランダムフォレストを使用する場合、機能の重要性を取得するために、実際の増加/減少のバイナリまたはリグレッサーの分類子として使用する必要がありますか？ちなみに、特徴選択後に試してみたいモデルは、SVM、ニューラルネット、局所加重回帰、ランダムフォレストです。私は主にPythonで働いています。

16 feature-selection random-forest python

3

マルチクラスLDAトレーニングの共線変数

8クラスのデータでマルチクラスLDA分類器をトレーニングしています。トレーニングを行っている間、私は警告が出ます：「変数が同一直線上にあります」私は取得しています訓練オーバーの精度90％。 Pythonでscikits-learnライブラリを使用して、マルチクラスデータのトレーニングとテストを行っています。私はまともなテスト精度も得ています（約85％-95％）。エラー/警告の意味がわかりません。私を助けてください。

16 machine-learning classification python scikit-learn discriminant-analysis

2

ボックスプロットで中央値の代わりに平均値を表示する[終了]

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新して、相互検証のトピックになるようにします。 4ヶ月前に閉店。 python matplotblibで箱ひげ図をプロットする場合、プロットの半分の線は分布の中央値です。代わりに平均でラインを持つ可能性はありますか。または、その横に別のスタイルでプロットします。また、行が中央値であることが一般的であるため、平均にすると、読者を本当に混乱させますか（もちろん、中間行とは何かをメモします）。

15 data-visualization python matplotlib boxplot

3

ロジスティック回帰：Scikit Learn対glmnet

Rのパッケージをsklearn使用してロジスティック回帰ライブラリの結果を複製しようとしていglmnetます。 sklearn分w 、c12wTw + C∑i = 1Nログ（exp（ − y私（ XT私w + c ））+ 1 ）分w、c12wTw+C∑私=1Nログ⁡（exp⁡（−y私（バツ私Tw+c））+1）\min_{w,c} \frac12 w^Tw + C\sum_{i=1}^N \log(\exp(-y_i(X_i^Tw+c)) + 1) のビネットからglmnet、その実装はわずかに異なるコスト関数を最小化します分β、β0− [ 1N∑i = 1Ny私（β0+ xT私β）− ログ（1 + e（β0+ xT私β））] + λ [ （α - 1 ）| |β| |22/ 2+α | |β| |1]分β、β0−[1N∑私=1Ny私（β0+バツ私Tβ）−ログ⁡（1+e（β0+バツ私Tβ））]+λ[（α−1）||β||22/2+α||β||1]\min_{\beta, \beta_0} -\left[\frac1N \sum_{i=1}^N y_i(\beta_0+x_i^T\beta)-\log(1+e^{(\beta_0+x_i^T\beta)})\right] …

15 r logistic python scikit-learn glmnet

1

曲線近似から共分散行列を解釈するにはどうすればよいですか？

私は統計があまり得意ではないので、これが単純な質問であればおifびします。一部のデータに曲線を当てはめていますが、データがの形の負の指数関数に最適な場合があり、a ∗ e （− b ∗ x 2）に近い場合があります+ C。ただし、これらの両方が失敗する場合があり、線形フィットにフォールバックしたいと思います。私の質問は、どのモデルが特定のデータセットに最も適合するかを、結果の分散共分散行列から最適に決定する方法です。a ∗ e（− b ∗ x ）+ ca∗e（−b∗バツ）+ca * e^{(-b * x)} + ca ∗ e（− b ∗ x2）+ ca∗e（−b∗バツ2）+ca * e^{(-b * x^2)} + cscipy.optimize.curve_fit（）関数？分散はこの行列の対角線の1つにあると思いますが、どのように解釈するのかわかりません。更新：同様の質問に基づいて、分散共分散行列が、3つのモデルのうちどれがデータに最も適合するかを教えてくれることを期待しています（これら3つのモデルの1つに多くのデータセットを適合させようとしています）。結果の行列は、指定された例では次のようになります。 pcov_lin [[ 2.02186921e-05 -2.02186920e-04] [ -2.02186920e-04 2.76322124e-03]] pcov_exp [[ 9.05390292e+00 -7.76201283e-02 -9.20475334e+00] [ -7.76201283e-02 …

15 variance model-selection python curve-fitting covariance-matrix

3

クラスタリングのデータ出力をプロットする方法は？

一連のデータ（一連のマーク）をクラスタリングしてみて、2つのクラスターを得ました。グラフィカルに表現したいと思います。私は（x、y）座標を持っていないので、表現について少し混乱しています。そのためのMATLAB / Python関数も探しています。編集データを投稿すると、質問がより明確になると思います。Pythonでkmeansクラスタリングを使用して（scipyを使用せずに）作成した2つのクラスターがあります。彼らです class 1: a=[3222403552.0, 3222493472.0, 3222491808.0, 3222489152.0, 3222413632.0, 3222394528.0, 3222414976.0, 3222522768.0, 3222403552.0, 3222498896.0, 3222541408.0, 3222403552.0, 3222402816.0, 3222588192.0, 3222403552.0, 3222410272.0, 3222394560.0, 3222402704.0, 3222298192.0, 3222409264.0, 3222414688.0, 3222522512.0, 3222404096.0, 3222486720.0, 3222403968.0, 3222486368.0, 3222376320.0, 3222522896.0, 3222403552.0, 3222374480.0, 3222491648.0, 3222543024.0, 3222376848.0, 3222403552.0, 3222591616.0, 3222376944.0, 3222325568.0, 3222488864.0, 3222548416.0, 3222424176.0, 3222415024.0, 3222403552.0, …

15 clustering data-visualization python

1

lmerモデルに使用する多重比較方法：lsmeansまたはglht？

1つの固定効果（条件）と2つのランダム効果（被験者内のデザインとペアによる参加者）を含む混合効果モデルを使用して、データセットを分析しています。モデルはlme4パッケージで生成されました：exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp)。次に、固定効果（条件）のないモデルに対してこのモデルの尤度比検定を実行しましたが、有意差があります。データセットには3つの条件があるため、多重比較を行いたいのですが、どの方法を使用すればよいかわかりません。CrossValidatedや他のフォーラムで同様の質問をいくつか見つけましたが、それでもかなり混乱しています。私が見たものから、人々は使用することを提案しました 1.lsmeansパッケージ- lsmeans(exp.model,pairwise~condition)私に次のような出力が得られます。 condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts contrast estimate SE df t.ratio p.value Condition1 - Condition2 -0.04893538 0.03813262 62.07 -1.283 0.4099 Condition1 - …

15 r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

3

多次元分布が同じかどうかをテストする

n次元の連続値ベクトルのサンプル母集団が2つ以上あるとしましょう。これらのサンプルが同じ分布からのものかどうかをテストするノンパラメトリックな方法はありますか？もしそうなら、これのためにRまたはPythonに関数がありますか？

15 r distributions nonparametric python

2

Pythonでのフォンミーゼスフィッシャー分布からのサンプリング？

Pythonの多変量フォンミーゼスフィッシャー分布からサンプリングする簡単な方法を探しています。scipyのstatsモジュールとnumpyモジュールを調べましたが、一変量のフォンミーゼス分布のみが見つかりました。利用可能なコードはありますか？まだ見つかりません。どうやら、Wood（1994）は、このリンクに従ってvMF分布からサンプリングするためのアルゴリズムを設計しましたが、私は論文を見つけることができません。 -編集正確さのために、私は文献で見つけるのが難しいアルゴリズムに興味があります（ほとんどの論文は焦点を当てています）。私の知る限り、独創的な記事（Wood、1994）は無料で見つけることができません。S2S2S^2

14 distributions sampling python

1

Scipyのベータ分布フィッティング

ウィキペディアによると、ベータ確率分布には、および 2つの形状パラメーターがあります。αα\alphaββ\beta scipy.stats.beta.fit(x)Python を呼び出すと、xの範囲の数字の束があり、4つの値が返されます。これは奇妙に思えます。[ 0 、1 ][0、1][0,1] グーグルで検索した結果、戻り値の1つは 'location'でなければならないことがわかりましたscipy.stats.beta.fit(x, floc=0)。 4番目の変数が何であるか、そして最初の2つがと場合、誰もが知っていますか？αα\alphaββ\beta

14 python scipy beta-distribution

1

ディープニューラルネットワークの感度分析

既に回答された質問（1層フィードフォワードネットワークからの重みの重要性の抽出）に続いて、ニューラルネットワークの入力の関連性に関する推論を探しています。対象の出力ノードからレイヤーを逆方向にたどって入力の重要度を再構築するのが難しいか時間がかかる深いネットを考えると、ニューラルネットワークの感度分析を実行する際に、基本的にわずかに変化する理論的な枠組みがあるのではないかと思いました入力し、対象のouptutノードがどのように変化するかを検討します。ニューラルネットワークで何らかの感度分析を実行する標準的な方法はありますか？もしあれば、Pythonコードを歓迎します。

14 neural-networks python feature-selection sensitivity-analysis

2

「F回帰」と

フィーチャをF-regressionラベルと個別に関連付け、値を観察するのと同じ方法を使用してフィーチャを比較していますか？R2R2R^2 私は同僚F regressionが機械学習パイプラインで機能の選択にを使用するのをよく見ていますsklearn： sklearn.feature_selection.SelectKBest(score_func=sklearn.feature_selection.f_regression...)` 教えてください-なぜそれをラベル/依存変数と単に相関させるのと同じ結果を与えるのですか？ F_regression機能選択で使用することの利点が私には明らかではありません。ここに私のコードがあります：私はmtcarsからのデータセットを使用していRます： import pandas as pd import numpy as np from sklearn import feature_selection from sklearn.linear_model import LinearRegression #....load mtcars dataset into a pandas dataframe called "df", not shown here for conciseness # only using these numerical columns as features ['mpg', 'disp', 'drat', 'wt'] # …

14 feature-selection python scikit-learn r-squared f-test

1

ilocを使用して値を設定する[終了]

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新して、相互検証のトピックになるようにします。 2年前に閉店。このラインは、データフレームの最初の4行を返すcombinedためfeature_a combined.iloc[0:4]["feature_a"] 予想どおり、この次の行はcolumnのデータフレームの2行目、4行目、および16行目を返しますfeature_a。 combined.iloc[[1,3,15]]["feature_a"] この行は、データフレームの最初の4行をに設定feature_aし77ます。 combined.iloc[0:4]["feature_a"] = 77 この行は何かをします。長いリストに適用すると時間がかかるため、ある種の計算が行われています。 combined.iloc[[1,3,15]]["feature_a"] = 88 2行目、4行目、および16行目は、次のようにチェックすると設定されません88。 combined.iloc[[1,3,15]]["feature_a"] 大規模なコーディングの迂回をせずに、データフレームの列の行の任意のリストを値に設定するにはどうすればよいですか？このシナリオは、非常に単純で一般的であるように思われます。

13 python pandas

2

statsmodel OLSとscikit線形回帰の違い

同じ仕事をしているように見える、異なるライブラリからの2つの異なる方法について質問があります。線形回帰モデルを作成しようとしています。 OLSでstatsmodelライブラリを使用するコードは次のとおりです。 X_train, X_test, y_train, y_test = cross_validation.train_test_split(x, y, test_size=0.3, random_state=1) x_train = sm.add_constant(X_train) model = sm.OLS(y_train, x_train) results = model.fit() print "GFT + Wiki / GT R-squared", results.rsquared この印刷はGFT + Wiki / GT R-squared 0.981434611923 2つ目はscikit学習ライブラリの線形モデル法です。 model = LinearRegression() model.fit(X_train, y_train) predictions = model.predict(X_test) print 'GFT + Wiki / …

13 regression python scikit-learn statsmodels

2

ランダムフォレストモデルを使用するときに変数をログ/検証するタイミング

複数の属性に基づいて価格を予測するために、ランダムフォレストを使用して回帰を行っています。コードは、Scikit-learnを使用してPythonで記述されています。 exp/ logを使用して変数を変換してから回帰モデルに適合させる必要があるかどうかをどのように決定しますか？ランダムフォレストなどのアンサンブルアプローチを使用する場合、必要ですか？

13 regression machine-learning predictive-models python random-forest

タグ付けされた質問 「python」

タグ付けされた質問「python」