タグ付けされた質問 「statsmodels」

2
パンダ/ Statsmodel / Scikit-learn
パンダ、Statsmodels、およびScikitは、機械学習/統計操作の異なる実装を学習していますか、またはこれらは相互に補完的ですか? どれが最も包括的な機能を備えていますか? 積極的に開発および/またはサポートされているのはどれですか? ロジスティック回帰を実装する必要があります。これらのどれを使用すべきかについての提案はありますか?

2
ロジスティック回帰:Scikit Learn vs Statsmodels
これら2つのライブラリのロジスティック回帰からの出力が異なる結果を与える理由を理解しようとしています。 私は、UCLAのidreのからのデータセットを使用していますチュートリアル予測、admitに基づいてgre、gpaとrank。rankはカテゴリ変数として扱われるため、最初にrank_1ドロップされてダミー変数に変換されます。インターセプト列も追加されます。 df = pd.read_csv("https://stats.idre.ucla.edu/stat/data/binary.csv") y, X = dmatrices('admit ~ gre + gpa + C(rank)', df, return_type = 'dataframe') X.head() > Intercept C(rank)[T.2] C(rank)[T.3] C(rank)[T.4] gre gpa 0 1 0 1 0 380 3.61 1 1 0 1 0 660 3.67 2 1 0 0 0 800 4.00 3 1 …

3
ACFおよびPACFプロットを分析する
ACFプロットとPACFプロットを分析して正しい軌道に乗っているかどうかを確認したい: 背景:(Reff:Philip Hans Franses、1998) ACFとPACFの両方が重要な値を示しているので、ARMAモデルが私のニーズを満たすと思います ACFはMA部分、つまりq値を推定するために使用でき、PACFはAR部分、すなわちp値を推定するために使用できます。 モデル次数を推定するために、a。)ACF値が十分に消滅するかどうか、b。)ACFが過差分信号を送るかどうか、c。)ACFとPACFが特定のラグで有意かつ容易に解釈可能なピークを示すかどうかを調べます ACFとPACFは、1つのモデルだけでなく、他の診断ツールを検討した後に選択する必要のある多くのモデルを提案する場合があります それを念頭に置いて、ACF値がラグ4で消滅し、PACFが1と2でスパイクを示すため、最も明白なモデルはARMA(4,2)であると考えます。 別の分析方法としては、PACFに2つの大きなスパイクがあり、ACFに1つの大きなスパイクがあるため、ARMA(2,1)になります(その後、はるかに低いポイント(0.4)から値が消えます)。 サンプル内の予測結果を見ると(単純な平均絶対誤差を使用)、ARMA(2,1)はARMA(4,2)よりもはるかに優れた結果を提供します。そこで、ARMA(2,1)を使用します! ACFプロットとPACFプロットの分析方法と結果を確認できますか? 感謝します! 編集: 記述統計: count 252.000000 mean 29.576151 std 7.817171 min -0.920000 25% 26.877500 50% 30.910000 75% 34.915000 max 47.430000 Skewness of endog_var: [-1.35798399] Kurtsosis of endog_var: [ 5.4917757] Augmented Dickey-Fuller Test for endog_var: (-3.76140904255411, 0.0033277703768345287, {'5%': -2.8696473721448728, '1%': …

2
statsmodel OLSとscikit線形回帰の違い
同じ仕事をしているように見える、異なるライブラリからの2つの異なる方法について質問があります。線形回帰モデルを作成しようとしています。 OLSでstatsmodelライブラリを使用するコードは次のとおりです。 X_train, X_test, y_train, y_test = cross_validation.train_test_split(x, y, test_size=0.3, random_state=1) x_train = sm.add_constant(X_train) model = sm.OLS(y_train, x_train) results = model.fit() print "GFT + Wiki / GT R-squared", results.rsquared この印刷はGFT + Wiki / GT R-squared 0.981434611923 2つ目はscikit学習ライブラリの線形モデル法です。 model = LinearRegression() model.fit(X_train, y_train) predictions = model.predict(X_test) print 'GFT + Wiki / …

1
Pythonでの順序ロジスティック回帰
Pythonで順序ロジスティック回帰を実行したいと思います-3つのレベルといくつかの説明要因を持つ応答変数に対して。このstatsmodelsパッケージは、バイナリロジットモデルと多項ロジット(MNLogit)モデルをサポートしていますが、順序付けられたロジットはサポートしていません。基礎となる数学はそれほど変わらないので、これらを使用して簡単に実装できるのだろうか?(または、動作する他のPythonパッケージを高く評価します。)

4
Statsmodelsは、ARIMAはシリーズが静止していないため適切ではないと述べていますが、それをどのようにテストしていますか?
Pythonのstatsmodels ARIMA APIでモデル化しようとしている時系列があります。以下を適用した場合: from statsmodels.tsa.arima_model import ARIMA model = ARIMA(data['Sales difference'].dropna(), order=(2, 1, 2)) results_AR = model.fit(disp=-1) 次のエラーが発生します。 ValueError: The computed initial AR coefficients are not stationary You should induce stationarity, choose a different model order, or you can pass your own start_params. しかし、私はすでにデータを区別しています: data['Sales'] = data['Sales'] - data['Sales'].shift() 定常性を誘発するためにこれ以上何ができますか? …


2
アイデンティティリンク機能はガンマファミリーのドメインを尊重していませんか?
アイデンティティリンクでガンマ一般化線形モデル(GLM)を使用しています。独立変数は、特定のグループの報酬です。 Pythonのstatsmodelsの概要で、IDリンク関数に関する警告("DomainWarning:IDリンク関数はガンマファミリのドメインを考慮していません。")がわかりません。背景:統計学における基本的な正式な教育のみであり、ロジスティック回帰を超えるGLMの経験はほとんどありません。 関連するPythonコードは次のとおりです。 model=statsmodels.genmod.generalized_linear_model.GLM(target, reducedFeatures, family=sm.families.Gamma(link=sm.families.links.identity)) results=model.fit() print(results.summary()) 出力は次のとおりです。 私の質問はこれです:アイデンティティリンクはどのようにしてガンマファミリのドメインを尊重しませんか?ガンマファミリーのドメインは0から無限大ですか?また、IDリンクはほとんど何も実行していない、つまり独立変数をそのまま維持し、それらを従属変数との関係を変換しないという印象も受けました。うやうやしいリンク機能のように聞こえます;) 修正してください

2
データの50%が25〜75パーセンタイルになると言えるでしょうか。
次のデータフレームがあるとしましょう: TY_MAX 141 1.004622 142 1.004645 143 1.004660 144 1.004672 145 1.004773 146 1.004820 147 1.004814 148 1.004807 149 1.004773 150 1.004820 151 1.004814 152 1.004834 153 1.005117 154 1.005023 155 1.004928 156 1.004834 157 1.004827 158 1.005023 159 1.005248 160 1.005355 25th: 1.0031185409705132 50th: 1.004634349800723 75th: 1.0046683578907745 Calculated 50th: …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.