統計とビッグデータ python

2

ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。 Python matplotlibにはboxplotコマンドがあります。通常、グラフのすべての部分は数字でチェックされます。目盛りを位置ではなく名前に変更するにはどうすればよいですか？説明のために、私はこの箱ひげ図のような月火水ラベルを意味します：

20 python matplotlib

4

エッジケースの精度と再現率の正しい値は何ですか？

精度は次のように定義されます： p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0？リコールに関する同じ質問： r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS：不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

2

numpyとsklearnのPCAは異なる結果を生成します

私は何かを誤解していますか。これは私のコードです sklearnを使用する import numpy as np import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D from sklearn import decomposition from sklearn import datasets from sklearn.preprocessing import StandardScaler pca = decomposition.PCA(n_components=3) x = np.array([ [0.387,4878, 5.42], [0.723,12104,5.25], [1,12756,5.52], [1.524,6787,3.94], ]) pca.fit_transform(x) 出力： array([[ -4.25324997e+03, -8.41288672e-01, -8.37858943e-03], [ 2.97275001e+03, -1.25977271e-01, 1.82476780e-01], [ 3.62475003e+03, …

20 pca python scikit-learn

4

相関行列のクラスタリング

すべてのアイテムが他のアイテムとどのように相関しているかを示す相関行列があります。したがって、N個のアイテムについては、すでにN * N相関行列があります。この相関行列を使用して、k番目のビンのNk個のアイテムが同じように動作すると言うことができるように、M個のビンのN個のアイテムをクラスター化する方法を教えてください。親切に私を助けてください。すべてのアイテム値はカテゴリです。ありがとう。さらに情報が必要な場合はお知らせください。Pythonでの解決策が必要ですが、要件に向かって私を押し進める助けは大きな助けになります。

20 clustering python k-means

1

線形回帰での循環予測子の使用

風のデータ（0、359）と時刻（0、23）を使用してモデルを近似しようとしていますが、線形パラメーターではないため、線形回帰にうまく適合しないことが心配です。Pythonを使用してそれらを変換したいと思います。少なくとも風の場合には、度のsinとcosを使用してベクトル平均を計算することについて言及しましたが、全体ではありません。役立つかもしれないPythonライブラリまたは関連するメソッドはありますか？

19 regression python circular-statistics

3

RNN（LSTM）を使用して時系列ベクトルを予測する（Theano）

私は非常に単純な問題を抱えていますが、それを解決する適切なツールを見つけることができません。同じ長さのベクトルのシーケンスがいくつかあります。ここで、これらのシーケンスのトレーニングサンプルでLSTM RNNをトレーニングし、いくつかのプライミングベクトルに基づいて長さのベクトルの新しいシーケンスを予測するようにします。nnn これを行う簡単な実装は見つかりません。私の基本言語はPythonですが、何日間もインストールされないものはすべて保持されます。 Lasagneを使用しようとしましたが、RNNの実装はまだ準備ができておらず、別個のパッケージnntoolsにあります。とにかく、私は後者を試しましたが、それを訓練する方法を理解できず、いくつかのテストベクトルでそれを準備し、新しい人を予測させることができません。ブロックも同じ問題です-LSTM RNNのドキュメントはありませんが、動作する可能性のあるクラスと関数がいくつかあるようです（例：）blocks.bricks.recurrent。そこいくつかのTheanoにおけるRNN LSTMの実装、などがあるGroundHog、theano-rnn、theano_lstmおよびいくつかの論文のためのコードは、しかし、それらの非は私がやりたいことがどのようにチュートリアルやガイドを持っています。私が見つけた唯一の使用可能な解決策は、Pybrainを使用することでした。しかし、残念なことに、Theanoの機能（主にGPU計算）が欠けており、孤立しています（新しい機能やサポートはありません）。誰が私が求めているものを見つけることができる場所を知っていますか？ベクトルのシーケンスを予測するためにRNN LSTMを使いやすいですか？編集：私はこのようにケラスを試しました： from keras.models import Sequential from keras.layers.core import Dense, Dropout, Activation from keras.layers.embeddings import Embedding from keras.layers.recurrent import LSTM model = Sequential() model.add(Embedding(12, 256)) model.regularizers = [] model(LSTM(256, 128, activation='sigmoid', inner_activation='hard_sigmoid')) model.add(Dropout(0.5)) model.add(Dense(128, 12)) model.add(Activation('sigmoid')) model.compile(loss='mean_squared_error', optimizer='rmsprop') しかし、フィットしようとするとこのエラーが発生します …

19 neural-networks python lstm

3

ジュリア：過去の状況を把握する

この投稿は、急速に変化するイベントに関連しています。さまざまな種類の統計作業のためのR / Pythonの代替としてのジュリアについて非常に良い議論があった2012年の質問に出会いました。これは、ジュリアの約束に関する2012年の最初の質問です。残念ながら、ジュリアは当時非常に新しく、統計作業に必要なツールキットはやや原始的でした。バグは解決されていました。ディストリビューションのインストールは困難でした。など。誰かがその質問に対して非常に適切なコメントを持っています：これは、この質問に後から答えが出る可能性があるのは5年後だということです。現時点では、ジュリアには日常のユーザーのためにRと競合する可能性のある統計プログラミングシステムの次の重要な側面が欠けています。それは2012年でした。2015年になり、3年が経ちましたが、ジュリアはどのように考えたのでしょうか。言語自体およびJuliaエコシステム全体に関する豊富な経験がありますか？知りたいです。具体的には：統計ツールの新しいユーザーに、Rを介してJuliaを学習することを勧めますか？どのような統計のユースケースでジュリアを使用するように誰かにアドバイスしますか？特定のタスクでRが遅い場合、ジュリアまたはPythonに切り替えるのは理にかなっていますか？注：2015年6月14日に最初に投稿されました。

19 r python computing julia

3

統計的に有意になるようにデータをシミュレートする方法は？

私は10年生で、機械学習サイエンスフェアプロジェクトのデータをシミュレートしたいと考えています。最終モデルは患者データで使用され、特定の時間帯と、これが単一患者のデータ内の服薬遵守に与える影響との相関関係を予測します。順守値はバイナリになります（0は薬を服用しなかったことを意味し、1は服用したことを意味します）。私は、週の時間の関係から学習できる機械学習モデルを作成し、週を21の時間帯に分けています。1時間ごとに3つ（1は月曜日の朝、2は月曜日の午後、等。）。1,000人の患者に相当するデータをシミュレートしたいと考えています。各患者には30週間分のデータがあります。週の時間とアドヒアランスに関連する特定のトレンドを挿入したいと思います。例えば、あるデータセットでは、週の時間帯7は順守と統計的に有意な関係があると言えます。関係が統計的に有意であるかどうかを判断するには、1つのタイムスロットを他のタイムスロットと比較する2サンプルt検定を実行し、有意値が0.05未満であることを確認する必要があります。ただし、自分のデータをシミュレートして挿入した傾向が重要かどうかを確認するのではなく、逆方向に作業して、特定のタイムスロットに重要な傾向を順守して割り当てることができるプログラムを使用すると、戻りますその中に私が求めたトレンドを含むバイナリデータ、およびノイズを含むが統計的に有意なトレンドを生成しない他のタイムスロットのバイナリデータ。このようなことを達成するのに役立つプログラムはありますか？それとも、Pythonモジュールですか？どんな助けでも（私のプロジェクトに関する一般的なコメントでさえ）非常に感謝されます！

18 machine-learning statistical-significance t-test python simulation

3

ロジスティック回帰の係数の標準誤差を計算する方法

Pythonのscikit-learnを使用して、ロジスティック回帰のトレーニングとテストを行っています。 scikit-learnは、独立変数の回帰係数を返しますが、係数の標準誤差は提供しません。各係数のWald統計を計算し、それらの係数を相互に比較するには、これらの標準誤差が必要です。ロジスティック回帰の係数の標準誤差を計算する方法の1つの説明を見つけました（ここ）が、従うのはやや困難です。これらの標準エラーを計算する方法の簡単な簡潔な説明を知っている場合、および/またはそれを私に提供できる場合は、本当に感謝しています！特定のコードを意味するわけではありませんが（役立つコードは自由に投稿してください）、むしろ手順のアルゴリズム的な説明です。

18 logistic python standard-error regression-coefficients scikit-learn

2

時系列予測を自動化することは可能ですか？

任意の時系列を分析し、分析された時系列データに最適な従来/統計予測方法（およびそのパラメーター）を「自動的に」選択できるアルゴリズムを構築したいと思います。このようなことをすることは可能でしょうか？はいの場合、これにどのようにアプローチできるかについてのヒントを教えてください。

18 time-series forecasting python

3

Nが成功するまでフリップをモデリングするにはどうすればよいですか？

あなたと私は、コインを投げて交代するゲームをすることにしました。最初に合計10個のヘッドをフリップしたプレーヤーがゲームに勝利します。当然、誰が先に行くべきかという議論があります。このゲームのシミュレーションでは、最初に弾くプレーヤーのほうが2番目に弾くプレーヤーよりも6％多く勝ちます（最初のプレーヤーが約53％勝つ）。これを分析的にモデリングすることに興味があります。これは二項確率変数ではありません。試行回数が固定されていないためです（誰かが10頭になるまで反転します）。これをどのようにモデル化できますか？負の二項分布ですか？結果を再作成できるように、ここに私のpythonコードがあります： import numpy as np from numba import jit @jit def sim(N): P1_wins = 0 P2_wins = 0 for i in range(N): P1_heads = 0 P2_heads = 0 while True: P1_heads += np.random.randint(0,2) if P1_heads == 10: P1_wins+=1 break P2_heads+= np.random.randint(0,2) if P2_heads==10: P2_wins+=1 break return P1_wins/N, …

17 probability python binomial negative-binomial

3

MatlabとPythonの中で、どの言語が統計分析に適していますか？

MatlabとPythonの中で、どの言語が一般的な統計データ分析に適していますか？アクセシビリティ以外のそれぞれの長所と短所は何ですか？

17 matlab python

3

Pythonで共線変数を体系的に削除するにはどうすればよいですか？[閉まっている]

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新して、相互検証のトピックになるようにします。 2年前に閉店。これまで、相関テーブルを調べ、特定のしきい値を超える変数を削除することにより、データ準備プロセスの一部として共線変数を削除しました。これを行うより受け入れられた方法はありますか？さらに、一度に2つの変数間の相関関係を調べるだけでは理想的ではないことを認識しています。VIFのような測定では、いくつかの変数間の潜在的な相関関係が考慮されます。多重共線性を示さない変数の組み合わせを体系的に選択するにはどうすればよいでしょうか？パンダのデータフレーム内にデータがあり、sklearnのモデルを使用しています。

17 python multicollinearity scikit-learn

1

多重線形回帰では、なぜ予測点のプロットが直線上にないのですか？

YとX1、X2の関係を記述するために、多重線形回帰を使用しています。理論から、重回帰ではYと各X（YとX1、YとX2）の間の線形関係を仮定していることがわかりました。Xの変換は使用していません。そのため、R = 0.45とすべての有意なX（P <0.05）のモデルを取得しました。次に、X1に対してYをプロットしました。モデルの予測である赤色の円が線を形成しない理由がわかりません。前に言ったように、YとXの各ペアは線で近似されると予想しました。プロットは、Pythonで次のように生成されます。 fig, ax = plt.subplots() plt.plot(x['var1'], ypred, 'o', validation['var1'], validation['y'], 'ro'); ax.set_title('blue: true, red: OLS') ax.set_xlabel('X') ax.set_ylabel('Y') plt.show()

16 regression multiple-regression python linear

1

PythonのJenks Natural Breaks：最適なブレーク数を見つける方法

私が見つかりました。このPython実装のジェンクス自然ブレークのアルゴリズムを、私はそれが私のWindows 7のマシン上で実行させることができます。それは非常に高速で、私のジオデータのサイズを考慮して、数時間で休憩を見つけます。データにこのクラスタリングアルゴリズムを使用する前に、sklearn.clustering.KMeans （ここで）アルゴリズムを使用していました。私がKMeansで抱えていた問題は、最適なK値パラメーターを見つけることでしたが、異なるK値のアルゴリズムを起動し、sklearn.metrics.silhouette_score （ここで）最適なK値を見つけるためにそれを「解決」しました。私の質問は、Natural Breaksアルゴリズムに5つのクラス（Kとなる）を見つけるように指示した場合、これがデータに最適なクラスの数であることをどのように確認できますか？最適な数の休憩を選択していることを検証する方法は？ありがとう！

16 python clustering optimization

タグ付けされた質問 「python」

タグ付けされた質問「python」