タグ付けされた質問 「python」

Pythonは、機械学習で一般的に使用されるプログラミング言語です。このタグは、(a)質問の重要な部分または予想される回答として「Python」が含まれる、* on-topic *の質問に使用します。(b)「Python」の使い方について「*」*ではありません。

2
python matplotlib boxplotのティックに名前を付ける方法
ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。 Python matplotlibにはboxplotコマンドがあります。 通常、グラフのすべての部分は数字でチェックされます。目盛りを位置ではなく名前に変更するにはどうすればよいですか? 説明のために、私はこの箱ひげ図のような月火水ラベルを意味します:

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
numpyとsklearnのPCAは異なる結果を生成します
私は何かを誤解していますか。これは私のコードです sklearnを使用する import numpy as np import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D from sklearn import decomposition from sklearn import datasets from sklearn.preprocessing import StandardScaler pca = decomposition.PCA(n_components=3) x = np.array([ [0.387,4878, 5.42], [0.723,12104,5.25], [1,12756,5.52], [1.524,6787,3.94], ]) pca.fit_transform(x) 出力: array([[ -4.25324997e+03, -8.41288672e-01, -8.37858943e-03], [ 2.97275001e+03, -1.25977271e-01, 1.82476780e-01], [ 3.62475003e+03, …

4
相関行列のクラスタリング
すべてのアイテムが他のアイテムとどのように相関しているかを示す相関行列があります。したがって、N個のアイテムについては、すでにN * N相関行列があります。この相関行列を使用して、k番目のビンのNk個のアイテムが同じように動作すると言うことができるように、M個のビンのN個のアイテムをクラスター化する方法を教えてください。親切に私を助けてください。すべてのアイテム値はカテゴリです。 ありがとう。さらに情報が必要な場合はお知らせください。Pythonでの解決策が必要ですが、要件に向かって私を押し進める助けは大きな助けになります。

1
線形回帰での循環予測子の使用
風のデータ(0、359)と時刻(0、23)を使用してモデルを近似しようとしていますが、線形パラメーターではないため、線形回帰にうまく適合しないことが心配です。Pythonを使用してそれらを変換したいと思います。少なくとも風の場合には、度のsinとcosを使用してベクトル平均を計算することについて言及しましたが、全体ではありません。 役立つかもしれないPythonライブラリまたは関連するメソッドはありますか?

3
RNN(LSTM)を使用して時系列ベクトルを予測する(Theano)
私は非常に単純な問題を抱えていますが、それを解決する適切なツールを見つけることができません。 同じ長さのベクトルのシーケンスがいくつかあります。ここで、これらのシーケンスのトレーニングサンプルでLSTM RNNをトレーニングし、いくつかのプライミングベクトルに基づいて長さのベクトルの新しいシーケンスを予測するようにします。nnn これを行う簡単な実装は見つかりません。私の基本言語はPythonですが、何日間もインストールされないものはすべて保持されます。 Lasagneを使用しようとしましたが、RNNの実装はまだ準備ができておらず、別個のパッケージnntoolsにあります。とにかく、私は後者を試しましたが、それを訓練する方法を理解できず、いくつかのテストベクトルでそれを準備し、新しい人を予測させることができません。ブロックも同じ問題です-LSTM RNNのドキュメントはありませんが、動作する可能性のあるクラスと関数がいくつかあるようです(例:)blocks.bricks.recurrent。 そこいくつかのTheanoにおけるRNN LSTMの実装、などがあるGroundHog、theano-rnn、theano_lstmおよびいくつかの論文のためのコードは、しかし、それらの非は私がやりたいことがどのようにチュートリアルやガイドを持っています。 私が見つけた唯一の使用可能な解決策は、Pybrainを使用することでした。しかし、残念なことに、Theanoの機能(主にGPU計算)が欠けており、孤立しています(新しい機能やサポートはありません)。 誰が私が求めているものを見つけることができる場所を知っていますか?ベクトルのシーケンスを予測するためにRNN LSTMを使いやすいですか? 編集: 私はこのようにケラスを試しました: from keras.models import Sequential from keras.layers.core import Dense, Dropout, Activation from keras.layers.embeddings import Embedding from keras.layers.recurrent import LSTM model = Sequential() model.add(Embedding(12, 256)) model.regularizers = [] model(LSTM(256, 128, activation='sigmoid', inner_activation='hard_sigmoid')) model.add(Dropout(0.5)) model.add(Dense(128, 12)) model.add(Activation('sigmoid')) model.compile(loss='mean_squared_error', optimizer='rmsprop') しかし、フィットしようとするとこのエラーが発生します …

3
ジュリア:過去の状況を把握する
この投稿は、急速に変化するイベントに関連しています。 さまざまな種類の統計作業のためのR / Pythonの代替としてのジュリアについて非常に良い議論があった2012年の質問に出会いました。 これは、ジュリアの約束に関する2012年の最初の質問です。 残念ながら、ジュリアは当時非常に新しく、統計作業に必要なツールキットはやや原始的でした。バグは解決されていました。ディストリビューションのインストールは困難でした。など。 誰かがその質問に対して非常に適切なコメントを持っています: これは、この質問に後から答えが出る可能性があるのは5年後だということです。現時点では、ジュリアには日常のユーザーのためにRと競合する可能性のある統計プログラミングシステムの次の重要な側面が欠けています。 それは2012年でした。2015年になり、3年が経ちましたが、ジュリアはどのように考えたのでしょうか。 言語自体およびJuliaエコシステム全体に関する豊富な経験がありますか?知りたいです。 具体的には: 統計ツールの新しいユーザーに、Rを介してJuliaを学習することを勧めますか? どのような統計のユースケースでジュリアを使用するように誰かにアドバイスしますか? 特定のタスクでRが遅い場合、ジュリアまたはPythonに切り替えるのは理にかなっていますか? 注:2015年6月14日に最初に投稿されました。
19 r  python  computing  julia 

3
統計的に有意になるようにデータをシミュレートする方法は?
私は10年生で、機械学習サイエンスフェアプロジェクトのデータをシミュレートしたいと考えています。最終モデルは患者データで使用され、特定の時間帯と、これが単一患者のデータ内の服薬遵守に与える影響との相関関係を予測します。順守値はバイナリになります(0は薬を服用しなかったことを意味し、1は服用したことを意味します)。私は、週の時間の関係から学習できる機械学習モデルを作成し、週を21の時間帯に分けています。1時間ごとに3つ(1は月曜日の朝、2は月曜日の午後、等。)。1,000人の患者に相当するデータをシミュレートしたいと考えています。各患者には30週間分のデータがあります。週の時間とアドヒアランスに関連する特定のトレンドを挿入したいと思います。例えば、あるデータセットでは、週の時間帯7は順守と統計的に有意な関係があると言えます。関係が統計的に有意であるかどうかを判断するには、1つのタイムスロットを他のタイムスロットと比較する2サンプルt検定を実行し、有意値が0.05未満であることを確認する必要があります。 ただし、自分のデータをシミュレートして挿入した傾向が重要かどうかを確認するのではなく、逆方向に作業して、特定のタイムスロットに重要な傾向を順守して割り当てることができるプログラムを使用すると、戻りますその中に私が求めたトレンドを含むバイナリデータ、およびノイズを含むが統計的に有意なトレンドを生成しない他のタイムスロットのバイナリデータ。 このようなことを達成するのに役立つプログラムはありますか?それとも、Pythonモジュールですか? どんな助けでも(私のプロジェクトに関する一般的なコメントでさえ)非常に感謝されます!

3
ロジスティック回帰の係数の標準誤差を計算する方法
Pythonのscikit-learnを使用して、ロジスティック回帰のトレーニングとテストを行っています。 scikit-learnは、独立変数の回帰係数を返しますが、係数の標準誤差は提供しません。各係数のWald統計を計算し、それらの係数を相互に比較するには、これらの標準誤差が必要です。 ロジスティック回帰の係数の標準誤差を計算する方法の1つの説明を見つけました(ここ)が、従うのはやや困難です。 これらの標準エラーを計算する方法の簡単な簡潔な説明を知っている場合、および/またはそれを私に提供できる場合は、本当に感謝しています!特定のコードを意味するわけではありませんが(役立つコードは自由に投稿してください)、むしろ手順のアルゴリズム的な説明です。

2
時系列予測を自動化することは可能ですか?
任意の時系列を分析し、分析された時系列データに最適な従来/統計予測方法(およびそのパラメーター)を「自動的に」選択できるアルゴリズムを構築したいと思います。 このようなことをすることは可能でしょうか?はいの場合、これにどのようにアプローチできるかについてのヒントを教えてください。

3
Nが成功するまでフリップをモデリングするにはどうすればよいですか?
あなたと私は、コインを投げて交代するゲームをすることにしました。最初に合計10個のヘッドをフリップしたプレーヤーがゲームに勝利します。当然、誰が先に行くべきかという議論があります。 このゲームのシミュレーションでは、最初に弾くプレーヤーのほうが2番目に弾くプレーヤーよりも6%多く勝ちます(最初のプレーヤーが約53%勝つ)。これを分析的にモデリングすることに興味があります。 これは二項確率変数ではありません。試行回数が固定されていないためです(誰かが10頭になるまで反転します)。これをどのようにモデル化できますか?負の二項分布ですか? 結果を再作成できるように、ここに私のpythonコードがあります: import numpy as np from numba import jit @jit def sim(N): P1_wins = 0 P2_wins = 0 for i in range(N): P1_heads = 0 P2_heads = 0 while True: P1_heads += np.random.randint(0,2) if P1_heads == 10: P1_wins+=1 break P2_heads+= np.random.randint(0,2) if P2_heads==10: P2_wins+=1 break return P1_wins/N, …


3
Pythonで共線変数を体系的に削除するにはどうすればよいですか?[閉まっている]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新して、相互検証のトピックになるようにします。 2年前に閉店。 これまで、相関テーブルを調べ、特定のしきい値を超える変数を削除することにより、データ準備プロセスの一部として共線変数を削除しました。これを行うより受け入れられた方法はありますか?さらに、一度に2つの変数間の相関関係を調べるだけでは理想的ではないことを認識しています。VIFのような測定では、いくつかの変数間の潜在的な相関関係が考慮されます。多重共線性を示さない変数の組み合わせを体系的に選択するにはどうすればよいでしょうか? パンダのデータフレーム内にデータがあり、sklearnのモデルを使用しています。

1
多重線形回帰では、なぜ予測点のプロットが直線上にないのですか?
YとX1、X2の関係を記述するために、多重線形回帰を使用しています。 理論から、重回帰ではYと各X(YとX1、YとX2)の間の線形関係を仮定していることがわかりました。Xの変換は使用していません。 そのため、R = 0.45とすべての有意なX(P <0.05)のモデルを取得しました。次に、X1に対してYをプロットしました。モデルの予測である赤色の円が線を形成しない理由がわかりません。前に言ったように、YとXの各ペアは線で近似されると予想しました。 プロットは、Pythonで次のように生成されます。 fig, ax = plt.subplots() plt.plot(x['var1'], ypred, 'o', validation['var1'], validation['y'], 'ro'); ax.set_title('blue: true, red: OLS') ax.set_xlabel('X') ax.set_ylabel('Y') plt.show()

1
PythonのJenks Natural Breaks:最適なブレーク数を見つける方法
私が見つかりました。このPython実装のジェンクス自然ブレークのアルゴリズムを、私はそれが私のWindows 7のマシン上で実行させることができます。それは非常に高速で、私のジオデータのサイズを考慮して、数時間で休憩を見つけます。データにこのクラスタリングアルゴリズムを使用する前に、sklearn.clustering.KMeans (ここで)アルゴリズムを使用していました。私がKMeansで抱えていた問題は、最適なK値パラメーターを見つけることでしたが、異なるK値のアルゴリズムを起動し、sklearn.metrics.silhouette_score (ここで)最適なK値を見つけるためにそれを「解決」しました。 私の質問は、Natural Breaksアルゴリズムに5つのクラス(Kとなる)を見つけるように指示した場合、これがデータに最適なクラスの数であることをどのように確認できますか?最適な数の休憩を選択していることを検証する方法は? ありがとう!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.