タグ付けされた質問 「python」

Pythonは、機械学習で一般的に使用されるプログラミング言語です。このタグは、(a)質問の重要な部分または予想される回答として「Python」が含まれる、* on-topic *の質問に使用します。(b)「Python」の使い方について「*」*ではありません。

1
SciPyのttest_ind()関数によって行われた仮定を追跡する
1つおよび2つのテールの独立したt検定のt統計とp値を計算するために、独自のPythonコードを記述しようとしています。通常の近似を使用できますが、現時点ではt分布のみを使用しようとしています。SciPyの統計ライブラリの結果をテストデータと照合することに失敗しました。私はどこかでばかげた間違いをしているかどうかを確認するために新鮮な目を使用することができました。 これは「なぜこの計算で正しいt統計が得られないのか」ということなので、これはコーディングの問題ではありません。完全を期すためにコードを提供しますが、ソフトウェアのアドバイスは期待していません。これが正しくない理由を理解するのに役立ちます。 私のコード: import numpy as np import scipy.stats as st def compute_t_stat(pop1,pop2): num1 = pop1.shape[0]; num2 = pop2.shape[0]; # The formula for t-stat when population variances differ. t_stat = (np.mean(pop1) - np.mean(pop2))/np.sqrt( np.var(pop1)/num1 + np.var(pop2)/num2 ) # ADDED: The Welch-Satterthwaite degrees of freedom. df = ((np.var(pop1)/num1 + np.var(pop2)/num2)**(2.0))/( (np.var(pop1)/num1)**(2.0)/(num1-1) …

1
統計のための記号的コンピュータ代数
統計に特化したCASにはどのような機能が必要ですか? MathematicaやMapleなどのシンボリック代数システムは、微積分、論理、物理学の問題によく使用されますが、統計にはほとんど使用されません。どうしてこれなの? この分野での使用を改善するために、シンボリック代数システムにどのような統計的構成を追加できますか?多くの人ができるようにしたいいくつかの特定のコードサンプルは何ですか。 次の3人のユーザーについて考えてください:研究統計学者、別の分野(生物学など)の統計を使用する非統計研究者、統計学の学生。 今後数か月間、SymPyの統計コードに取り組んでおり、必要な機能の入力を求めています。私が使用するものは、必ずしもより広いコミュニティが使用するものではありません。

2
Pythonでの予測にHolt-Wintersを使用する
[この質問をここで Stack Overflowに最初に投稿しましたが、返信がありませんでしたので、ここで試してみようと思いました。再投稿が許可されない場合はお詫びします。] 私はPythonの時系列予測にこのHolt-Wintersアルゴリズムの実装を使用しようとしましたが、ロードブロッキングに遭遇しました...そうではありません。予測が否定的ではない場合でも、予測が大幅に不正確になることがあります。予測よりも桁違いに高い/低いです。アルゴリズムで処理するデータの期間を長くしても効果がないように見え、実際には予測が悪化することがよくあります。 私が使用しているデータには次の特徴があり、問題になる可能性があります。 非常に頻繁にサンプリングされます(例で使用されている月次データではなく、15分ごとに1つのデータポイント)。おそらくそれは実装に問題があることを示していますか? 複数の周期性があります-毎日のピーク(つまり、96データポイントごと)があり、週末のデータの週サイクルは平日のデータよりも大幅に低くなっています。平日のデータだと、負の数の問題に出くわします。 一般的に、Holt-Wintersアルゴリズムの実装または使用方法で見落としているものはありますか?私は統計学者ではないので、上記のリンクに示されているアルファ、ベータ、ガンマの「デフォルト」値を使用しています-それが問題である可能性はありますか?これらの値を計算するより良い方法は何ですか? または... Holt-Wintersよりも、ここで使用するより良いアルゴリズムはありますか?最終的には、ここの履歴データから賢明な予測を作成したいだけです。私は単一および二重指数平滑法を試しましたが、(私が理解している限り)データの周期性をサポートしていません。 rpy2 を使用する代わりにR 予測パッケージを使用することも検討しました。これにより、より良い結果が得られますか?私はまだパラメーターなどを計算する必要があると思いますので、私の現在の問題がアルゴリズムの実装にある場合にのみ良い考えでしょう...? ヘルプ/入力をいただければ幸いです!

6
統計的推論のためのプログラミング言語は何ですか?
好奇心のためだけに...ここで最も使用される言語は何ですか?R?MATLAB?Python?Java? プロトタイプまたはプロダクションはどうですか?たとえば、MATLABは主にプロトタイピングに、Pythonは両方のプロトタイプに使用されていると思います。そして生産...
8 r  matlab  python  java 

5
単精度浮動小数点はそれほど悪いですか?
私は、タスクPERF Highからパッケージのいくつかを見てきたビュー GPU計算を扱う、そしてほとんどのGPUは、DPのより単精度算術演算を行うの強い大きさのオーダーであるように見えることを考えるものを、私は思っていました。 なぜ、どのパッケージも必要な精度のタイプをユーザーに制御することができないのですか?SP演算(つまり、7桁の精度でコード化された数値)が実用に十分な統計で多くのアプリケーションを見ることができます(関係するゲインを過大評価している場合は、お知らせください)。 これでPythonはより柔軟ですか?もしそうなら、なぜですか?Rに「単一の」タイプがないと、なぜGPUtoolsやmagmaにそのようなオプション(警告と共に)を含めることができないのか(私は間違って表示されて喜んでいますが)わかりません。 PS:私は、具体的なアプリケーションを考えています番号はすでに次元ワイズ(チェビシェフのようにスケーリングされ、中央に配置された不等式は次元状に結合されます)。
8 r  python  gpu 

2
PythonまたはRでのA / Bテスト[終了]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新することがありますので、話題のクロス検証済みのため。 8か月前に閉鎖。 A / Bテスト: http://20bits.com/articles/statistical-analysis-and-ab-testing/ http://elem.com/~btilly/effective-ab-testing/ 私はA / Bテストに精通していませんが、A / Bテストの実行に使用できる特定のパッケージ/ライブラリがRまたはPythonにあるかどうか疑問に思っていました。
8 r  python  ab-test 

1
MCMCサンプルからの2D信頼領域の計算
データに当てはめたモデルの2D信頼領域(1シグマ、2シグマ)をプロットしたいと思います。PyMCを使用して、6つのパラメーターを持つモデルの50k MCMC事後サンプルを生成しました。 私は信頼領域を作成するプロセスが次のようなものであることを知っています:1.)2D空間でサンプルのヒストグラムを作成する2.)等密度の等高線を特定する3.)選択した開始点(たとえば、平均)から外側に向かって積分するサンプルポイントの必要な部分が領域に含まれるまで、等密度コンターに垂直。 numpy / scipy / pymc / pylab / etcの世界で、2D信頼領域プロットを作成する便利な関数はありますか?または、後でプロットするために等高線を計算するコード化アルゴリズムまたはスタンドアロンツールはどこにありますか?

1
Python Scikit Learnは、ロジスティック回帰の線形分離問題をどのように処理しますか?
このようなロジスティック回帰と線形分離を扱うRからの警告に関する投稿はすでにあります。Python Scikit Learnでこの問題がすべて最適化関数のL1 / L2正則化部分によって解決されるかどうかを確認したいだけです。言い換えれば、ユーザーは無限のMLE推定警告をから取得しないと言っても安全sklearn.linear_model.LogisticRegressionですか?

1
ECDFの信頼限界
PythonのデータからECDF(および信頼限界)を作成しようとしています。ECDFはnumpy、をソートして使用することで、かなり簡単に生成できlinspaceます。しかし、適切な信頼限界が何であるかは完全にstatsmodelsはわかりません。また、境界を計算する組み込みライブラリはないようです(ECDFを与えるだけのようです)。 ポイントごとの信頼限界が必要な場合1 - α1−α1-\alphaそれを使用するのが適切であるDKWの不平等をして、私の地域を計算します Cん(α )=12 nログ(2α)−−−−−−−−−−√、Cん(α)=12んログ⁡(2α)、C_n(\alpha) = \sqrt{\frac{1}{2n}\log\left(\frac{2}{\alpha}\right)} \,, どこ んんnサンプルの観測数は何ですか?したがって、F(x )F(バツ)F(x) 私のECDFです。私の上限と下限は U B(x)=min(1 、F(x )+Cん(α ))UB(バツ)=分(1、F(バツ)+Cん(α))\mathrm{UB}(x) = \min\left(1, F(x)+C_n(\alpha)\right) L B(x)=max(0 、F(x )−Cん(α ))LB(バツ)=最高(0、F(バツ)−Cん(α))\mathrm{LB}(x) = \max\left(0, F(x)-C_n(\alpha)\right) MATLABには組み込み関数ECDFがありますが、境界を生成するためにGreenwoodの公式(下を参照)を適用する方法を理解するのにあまり運がありませんでした。

2
なぜ治療コーディングはランダムな傾きと切片の間の相関をもたらすのですか?
実験的処理変数に2つのレベル(条件)がある被験者内および項目内の要因計画を考えます。をm1最大モデルとm2非ランダム相関モデルにします。 m1: y ~ condition + (condition|subject) + (condition|item) m2: y ~ condition + (1|subject) + (0 + condition|subject) + (1|item) + (0 + condition|item) Dale Barr はこの状況について次のように述べています。 編集(2018年4月20日):Jake Westfallが指摘したように、次のステートメントはこの Webサイトの図1および2に示されているデータセットのみを参照しているようです。ただし、基調講演は変わりません。 偏差コーディング表現(条件:-0.5 vs. 0.5)m2では、被験者のランダムな切片が被験者のランダムな傾きと無相関である分布が可能です。最大モデルのみm1が、2つが相関している分布を許可します。 治療コーディング表現(条件:0対1)では、被験者のランダム切片が被験者のランダムな傾きと無相関であるこれらの分布は、無作為相関モデルを使用してフィッティングできません。治療コード表現における勾配と切片。 なぜ治療コーディングは 常に ランダムな傾きと切片の間に相関関係が生じますか?

1
ベータ分布の部分的な期待値(切り捨てられたベータの平均)を計算する方法は?
ベータ分布がa = 2、b = 3の場合、区間[0、1] = a /(a + b)= 2/5 = 0.4および中央値=(a- 1/3)/(a + b-2 / 3)= 0.39、近いです。 私はpythonの解決策を探しています。scipy.stats.betaを使用して、間隔[ 0、0.4 ]の中央値をパーセントポイント関数で計算できます(cdfの逆数-パーセンタイル): beta.ppf(0.4/2,a,b) = 0.2504 このベータ分布では、全体の平均と中央値が近いため(それぞれ0.4と0.39)、間隔[0、0.4]の中央値を使用して、間隔[0、0.4]の期待値(平均)を推定します。 間隔[0、0.4]の期待値(平均)を計算する方法はありますか?

1
スパースカテゴリカルクロスエントロピー多分類モデルへの入力用にデータを準備する方法[終了]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新することがありますので、話題のクロス検証済みのため。 2年前休業。 だから私は日付やツイート自体などのいくつかの列を含むツイートのセットをいくつか持っていますが、2つの列を使用してモデルを構築したいです(感情&株価)感情分析は各ツイートで実行され、株式私のDBではそれらの隣にそのような価格: +--------------------+-------------+ | sentiment | stock_price | +--------------------+-------------+ | 0.0454545454545455 | 299.82 | | 0.0588235294117647 | 299.83 | | 0.0434782608695652 | 299.83 | | -0.0625 | 299.69 | | 0.0454545454545455 | 299.7 | +--------------------+-------------+ sparse_categorical_crossentropyの入力用にこのデータを準備するにはどうすればよいですか?私はつぶやきの感情を取得し、それらと株価の相関関係を見つけることができるようにしたいと考えています。出力ラベルを高、低、低にしたいのですが、方法がわかりません。これまでのところ、モデルを作成しましたが、入力データを正しくフォーマットしたかどうかわかりません しかし、モデルをトレーニングすると、これが出力として得られます。 入力データについて、精度と検証精度が変わらないのは何ですか?これは過剰適合の兆候のようです。ドロップアウトレイヤーを追加しようとしましたが、機能しません。どうすれば修正できますか?どこが間違っているのですか? 株価のデータは、自分の1つのホットエンコーディングのように1/0 / -1を使用して、株価がまだ上がっているか下がっているのかを示すようにしました。 Name: pct_chg, dtype: float64 0 0.0 …

1
ベータ二項cdf、sf、ppfで使用する一般化された超幾何関数を実装する方法は?
私はscipy.stats._distn_infrastructure.rv_discreteそのPMFがベータ二項分布のサブクラスを書いています P(X=k∣N,α,β)(Nk)B(k+α,N−k+β)B(α,β),P(X=k∣N,α,β)(Nk)B(k+α,N−k+β)B(α,β),P(X=k \mid N, \alpha, \beta){N \choose k} \frac{\mathrm{B}(k+\alpha,N-k+\beta)}{\mathrm{B}(\alpha,\beta)}, ここで、BB\mathrm{B}はベータ関数です。私のCDFとSF(生存関数、1-CDFに相当)の現在の実装は不正確です。私が採用した戦略は、ベータ成分に関して二項累積分布関数の期待値を計算します。 PBB(X≤k∣N,α,β)=Ep[PBinom(X≤k∣N,p)],PBB(X≤k∣N,α,β)=Ep[PBinom(X≤k∣N,p)],P_{BB}(X \le k \mid N, \alpha, \beta) = E_p\left[P_{Binom}(X \le k \mid N, p)\right], where p∼Beta(α,β)p∼Beta(α,β)p \sim \mathrm{Beta}(\alpha, \beta)。私scipy.stats.beta.expectは、本来はベクトル化されていないメソッドを使用してこれを実現しています(floatまたは0d配列以外ではクラッシュします)。 PPFはさらに悪くなる-それは、ブルートフォース整数をループだk=0,…,Nk=0,…,Nk=0, \ldots, Nよう P(X≤k∣N,α,β)≤q.P(X≤k∣N,α,β)≤q.P(X\le k \mid N, \alpha, \beta) \le q. ウィキペディアによると、ベータ二項分布の生存関数は P(X>k∣N,α,β)=B(β+n−k−1,α+k+1)3F2(a,b;k)B(α,β)B(n−k,k+2)(n+1),P(X>k∣N,α,β)=B(β+n−k−1,α+k+1)3F2(a,b;k)B(α,β)B(n−k,k+2)(n+1),P(X > k \mid N, \alpha, \beta) = \frac{\mathrm{B}(\beta+n-k-1,\alpha+k+1)_3F_2(\boldsymbol{a},\boldsymbol{b};k)} …

4
なげなわがペナルティパラメータに収束しないのはなぜですか?
LASSO回帰がどのように機能するかを調べるためにLASSO、最適なアルファパラメーターを選択することで回帰を最適化する小さなコードを書きました。 LASSO交差検証後、回帰がアルファパラメーターに対してこのような不安定な結果をもたらす理由を理解できません。 これが私のPythonコードです: from sklearn.linear_model import Lasso from sklearn.cross_validation import KFold from matplotlib import pyplot as plt # generate some sparse data to play with import numpy as np import pandas as pd from scipy.stats import norm from scipy.stats import uniform ### generate your own data here n = 1000 …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.