プログラミング statistics

13

以前は、特定のSVNリポジトリーに対して単純なコミット統計を生成するTortoiseSvnの機能を楽しんでいました。私はGitで何が利用可能か疑問に思っており、特に興味があります：ユーザーあたりのコミット数ユーザーごとに変更された行数時間の経過に伴うアクティビティ（たとえば、週ごとの変更の集計）何か案は？

90 git statistics logging code-statistics

11

PythonとNumpyを使用してr-2乗を計算するにはどうすればよいですか？

PythonとNumpyを使用して、任意の次数の最適な多項式を計算しています。x値、y値、および適合させたい多項式の次数（線形、二次など）のリストを渡します。これで十分に機能しますが、r（相関係数）とr-2乗（決定係数）も計算したいと思います。私の結果をExcelの最適な近似曲線機能と計算したr二乗値と比較しています。これを使用して、線形最良適合（次数= 1）に対してr-2乗を正しく計算していることがわかります。ただし、私の関数は次数が1より大きい多項式では機能しません。 Excelはこれを行うことができます。Numpyを使用して高次多項式のr-2乗を計算するにはどうすればよいですか？これが私の機能です： import numpy # Polynomial Regression def polyfit(x, y, degree): results = {} coeffs = numpy.polyfit(x, y, degree) # Polynomial Coefficients results['polynomial'] = coeffs.tolist() correlation = numpy.corrcoef(x, y)[0,1] # r results['correlation'] = correlation # r-squared results['determination'] = correlation**2 return results

90 python math statistics numpy curve-fitting

10

Rで、平均の標準誤差を見つける方法は？

Rの平均の標準誤差を見つけるコマンドはありますか？

89 r statistics

3

Scalaに適した数学/統計ライブラリはありますか？[閉まっている]

閉まっている。この質問はスタックオーバーフローのガイドラインを満たしていません。現在、回答を受け付けていません。この質問を改善してみませんか？Stack Overflowのトピックとなるように質問を更新します。 2年前休業。この質問を改善する数学と統計のためのscala用の優れたオープンソースライブラリを探しています。うまくいけば、Apache MathやColtのようなものですが、Scalaで実装されています。誰かが私を正しい方向に向けることができますか？

87 scala math statistics

14

実行中の標準偏差を効率的に計算する方法は？

番号のリストの配列があります。例： [0] (0.01, 0.01, 0.02, 0.04, 0.03) [1] (0.00, 0.02, 0.02, 0.03, 0.02) [2] (0.01, 0.02, 0.02, 0.03, 0.02) ... [n] (0.01, 0.00, 0.01, 0.05, 0.03) 私がやりたいのは、すべての配列要素にわたって、リストの各インデックスで平均と標準偏差を効率的に計算することです。つまり、配列をループして、リストの特定のインデックスの値を合計しています。最後に、「平均リスト」の各値をn（母集団からのサンプルではなく、母集団で作業しています）で除算します。標準偏差を実行するために、平均を計算したので、もう一度ループします。配列を2回通過することは避けたいと思います。1回は平均用で、もう1回はSD用です（平均を取得した後）。配列を1回だけ通過して、両方の値を計算するための効率的な方法はありますか？インタープリター言語（PerlやPythonなど）または擬似コードのコードであれば問題ありません。

87 python perl statistics

13

統計的中央値、最頻値、歪度、尖度を推定するための「オンライン」（イテレーター）アルゴリズム？

値のセットの中央値、最頻値、歪度、および/または尖度を推定するアルゴリズムはありますが、すべての値を一度にメモリに保存する必要はありませんか？基本的な統計を計算したいのですが：平均：算術平均分散：平均からの偏差の2乗の平均標準偏差：分散の平方根中央値：数値の大きい方の半分を小さい方の半分から分離する値モード：セットで見つかった最も頻繁な値歪度：tl; 博士尖度：tl; 博士これらのいずれかを計算するための基本的な式は、小学校の算数であり、私はそれらを知っています。それらを実装する多くの統計ライブラリもあります。私の問題は、処理しているセット内の値の数が多い（数十億）ことです。Pythonで作業していると、数十億の要素でリストやハッシュを作成することはできません。これをCで書いたとしても、10億要素の配列はあまり実用的ではありません。データはソートされていません。他のプロセスによって、オンザフライでランダムに生成されます。各セットのサイズは非常に可変であり、サイズは事前にわかりません。セット内の各値を任意の順序で反復して、平均と分散をかなりうまく処理する方法をすでに理解しました。（実際、私の場合は、生成された順序でそれらを取得します。）これが私が使用しているアルゴリズムです。礼儀http://en.wikipedia.org/wiki/Algorithms_for_calculating_variance#On-line_algorithm： count、sum、sum_of_squaresの3つの変数を初期化します各値について：インクリメントカウント。合計に値を追加します。値の2乗をsum_of_squaresに追加します。合計をカウントで除算し、変数の平均として保存します。 sum_of_squaresをカウントで除算し、変数mean_of_squaresとして格納します。二乗平均、square_of_meanとして保存。 mean_of_squaresからsquare_of_meanを減算し、分散として保存します。出力の平均と分散。この「オンライン」アルゴリズムには弱点があります（たとえば、sum_of_squaresが整数範囲または浮動小数点精度よりも急速に大きくなるための精度の問題）が、基本的に、各セットにすべての値を格納する必要がなく、必要なものが得られます。しかし、追加の統計（中央値、最頻値、歪度、尖度）を推定するための同様の手法が存在するかどうかはわかりません。N値を処理するために必要なメモリがO（N）よりも大幅に少ない限り、偏りのある推定量、またはある程度精度を損なう方法でさえ生きることができます。ライブラリにこれらの操作の1つ以上を「オンライン」で計算する関数がある場合は、既存の統計ライブラリを指すことも役立ちます。

86 algorithm statistics iterator median

9

分位数-SciPyを使用した分位数プロット

Pythonを使用してqq-plotをどのように作成しますか？多数の測定値があり、XY値を入力として受け取るプロット関数を使用していると仮定します。この関数は、測定値の分位数を、ある分布（正規、均一...）の対応する分位数に対してプロットする必要があります。結果のプロットでは、仮定された分布に従うかどうかを測定で評価できます。 http://en.wikipedia.org/wiki/Quantile-quantile_plot RとMatlabはどちらもこのための既製の関数を提供しますが、Pythonで実装するための最もクリーンな方法は何でしょうか。

85 python statistics scipy

11

PythonでROC曲線をプロットする方法

ロジスティック回帰パッケージを使用してPythonで開発した予測モデルの精度を評価するために、ROC曲線をプロットしようとしています。真陽性率と偽陽性率を計算しました。ただし、matplotlibAUC値を使用してこれらを正しくプロットし、計算する方法を理解できません。どうすればそれができますか？

83 python matplotlib plot statistics roc

3

numpy.exp（）は正確に何をしますか？[閉まっている]

閉まっている。この質問は、StackOverflowのガイドラインを満たしていません。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新して、StackOverflowのトピックになります。 5年前に閉鎖されました。この質問を改善する np.exp（）が実際に何をするのか非常に混乱しています。ドキュメントには、「入力配列内のすべての要素の指数を計算する」と記載されています。これが正確に何を意味するのか私は混乱しています。誰かが実際に何をしているのかについてもっと情報を教えてもらえますか？

83 python numpy statistics exp

2

PythonScipyでの2サンプルのコルモゴロフ-スミルノフ検定

Scipyで2サンプルのKSテストを行う方法がわかりません。ドキュメントを読んだ後scipykstest 分布が標準正規分布と同一である場所をテストする方法がわかります from scipy.stats import kstest import numpy as np x = np.random.normal(0,1,1000) test_stat = kstest(x, 'norm') #>>> test_stat #(0.021080234718821145, 0.76584491300591395) つまり、p値が0.76の場合、2つの分布が同一であるという帰無仮説を棄却することはできません。ただし、2つの分布を比較して、次のように、それらが同一であるという帰無仮説を棄却できるかどうかを確認したいと思います。 from scipy.stats import kstest import numpy as np x = np.random.normal(0,1,1000) z = np.random.normal(1.1,0.9, 1000) xとzが同一かどうかをテストします私は素朴なものを試しました： test_stat = kstest(x, z) 次のエラーが発生しました： TypeError: 'numpy.ndarray' object is …

82 python numpy scipy statistics distribution

1

`tempdisagg`パッケージの` td`コマンドを使用して月次データを日次データ頻度に分解するにはどうすればよいですか？

月別の頻度データがあり、それを日別の頻度データに分解しようとしています。したがって、以下のコードを使用して、R tdのtempdisaggパッケージのコマンドを使用します。 dat=ts(data[,2]) result=td(dat~1, conversion = "average", to = "day", method = "chow-lin-maxlog") 次に、次のエラーメッセージが表示されます。 Error in td(dat ~ 1, conversion = "average", to = "day", method = "chow-lin-maxlog") : 'to' argument: unknown character string 私が使用するデータdatは次のとおりです。 > dput(head(dat)) c(82.47703009, 84.63094431, 70.00659987, 78.81135651, 74.749746,82.95638213) したがって、このデータdatは毎月の頻度ですが、開始と終了はまだこれを反映していません。実際、開始日は1/1997、終了日は2019年9月です。この月次データdatを日次頻度データに分解する方法について教えてください。

9 r statistics time-series syntax-error frequency

タグ付けされた質問 「statistics」

タグ付けされた質問「statistics」