プログラミング statistics

15

もう一度私はデザインレビューを行っていて、特定のシナリオの確率がプログラムに影響を与える「宇宙線のリスクよりも低い」という主張に遭遇しました。確率です。「2 -128は340282366920938463463374607431768211456のうちの1 つなので、これらの計算が数十億分の1の係数でずれていても、ここでチャンスを利用することは正当化できると思います...私たちを台無しにすると私は信じています。」このプログラマは正しいですか？宇宙線がコンピュータに当たり、プログラムの実行に影響を与える確率はどのくらいですか？

546 statistics physics probability error-detection risk-analysis

24

Gitリポジトリの特定の作成者によって変更された総行数をカウントする方法は？

Gitリポジトリ内の特定の作成者によって変更された行をカウントする、呼び出すことができるコマンドはありますか？Githubがインパクトグラフに対してこれを行うため、コミット数をカウントする方法が存在する必要があることを知っています。

458 git command-line statistics repository

30

モードを見つけるための組み込み関数はありますか？

Rではmean()、median()期待どおりの動作をする標準関数です。 mode()オブジェクトの内部ストレージモードであり、引数で最も多く発生する値ではありません。しかし、ベクトル（またはリスト）の統計モードを実装する標準ライブラリ関数はありますか？

392 r statistics r-faq

12

Gitリポジトリーからの統計の生成

私はgitリポジトリからいくつかの統計を生成できる優れたツール/スクリプトを探しています。私はこの機能をいくつかのコードホスティングサイトで見ました、そしてそれらは次のような情報を含んでいました... 著者ごとのコミット日/週/年/年ごとのコミットなど。時間の経過に伴うコード行グラフ ...はるかに基本的に、プロジェクトが時間とともにどれだけ成長するか、どの開発者がほとんどのコードをコミットするかなどのアイデアを知りたいだけです。

373 git graph statistics

12

Pythonでの算術平均（1種類の平均）の計算

数値のリストの算術平均（1種類の平均）を計算する組み込みまたは標準のライブラリメソッドはPythonにありますか？

268 python math statistics average mean

11

python / numpyでパーセンタイルを計算するにはどうすればよいですか？

シーケンスまたは1次元のnumpy配列のパーセンタイルを計算する便利な方法はありますか？ Excelのパーセンタイル関数に似たものを探しています。 NumPyの統計参照を調べたところ、見つかりませんでした。私が見つけたのは中央値（50パーセンタイル）だけですが、より具体的なものはありません。

214 python numpy statistics numpy-ndarray percentile

30

MySQLで中央値を計算する簡単な方法

MySQLで中央値を計算する最も簡単な（そして遅すぎないことが望ましい）方法は何ですか？私はAVG(x)平均を見つけるために使用しましたが、中央値を計算する簡単な方法を見つけるのに苦労しています。今のところ、すべての行をPHPに返し、並べ替えを行ってから中央の行を選択していますが、単一のMySQLクエリでそれを行う簡単な方法がいくつかあるはずです。データの例： id | val -------- 1 4 2 7 3 2 4 2 5 9 6 8 7 3 並べ替えはvalを与える2 2 3 4 7 8 9ので、中央値はであるの4に対し、SELECT AVG(val)どちらの==である必要があり5ます。

208 sql mysql statistics median

12

NumPyで配列を正規化する方法は？

1つのNumPy配列のノルムが欲しいのですが。より具体的には、この関数の同等のバージョンを探しています def normalize(v): norm = np.linalg.norm(v) if norm == 0: return v return v / norm skearnまたはそのようなものはありますかnumpy？この関数vは、が0ベクトルである状況で機能します。

203 python numpy scikit-learn statistics normalization

16

Pythonでのピアソン相関と有意性の計算

2つのリストを入力として受け取り、ピアソン相関と相関の有意性を返す関数を探しています。

197 python numpy statistics scipy

5

Python NumPyのnp.mean（）とnp.average（）？

それに気づく In [30]: np.mean([1, 2, 3]) Out[30]: 2.0 In [31]: np.average([1, 2, 3]) Out[31]: 2.0 ただし、やはり2つの異なる関数であるため、いくつかの違いがあるはずです。それらの違いは何ですか？

189 python numpy statistics average mean

14

統計分析とレポート作成のワークフロー

カスタムレポートの作成に関連するデータ分析のワークフローについて、知識はありますか？ユースケースは基本的にこれです：クライアントは、データ分析を使用するレポートを委託します。たとえば、水区の人口推定や関連マップなどです。アナリストは一部のデータをダウンロードし、データを変更して結果を保存します（たとえば、単位あたりの人口の列を追加したり、地区の境界に基づいてデータをサブセット化したりします）。アナリストは、（2）で作成されたデータを分析し、彼女の目標に近づきますが、さらに多くのデータが必要であるため、（1）に戻ります。テーブルとグラフィックスがQA / QCを満たし、クライアントを満足させるまで繰り返します。表とグラフィックを組み込んだレポートを作成します。来年、幸せなクライアントが戻ってきて、更新を求めています。これは、仕様が変更されない限り、新しいダウンロード（たとえば、昨年の建築許可の取得）によってアップストリームデータを更新し、[RECALCULATE]ボタンを押すのと同じくらい簡単なはずです。現時点では、ディレクトリを作成して、できる限りその場限りで作成します。もっと体系的なアプローチが欲しいので、誰かがこれを理解してくれることを願っています...私は、スプレッドシート、SQL、ARCGIS、R、およびUnixツールを組み合わせて使用しています。ありがとう！ PS：以下は、さまざまな中間データセット（.RDataサフィックス付き）とスクリプト（.Rサフィックス）の依存関係をチェックする基本的なMakefileです。Makeはタイムスタンプを使用して依存関係をチェックします。そのためtouch ss07por.csv、このファイルが依存しているすべてのファイル/ターゲットよりも新しいことがわかり、指定されたスクリプトを実行してそれらを適宜更新します。これは、SQLデータベースに入れるステップや、sweaveなどのテンプレート言語のステップを含む、まだ進行中の作業です。Makeは構文がタブに依存していることに注意してください。したがって、カットアンドペーストする前にマニュアルをお読みください。楽しんでフィードバックしてください！ http://www.gnu.org/software/make/manual/html_node/index.html#Top R = / home / wsprague / R-2.9.2 / bin / R persondata.RData：ImportData.R ../../DATA/ss07por.csv Functions.R $ R --slave -f ImportData.R persondata.Munged.RData：MungeData.R persondata.RData Functions.R $ R --slave -f MungeData.R report.txt：TabulateAndGraph.R persondata.Munged.RData Functions.R $ R --slave -f …

186 r statistics data-visualization

9

scikit-learn LinearRegressionでp値（有意性）を見つける

各係数のp値（有意性）を見つけるにはどうすればよいですか？ lm = sklearn.linear_model.LinearRegression() lm.fit(x,y)

154 python numpy statistics scikit-learn regression

8

経験的分布をScipy（Python）で理論的分布に適合させますか？

はじめに：私は、0から47までの範囲の30,000を超える整数値のリストを持っています[0,0,0,0,..,1,1,1,1,...,2,2,2,2,...,47,47,47,...]。リストの値は必ずしも正しい順序であるとは限りませんが、この問題では順序は関係ありません。問題：私の分布に基づいて、任意の値のp値（より大きな値が現れる確率）を計算したいと思います。たとえば、0のp値は1に近づき、より大きな数値のp値は0になる傾向があることがわかります。私が正しいかどうかはわかりませんが、確率を判断するには、自分のデータを記述するのに最も適した理論上の分布に自分のデータを当てはめる必要があると思います。最良のモデルを決定するには、ある種の適合度テストが必要だと思います。このような分析をPython（ScipyまたはNumpy）で実装する方法はありますか？例を挙げていただけますか？ありがとうございました！

139 python numpy statistics scipy distribution

12

Chromeデベロッパーツールからデータをエクスポートする

ページ読み込み時のChromeによるネットワーク分析このデータをMicrosoft Excelにエクスポートして、異なる時間に読み込まれたときに同様のデータのリストを取得できるようにしたいと考えています。特にページを比較したい場合は、ページを1回ロードしても、あまり意味がありません。ツールまたはクロム拡張を介してこれを行うことは可能ですか？

137 performance networking google-chrome statistics export

12

Pythonの多重線形回帰

重回帰を行うPythonライブラリを見つけることができないようです。私が見つけた唯一のものは、単純な回帰のみです。いくつかの独立変数（x1、x2、x3など）に対して依存変数（y）を回帰する必要があります。たとえば、次のデータの場合： print 'y x1 x2 x3 x4 x5 x6 x7' for t in texts: print "{:>7.1f}{:>10.2f}{:>9.2f}{:>9.2f}{:>10.2f}{:>7.2f}{:>7.2f}{:>9.2f}" / .format(t.y,t.x1,t.x2,t.x3,t.x4,t.x5,t.x6,t.x7) （上記の出力:) y x1 x2 x3 x4 x5 x6 x7 -6.0 -4.95 -5.87 -0.76 14.73 4.02 0.20 0.45 -5.0 -4.55 -4.52 -0.71 13.74 4.47 0.16 0.50 -10.0 -10.96 -11.64 -0.98 15.49 4.18 …

129 python numpy statistics scipy linear-regression

タグ付けされた質問 「statistics」

タグ付けされた質問「statistics」