タグ付けされた質問 「statistics」

あなたの質問がhttps://stats.stackexchange.comでよりよく尋ねられるかどうかを検討してください。統計は、確率を使用して、限られた数のサンプルまたは観測値から母集団の特性を推測する数学的研究です。

15
宇宙線:プログラムに影響を与える確率はどれくらいですか?
もう一度私はデザインレビューを行っていて、特定のシナリオの確率がプログラムに影響を与える「宇宙線のリスクよりも低い」という主張に遭遇しました。確率です。 「2 -128は340282366920938463463374607431768211456のうちの1 つなので、これらの計算が数十億分の1の係数でずれていても、ここでチャンスを利用することは正当化できると思います...私たちを台無しにすると私は信じています。」 このプログラマは正しいですか?宇宙線がコンピュータに当たり、プログラムの実行に影響を与える確率はどのくらいですか?


30
モードを見つけるための組み込み関数はありますか?
Rではmean()、median()期待どおりの動作をする標準関数です。 mode()オブジェクトの内部ストレージモードであり、引数で最も多く発生する値ではありません。しかし、ベクトル(またはリスト)の統計モードを実装する標準ライブラリ関数はありますか?
392 r  statistics  r-faq 

12
Gitリポジトリーからの統計の生成
私はgitリポジトリからいくつかの統計を生成できる優れたツール/スクリプトを探しています。私はこの機能をいくつかのコードホスティングサイトで見ました、そしてそれらは次のような情報を含んでいました... 著者ごとのコミット 日/週/年/年ごとのコミットなど。 時間の経過に伴うコード行 グラフ ...はるかに 基本的に、プロジェクトが時間とともにどれだけ成長するか、どの開発者がほとんどのコードをコミットするかなどのアイデアを知りたいだけです。
373 git  graph  statistics 


11
python / numpyでパーセンタイルを計算するにはどうすればよいですか?
シーケンスまたは1次元のnumpy配列のパーセンタイルを計算する便利な方法はありますか? Excelのパーセンタイル関数に似たものを探しています。 NumPyの統計参照を調べたところ、見つかりませんでした。私が見つけたのは中央値(50パーセンタイル)だけですが、より具体的なものはありません。

30
MySQLで中央値を計算する簡単な方法
MySQLで中央値を計算する最も簡単な(そして遅すぎないことが望ましい)方法は何ですか?私はAVG(x)平均を見つけるために使用しましたが、中央値を計算する簡単な方法を見つけるのに苦労しています。今のところ、すべての行をPHPに返し、並べ替えを行ってから中央の行を選択していますが、単一のMySQLクエリでそれを行う簡単な方法がいくつかあるはずです。 データの例: id | val -------- 1 4 2 7 3 2 4 2 5 9 6 8 7 3 並べ替えはvalを与える2 2 3 4 7 8 9ので、中央値はであるの4に対し、SELECT AVG(val)どちらの==である必要があり5ます。
208 sql  mysql  statistics  median 

12
NumPyで配列を正規化する方法は?
1つのNumPy配列のノルムが欲しいのですが。より具体的には、この関数の同等のバージョンを探しています def normalize(v): norm = np.linalg.norm(v) if norm == 0: return v return v / norm skearnまたはそのようなものはありますかnumpy? この関数vは、が0ベクトルである状況で機能します。



14
統計分析とレポート作成のワークフロー
カスタムレポートの作成に関連するデータ分析のワークフローについて、知識はありますか?ユースケースは基本的にこれです: クライアントは、データ分析を使用するレポートを委託します。たとえば、水区の人口推定や関連マップなどです。 アナリストは一部のデータをダウンロードし、データを変更して結果を保存します(たとえば、単位あたりの人口の列を追加したり、地区の境界に基づいてデータをサブセット化したりします)。 アナリストは、(2)で作成されたデータを分析し、彼女の目標に近づきますが、さらに多くのデータが必要であるため、(1)に戻ります。 テーブルとグラフィックスがQA / QCを満たし、クライアントを満足させるまで繰り返します。 表とグラフィックを組み込んだレポートを作成します。 来年、幸せなクライアントが戻ってきて、更新を求めています。これは、仕様が変更されない限り、新しいダウンロード(たとえば、昨年の建築許可の取得)によってアップストリームデータを更新し、[RECALCULATE]ボタンを押すのと同じくらい簡単なはずです。 現時点では、ディレクトリを作成して、できる限りその場限りで作成します。もっと体系的なアプローチが欲しいので、誰かがこれを理解してくれることを願っています...私は、スプレッドシート、SQL、ARCGIS、R、およびUnixツールを組み合わせて使用​​しています。 ありがとう! PS: 以下は、さまざまな中間データセット(.RDataサフィックス付き)とスクリプト(.Rサフィックス)の依存関係をチェックする基本的なMakefileです。Makeはタイムスタンプを使用して依存関係をチェックします。そのためtouch ss07por.csv、このファイルが依存しているすべてのファイル/ターゲットよりも新しいことがわかり、指定されたスクリプトを実行してそれらを適宜更新します。これは、SQLデータベースに入れるステップや、sweaveなどのテンプレート言語のステップを含む、まだ進行中の作業です。Makeは構文がタブに依存していることに注意してください。したがって、カットアンドペーストする前にマニュアルをお読みください。楽しんでフィードバックしてください! http://www.gnu.org/software/make/manual/html_node/index.html#Top R = / home / wsprague / R-2.9.2 / bin / R persondata.RData:ImportData.R ../../DATA/ss07por.csv Functions.R $ R --slave -f ImportData.R persondata.Munged.RData:MungeData.R persondata.RData Functions.R $ R --slave -f MungeData.R report.txt:TabulateAndGraph.R persondata.Munged.RData Functions.R $ R --slave -f …


8
経験的分布をScipy(Python)で理論的分布に適合させますか?
はじめに:私は、0から47までの範囲の30,000を超える整数値のリストを持っています[0,0,0,0,..,1,1,1,1,...,2,2,2,2,...,47,47,47,...]。リストの値は必ずしも正しい順序であるとは限りませんが、この問題では順序は関係ありません。 問題:私の分布に基づいて、任意の値のp値(より大きな値が現れる確率)を計算したいと思います。たとえば、0のp値は1に近づき、より大きな数値のp値は0になる傾向があることがわかります。 私が正しいかどうかはわかりませんが、確率を判断するには、自分のデータを記述するのに最も適した理論上の分布に自分のデータを当てはめる必要があると思います。最良のモデルを決定するには、ある種の適合度テストが必要だと思います。 このような分析をPython(ScipyまたはNumpy)で実装する方法はありますか?例を挙げていただけますか? ありがとうございました!

12
Chromeデベロッパーツールからデータをエクスポートする
ページ読み込み時のChromeによるネットワーク分析 このデータをMicrosoft Excelにエクスポートして、異なる時間に読み込まれたときに同様のデータのリストを取得できるようにしたいと考えています。特にページを比較したい場合は、ページを1回ロードしても、あまり意味がありません。 ツールまたはクロム拡張を介してこれを行うことは可能ですか?

12
Pythonの多重線形回帰
重回帰を行うPythonライブラリを見つけることができないようです。私が見つけた唯一のものは、単純な回帰のみです。いくつかの独立変数(x1、x2、x3など)に対して依存変数(y)を回帰する必要があります。 たとえば、次のデータの場合: print 'y x1 x2 x3 x4 x5 x6 x7' for t in texts: print "{:>7.1f}{:>10.2f}{:>9.2f}{:>9.2f}{:>10.2f}{:>7.2f}{:>7.2f}{:>9.2f}" / .format(t.y,t.x1,t.x2,t.x3,t.x4,t.x5,t.x6,t.x7) (上記の出力:) y x1 x2 x3 x4 x5 x6 x7 -6.0 -4.95 -5.87 -0.76 14.73 4.02 0.20 0.45 -5.0 -4.55 -4.52 -0.71 13.74 4.47 0.16 0.50 -10.0 -10.96 -11.64 -0.98 15.49 4.18 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.