タグ付けされた質問 「statistics」

あなたの質問がhttps://stats.stackexchange.comでよりよく尋ねられるかどうかを検討してください。統計は、確率を使用して、限られた数のサンプルまたは観測値から母集団の特性を推測する数学的研究です。

2
Rで実行を一時停止、スリープ、X秒待機させる方法は?
指定した秒数またはミリ秒の間、Rスクリプトをどのように一時停止しますか?多くの言語にはsleep関数があり?sleepますが、データセットを参照します。そして?pause、?wait存在しません。 意図された目的は、セルフタイムアニメーション用です。ユーザーの入力を求めずに、目的のソリューションが機能します。
128 r  animation  statistics 


18
統計:Pythonでの組み合わせ
Pythonで組み合わせ(nCr)を計算する必要がありますが、それを行うための関数math、numpyまたはstat ライブラリを見つけることができません。タイプの関数のようなもの: comb = calculate_combinations(n, r) 実際の組み合わせではなく、可能な組み合わせの数が必要なので、itertools.combinations興味がありません。 最後に、組み合わせを計算する数値が大きくなりすぎて、階乗が巨大になるため、階乗の使用を避けたいと思います。 これは本当に答えやすい質問のようですが、実際のすべての組み合わせを生成することについての質問に溺れています。

12
Cのローリングメディアンアルゴリズム
私は現在、Cでローリングメジアンフィルター(ローリングミーンフィルターに類似)を実装するアルゴリズムに取り組んでいます。私の文献検索から、それを行うには2つの合理的に効率的な方法があるようです。1つ目は、値の初期ウィンドウを並べ替えてから、バイナリ検索を実行して新しい値を挿入し、反復ごとに既存の値を削除します。 2番目(Hardle and Steiger、1995、JRSS-C、アルゴリズム296から)は、両端にヒープ、もう一方に最小ヒープ、中央に中央値を持つ両頭ヒープ構造を構築します。これにより、O(n log n)の代わりに線形時間アルゴリズムが生成されます。 これが私の問題です。前者の実装は可能ですが、これを何百万もの時系列で実行する必要があるため、効率が非常に重要です。後者は実装が非常に難しいことがわかっています。RのstatsパッケージのコードのTrunmed.cファイルでコードを見つけましたが、かなり判読できません。 線形時間ローリングメディアンアルゴリズムの適切に作成されたC実装を知っている人はいますか? 編集:Trunmed.cコードへのリンクhttp://google.com/codesearch/p?hl=en&sa=N&cd=1&ct=rc#mYw3h_Lb_e0/R-2.2.0/src/library/stats/src/Trunmed.c
114 c  algorithm  r  statistics  median 

4
サンプルデータから信頼区間を計算する
正規分布を仮定して、信頼区間を計算したいサンプルデータがあります。 私はnumpyおよびscipyパッケージを見つけてインストールし、numpyに平均値と標準偏差(numpy.mean(data)とデータがリストになっている)を返すようにしました。サンプルの信頼区間を取得する上でのアドバイスは大歓迎です。

9
幾何平均:ビルトインはありますか?
組み込みの幾何平均を見つけようとしましたが、見つかりませんでした。 (明らかに、ビルトインはシェルでの作業中に時間を節約するつもりはありません。また、精度に違いがあるとは思わないでしょう。スクリプトでは、ビルトインを可能な限り頻繁に使用しようとします(累積)多くの場合、パフォーマンスの向上が顕著です。 ない場合(私はそうではありません)は、ここにあります。 gm_mean = function(a){prod(a)^(1/length(a))}

6
JavaScriptのブラウザー統計が無効になっている[終了]
閉まっている。この質問はスタックオーバーフローのガイドラインを満たしていません。現在、回答を受け付けていません。 この質問を改善してみませんか?Stack Overflowのトピックとなるように質問を更新します。 3年前休業。 この質問を改善する JavaScriptを無効にして閲覧しているWebユーザーの割合に関する公的に利用可能な統計を収集するのに苦労しています。 Yahooは2010年からのデータを公開していますし、R. Reidさんは2009年からのデータを公表(彼はへのアクセスを持っていたサイトから選びました)。 当時のYahooの調査結果はかなり興味深いものでした。 アクセスログとビーコンデータ(以前はページに含まれていました)を組み合わせてすべての自動化されたリクエストを除外し、実際のユーザーから送信されたことが確認できる一連のリクエストを残しました。このデータは完全に匿名であり、いくつかの国のトラフィックパターンをよく示しています。 数値を計算したところ、実際のビジタートラフィックの約1%をホバリングするJavaScript無効リクエストの一定の割合が見つかりました。最高の割合は米国で約2%、最低の割合はブラジルで約0.25%です。テストされた他の国はすべて、1.3%に非常に近い数値を示しました。 これは私がこれまでに見つけたものについてです。しかし、このデータは古くなっているので、今日のパーセンテージはどうなっているのだろう。 私はStatcounterも調べました。Statcounterは、ブラウザの統計情報を公開している唯一の会社のようです。ただし、JavaScriptに関するデータは公開しません。W3schoolsも統計を公開していることは知っていますが、ターゲットは開発者を対象としているため、このデータは非常に偏っており、私にとって興味深いものではありません。(一般ユーザーの代表である必要があります)。 したがって、以下を提供するようにお願いします。 この領域に関係する、オープンで自由に利用できる統計へのリンク あなた自身の統計、できれば開発者をターゲットにしていないより大きなサイトからの統計

5
「スイープ」機能の使い方
Rパッケージのソースを見ると、関数が表示されています sweep頻繁に使用されるます。場合によっては、より単純な関数で十分な場合に使用されます(例:)apply。それ以外の場合は、コードブロックをステップ実行するためにかなりの時間を費やすことなく、何をしているのかを正確に知ることが不可能です。 sweepより単純な関数を使用しての効果を再現できるという事実は、私には理解できないことを示唆していますsweepのコアユースケースをことを示唆しており、この関数が頻繁に使用されるという事実は、それが非常に有用であることを示唆しています。 コンテキスト: sweepRの標準ライブラリの関数です。その引数は次のとおりです。 sweep(x, MARGIN, STATS, FUN="-", check.margin=T, ...) # x is the data # STATS refers to the summary statistics which you wish to 'sweep out' # FUN is the function used to carry out the sweep, "-" is the default あなたが見ることができるように、引数は次のようにしているapplyもののsweep 1つ以上のパラメーターを必要ますSTATS。 別の重要な違いはsweep、同じ形状の配列を返すことです、入力配列に対して、apply渡された関数異なります。 sweep 動作中: # …
100 r  statistics 


11
データセットから外れ値を削除する方法
美容と年齢の多変量データをいくつか持っています。年齢の範囲は2〜20(20、22、24 .... 40)の間隔で20〜40であり、データの各レコードについて、年齢と1〜5の美しさの評価が与えられます。このデータのボックスプロット(X軸の年齢、Y軸の美しさの評価)を行うと、各ボックスのひげの外側にいくつかの外れ値がプロットされています。 データフレーム自体からこれらの外れ値を削除したいのですが、Rがボックスプロットの外れ値を計算する方法がわかりません。以下は、私のデータの例です。
98 r  statistics  outliers 

4
単一変数の頻度表
今日の最後の初心者パンダの質問:単一のシリーズのテーブルを生成するにはどうすればよいですか? 例えば: my_series = pandas.Series([1,2,2,3,3,3]) pandas.magical_frequency_function( my_series ) >> { 1 : 1, 2 : 2, 3 : 3 } グーグルがたくさんあるので、Series.describe()とpandas.crosstabsにつながっていますが、どちらも必要なことをまったく行いません。ああ、それがさまざまなデータ型(strings、intsなど)で機能するのは素晴らしいことです。

6
なぜフィボナッチシリーズがアジャイルプランニングポーカーで使用されるのですか?[閉まっている]
閉まっている。この質問はスタックオーバーフローのガイドラインを満たしていません。現在、回答を受け付けていません。 この質問を改善してみませんか?Stack Overflowのトピックとなるように質問を更新します。 6年前休業。 この質問を改善する アジャイルソフトウェア開発におけるユーザーストーリーの相対的なサイズを推定する場合、チームのメンバーは、ユーザーストーリーのサイズを1、2、3、5、8、13、...と推定するものとします。したがって、推定値はフィボナッチ系列に似ているはずです。しかし、なぜでしょうか。 ウィキペディアのhttp://en.wikipedia.org/wiki/Planning_pokerの説明には、不可解な文が含まれています。 フィボナッチ数列を使用する理由は、より大きなアイテムを推定する際の固有の不確実性を反映するためです。 しかし、なぜより大きなアイテムに固有の不確実性があるのでしょうか?測定を少なくすると、つまり同じストーリーを推定する人が少なくなれば、不確実性は高くなりますか?そして、より大きなストーリーで不確実性が高くても、なぜそれがフィボナッチ数列の使用を意味するのでしょうか?それには数学的または統計的な理由がありますか?それ以外の場合、フィボナッチシリーズを推定に使用することは、CargoCult科学のように感じます。


8
平均と標準偏差が与えられた正規分布で確率を計算する方法は?
Pythonで平均、stdが与えられた場合、正規分布で確率を計算する方法は?この質問のOPのように、定義に従って自分の関数をいつでも明示的にコーディングできます。Pythonでの分布における確率変数の確率の計算 ライブラリ関数呼び出しがあるかどうか疑問に思うだけで、これを行うことができます。私の想像では、これは次のようになります。 nd = NormalDistribution(mu=100, std=12) p = nd.prob(98) Perlにも同様の質問があります。Perlの正規分布が与えられた時点での確率を​​計算するにはどうすればよいですか?。しかし、Pythonでは見当たりませんでした。 Numpyrandom.normal機能はありますが、サンプリングのようなもので、私が欲しいものとは限りません。

8
PythonはC ++より高速で軽量ですか?[閉まっている]
現在のところ、この質問はQ&A形式には適していません。私たちは回答が事実、参考文献、または専門知識によってサポートされることを期待しますが、この質問はおそらく議論、議論、投票、または拡張された議論を誘います。この質問を改善でき、再開できると思われる場合は、ヘルプセンターにアクセスしてください。 8年前に閉鎖。 Pythonの利点はコードの可読性と開発速度であると常に思っていましたが、時間とメモリの使用量はC ++の場合ほどではありませんでした。 これらの統計は私を本当に強く打った。 PythonとC ++の時間とメモリ使用量について、あなたの経験から何がわかりますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.