統計とビッグデータ computational-statistics

21

最近、R-Bloggersからの投稿を読みました。この投稿は、Juliaという新しい言語に関するJohn Myles Whiteのこのブログ投稿にリンクしています。ジュリアは、ジャストインタイムコンパイラを活用して、非常に高速な実行時間を実現し、C / C ++と同程度の速度（同じ順序、等しく高速ではない）にします。さらに、Rのapplyステートメントとベクトル演算の代わりに、従来の言語でプログラミングを始めた私たちが慣れ親しんでいるオーソドックスなループメカニズムを使用します。 Rは、ジュリアのような素晴らしいタイミングでも、決して離れることはありません。業界での広範なサポートと、ほぼ何でもできる多数の素晴らしいパッケージがあります。私の興味は、ベクトル化が不可能な場合が多いベイジアンです。確かに、シリアルタスクはループを使用して実行する必要があり、各反復で大量の計算が必要になります。これらのシリアルループタスクではRは非常に遅くなる可能性があり、C / ++は書くのに苦労しているわけではありません。JuliaはC / ++で書くことに代わる優れた選択肢のように見えますが、まだ初期段階であり、Rについて私が愛する多くの機能を欠いています。統計コミュニティから、人々はそれに役立つパッケージを書き始めます。私の質問は次のとおりです。 Rを統計の事実上の言語にした魅力を得るために、ジュリアに必要な機能は何ですか？ C / ++のような低レベル言語を学習するよりも、計算量の多いタスクを行うためにジュリアを学習することの利点と欠点は何ですか？

161 r computational-statistics software computing julia

9

時系列の異常を検出するには、どのアルゴリズムを使用する必要がありますか？

バックグラウンド私はネットワークオペレーションセンターで働いており、コンピューターシステムとそのパフォーマンスを監視しています。監視する重要な指標の1つは、現在サーバーに接続している訪問者数と顧客数です。それを可視化するために、Opsチームは時系列データなどのメトリックを収集し、グラフを描画します。Graphiteはそれを可能にします。突然のドロップ（大部分）やその他の変更が発生した場合にチームに通知するアラートシステムを構築するために使用する非常に豊富なAPIを備えています。ここでは、平均値に基づいて静的なしきい値を設定しましたが、日中と週中の負荷が異なるため（季節性要因）、あまりうまく機能しません（多くの誤検知があります）。次のようになります。実際のデータ（1つのメトリックの例、15分の時間範囲。最初の数字はユーザー数、2番目はタイムスタンプ）： [{"target": "metric_name", "datapoints": [[175562.0, 1431803460], [176125.0, 1431803520], [176125.0, 1431803580], [175710.0, 1431803640], [175710.0, 1431803700], [175733.0, 1431803760], [175733.0, 1431803820], [175839.0, 1431803880], [175839.0, 1431803940], [175245.0, 1431804000], [175217.0, 1431804060], [175629.0, 1431804120], [175104.0, 1431804180], [175104.0, 1431804240], [175505.0, 1431804300]]}] 私が達成しようとしていること最近のデータポイントを受信し、それらを過去の平均値と比較し、突然の変更またはドロップがあった場合にアラートを送信するPythonスクリプトを作成しました。季節性のため、「静的」しきい値はうまく機能せず、スクリプトは誤検知アラートを生成します。アラートアルゴリズムをより正確に改善し、アラートのしきい値を絶えず調整することなく機能するようにしたいと考えています。必要なアドバイスと発見したことグーグルで私は、異常検出のための機械学習アルゴリズム（監視なしアルゴリズム）を探していると考えました。さらに調査を行った結果、それらは非常に多く、どれが私の場合に当てはまるかを理解することは非常に困難です。数学の知識が限られているため、洗練された学術論文を読むことができず、この分野の初心者にとって簡単なものを探しています。私はPythonが好きで、Rに少し精通しているので、これらの言語の例を見て喜んでいます。問題を解決するのに役立つ良い本や記事をお勧めします。あなたの時間をありがとう、そのような長い説明のために私を許します便利なリンク同様の質問：時系列と異常検出 Pythonを使用した時系列異常検出時系列異常時系列異常検出のアルゴリズム時系列ベースの異常検出アルゴリズムへのウェーブレットの適用どのアルゴリズムを使用すればよいですか？ …

70 machine-learning time-series python computational-statistics anomaly-detection

8

統計ワークベンチとしてのExcel

多くの人々（私を含む）がExcelで探索的データ分析を行うことを好むようです。スプレッドシートで許可されている行数などの制限は苦痛ですが、ほとんどの場合、Excelを使用してデータを操作することは不可能ではありません。しかし、McCulloughとHeiserの論文は、Excelを使用しようとすると、結果がすべて間違っていること、そしておそらく地獄で燃え上がることを実際に叫んでいます。この論文は正しいですか、それとも偏っていますか？著者は、彼らがマイクロソフトを嫌うように聞こえます。

52 software computational-statistics excel

6

線形回帰ではどのアルゴリズムが使用されますか？

私は通常「通常の最小二乗」について聞きます。それは線形回帰に使用される最も広く使用されているアルゴリズムですか？別のものを使用する理由はありますか？

42 regression least-squares algorithms computational-statistics numerics

7

フリップの数が増えるにつれて、テールと同じ数のヘッドをフリップする可能性が低くなる理由を説明する統計概念？

数冊の本を読んでコードを書くことで確率と統計の学習に取り組んでいます。コインフリップをシミュレートしているときに、私は自分の素朴な直感にわずかに反するものに気づきました。フェアコインを回裏返すと、が増加するにつれて、予想どおり、ヘッドとテールの比率が1に収束します。しかし、一方で、が増加すると、尾とまったく同じ数の頭をひっくり返す可能性が低くなり、それによって正確に 1の比率が得られるように見えます。nnnnnnnnn 例（私のプログラムからの出力） For 100 flips, it took 27 experiments until we got an exact match (50 HEADS, 50 TAILS) For 500 flips, it took 27 experiments until we got an exact match (250 HEADS, 250 TAILS) For 1000 flips, it took 11 experiments until we got an exact match …

28 probability computational-statistics

12

値のストリームの基本的な統計を計算するコマンドラインツール[終了]

標準入力から（ASCII形式の）数値のフローを受け入れ、最小、最大、平均、中央値、RMS、変位値など、このフローの基本的な記述統計を提供するコマンドラインツールはありますか？出力は、コマンドラインチェーンの次のコマンドで解析できることを歓迎します。作業環境はLinuxですが、他のオプションも歓迎します。

27 descriptive-statistics computational-statistics computing

4

エッジケースの精度と再現率の正しい値は何ですか？

精度は次のように定義されます： p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0？リコールに関する同じ質問： r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS：不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

2

離散分布を適合させてデータをカウントする方法は？

次のカウントデータのヒストグラムがあります。そして、離散分布をそれに当てはめたいと思います。これについてどうすればいいかわかりません。最初に離散分布、たとえば負の二項分布をヒストグラムに重ね合わせて、離散分布のパラメーターを取得し、Kolmogorov–Smirnov検定を実行してp値を確認する必要がありますか？この方法が正しいかどうかはわかりません。このような問題に取り組む一般的な方法はありますか？これは、カウントデータの度数分布表です。私の問題では、ゼロ以外のカウントのみに焦点を合わせています。 Counts: 1 2 3 4 5 6 7 9 10 Frequency: 3875 2454 921 192 37 11 1 1 2 更新：質問したい：Rのfitdistr関数を使用して、データを近似するためのパラメーターを取得しました。 fitdistr(abc[abc != 0], "Poisson") lambda 1.68147852 (0.01497921) 次に、ヒストグラムの上にポアソン分布の確率質量関数をプロットします。ただし、ポアソン分布はカウントデータのモデル化に失敗したようです。何か私にできることはありますか？

17 r poisson-distribution discrete-data computational-statistics negative-binomial

2

計算統計における乱数生成の重要な用途は何ですか？

計算統計において乱数ジェネレーター（RNG）はどのようにそしてなぜ重要ですか？多くの統計的検定のサンプルを選択する際にどちらかの仮説への偏りを避けるためにランダム性が重要であることを理解していますが、乱数ジェネレーターが重要な計算統計の他の領域はありますか？

15 hypothesis-testing monte-carlo algorithms random-generation computational-statistics

1

確率的勾配降下は、標準の勾配降下と比較して、どのように時間を節約できますか？

標準勾配降下法は、トレーニングデータセット全体の勾配を計算します。 for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad 事前に定義された数のエポックの場合、最初にパラメーターベクトルparamsに対するデータセット全体の損失関数の勾配ベクトルweights_gradを計算します。対照的に、確率的勾配降下法は、各トレーニング例x（i）およびラベルy（i）のパラメーター更新を実行します。 for i in range(nb_epochs): np.random.shuffle(data) for example in data: params_grad = evaluate_gradient(loss_function, example, params) params = params - learning_rate * params_grad SGDははるかに高速であると言われています。ただし、まだすべてのデータポイントでループが発生している場合、それがはるかに高速になる方法はわかりません。GDの勾配の計算は、各データポイントのGDの計算よりもはるかに遅いですか？コードはここから来ます。

15 machine-learning optimization gradient-descent computational-statistics sgd

2

ABCとMCMCのアプリケーションの違いは何ですか？

私の理解では、近似ベイズ計算（ABC）とマルコフ連鎖モンテカルロ（MCMC）の目的は非常に似ています。以下では、これらの方法についての私の理解と、実際のデータに対するそれらのアプリケーションの違いをどのように認識するかについて説明します。近似ベイズ計算 ABCは、事前にパラメータをサンプリングし、θθ\theta数値シミュレーションを通じて統計xixix_iを計算します。これは、観測されたと比較されxobsxobsx_{obs}ます。拒否アルゴリズムに基づいて、xixix_iは保持または拒否されます。保持されたxixix_iのリストが事後分布を作成しました。マルコフ連鎖モンテカルロ MCMCは、パラメーター事前分布のサンプリングで構成されますθθ\theta。これは、最初のサンプルかかるθ1θ1\theta_1計算、P(xobs|θ1)P(θ1)P(xobs|θ1)P(θ1)P(x_{obs} | \theta_1)P(\theta_1)新しい値に（いくつかの規則に従って）ジャンプ次いで及びθ2θ2\theta_2のためのP(xobs|θ2)P(θ2)P(xobs|θ2)P(θ2)P(x_{obs} | \theta_2)P(\theta_2)を再度計算されます。比率P(xobs|θ2)P(θ2)P(xobs|θ1)P(θ1)P(xobs|θ2)P(θ2)P(xobs|θ1)P(θ1)\frac{P(x_{obs} | \theta_2)P(\theta_2)}{P(x_{obs} | \theta_1)P(\theta_1)}が計算され、いくつかのしきい値に応じて、次のジャンプが最初または2番目の位置から発生します。値の探索は次々と行われ、最後までに、保持された値の分布は事後分布（理由はまだわかりません）。θθ\thetaθθ\thetaP(θ|x)P(θ|x)P(\theta | x) 私の説明は、これらの各用語の下に存在するさまざまな方法を表すのを逃していることに気付きます（特にMCMCの場合）。 ABC対MCMC（賛否両論） ABCには、を解析的に解く必要がないという利点があります。そのため、ABCはMCMCが作成できない複雑なモデルに便利です。P(x|θ)P(θ)P(x|θ)P(θ)P(x | \theta)P(\theta) MCMCでは、統計的検定（尤度比検定、G検定、...）を行うことができますが、ABCではこれが実現可能ではないと思います。私は今のところ正しいですか？質問 ABCとMCMCのアプリケーションの違いは何ですか？どのようにして1つまたは別の方法を使用することを決定しますか？

15 bayesian mcmc computational-statistics

3

Googleドキュメントのスプレッドシートを使用して、統計作業を実施し、他の人と共有していますか？

おそらくほとんどの人が、Googleドキュメントはまだ原始的なツールだと感じていることを知っています。MatlabやRではなく、Excelでもありません。それでも、私はブラウザの操作機能を使用するだけの（そして非常に異なる動作をする多くのブラウザと互換性がある）このWebベースのソフトウェアのパワーに困惑しています。このフォーラムでアクティブに活動しているマイク・ローレンスは、Google Docsを使用してスプレッドシートを共有しました。私は個人的に、GoogleドキュメントのExcelで最初に行われたかなり徹底した仮説テストフレームワーク（多数のパラメトリックテストとノンパラメトリックテストを含む）を複製しました。 Googleドキュメントを試してみて、興味深いアプリケーションで限界に達した人がいるかどうかに興味があります。また、Googleドキュメントで発生したバグや欠陥についても興味があります。私はこの質問を「コミュニティwiki用」に指定しています。これには最良の答えがないことを示しています。何よりも調査です。

15 software computational-statistics

9

コンピュータサイエンスに適用される計算統計の概要を提供している書籍は何ですか？

ソフトウェアエンジニアとして、統計アルゴリズム、データマイニング、機械学習、ベイジアンネットワーク、分類アルゴリズム、ニューラルネットワーク、マルコフ連鎖、モンテカルロ法、乱数生成などのトピックに興味があります。私は個人的にこれらのテクニックのいずれかを実際に操作する喜びを持っていませんでしたが、私は内部でそれらを使用し、それらについてより高いレベルで知りたいソフトウェアで作業しなければなりませんでした。私は広い範囲をカバーする本を探しています-この時点で大きな深さは必要ありません。採用されているアルゴリズムと技術の背後にある数学的基礎を理解できれば、ソフトウェア開発について多くを学ぶことができると思います。統計分析コミュニティは、ソフトウェアにさまざまな統計要素を実装する方法の詳細を学ぶために使用できる書籍を推奨できますか？

15 references computational-statistics computing

4

Rに観測値や予測値を追加するときに線形回帰を効率的に更新する

観測または予測子が追加されたときに線形モデルを効率的に更新する方法をRで見つけることに興味があります。biglmには観測値を追加する際の更新機能がありますが、データはメモリに常駐するのに十分なサイズです（ただし、更新するインスタンスは多数あります）。これを素手で行う方法、例えばQR分解を更新する方法があります（HammarlingとLucasによる「QR分解と最小二乗問題の更新」を参照）が、既存の実装を期待しています。

15 r regression computational-statistics linear-model

1

lmerモデルに使用する多重比較方法：lsmeansまたはglht？

1つの固定効果（条件）と2つのランダム効果（被験者内のデザインとペアによる参加者）を含む混合効果モデルを使用して、データセットを分析しています。モデルはlme4パッケージで生成されました：exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp)。次に、固定効果（条件）のないモデルに対してこのモデルの尤度比検定を実行しましたが、有意差があります。データセットには3つの条件があるため、多重比較を行いたいのですが、どの方法を使用すればよいかわかりません。CrossValidatedや他のフォーラムで同様の質問をいくつか見つけましたが、それでもかなり混乱しています。私が見たものから、人々は使用することを提案しました 1.lsmeansパッケージ- lsmeans(exp.model,pairwise~condition)私に次のような出力が得られます。 condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts contrast estimate SE df t.ratio p.value Condition1 - Condition2 -0.04893538 0.03813262 62.07 -1.283 0.4099 Condition1 - …

15 r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

タグ付けされた質問 「computational-statistics」

タグ付けされた質問「computational-statistics」