統計とビッグデータ algorithms

7

一部のデータの分位数を推定したい。データは非常に大きいため、メモリに格納できません。また、データは静的ではなく、新しいデータが引き続き送信されます。非常に限られたメモリと計算でこれまでに観測されたデータの分位を監視するアルゴリズムを知っている人はいますか？私が見つけP2アルゴリズムが役に立つが、それは非常に重いテイル分布している私のデータ、のために非常にうまく機能しません。

24 algorithms quantiles

4

ニューラルネット/ MLアルゴリズムの*理論*の教科書？

これまでに見てきたすべての教科書は、MLアルゴリズムとその実装方法について説明しています。これらのアルゴリズムの動作の定理と証明を構築する教科書もありますか？例えば条件場合、勾配降下は常につながると述べていますか？x 、y、zバツ、y、zx,y,zA 、B 、CA、B、CA,B,C

23 machine-learning mathematical-statistics references algorithms

2

データのSVDによるデータのPCAが必要な理由

この質問は、主成分を計算する効率的な方法に関するものです。 casewise dataの特異値分解を使用した線形PCAの多くのテキスト。つまり、データあり、変数（その列）を主成分で置き換えたい場合、SVDを実行します。、特異値（固有値の平方根）の主対角を占める、右固有ベクトルは、軸変数から軸コンポーネントへの直交回転行列です。左固有ベクトルは、場合のみに似ています。その後、コンポーネント値をとして計算できます。XX\bf XX=USV′X=USV′\bf X=USV'SS\bf SVV\bf VUU\bf UVV\bf VC=XV=USC=XV=US \bf C=XV=US 変数のPCAを行う別の方法は、分解を経由している（つまり正方行列でき相関または共分散の変数の間、など）。分解は、固有分解または特異値分解である可能性があります：正方対称正定行列では、前述の\ bf Lおよび\ bf Vの対角要素と同じ固有値を持つ\ bf R = VLV 'と同じ結果が得られます。コンポーネントの値は\ bf C = XVになります。R=X′XR=X′X\bf R=X'XRR\bf R R=VLV′R=VLV′\bf R=VLV'LL\bf LVV\bf VC=XVC=XV\bf C=XV さて、私の質問：データXX\bf Xが大きな行列であり、ケースの数が（多くの場合）変数の数よりはるかに大きい場合、ウェイ（1）はウェイ（2 ）、方法（1）は非常に高価なアルゴリズム（SVDなど）を大きなマトリックスに適用するため。巨大な行列UU\bf Uを計算して保存しますが、この場合は実際には必要ありません（変数のPCA）。もしそうなら、なぜそんなに多くのtexbookが主張しているように見える、または単に方法（1）だけに言及しているように見えるのでしょうか？たぶんそれは効率的で、私は何かが欠けていますか？

22 pca algorithms svd matrix-decomposition

2

箱ひげ図を作成できるように、多数のサンプルを記述する統計セットを蓄積することは可能ですか？

私は統計学者ではなく実践的なソフトウェア開発者であり、大学の統計学の授業はかなり前のことであることをすぐに明確にしなければなりません… それは、個々のサンプルの束を保存することを必要としない、箱ひげ図を作成するために使用できる記述統計のセットを蓄積する方法があるかどうかを知りたいですか？私がやろうとしているのは、複雑なマルチキュープロセス内のキューサービス時間のグラフィカルな要約を作成することです。私は過去にtnftoolsと呼ばれるパッケージを使用していました。これにより、大きなサンプルを蓄積し、後処理して応答時間と外れ値の素敵なグラフを作成できました。理想的には、プロセスの実行中に一連の記述統計を「オンザフライ」で蓄積し、必要に応じて分析のためにデータを抽出できるようにしたいと考えています。ただし、メモリ/ IOがシステムのパフォーマンスに許容できない影響を与えるため、プロセスにサンプルを蓄積させることはできません。

22 algorithms median quantiles

6

隠れマルコフモデルの問題の例？

私はかなり隠れたマルコフモデルを読み、自分でかなり基本的なバージョンをコーディングすることができました。しかし、私が学ぶように思える2つの主な方法があります。1つはそれを読み取ってコードに実装し（完了）、2つ目はさまざまな状況でそれがどのように適用されるかを理解することです（そのため、作業中の問題にどのように関連するかをよりよく理解できます）。これまでに行ったすべての例には、何らかのDNA予測またはコイン投げが含まれています。他のマルコフ問題を得るためのリソースがあるかどうか疑問に思っています（言語は問題ではありませんが、うまくいけば答えもあるので、私が正しいか間違っているかを知ることができます）？

21 algorithms markov-process

4

新しいベクターをPCA空間に投影する方法は？

主成分分析（PCA）を実行した後、新しいベクトルをPCA空間に投影します（つまり、PCA座標系で座標を見つけます）。を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか？

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

2

時系列の与えられたパワーとクロススペクトル密度のシミュレーション

共分散行列（それらのパワースペクトル密度（PSD）およびクロスパワースペクトル密度（CSD））を考えると、一連の定常色付き時系列の生成に問題があります。 2つの時系列と与えられると、yI(t)yI(t)y_{I}(t)yJ(t)yJ(t)y_{J}(t)ような多くの広く利用可能なルーチンを使用して、パワースペクトル密度（PSD）およびクロススペクトル密度（CSD）を推定できることを知っていますMatlabなどの関数psd()とcsd()関数。PSDとCSDは共分散行列を構成します C(f)=(PII(f)PJI(f)PIJ(f)PJJ(f)),C(f)=(PII(f)PIJ(f)PJI(f)PJJ(f)), \mathbf{C}(f) = \left( \begin{array}{cc} P_{II}(f) & P_{IJ}(f)\\ P_{JI}(f) & P_{JJ}(f) \end{array} \right)\;, これは一般に周波数fff関数です。逆にしたい場合はどうなりますか？共分散行列が与えられた場合、yI(t)yI(t)y_{I}(t)とyJ(t)yJ(t)y_{J}(t)実現をどのように生成しますか？背景理論を含めるか、これを行う既存のツールを指摘してください（Pythonのすべてが素晴らしいでしょう）。私の試み以下は、私が試したものと、私が気づいた問題の説明です。少し長い間読んでおり、誤用された用語が含まれている場合は申し訳ありません。間違っていることが指摘できる場合、それは非常に役立ちます。しかし、私の質問は上記の太字のものです。 PSDとCSDは、時系列のフーリエ変換の積の期待値（またはアンサンブル平均）として記述できます。したがって、共分散行列は次のように記述できます C(f)=2τ⟨Y†(f)Y(f)⟩,C(f)=2τ⟨Y†(f)Y(f)⟩, \mathbf{C}(f) = \frac{2}{\tau} \langle \mathbf{Y}^{\dagger}(f) \mathbf{Y}(f) \rangle \;, ここで、 Y(f)=(y~I(f)y~J(f)).Y(f)=(y~I(f)y~J(f)). \mathbf{Y}(f) = \left( \begin{array}{cc} \tilde{y}_{I}(f) & \tilde{y}_{J}(f) \end{array} \right) \;. 共分散行列はエルミート行列であり、ゼロまたは正の実固有値を持ちます。だから、に分解することができる C（f）= X（f）λ12（f）私λ12（f）X†（f）、C（f）=バツ（f）λ12（f）私λ12（f）バツ†（f）、 \mathbf{C}(f) = \mathbf{X}(f) \boldsymbol\lambda^{\frac{1}{2}}(f) …

20 time-series sampling algorithms simulation covariance

2

モーメントを使用して整数ストリームの近似値を計算しますか？

math.stackexchangeから移行されました。私は整数の長いストリームを処理していますが、多くのデータを保存せずにストリームのさまざまなパーセンタイルをおおよそ計算できるようにするために、しばらく追跡することを検討しています。数秒からパーセンタイルを計算する最も簡単な方法は何ですか。少量のデータのみを保存するより良いアプローチがありますか？

20 algorithms mathematical-statistics moments

2

ランダムフォレストがランダムフォレストを生成する方法

私はランダムフォレストの専門家ではありませんが、ランダムフォレストの重要な問題は（ランダム）ツリーの生成であることを明確に理解しています。木がどのように生成されるのか説明してもらえますか？（つまり、ツリー生成に使用される分布は何ですか？）前もって感謝します！

20 machine-learning r algorithms cart random-forest

2

PCA、LASSO、エラスティックネットの速度、計算費用

Hastie et al。で区別されている線形回帰の3つのグループの方法の計算の複雑さ/推定速度を比較しようとしています。「統計学習の要素」（第2版）、第3章：サブセット選択収縮方法導出された入力方向を使用する方法（PCR、PLS）比較は非常に大雑把なものであり、単に考えを与えるだけです。答えは問題の次元とそれがコンピューターアーキテクチャにどのように適合するかに依存する可能性があるため、具体的な例としては、500および50の候補回帰子のサンプルサイズを考慮することができます。私は主に、計算の複雑さ/推定速度の背後にある動機付けに興味がありますが、特定の例で特定のプロセッサにかかる時間には興味がありません。

18 machine-learning estimation feature-selection algorithms time-complexity

1

極端なランダムフォレストとランダムフォレストの違いは何ですか？

ERはより効率的な実装ですか（Extreme Gradient Boosting勾配ブースティングに似ています）-実際の観点からの違いは重要ですか？それらを実装するRパッケージがあります。それは、効率の点だけでなく、他のいくつかの分野でも「一般的な」実装（RのRandomForestパッケージ）を克服する新しいアルゴリズムですか？エクストリームランダムフォレストhttp://link.springer.com/article/10.1007%2Fs10994-006-6226-1

18 r machine-learning algorithms random-forest

9

ペアワイズマハラノビス距離

共変量のn×pn×pn \times p行列の観測の各ペア間のRのサンプルマハラノビス距離を計算する必要があります。効率的な解決策が必要です。つまり、n(n−1)/2n(n−1)/2n(n-1)/2距離のみが計算され、C / RCpp / Fortranなどで実装することが望ましいです。母共分散行列ΣΣ\Sigmaは未知であり、サンプル共分散を使用すると仮定しますその場所のマトリックス。 Rのペアワイズマハラノビス距離を計算するための「コンセンサス」方法がないように思われるため、この質問に特に興味distがありcluster::daisyます。つまり、関数にも関数にも実装されていません。このmahalanobis関数は、プログラマーの追加作業なしにペアワイズ距離を計算しません。これはすでにここでRのペアワイズマハラノビス距離を求められましたが、そこでの解は間違っているようです。これは正しいですが、ひどく非効率です（n × nn×nn \times n距離が計算されるため）： set.seed(0) x0 <- MASS::mvrnorm(33,1:10,diag(c(seq(1,1/2,l=10)),10)) dM = as.dist(apply(x0, 1, function(i) mahalanobis(x0, i, cov = cov(x0)))) これはCで自分でコーディングするのに十分簡単ですが、この基本的なものには既存のソリューションがあるはずです。あるの？不足している他のソリューションがあります：n （n − 1 ）/ 2個の一意の距離のみが必要な場合、n × n距離をHDMD::pairwise.mahalanobis()計算します。有望に思えますが、に依存するパッケージから関数を取得したくないので、コードを実行する他の人の能力が大幅に制限されます。この実装が完全でない限り、自分で作成したいです。この機能の経験はありますか？n × nn×nn \times nn （n − 1 ）/ 2n(n−1)/2n(n-1)/2compositions::MahalanobisDist()rgl

18 r algorithms distance

8

実行中の中央値を計算するアルゴリズム？

小さいウィンドウサイズでは、n log nソートが機能する場合があります。これを達成するためのより良いアルゴリズムはありますか？

18 algorithms median

3

Rのglm関数で使用される最適化アルゴリズムはどれですか？

このようなコードを使用して、Rでロジット回帰を実行できます。 > library(MASS) > data(menarche) > glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age, + family=binomial(logit), data=menarche) > coefficients(glm.out) (Intercept) Age -21.226395 1.631968 最適化アルゴリズムが収束したようです-フィッシャースコアリングアルゴリズムのステップ数に関する情報があります。 Call: glm(formula = cbind(Menarche, Total - Menarche) ~ Age, family = binomial(logit), data = menarche) Deviance Residuals: Min 1Q Median 3Q Max -2.0363 -0.9953 -0.4900 0.7780 1.3675 Coefficients: …

17 r generalized-linear-model optimization algorithms logit

1

行列に1つの新しい行を追加した後のSVD分解の更新

Iが密行列があるとのM × N個の SVD分解を伴う大きさ、A = U S Vを ⊤。では、次のようにSVDを計算できます。AA \textbf{A}m × nm×nm \times nA = U S V⊤。A=USV⊤.\mathbf{A}=\mathbf{USV}^\top.Rsvd(A) 新しい番目の行がAに追加された場合、SVDをゼロから再計算せずに、古いものに基づいて（つまりU、S、およびVを使用して）新しいSVD分解を計算できますか？（m + 1 ）(m+1)(m+1)AA\mathbf AうんU\mathbf USS\mathbf SVV\mathbf V

17 algorithms svd linear-algebra matrix-decomposition numerics

タグ付けされた質問 「algorithms」

タグ付けされた質問「algorithms」