タグ付けされた質問 「algorithms」

問題のクラスに対する解決策を見つけることに関与する計算ステップの明確なリスト。

7
分位を動的に監視するアルゴリズム
一部のデータの分位数を推定したい。データは非常に大きいため、メモリに格納できません。また、データは静的ではなく、新しいデータが引き続き送信されます。非常に限られたメモリと計算でこれまでに観測されたデータの分位を監視するアルゴリズムを知っている人はいますか?私が見つけP2アルゴリズムが役に立つが、それは非常に重いテイル分布している私のデータ、のために非常にうまく機能しません。

4
ニューラルネット/ MLアルゴリズムの*理論*の教科書?
これまでに見てきたすべての教科書は、MLアルゴリズムとその実装方法について説明しています。 これらのアルゴリズムの動作の定理と証明を構築する教科書もありますか?例えば条件場合、勾配降下は常につながると述べていますか?x 、y、zバツ、y、zx,y,zA 、B 、CA、B、CA,B,C

2
データのSVDによるデータのPCAが必要な理由
この質問は、主成分を計算する効率的な方法に関するものです。 casewise dataの特異値分解を使用した線形PCAの多くのテキスト。つまり、データあり、変数(その列)を主成分で置き換えたい場合、SVDを実行します。、特異値(固有値の平方根)の主対角を占める、右固有ベクトルは、軸変数から軸コンポーネントへの直交回転行列です。左固有ベクトルは、場合のみに似ています。その後、コンポーネント値をとして計算できます。XX\bf XX=USV′X=USV′\bf X=USV'SS\bf SVV\bf VUU\bf UVV\bf VC=XV=USC=XV=US \bf C=XV=US 変数のPCAを行う別の方法は、分解を経由している(つまり正方行列でき相関または共分散の変数の間、など)。分解は、固有分解または特異値分解である可能性があります:正方対称正定行列では、前述の\ bf Lおよび\ bf Vの対角要素と同じ固有値を持つ\ bf R = VLV 'と同じ結果が得られます。コンポーネントの値は\ bf C = XVになります。R=X′XR=X′X\bf R=X'XRR\bf R R=VLV′R=VLV′\bf R=VLV'LL\bf LVV\bf VC=XVC=XV\bf C=XV さて、私の質問:データXX\bf Xが大きな行列であり、ケースの数が(多くの場合)変数の数よりはるかに大きい場合、ウェイ(1)はウェイ(2 )、方法(1)は非常に高価なアルゴリズム(SVDなど)を大きなマトリックスに適用するため。巨大な行列UU\bf Uを計算して保存しますが、この場合は実際には必要ありません(変数のPCA)。もしそうなら、なぜそんなに多くのtexbookが主張しているように見える、または単に方法(1)だけに言及しているように見えるのでしょうか?たぶんそれは効率的で、私は何かが欠けていますか?

2
箱ひげ図を作成できるように、多数のサンプルを記述する統計セットを蓄積することは可能ですか?
私は統計学者ではなく実践的なソフトウェア開発者であり、大学の統計学の授業はかなり前のことであることをすぐに明確にしなければなりません… それは、個々のサンプルの束を保存することを必要としない、箱ひげ図を作成するために使用できる記述統計のセットを蓄積する方法があるかどうかを知りたいですか? 私がやろうとしているのは、複雑なマルチキュープロセス内のキューサービス時間のグラフィカルな要約を作成することです。私は過去にtnftoolsと呼ばれるパッケージを使用していました。これにより、大きなサンプルを蓄積し、後処理して応答時間と外れ値の素敵なグラフを作成できました。 理想的には、プロセスの実行中に一連の記述統計を「オンザフライ」で蓄積し、必要に応じて分析のためにデータを抽出できるようにしたいと考えています。ただし、メモリ/ IOがシステムのパフォーマンスに許容できない影響を与えるため、プロセスにサンプルを蓄積させることはできません。

6
隠れマルコフモデルの問題の例?
私はかなり隠れたマルコフモデルを読み、自分でかなり基本的なバージョンをコーディングすることができました。 しかし、私が学ぶように思える2つの主な方法があります。1つはそれを読み取ってコードに実装し(完了)、2つ目はさまざまな状況でそれがどのように適用されるかを理解することです(そのため、作業中の問題にどのように関連するかをよりよく理解できます)。これまでに行ったすべての例には、何らかのDNA予測またはコイン投げが含まれています。 他のマルコフ問題を得るためのリソースがあるかどうか疑問に思っています(言語は問題ではありませんが、うまくいけば答えもあるので、私が正しいか間違っているかを知ることができます)?

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
時系列の与えられたパワーとクロススペクトル密度のシミュレーション
共分散行列(それらのパワースペクトル密度(PSD)およびクロスパワースペクトル密度(CSD))を考えると、一連の定常色付き時系列の生成に問題があります。 2つの時系列と与えられると、yI(t)yI(t)y_{I}(t)yJ(t)yJ(t)y_{J}(t)ような多くの広く利用可能なルーチンを使用して、パワースペクトル密度(PSD)およびクロススペクトル密度(CSD)を推定できることを知っていますMatlabなどの関数psd()とcsd()関数。PSDとCSDは共分散行列を構成します C(f)=(PII(f)PJI(f)PIJ(f)PJJ(f)),C(f)=(PII(f)PIJ(f)PJI(f)PJJ(f)), \mathbf{C}(f) = \left( \begin{array}{cc} P_{II}(f) & P_{IJ}(f)\\ P_{JI}(f) & P_{JJ}(f) \end{array} \right)\;, これは一般に周波数fff関数です。 逆にしたい場合はどうなりますか? 共分散行列が与えられた場合、yI(t)yI(t)y_{I}(t)とyJ(t)yJ(t)y_{J}(t)実現をどのように生成しますか? 背景理論を含めるか、これを行う既存のツールを指摘してください(Pythonのすべてが素晴らしいでしょう)。 私の試み 以下は、私が試したものと、私が気づいた問題の説明です。少し長い間読んでおり、誤用された用語が含まれている場合は申し訳ありません。間違っていることが指摘できる場合、それは非常に役立ちます。しかし、私の質問は上記の太字のものです。 PSDとCSDは、時系列のフーリエ変換の積の期待値(またはアンサンブル平均)として記述できます。したがって、共分散行列は次のように記述できます C(f)=2τ⟨Y†(f)Y(f)⟩,C(f)=2τ⟨Y†(f)Y(f)⟩, \mathbf{C}(f) = \frac{2}{\tau} \langle \mathbf{Y}^{\dagger}(f) \mathbf{Y}(f) \rangle \;, ここで、 Y(f)=(y~I(f)y~J(f)).Y(f)=(y~I(f)y~J(f)). \mathbf{Y}(f) = \left( \begin{array}{cc} \tilde{y}_{I}(f) & \tilde{y}_{J}(f) \end{array} \right) \;. 共分散行列はエルミート行列であり、ゼロまたは正の実固有値を持ちます。だから、に分解することができる C(f)= X(f)λ12(f)私λ12(f)X†(f)、C(f)=バツ(f)λ12(f)私λ12(f)バツ†(f)、 \mathbf{C}(f) = \mathbf{X}(f) \boldsymbol\lambda^{\frac{1}{2}}(f) …

2
モーメントを使用して整数ストリームの近似値を計算しますか?
math.stackexchangeから移行されました。 私は整数の長いストリームを処理していますが、多くのデータを保存せずにストリームのさまざまなパーセンタイルをおおよそ計算できるようにするために、しばらく追跡することを検討しています。数秒からパーセンタイルを計算する最も簡単な方法は何ですか。少量のデータのみを保存するより良いアプローチがありますか?

2
ランダムフォレストがランダムフォレストを生成する方法
私はランダムフォレストの専門家ではありませんが、ランダムフォレストの重要な問題は(ランダム)ツリーの生成であることを明確に理解しています。木がどのように生成されるのか説明してもらえますか?(つまり、ツリー生成に使用される分布は何ですか?) 前もって感謝します !

2
PCA、LASSO、エラスティックネットの速度、計算費用
Hastie et al。で区別されている線形回帰の3つのグループの方法の計算の複雑さ/推定速度を比較しようとしています。「統計学習の要素」(第2版)、第3章: サブセット選択 収縮方法 導出された入力方向を使用する方法(PCR、PLS) 比較は非常に大雑把なものであり、単に考えを与えるだけです。答えは問題の次元とそれがコンピューターアーキテクチャにどのように適合するかに依存する可能性があるため、具体的な例としては、500および50の候補回帰子のサンプルサイズを考慮することができます。私は主に、計算の複雑さ/推定速度の背後にある動機付けに興味がありますが、特定の例で特定のプロセッサにかかる時間には興味がありません。

1
極端なランダムフォレストとランダムフォレストの違いは何ですか?
ERはより効率的な実装ですか(Extreme Gradient Boosting勾配ブースティングに似ています)-実際の観点からの違いは重要ですか?それらを実装するRパッケージがあります。それは、効率の点だけでなく、他のいくつかの分野でも「一般的な」実装(RのRandomForestパッケージ)を克服する新しいアルゴリズムですか? エクストリームランダムフォレストhttp://link.springer.com/article/10.1007%2Fs10994-006-6226-1

9
ペアワイズマハラノビス距離
共変量のn×pn×pn \times p行列の観測の各ペア間のRのサンプルマハラノビス距離を計算する必要があります。効率的な解決策が必要です。つまり、n(n−1)/2n(n−1)/2n(n-1)/2距離のみが計算され、C / RCpp / Fortranなどで実装することが望ましいです。母共分散行列ΣΣ\Sigmaは未知であり、サンプル共分散を使用すると仮定しますその場所のマトリックス。 Rのペアワイズマハラノビス距離を計算するための「コンセンサス」方法がないように思われるため、この質問に特に興味distがありcluster::daisyます。つまり、関数にも関数にも実装されていません。このmahalanobis関数は、プログラマーの追加作業なしにペアワイズ距離を計算しません。 これはすでにここでRのペアワイズマハラノビス距離を求められましたが、そこでの解は間違っているようです。 これは正しいですが、ひどく非効率です(n × nn×nn \times n距離が計算されるため): set.seed(0) x0 <- MASS::mvrnorm(33,1:10,diag(c(seq(1,1/2,l=10)),10)) dM = as.dist(apply(x0, 1, function(i) mahalanobis(x0, i, cov = cov(x0)))) これはCで自分でコーディングするのに十分簡単ですが、この基本的なものには既存のソリューションがあるはずです。あるの? 不足している他のソリューションがあります:n (n − 1 )/ 2個の一意の距離のみが必要な場合、n × n距離をHDMD::pairwise.mahalanobis()計算します。有望に思えますが、に依存するパッケージから関数を取得したくないので、コードを実行する他の人の能力が大幅に制限されます。この実装が完全でない限り、自分で作成したいです。この機能の経験はありますか?n × nn×nn \times nn (n − 1 )/ 2n(n−1)/2n(n-1)/2compositions::MahalanobisDist()rgl
18 r  algorithms  distance 


3
Rのglm関数で使用される最適化アルゴリズムはどれですか?
このようなコードを使用して、Rでロジット回帰を実行できます。 > library(MASS) > data(menarche) > glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age, + family=binomial(logit), data=menarche) > coefficients(glm.out) (Intercept) Age -21.226395 1.631968 最適化アルゴリズムが収束したようです-フィッシャースコアリングアルゴリズムのステップ数に関する情報があります。 Call: glm(formula = cbind(Menarche, Total - Menarche) ~ Age, family = binomial(logit), data = menarche) Deviance Residuals: Min 1Q Median 3Q Max -2.0363 -0.9953 -0.4900 0.7780 1.3675 Coefficients: …

1
行列に1つの新しい行を追加した後のSVD分解の更新
Iが密行列があるとのM × N個の SVD分解を伴う大きさ、A = U S Vを ⊤。では、次のようにSVDを計算できます。AA \textbf{A}m × nm×nm \times nA = U S V⊤。A=USV⊤.\mathbf{A}=\mathbf{USV}^\top.Rsvd(A) 新しい番目の行がAに追加された場合、SVDをゼロから再計算せずに、古いものに基づいて(つまりU、S、およびVを使用して)新しいSVD分解を計算できますか?(m + 1 )(m+1)(m+1)AA\mathbf AうんU\mathbf USS\mathbf SVV\mathbf V

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.