タグ付けされた質問 「algorithms」

問題のクラスに対する解決策を見つけることに関与する計算ステップの明確なリスト。

1
特異値分解(SVD)を計算するための効率的なアルゴリズムとは何ですか?
主成分分析に関するウィキペディアの記事には、 マトリックスX T Xを形成することなくのSVDを計算する効率的なアルゴリズムが存在するため、SVDの計算は、少数のコンポーネントのみが必要な場合を除き、データマトリックスから主成分分析を計算する標準的な方法になりました。XXXXTXXTXX^TX 誰かがこの記事で話している効率的なアルゴリズムを教えてもらえますか?参照はありません(この計算方法を提案している記事へのURLまたは引用は良いでしょう)。
17 pca  algorithms  svd  numerics 

5
平均絶対偏差と大規模なデータセットのオンラインアルゴリズム
私にはちょっとした問題があります。多変量時系列のオンライン取得プロセスの手順を作成する必要があります。すべての時間間隔(たとえば1秒)で、基本的にサイズNの浮動小数点ベクトルである新しいサンプルを取得します。実行する必要がある操作は少し複雑です。 新しいサンプルごとに、要素の合計が1になるようにベクトルを正規化して、そのサンプルのパーセントを計算します。 同じ方法で平均パーセントベクトルを計算しますが、過去の値を使用します。 過去の各値について、ステップ2で計算されたグローバル平均パーセントベクトルを使用して、そのサンプルに関連するパーセントベクトルの絶対偏差を計算します。この方法では、絶対偏差は常に0(ベクトルが平均に等しい場合)ベクトル)および2(完全に異なる場合)。 前のすべてのサンプルの偏差の平均を使用して、平均絶対偏差を計算します。これは、0〜2の数値です。 平均絶対偏差を使用して、新しいサンプルが他のサンプルと互換性があるかどうかを検出します(その絶対偏差を、ステップ4で計算されたセット全体の平均絶対偏差と比較します)。 新しいサンプルが収集されるたびにグローバル平均が変化するため(平均絶対偏差も変化するため)、データセット全体を複数回スキャンせずにこの値を計算する方法はありますか?(グローバル平均パーセントの計算に1回、絶対偏差の収集に1回)。わかりました。各次元の合計を保存するために一時的なベクトルを使用するだけなので、セット全体をスキャンせずにグローバル平均を計算するのは非常に簡単ですが、平均絶対偏差はどうですか?その計算にはabs()演算子が含まれているため、過去のすべてのデータにアクセスする必要があります! ご協力いただきありがとうございます。

2
計算統計における乱数生成の重要な用途は何ですか?
計算統計において乱数ジェネレーター(RNG)はどのようにそしてなぜ重要ですか? 多くの統計的検定のサンプルを選択する際にどちらかの仮説への偏りを避けるためにランダム性が重要であることを理解していますが、乱数ジェネレーターが重要な計算統計の他の領域はありますか?

4
どのような現実の状況で、マルチアームバンディットアルゴリズムを使用できますか?
マルチアームバンディットは、選択肢があり、どれがあなたの幸福を最大化するかわからない状況でうまく機能します。このアルゴリズムは、実際の状況で使用できます。例として、学習は良い分野です。 子供が大工仕事を学んでいて、それが苦手な場合、アルゴリズムは彼/彼女におそらく先に進む必要があることを伝えます。彼/彼女が上手い場合、アルゴリズムは彼/彼女にその分野を学び続けることを伝えます。 デートも良い分野です: あなたは女性を追求することに多くの「努力」をかけている男性です。しかし、あなたの努力は間違いなく歓迎されません。アルゴリズムは、「少し」(または強く)先へ進むように微調整する必要があります。 他のどのような現実の状況で、マルチアームバンディットアルゴリズムを使用できますか? PS:質問が広すぎる場合は、コメントを残してください。コンセンサスがあれば、質問を削除します。

1
連続変数を予測するとき、決定木分割はどのように実装する必要がありますか?
私は実際にランダムフォレストの実装を書いていますが、質問は(RFに依存しない)決定木に固有のものだと思います。 したがって、コンテキストは、意思決定ツリーにノードを作成しており、予測変数とターゲット変数の両方が連続しているということです。ノードには、データを2つのセットに分割するための分割しきい値があり、各セットの平均ターゲット値に基づいて各サブセットの新しい予測を作成します。これは正しいアプローチですか? 私が尋ねる理由は、バイナリ変数を予測するとき、典型的な(正しい?)アプローチは、各サブセットのデータ行の平均を取らずにデータを0と1のサブセットに分割することだと思うからです。後続の分割はよりきめの細かいサブセットに分割され、各分割結果で平均を取得します(決定ツリーの下で)後続の分割はバイナリ変数ではなく連続変数に作用します(元の値ではなく残留誤差値に作用しているため)ターゲット)。 副次的な質問:2つのアプローチ(バイナリと連続)の違いは重要ですか?または、完全な決定木に対して実際に同じ結果が得られますか?


2
「メッセージパッシングメソッド」とは何ですか?
私は、メッセージパッシングメソッドとは何かという漠然とした感覚を持っています。他のすべての要因のすべての近似を条件として、分布の各要因の近似を繰り返し構築することにより、分布の近似を構築するアルゴリズムです。 私は両方が変分メッセージの受け渡しと期待の伝播の例であると信じています。メッセージパッシングアルゴリズムとは、より明示的/正確に何ですか?参照は大歓迎です。

1
分布についてアルゴリズム的に(シミュレーション)対数学的に学習することの長所と短所は何ですか?
分布の特性をアルゴリズム的に(コンピューターシミュレーションを介して)対数学的に学習することの長所と短所は何ですか? 特に計算に強いと感じていない新入生にとっては、コンピュータシミュレーションが代替学習方法になる可能性があるようです。 また、コーディングシミュレーションは、分布の概念をより早く、より直感的に把握できるようです。

3
正規化された勾配と勾配の使用の違い
勾配降下アルゴリズムの一般的な設定では、我々はここで、X nは現在の点では、ηはステップサイズであり、G 、R 、D 、I 、E N T X Nで評価勾配であるX nが。 xn+1=xn−η∗gradientxnxn+1=xn−η∗gradientxnx_{n+1} = x_{n} - \eta * gradient_{x_n}xnxnx_nηη\etagradientxngradientxngradient_{x_n}xnxnx_n 私はいくつかのアルゴリズムで見てきた、人々が使用して正規化された勾配の代わりに、勾配を。正規化された勾配と単純な勾配を使用した場合の違いを知りたいと思いました。

3
切り捨てられたSVDを計算するための高速アルゴリズムは何ですか?
おそらくトピックオフここが、いくつかの(存在する1、2すでに)関連の質問を。 文献(または切り捨てられたSVDアルゴリズムのgoogle検索)をいじくり回すと、さまざまな方法で切り捨てられたSVD を使用する多くの論文が見つかり、それを計算するための高速なアルゴリズムはあるが、誰もいないと主張しますそれらのアルゴリズムが何であるかを指しているようです。 私が見つけることができる唯一のものは、redSVDライブラリで使用される単一のランダム化アルゴリズムです。 私が見たいのは、システムがどのように動作するかを理解するのに適した、正確で不正確なアルゴリズムのセットです(もちろん実際にそれらを実装する必要はありません!)。 誰かがこの種のことの良いリファレンスを持っていますか?

1
機械学習分類器の大規模または複雑さ
新しい分類アルゴリズムのパフォーマンスを評価するために、精度と複雑さを比較しようとしています(トレーニングと分類でのビッグO)。Machine Learningから:レビュー完全な教師付き分類子リスト、アルゴリズム間の精度表、およびUCIデータリポジトリからの44のテスト問題を取得します。ただし、次のような一般的な分類子のレビュー、論文、またはウェブサイトが見つかりません。 C4.5 RIPPER(これは不可能かもしれないと思うが、誰が知っているか) 逆伝播を伴うANN 素朴なベイジアン K-NN SVM 誰かがこれらの分類子の式を持っている場合、それは非常に役立ちます、ありがとう。

3
他のアルゴリズムの代わりにk-meansを使用するのはなぜですか?
私はk-meansについて調査しましたが、これらは私が得たものです。k-meansは、教師なし学習法を使用して既知のクラスタリングの問題を解決する最も単純なアルゴリズムの1つです。大規模なデータセットで非常にうまく機能します。 ただし、K-Meansには次の欠点もあります。 外れ値とノイズに対する強い感度 非円形のクラスター形状ではうまく機能しません-クラスターの数と初期シード値を事前に指定する必要があります 局所最適を渡す低い能力。 欠点はk-meansの良いところを超えているように見えるので、k-meansには素晴らしいことはありますか。 教えて下さい。

1
前方段階的回帰アルゴリズムとは何ですか?
たぶん疲れているだけなのかもしれませんが、Forward Stagewise Regressionアルゴリズムを理解しようとすると問題が発生します。「統計的学習の要素」ページ60: 前方段階的回帰(FS)は、前方段階的回帰よりもさらに制約されます。これは、[平均] yに等しい切片を持つフォワードステップワイズ回帰のように始まり、最初は係数がすべて0である中心予測子です。 各ステップで、アルゴリズムは現在の残差と最も相関する変数を識別します。次に、この選択した変数の残差の単純な線形回帰係数を計算し、その変数の現在の係数に追加します。これは、どの変数も残差と相関関係がなくなるまで続けられます。つまり、N> pのときに最小二乗が適合します。 だから、これはアルゴリズムですか?: b[1]=mean(y) b[2..n]=0 r=(y-X*b) index, maxCorr = max(transpose(r)*X) while(abs(maxCorr) > someThreshold) b[index]=b[index]+regress(r,X[1..n][index]) r=(y-X*b) index, maxCorr = max(transpose(r)*X) bは係数の列ベクトル、Xは入力の行列、yは出力の列ベクトルです。すなわち、y = X * b + error。 このアルゴリズムは、テストしているデータセットにいくつかの非ゼロ係数のみを提供し(しきい値= .0001)、予測精度はまったく良くないので、質問します。

1
多変量ガウス分布から値を生成する
現在、平均ベクトルと共分散行列多変量正規分布を持つ次元のランダム変数値をシミュレートしようとしています。X μ = (μ 1、。。。、μ N )T SNNNXXXμ=(μ1,...,μN)Tμ=(μ1,...,μN)T\mu = (\mu_1,...,\mu_N)^TSSS 逆CDF法に似た手順を使用したいと考えています。つまり、最初にNNN次元の一様なランダム変数UUUを生成し、次にこの分布の逆CDFにプラグインして、値Xを生成しますXXX。 手順が十分に文書化されておらず、MATLABのmvnrnd関数とウィキペディアで見つけた説明にわずかな違いがあるため、問題が発生しています。 私の場合、分布のパラメーターもランダムに選択しています。特に、平均分布μiμi\mu_i一様分布U(20,40)U(20,40)U(20,40)ます。次に、次の手順を使用して共分散行列SSSを作成します。 下三角行列作成L L(I、I)= 1のための私は1..N =及びLを(I、J)= U(-1,1)のために 、I &lt;JLLLL(i,i)=1L(i,i)=1L(i,i) = 1i=1..Ni=1..Ni=1..NL(i,j)=U(−1,1)L(i,j)=U(−1,1)L(i,j) = U(-1,1)i&lt;ji&lt;ji < j してみましょうS = LL ^ T L ^ Tはの転置表すLを。S=LLTS=LLTS = LL^TLTLTL^TLLL この手順により、SSSが対称かつ正定であることを確認できます。また、S = LL ^ Tになるように下三角行列Lを提供します。これは、分布から値を生成するために必要だと思います。LLLS=LLTS=LLTS = LL^T ウィキペディアのガイドラインを使用すると、次のようにN次元のユニフォームを使用してXの値を生成できるはずです。XXXNNN X=μ+L∗Φ−1(U)X=μ+L∗Φ−1(U)X = \mu + L * …

1
L-BFGSはどのように機能しますか?
このペーパーの目的は、正則化された対数尤度を最大化することにより、いくつかのパラメーターを最適化することでした。次に、偏微分を計算します。そして、著者らは、L-BFGSを使用して方程式を最適化し、標準的な準ニュートン法で多くの変数の滑らかな関数を最適化すると述べています(詳細はありません)。 それはどのように機能しますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.