タグ付けされた質問 「algorithms」

問題のクラスに対する解決策を見つけることに関与する計算ステップの明確なリスト。

7
スパースベクトルを使用して非常に高次元の空間で近接ペアを見つける
私が持っている(〜百万)の特徴ベクトルを。ありますM(〜百万)バイナリの機能は、しかし、各ベクトルのみにKになり、それらの(〜千)1、残りはある0を。少なくともL(約100)の特徴が共通する(両方に1つある)ベクトルのペアを探しています。このようなペアの数は、N(約100万)と同程度です。NNNMMMKKK111000LLL111NNN これは、非常に高次元の空間で近接する点のペアを探すことで解決できると思います。距離関数は、2つのベクトルに共通する特徴の数に基づいたものにすることができます。しかし、おそらくこれは、より一般的な距離メトリック(ユークリッドなど)でも役立ちます。 この問題に取り組むのに役立つ有名なアルゴリズムはどれですか?NNNまたは 2次式はMMM実用的ではありません。 問題の実際の定式化の例は、複数の場所の間を移動するNNN人を考慮することです。2人が同時に同じ場所にいた場合、彼らはお互いに会ったと言います。(少なくとも1人が存在する場所と時間の組み合わせの数はMMMです。)私たちは友達を探しています:少なくともLLL回会った人。

4
分布がわからない場合のサンプリング方法
私は統計学(初心者レベルの少数のUniコース)にかなり慣れていないので、未知の分布からのサンプリングについて疑問に思っていました。具体的には、基になるディストリビューションがわからない場合、代表的なサンプルを取得することを「保証」する方法はありますか? 説明する例:富のグローバルな分布を把握しようとしているとしましょう。特定の個人について、あなたはどういうわけか彼らの正確な富を見つけることができます。しかし、地球上のすべての人を「サンプリング」することはできません。したがって、n = 1000人をランダムにサンプリングするとします。 サンプルにビルゲイツが含まれていない場合、億万長者は存在しないと思うかもしれません。 サンプルにビルゲイツが含まれていた場合、億万長者が実際よりも一般的であると考えるかもしれません。 どちらの場合でも、億万長者がどれほど一般的またはまれであるかを実際に知ることはできません。存在するかどうかさえわからないかもしれません。 このような場合には、より良いサンプリングメカニズムが存在しますか? 使用するサンプリング手順(および必要なサンプル数)をアプリオリにどのように伝えますか? 合理的な確実性に近づくと、知るには人口の大部分を「サンプリング」する必要があるかもしれません。これは、億万長者が地球上にどの程度いるか、または珍しいかであり、これは基礎となる分布が少し難しいためです。一緒に働きます。

3
平易な英語のアプリオリアルゴリズム?
アプリオリに関するウィキの記事を読みました。プルーンと結合のステップを理解できません。Aprioriアルゴリズムがどのように機能するかを簡単に説明できますか(私のような初心者が簡単に理解できるように)。 誰かがそれに含まれる段階的なプロセスを説明してくれると良いでしょう。

3
k-meansアルゴリズムでの循環
wikiによると、最も広く使用されている収束基準は「割り当ては変更されていません」です。このような収束基準を使用すると、サイクリングが発生するのではないかと思いました。サイクリングの例を挙げている記事や、これが不可能であることを証明する記事への参照を誰かが指摘してくれたら嬉しいです。

3
スペース効率の良いクラスタリング
私が見たほとんどのクラスタリングアルゴリズムは、すべてのポイント間にeach-to-each距離を作成することから始まります。これは、より大きなデータセットでは問題になります。それをしないものはありますか?それとも、それはある種の部分的/近似的/時差的なアプローチですか? O(n ^ 2)スペースよりも少ないクラスタリングアルゴリズム/実装はどれですか? アルゴリズムのリストとその時間と空間の要件はどこかにありますか?

2
一連の数値をガウスの鐘型曲線に強制する
(これは、スタックオーバーフローに関するプログラミングの質問に関連しています:ベルカーブガウスアルゴリズム(Pythonおよび/またはC#)。) Answers.comで、次の簡単な例を見つけました。 算術平均(平均)を見つける=>セット内のすべての値の合計をセット内の要素数で割る セット内のすべての値の二乗の合計を求めます (2)の出力をセット内の要素数で除算する (3)の出力から平均二乗(1)を引く (4)の結果の平方根をとる 例:セットA = {1,3,4,5,7} (1 + 3 + 4 + 5 + 7)/ 5 = 4 (1 * 1 + 3 * 3 + 4 * 4 + 5 * 5 + 7 * 7)= 1 + 9 + 16 + 25 + 49 …

2
データのROC曲線を計算する
そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線(FPR対TPR OR FAR対FRR)を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

1
シミュレーテッドアニーリングと複数の貪欲の違い
シミュレーテッドアニーリングと複数の貪欲な山登りアルゴリズムの実行の違いを理解しようとしています。 私の理解では、貪欲アルゴリズムはスコアを極大値にプッシュしますが、複数のランダム構成から始めて、それらすべてに貪欲を適用すると、複数の極大値になります。次に、それらの最大値を選択します。 これはシミュレーテッドアニーリングと同じように再現されますか?

2
ポリシーと値の反復アルゴリズムの収束条件
ポリシーと値の反復アルゴリズムを使用して、マルコフ決定プロセスの問題を解決できます。収束に必要な条件を理解するのに苦労しています。最適なポリシーが2つのステップ(つまり、反復iとi + 1)の間に変化しない場合、アルゴリズムが収束したと結論付けることができますか?そうでない場合、いつですか?

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

1
指数加重移動平均を計算するより簡単な方法は?
提案された方法: 時系列与えられた場合、Nポイントの平均化ウィンドウで加重移動平均を計算します。加重は、古い値よりも新しい値を優先します。バツ私バツ私x_iNNN 重みを選択する際には、幾何級数が1に収束するというよく知られた事実、つまり、無限に多くの項が取られる場合。∑ (12)kΣ(12)k\sum (\frac{1}{2})^k 合計が1になる離散的な重みの数を取得するには、幾何学的系列の最初の項を取得し、それらの合計で正規化します。(1NNN(12)k(12)k(\frac{1}{2})^k 場合、例えば、これは、非正規化重みを与えますN= 4N=4N=4 0.0625 0.1250 0.2500 0.5000 合計で正規化すると、 0.0667 0.1333 0.2667 0.5333 移動平均は、これらの正規化された重みに対する最新の4つの値の積の合計になります。 この方法は、長さウィンドウを移動する明白な方法で一般化されており、計算上も同様に簡単に見えます。NNN 質問: 「指数加重」を使用して加重移動平均を計算するためにこの簡単な方法を使用しない理由はありますか? EWMAのWikipediaエントリはより複雑に見えるので、私は尋ねます。EWMAの教科書の定義に、上記の単純な定義にはない統計的特性があるのではないかと思うのはどれですか。それとも実際には同等ですか?

4
FA:「単純構造基準」に基づく回転行列の選択
因子分析を使用する上で最も重要な問題の1つは、その解釈です。因子分析では、解釈を強化するために因子ローテーションがよく使用されます。満足のいく回転の後、回転した因子負荷行列L 'は相関行列を表す同じ機能を持ち、回転していない行列Lの代わりに因子負荷行列として使用できます。 回転の目的は、回転した因子負荷行列にいくつかの望ましい特性を持たせることです。使用される方法の1つは、回転する行列が単純な構造になるように因子負荷行列を回転させることです。 LL Thurstoneは、因子回転の一般的なガイドとして、単純構造の原理を導入しました。 単純な構造基準: 因子行列の各行には少なくとも1つのゼロが含まれている必要があります 共通因子がm個ある場合、因子行列の各列には少なくともm個のゼロが必要です 因子行列の列のすべてのペアについて、1つの列ではエントリがゼロに近づくが、他の列ではエントリに近づかない変数がいくつかあるはずです。 因子行列のすべての列のペアについて、4つ以上の因子がある場合、変数の大部分は両方の列でゼロに近いエントリを持つ必要があります 因子行列の列のペアごとに、両方の列にゼロ以外のエントリを持つ少数の変数のみが存在する必要があります 理想的なシンプルな構造は次のようなものです。 各アイテムには、1つの要素のみで高い、または意味のある負荷があり、 各要素には、一部の項目のみの高い、または意味のある負荷があります。 問題は、回転メソッドのいくつかの組み合わせと、それぞれが受け入れるパラメーター(特に、斜めのパラメーターの場合)を試すと、候補行列の数が増え、上記の基準をどれがより適切に満たすかを確認することが非常に難しいことです。 最初にその問題に直面したとき、私はそれらを単に「見る」だけでは最良の一致を選択することができず、決定を助けるためのアルゴリズムが必要であることに気付きました。プロジェクトの締め切りのストレス下で、私ができることのほとんどは、MATLABで次のコードを書くことでした。これは、一度に1つの回転行列を受け入れ、各基準が満たされているかどうかを(いくつかの仮定の下で)返します。新しいバージョン(アップグレードしようとした場合)は、3dマトリックス(2dマトリックスのセット)を引数として受け入れ、アルゴリズムは上記の基準により適合するものを返す必要があります。 これらの基準からアルゴリズムをどのように抽出しますか?私はあなたの意見(メソッド自体の有用性についての批判もあったと思います)とおそらくローテーションマトリックス選択問題へのより良いアプローチを求めています。 また、FAを実行したいソフトウェアを教えてください。Rの場合、どのパッケージを使用しますか?(私がFAをしなければならなかった場合、私は再びSPSSに目を向けることを認めなければなりません)。誰かがコードを提供したい場合は、RまたはMATLABを使用します。 上記PSザ・シンプルな構造基準製剤は、本の中で見つけることができる「因子分析の感覚を作る」 PETT、M.、ラッキー、N.、SULLIVAN、J.によって PS2(同じ本から):「成功した因子分析のテストは、元のコアマトリックスを再現できる範囲です。斜めの解法も使用した場合は、すべての中で最高および最低因子の最大数を生成したものを選択してください。ローディング。」 これは、アルゴリズムが使用できる別の制約のように聞こえます。 PS3この質問はここでも尋ねられました。しかし、私はそれがこのサイトによりよく合うと思います。 function [] = simple_structure_criteria (my_pattern_table) %Simple Structure Criteria %Making Sense of Factor Analysis, page 132 disp(' '); disp('Simple Structure Criteria (Thurstone):'); disp('1. Each row of the factor …

2
分類木の成長における最適分割のためのアルゴリズムに関する文献
ではESL、セクション9.7、木が分類(または回帰)の成長における分割の計算時間と述べる段落があり、通常のようにスケール予測因子の数で、数あるがサンプル。pNlogNpNlog⁡Np N \log NpppNNN 素朴なアプローチはスケーリングをもたらし、アルゴリズムの分割部分の詳細と、典型的なスケーリングをどのように実現するかを説明する文献への参照を見つけることができませんでした。pN2pN2pN^2 pNlogNpNlog⁡Np N \log N 単純なアプローチでは、観測値の最初の順序付けの後、観測値間の中間点の間で、所定の変数の最適な分割が求められ、各分割の損失の計算は、ような時間で実行できます。。N−1N−1N-1NNN 私は(そしておそらくます)私が知っている実装のいくつかのソースコードを学ぶことができますが、参考文献はいいだろう特に時間複雑に関する。−−-

3
ビン平均が保持されるようにビンデータを補間する
このビニングされたデータを入力として持っているとしましょう。平均値は、連続する間隔ごとに与えられます。簡単にするために、サンプリング密度が各ビン内で均一であると仮定しましょう。y¯iy¯i\bar{y}_iΔxiΔxi\Delta x_i 次に、基礎となる関数()を推定したいと思います。つまり、任意の時間厳守値(たとえば、 = 2.3または2.5など)に対して、妥当な推定値を取得できるようにしたいと考えています。要件は次のとおりです。yyyxxxyyyxxxxxx 関数は、バイアスを導入しないように、各ビンの平均保持する必要がありy(x)¯¯¯¯¯¯¯¯¯i=y¯iy(x)¯i=y¯i\overline{y(x)}_i = \bar{y}_i 関数は連続的でなければなりません(つまり、不連続性はありません) 関数は負でない必要があります。(負の値は物理的ではありません。) 与えられたビン値を調べるだけで#1は満たされますが、#2に違反します(すべてのビンエッジに不連続があります)。xxx 一方、すべてのビンの重みを各ビンの中心に割り当ててから、それらのポイント間を補間すると、#2は満たされますが、(線形または高次のスプライン補間に関係なく)#1に違反します。以下の図では、2 < <3ビン平均は保持されていません。両方のコーナーが下向きにカットされるため、減少します。xxx 両方の要件を満たす方法でこれをどのように行うことができますか? また、この操作は何と呼ばれていますか?これは補間ですか?(この質問にタグを付ける方法がわかりません。)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.