タグ付けされた質問 「algorithms」

問題のクラスに対する解決策を見つけることに関与する計算ステップの明確なリスト。

3
最初の標準標準テーブルを作成したのは誰ですか?
はじめに統計クラスで標準の標準テーブルを導入しようとしていますが、だれが最初の標準標準テーブルを作成したのでしょうか?コンピューターが登場する前に、彼らはどのようにそれをしましたか?誰かが総当たりでリーマン合計を手で計算することを考えるとぞっとする。

7
膨大な数の機能(> 10K)に最適なPCAアルゴリズム?
以前にStackOverflowでこれを尋ねましたが、SOで何の回答も得られなかったことを考えると、ここでの方が適切かもしれません。統計とプログラミングの交差点にあります。 PCA(主成分分析)を行うためのコードを書く必要があります。私はよく知られたアルゴリズムを閲覧し、これを実装しました。これは、私が知る限り、NIPALSアルゴリズムと同等です。最初の2〜3個の主成分を見つけるのに適していますが、収束が非常に遅くなるようです(数百から数千回の繰り返し)。必要なものの詳細は次のとおりです。 アルゴリズムは、膨大な数の機能(10,000〜20,000のオーダー)と数百のオーダーのサンプルサイズを扱う場合に効率的でなければなりません。 ターゲット言語はDであるため、まともな線形代数/マトリックスライブラリがなくても合理的に実装可能でなければなりません。Dはまだ1つもありません。 。 補足として、同じデータセットでRはすべての主成分を非常に高速に見つけるように見えますが、特異値分解を使用します。これは自分でコーディングしたいものではありません。

6
効率的なオンライン線形回帰
私は通常の線形回帰を実行したいいくつかのデータを分析していますが、入力データの連続ストリーム(メモリにはすぐに大きくなります)と必要なオンライン設定を扱っているため、これは不可能ですこれが消費されている間にパラメータ推定値を更新します。つまり、すべてをメモリにロードして、データセット全体に対して線形回帰を実行することはできません。 私は単純な線形多変量回帰モデル、すなわち、 y = A x + b + ey=Ax+b+e\mathbf y = \mathbf A\mathbf x + \mathbf b + \mathbf e 線形回帰パラメータおよびbの継続的に更新される推定値を作成するための最適なアルゴリズムは何ですか?AA\mathbf Abb\mathbf b 理想的には: 私が最もあるアルゴリズムたい更新当たりの空間と時間の複雑さ、Nは、独立変数の次元である(X)とMは従属変数(の次元であるY)。O(N⋅ M)O(N⋅M)\mathcal O(N\cdot M)NNNバツx\mathbf xMMMyy\mathbf y 新しいサンプルごとにパラメーターが更新される量を決定するパラメーターを指定できるようにしたいと思います。たとえば、0.000001は、次のサンプルがパラメーター推定の100万分の1を提供することを意味します。これは、遠い過去のサンプルの効果に対してある種の指数関数的な減衰を与えます。

9
2Dバイナリマトリックスのエントロピー/情報/パターンの測定
2次元バイナリマトリックスのエントロピー/情報密度/パターンらしさを測定したい。説明のためにいくつかの写真を見せてください: このディスプレイには、かなり高いエントロピーが必要です。 A) これには中程度のエントロピーが必要です: B) 最後に、これらの写真はすべてエントロピーがゼロに近いはずです。 C) D) E) エントロピー、それぞれをキャプチャするインデックスがあります。これらのディスプレイの「パターンらしさ」? もちろん、各アルゴリズム(たとえば、圧縮アルゴリズム、またはttnphnsによって提案された回転アルゴリズム)は、ディスプレイの他の機能に敏感です。次のプロパティをキャプチャしようとするアルゴリズムを探しています: 回転対称および軸対称 クラスタリングの量 繰り返し より複雑かもしれませんが、アルゴリズムは心理的な「ゲシュタルト原理」の特性に敏感である可能性があります。特に、 近接の法則: 対称性の法則:対称的な画像は、距離があっても集合的に知覚されます: これらのプロパティを持つディスプレイには、「低エントロピー値」が割り当てられます。かなりランダム/非構造化されたポイントを持つディスプレイには、「高いエントロピー値」が割り当てられます。 ほとんどの場合、単一のアルゴリズムでこれらの機能をすべてキャプチャすることはありません。したがって、一部の機能または単一の機能のみに対処するアルゴリズムの提案も大歓迎です。 具体的には、具体的な既存のアルゴリズム、または具体的な実装可能なアイデアを探しています(これらの基準に従って賞金を授与します)。

7
一般的な時系列の期間検出
この投稿は時系列の外れ値検出のための一般的な方法に関連する別の投稿の続きです。基本的に、この時点で、多くのノイズの影響を受ける一般的な時系列の周期性/季節性を発見するための堅牢な方法に興味があります。開発者の観点から、次のようなシンプルなインターフェースが欲しいです。 unsigned int discover_period(vector<double> v); vサンプルを含む配列はどこにあり、戻り値は信号の周期です。主なポイントは、やはり、分析された信号に関して仮定を立てることができないということです。信号の自己相関に基づいたアプローチ(コレログラムのピークの検出)を既に試しましたが、希望どおりに堅牢ではありません。

10
巨大な読み取り1回のデータセットの中央値を推定するための優れたアルゴリズムは何ですか?
格納するには大きすぎるデータセットの中央値を推定するための優れたアルゴリズム(最小限の計算、最​​小限のストレージ要件を意味する)を探しています。想定できるデータに制限はありません。 精度がわかっている限り、近似は問題ありません。 ポインタはありますか?


5
ランダムフォレストアルゴリズムの最適化された実装
私は、ALGLIB、Waffles、およびなどのいくつかのRパッケージなど、ランダムフォレストの実装がいくつかあることに気付きましたrandomForest。これらのライブラリが高度に最適化されているかどうかを教えてもらえますか?統計学習の要素で詳しく説明されているランダムフォレストと基本的に同等ですか、それとも多くの余分なトリックが追加されていますか? この質問が具体的であることを願っています。私が探している答えのタイプの例として、線形代数パッケージBLASが高度に最適化されているかどうか尋ねられた場合、それは非常に高度に最適化されていて、非常に特殊なアプリケーションを除いて改善しようとする価値はほとんどないと言います。


3
隠れマルコフモデルとニューラルネットワークの違いは何ですか?
私は統計に足を踏み入れたばかりなので、この質問が意味をなさない場合は申し訳ありません。私はマルコフモデルを使用して、隠れた状態(不公平なカジノ、サイコロロールなど)とニューラルネットワークを予測し、検索エンジンでのユーザークリックを調べました。どちらも、観測を使用して把握しようとしている隠された状態がありました。 私の理解では、それらは両方とも隠れ状態を予測するので、ニューラルネットワークでマルコフモデルをいつ使用するのだろうか?それらは、同様の問題に対する異なるアプローチですか? (私は学習に興味がありますが、別の動機もあります。隠れたマルコフモデルを使用して解決しようとしている問題があります。

6
モンテカルロシミュレーションを使用した近似
私は最近、モンテカルロシミュレーションを見ていて、ππ\pi(長方形内の円、比例領域)などの定数を近似するために使用しています。 ただし、モンテカルロ積分を使用してeee [オイラー数]の値を近似する対応する方法を考えることはできません。 これをどのように行うことができるかについての指針はありますか?

6
データマイニング:機能フォームを見つけるにはどうすればよいですか?
私は、関数の関数形を発見するために使用することができ、再現手順について興味がy = f(A, B, C) + error_term私の唯一の入力は、観測値の集合である場合(y、A、BおよびC)。の機能形式fは不明であることに注意してください。 次のデータセットを検討してください。 AA BB CC DD EE FF == == == == == == 98 11 66 84 67 10500 71 44 48 12 47 7250 54 28 90 73 95 5463 34 95 15 45 75 2581 56 37 0 79 43 3221 …

1
標準および球面k-meansアルゴリズムの違い
標準と球状のk-meansクラスタリングアルゴリズムの主要な実装の違いは何かを理解したいと思います。 各ステップで、k-meansは要素ベクトルとクラスター重心間の距離を計算し、重心が最も近いクラスターにドキュメントを再割り当てします。次に、すべての重心が再計算されます。 球面k-meansでは、すべてのベクトルが正規化され、距離測定は余弦の非類似度です。 それだけですか、それとも何かありますか?

3
最高の盗賊アルゴリズム?
最もよく知られているバンディットアルゴリズムは、このクラスのアルゴリズムを普及させた信頼限界(UCB)です。それ以来、より良いアルゴリズムがあると思います。現在の最良のアルゴリズムは何ですか(経験的性能または理論的限界のいずれかに関して)?このアルゴリズムはある意味で最適ですか?

1
勾配降下の終了条件を定義する方法は?
実際、勾配降下の終了条件をどのように定義できるかを尋ねたいと思いました。 繰り返しの数に基づいて、たとえば100回の繰り返しのパラメーター値を考慮して停止できますか? または、2つのパラメーター値「new」と「old」の違いがように非常に小さくなるまで待つ必要がありますか?これには間違いなく時間がかかります。10− 610−610^{-6} 最善の方法は何ですか?私の場合、1回の反復でもかなりの時間がかかります。この状況では、2番目の条件を待つと、数週間かかることもあります。 したがって、どのアプローチを使用する必要があります。このシナリオに取り組む方法は?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.