タグ付けされた質問 「algorithms」

アルゴリズムは、計算結果を生成する1つ以上の計算のセットです。すべての統計手法はアルゴリズムです。アルゴリズムは、パーセンテージの計算など、単純な場合もあれば、非常に複雑な場合があり、高速かつ正確な結果を得るためにコンピューターが必要になる場合もあります。

5
モデルが適切でないのはいつですか?
ロジックは、モデルを適切に適合させないことで、一般化する能力が向上するとしばしば述べています。とはいえ、明らかに、ある時点でモデルを不十分に適合させると、データの複雑さに関係なくモデルが悪化します。 モデルが適切なバランスを取り、モデル化しようとするデータを十分に満たしていないことをどのように確認しますか? 注:これは、「なぜオーバーフィットが悪いのか」という私の質問へのフォローアップです。

5
GBM対XGBOOST?主な違いは?
GBMとXGBOOSTの主な違いを理解しようとしています。私はそれをグーグルで検索しようとしましたが、2つのアルゴリズムの違いとxgboostがGBMよりもほとんど常に優れている理由を説明する良い答えを見つけることができませんでした。XGBOOSTの高速化の理由は何ですか?

3
何を使用するか-機械学習[終了]
最近、UPC / BarcelonaのOriol Pujol教授の機械学習クラスで、広範な機械学習関連タスクに使用する最も一般的なアルゴリズム、原理、および概念について説明しました。ここでそれらをあなたと共有し、あなたに尋ねます: タスクをさまざまなタイプの機械学習関連の問題に関連するアプローチまたは方法と一致させる包括的なフレームワークはありますか? 単純なガウスをどのように学習しますか? 確率、確率変数、分布; 推定、収束および漸近、信頼区間。 混合ガウス分布(MoG)を学習するにはどうすればよいですか?尤度、期待値最大化(EM); 汎化、モデル選択、相互検証。k平均、隠れマルコフモデル(HMM) 密度を知るにはどうすればよいですか?パラメトリック対非パラメトリック推定、ソボレフおよびその他の機能空間。ĺ2エラー; カーネル密度推定(KDE)、最適カーネル、KDE理論 連続変数(回帰)を予測するにはどうすればよいですか?線形回帰、正則化、リッジ回帰、およびLASSO。局所線形回帰; 条件付き密度推定。 離散変数(分類)を予測するにはどうすればよいですか?ベイズ分類器、単純ベイズ、生成的vs識別的; パーセプトロン、重量減衰、線形サポートベクターマシン。最近傍分類器と理論 どの損失関数を使用する必要がありますか?最尤推定理論; l -2推定; ベイジアン推定; ミニマックスと決定理論、ベイジアン主義対頻度主義 どのモデルを使用する必要がありますか?AICおよびBIC; Vapnik-Chervonenskis理論; 交差検証理論; ブートストラップ; おそらく近似修正(PAC)理論。Hoeffdingから派生した境界 より複雑な(組み合わせた)モデルを学習するにはどうすればよいですか?アンサンブル学習理論; ブースティング; バギング; スタッキング 奇抜な(非線形)モデルを学習するにはどうすればよいですか?一般化線形モデル、ロジスティック回帰。コルモゴロフの定理、一般化された加法モデル。カーネル化、カーネルヒルベルト空間の再現、非線形SVM、ガウス過程回帰 より複雑な(構成的)モデルを学習するにはどうすればよいですか?再帰モデル、決定木、階層的クラスタリング; ニューラルネットワーク、逆伝播、深い信念ネットワーク。グラフィカルモデル、HMMの混合、条件付きランダムフィールド、最大マージンマルコフネットワーク。対数線形モデル; 文法 機能を削減または関連付けるにはどうすればよいですか?特徴選択対次元削減、特徴選択のためのラッパーメソッド; 因果性対相関、偏相関、ベイズネット構造学習 新しい機能を作成するにはどうすればよいですか?主成分分析(PCA)、独立成分分析(ICA)、多次元スケーリング、多様体学習、教師あり次元削減、計量学習 データを削減または関連付けるにはどうすればよいですか?クラスタリング、バイクラスタリング、制約付きクラスタリング。アソシエーションルールとマーケットバスケット分析; ランキング/序数回帰; リンク分析; リレーショナルデータ 時系列をどのように扱うのですか?ARMA; カルマンフィルターと統計空間モデル、粒子フィルター。機能データ分析; 変化点検出; 時系列の相互検証 理想的でないデータをどのように扱うのですか?共変量シフト; クラスの不均衡。欠損データ、不規則にサンプリングされたデータ、測定エラー。異常検出、堅牢性 パラメータを最適化するにはどうすればよいですか?制約なし対制約付き/凸最適化、導関数のない方法、1次および2次の方法、バックフィット; 自然な勾配; バウンド最適化とEM …

5
決定木アルゴリズムは線形または非線形ですか
最近、私の友人に、ディシジョンツリーアルゴリズムが線形アルゴリズムであるか非線形アルゴリズムであるかがインタビューで尋ねられました。この質問への回答を探しましたが、満足のいく説明が見つかりませんでした。誰でもこの質問の解決策に答えて説明できますか?また、非線形機械学習アルゴリズムの他の例は何ですか?

3
アルゴリズム開発をスケールアップするには?
探索的データ分析に取り組み、アルゴリズムを開発していると、視覚化、コードの記述、小さなデータセットの実行、繰り返しのサイクルにほとんどの時間が費やされていることがわかります。私が持っているデータは、コンピュータビジョン/センサーフュージョンタイプのものである傾向があり、アルゴリズムは視覚に負荷がかかり(オブジェクトの検出や追跡など)、既製のアルゴリズムはこのコンテキストでは機能しません。これには多くの反復が必要であることがわかります(たとえば、アルゴリズムのタイプをダイヤルしたり、アルゴリズムのパラメーターを調整したり、視覚化を正しくしたりする)ため、小さなデータセットでも実行時間が非常に長くなるため、すべて一緒に時間がかかります。 アルゴリズム開発自体をどのように高速化し、スケーラブルにすることができますか? 特定の課題: 反復回数を減らすにはどうすればよいですか?(特に、アルゴリズムの種類はもちろん、その詳細は別として、異なるバージョンを試してその動作を調べることなく簡単に予測できるとは思えない場合) 開発中に大きなデータセットで実行する方法は?(多くの場合、小さなデータセットから大きなデータセットへの移行は、多くの新しい動作と新しい問題が発生した場合です) アルゴリズムパラメータをより速く調整するにはどうすればよいですか? 機械学習型ツールをアルゴリズム開発自体に適用する方法は?(たとえば、アルゴリズムを手で書く代わりに、いくつかの簡単な構成要素を書き、問題から学んだ方法でそれらを組み合わせてください、など)
18 algorithms 

1
テキストクラスタリングのアルゴリズム
大量の文章を意味ごとにグループ化する問題があります。これは、文がたくさんあり、それらを意味ごとにグループ化する場合の問題に似ています。 これを行うにはどのようなアルゴリズムが推奨されますか?クラスターの数が事前にわかりません(さらに多くのデータが追加されるにつれてクラスターも変化する可能性があります)。通常、各文を表すためにどの機能が使用されますか? 私は今、単語のリストと次のように定義された文の間の距離を持つ最も単純な機能を試しています: (AとBは、文AとBの対応する単語のセットです) それはまったく理にかなっていますか? 事前にクラスターの数を必要としないので、scikitライブラリーの平均シフトアルゴリズムをこの距離に適用しようとしています。 誰かが問題のより良い方法/アプローチをアドバイスするなら-私はまだトピックに新しいので、それは非常に高く評価されます。

4
類似性スコアに基づくクラスタリング
要素Eのセットと、2つの要素ei、ej∈E間の類似性(距離ではない)関数sim(ei、ej)があると仮定します。 simを使用して、Eの要素を(効率的に)クラスター化するにはどうすればよいですか? たとえば、k -meansには所定のkが必要で、Canopy Clusteringには2つのしきい値が必要です。このような事前定義されたパラメーターが必要ない場合はどうなりますか? simは必ずしもメトリックではないことに注意してください(つまり、三角形の不等式は成り立つ場合もあれば、成り立たない場合もあります)。さらに、クラスターが互いに素(Eのパーティション)であるかどうかは関係ありません。

2
Mahoutのアイテムベースとユーザーベースの推奨の違い
ユーザーベースの推奨事項とアイテムベースの推奨事項がどれだけ正確に異なるかを知りたい。 それを定義します ユーザーベース:同様のユーザーを見つけてアイテムを推奨します。多くの場合、ユーザーの動的な性質のため、これをスケーリングするのは困難です。 アイテムベース:アイテム間の類似性を計算し、推奨事項を作成します。通常、アイテムはあまり変化しないため、多くの場合、オフラインで計算できます。 しかし、2種類の推奨事項がありますが、私が理解しているのは、これらの両方が何らかのデータモデル(たとえば、1,2または1,2、.5としてitem1、item2、valueまたはuser1、user2、valueが値ではない場合)必須)そして、選択した類似度測定値とリコメンダービルトイン関数としてすべての計算を実行し、同じデータに対してユーザー/アイテムベースの推奨の両方を実行できます(これは正しい仮定ですか??)。 したがって、これら2つのタイプのアルゴリズムがどのように正確にどの側面で異なるかを知りたいと思います。

2
K平均とオンラインK平均
K-meansはクラスタリング用のよく知られたアルゴリズムですが、そのようなアルゴリズムのオンラインバリエーションもあります(オンラインK-means)。これらのアプローチの長所と短所は何ですか?また、それぞれをいつ優先すべきですか?

2
互いに素な分類器のアンサンブルで構成される分類器のROC曲線を計算する効率的なアルゴリズム
同じ入力で2つがtrueを返さないという意味で互いに素な分類子C_1 ... C_nがあるとします(たとえば、決定木のノード)。これらのサブセットの和集合である新しい分類器を構築したい(例えば、決定木のどの葉で肯定的な分類を行うかを決定したい)。もちろん、そうすることで、感度と正の予測値の間にはトレードオフがあります。だから私はROC曲線を見たいです。原則として、分類子のすべてのサブセットを列挙し、結果の感度とPPVを計算することでこれを行うことができます。ただし、nが30以上の場合、これは非常に高価です。一方、パレート最適ではない組み合わせはほぼ確実に存在するため、分岐限定戦略などが存在する可能性があります。 このアプローチが実りある可能性が高いかどうか、作業があるかどうか、または上記の状況でROC曲線を効率的に計算するためのアイデアがあるかどうかについてアドバイスをお願いします。
13 algorithms 

1
グローバル圧縮方式とユニバーサル圧縮方式の違いは何ですか?
圧縮方法は主に2つのセットに分けられることを理解しています。 グローバル 地元 最初のセットは、処理されるデータに関係なく機能します。つまり、データの特性に依存しないため、データセットのどの部分でも(圧縮自体の前に)前処理を実行する必要はありません。一方、ローカルメソッドはデータを分析し、通常は圧縮率を向上させる情報を抽出します。 これらの方法のいくつかについて読んでいると、単項法は普遍的ではないことに気づきました。「グローバル性」と「普遍性」は同じものを指すと思っていたので驚きました。単項メソッドは、エンコードを生成するためにデータの特性に依存しません(つまり、グローバルメソッドです)。したがって、グローバル/ユニバーサルである必要があります。 私の主な質問: ユニバーサルメソッドとグローバルメソッドの違いは何ですか? これらの分類は同義語ではありませんか?

1
文字シーケンスが英単語かノイズかを判別する方法
将来の予測のために単語リストからどのような機能を抽出しようとしますか?それは既存の単語ですか、それとも単なる文字の混乱ですか? そこで見つけたタスクの説明があります。 あなたは与えられた単語が英語であるかどうかに答えることができるプログラムを書かなければなりません。これは簡単です—辞書で単語を検索する必要があるだけです—しかし、重要な制限があります。プログラムは64 KiBを超えてはいけません。 そのため、問題を解決するためにロジスティック回帰を使用することは可能だと思いました。私はデータマイニングの経験があまりありませんが、その仕事は私にとって興味深いものです。 ありがとう。

1
RにおけるMLEのフィッシャースコアリング対座標降下
R基本関数glm()はMLEにフィッシャースコアリングglmnetを使用しますが、は同じ方程式を解くために座標降下法を使用しているようです。フィッシャースコアリングは、他のいくつかの行列演算に加えて2次微分行列を計算するため、座標降下はフィッシャースコアリングよりも時間効率が高くなります。これは実行に費用がかかりますが、座標降下はO(np)時間で同じタスクを実行できます。 R基底関数がフィッシャースコアリングを使用するのはなぜですか?この方法は他の最適化方法よりも優れていますか?座標降下とフィッシャースコアリングはどのように比較されますか?私はこのフィールドを実行するのが比較的新しいので、ヘルプやリソースは役に立ちます。

2
スパースデータを含む方程式系を解く
40の独立変数(x1、...、x40)と1つの従属変数(y)を含む方程式のセットを解こうとしています。方程式の合計数(行数)は約300であり、yと予測値の間の平方和誤差の合計を最小化する40個の係数のセットを解きたい。 私の問題は、行列が非常にスパースであり、スパースデータを使用して連立方程式を解くための最良の方法がわかりません。データセットの例を以下に示します。 y x1 x2 x3 x4 x5 x6 ... x40 87169 14 0 1 0 0 2 ... 0 46449 0 0 4 0 1 4 ... 12 846449 0 0 0 0 0 3 ... 0 .... 私は現在、これを解決するために遺伝的アルゴリズムを使用しており、結果は、観測されたものと期待されたもののおよそ2倍の違いで出てきます。 スパースデータを使用して方程式のセットを解くことができるさまざまな方法や手法を誰かが提案できますか?


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.