統計とビッグデータ machine-learning

1

一般化されたウィシャートプロセス（GWP）に関するこのペーパーを読んでいます。この論文では、2乗指数共分散関数、つまりを使用して、さまざまな確率変数（ガウスプロセスに従って）間の共分散を計算します。次に、この共分散行列はGWPに従います。K(x,x′)=exp(−|(x−x′)|22l2)K(x,x′)=exp⁡(−|(x−x′)|22l2)K(x,x') = \exp\left(-\frac{|(x-x')|^2}{2l^2}\right) 私は、線形共分散関数（）K(x,x′)=xTx′K(x,x′)=xTx′K(x,x') = x^Tx'から計算された共分散行列は、適切なパラメーターを使用してウィシャート分布に従うと考えていました。私の質問は、二乗指数共分散関数を使用してウィシャート分布に従う共分散をまだどのように仮定できるかです。また、一般的に、Wishart分散共分散行列を生成するための共分散関数に必要な条件は何ですか？

11 machine-learning normal-distribution covariance wishart nonparametric-bayes

1

ガウス過程が過剰適合しているかどうかをどのように検出できますか？

交差検証ではなく、データの周辺信頼度を最大化することにより、多くのパラメーターを持つARDカーネルでガウスプロセスをトレーニングしています。私はそれが過剰適合していると思います。ベイジアンコンテキストでこの疑いをテストするにはどうすればよいですか？

11 machine-learning cross-validation gaussian-process

2

分類問題におけるクラス分離可能性の測定

線形判別学習者におけるクラス分離可能性の良い尺度の例は、フィッシャーの線形判別比です。機能セットがターゲット変数間の適切なクラス分離を提供するかどうかを判断するために他に役立つメトリックはありますか？特に、ターゲットクラスの分離を最大化するための適切な多変量入力属性を見つけることに関心があり、優れた分離可能性を提供するかどうかをすばやく判断するための非線形/ノンパラメトリック測定値があると便利です。

11 machine-learning classification feature-selection discriminant-analysis

3

ロジスティック回帰における変数の重要性

私はおそらく以前に100回解決された問題を扱っていますが、どこで答えを見つけることができるかわかりません。ロジスティック回帰を使用するとき、多くの特徴与えられ、バイナリのカテゴリ値を予測しようとすると、よく予測する特徴のサブセットを選択することに興味があります。 y yバツ1、。。。、xんx1,...,xnx_1,...,x_nyyyyyy 投げ縄に似た使用可能な手順はありますか？（線形回帰に使用されるなげなわを見ただけです。）適合モデルの係数を見て、さまざまな特徴の重要性を示していますか？編集-いくつかの回答を見た後の説明：当てはめられた係数の大きさについて言及するときは、正規化された（平均0および分散1）特徴に当てはめられたものを意味します。そうでない場合、@ probabilityislogicが指摘したように、1000xはxよりも重要度が低いように見えます。（@Davideが提供していたように）最良のkサブセットを単に見つけることに興味はありませんが、さまざまな機能の相互の重要性を比較検討しています。たとえば、1つの機能は「年齢」で、もう1つの機能は「年齢> 30」です。それらの段階的な重要性は小さいかもしれませんが、両方とも重要かもしれません。

11 machine-learning logistic classification

2

回帰の目的で予測子の次元を減らすことの利点は何ですか？

次元削減回帰（DRR）または教師付き次元削減（SDR）技法の、従来の回帰技法（次元削減なし）に対するアプリケーションまたは利点は何ですか？これらのクラスの技法は、回帰問題の特徴セットの低次元表現を見つけます。このような手法の例には、スライスされた逆回帰、主ヘシアン方向、スライスされた平均分散推定、カーネルスライスされた逆回帰、主成分回帰などが含まれます。交差検証されたRMSEに関して、次元削減を行わない回帰アルゴリズムでアルゴリズムのパフォーマンスが向上した場合、回帰の次元削減の実際の用途は何ですか？これらのテクニックの要点はわかりません。これらの手法は、たまたま、回帰のための空間と時間の複雑さを減らすために使用されていますか？それが主な利点である場合、この手法を使用する際の高次元データセットの複雑さの軽減に関するリソースが役立つでしょう。これについては、DRRまたはSDR技術自体を実行するにはある程度の時間とスペースが必要であるという事実について議論します。このSDR / DRR +回帰は、低濃度のデータセットで、高濃度のデータセットでの回帰のみよりも高速ですか？この設定は抽象的な関心のみから研究されたもので、実用的なアプリケーションはありませんか？余談ですが、特徴と応答同時分布が多様体上にあるという仮定が時々あります。回帰問題を解決するために、このコンテキストで観測されたサンプルから多様体を学習することは理にかなっています。YバツXXYYY

11 regression machine-learning pca dimensionality-reduction

1

2クラスモデルのマルチクラス問題への拡張

Adaboostに関するこのペーパーでは、2クラスモデルをKクラスの問題に拡張するための提案とコード（17ページ）を示します。このコードを一般化して、さまざまな2クラスモデルを簡単にプラグインして結果を比較できるようにします。ほとんどの分類モデルには数式インターフェースとpredictメソッドがあるため、これの一部は比較的簡単なはずです。残念ながら、2クラスモデルからクラス確率を抽出する標準的な方法が見つからないため、各モデルにはカスタムコードが必要になります。 Kクラス問題を2クラス問題に分解し、Kモデルを返すために私が書いた関数は次のとおりです。 oneVsAll <- function(X,Y,FUN,...) { models <- lapply(unique(Y), function(x) { name <- as.character(x) .Target <- factor(ifelse(Y==name,name,'other'), levels=c(name, 'other')) dat <- data.frame(.Target, X) model <- FUN(.Target~., data=dat, ...) return(model) }) names(models) <- unique(Y) info <- list(X=X, Y=Y, classes=unique(Y)) out <- list(models=models, info=info) class(out) <- 'oneVsAll' return(out) } これは、各モデルを反復処理して予測を行うために私が書いた予測方法です。 predict.oneVsAll <- …

11 r machine-learning classification statistical-learning multi-class

4

k-meansに最適なkがない場合はありますか？

これは少なくとも数時間は私の心の中にありました。（平均余弦類似度メトリックを使用して）k平均アルゴリズムからの出力に最適なkを見つけようとしていたため、クラスターの数の関数として歪みをプロットすることになりました。私のデータセットは、600次元空間にある800個のドキュメントのコレクションです。私が理解していることから、この曲線のニーポイントまたはエルボーポイントを見つけると、少なくともデータを入れる必要があるクラスターの数がほぼわかります。下にグラフを載せます。赤い縦線が引かれた点は、最大二次導関数検定を使用して取得されました。これをすべて行った後、私はもっと単純なものに行き詰まりました。このグラフはデータセットについて何を教えてくれますか？クラスタリングする価値がないこと、ドキュメントの構造が不足していること、または非常に高いkを設定する必要があることを教えてくれますか？奇妙なことの1つは、kが低い場合でも、同様のドキュメントがクラスター化されているので、なぜこの曲線が得られるのかわかりません。何かご意見は？

11 machine-learning clustering k-means

3

スパースな予測子と応答を使用するCARTのようなメソッドに使用できるライブラリはありますか？

私は、Rのgbmパッケージを使用していくつかの大きなデータセットを処理しています。予測子行列と応答ベクトルの両方がかなりスパースです（つまり、ほとんどのエントリがゼロです）。ここで行ったように、この疎性を利用するアルゴリズムを使用して決定木を構築したいと思っていました。その論文では、私の状況と同様に、ほとんどのアイテムは多くの可能な機能のほんの一部しか持っていないため、データで明示的に示されていない限り、アイテムに特定の機能がないと想定することで、多くの無駄な計算を回避できました。私の希望は、この種のアルゴリズムを使用して同様の高速化を実現できることです（そして、予測精度を向上させるために、ブースティングアルゴリズムをラップします）。彼らは自分のコードを公開していないようだったので、この場合に最適化されたオープンソースのパッケージまたはライブラリ（任意の言語）があるかどうか疑問に思っていました。理想的には、RのMatrixパッケージからスパース行列を直接取得できるものを望みますが、取得できるものは取得します。私は周りを見回しました、そしてこの種のものはそこにあるはずです：化学者はこの問題に頻繁に遭遇するようです（上でリンクした論文は、新しい薬物化合物を見つけることを学ぶことに関するものでした）。ただし、そのうちの1つを転用することもできます。ドキュメント分類は、スパースフィーチャスペースからの学習が役立つ領域でもあるようです（ほとんどのドキュメントにはほとんどの単語が含まれていません）。たとえば、このペーパーでは、C4.5（CARTのようなアルゴリズム）のスパース実装への斜めの参照がありますが、コードはありません。メーリングリストによると、WEKAはスパースデータを受け入れることができますが、上記でリンクした論文の方法とは異なり、WEKAはCPUサイクルの浪費を回避するという点で実際にそれを利用するように最適化されていません。前もって感謝します！

11 r regression machine-learning classification cart

2

隠れマルコフモデルにおける初期遷移確率の重要性

隠れマルコフモデルで遷移確率に特定の初期値を与えることの利点は何ですか？最終的にシステムがそれらを学習するので、ランダムな値以外の値を指定する意味は何ですか？根底にあるアルゴリズムはBaum–Welchなどの違いをもたらしますか？初めに遷移確率を非常に正確に知っており、私の主な目的が隠れた状態から観測までの出力確率を予測することである場合、何をアドバイスされますか？

11 machine-learning expectation-maximization hidden-markov-model

2

ランダムフォレストモデルからの予測を説明する方法はありますか？

（RのrandomForestパッケージを使用した）ランダムフォレストに基づく予測分類モデルがあるとします。エンドユーザーが予測を生成するアイテムを指定できるように設定し、分類の可能性を出力します。これまでのところ、問題ありません。しかし、変数の重要度のグラフのようなものを出力できることは有用/クールですが、トレーニングセットではなく、予測される特定のアイテムに対してです。何かのようなもの：アイテムXは犬であると予測されます（73％の確率）。理由：脚= 4 呼吸=悪い毛皮=短い食べ物=厄介なあなたはポイントを取得します。訓練されたランダムフォレストからこの情報を抽出する標準的な、または少なくとも正当な方法はありますか？もしそうなら、randomForestパッケージに対してこれを行うコードを誰かが持っていますか？

11 machine-learning random-forest

3

精密再現曲線から適切な操作点を選択する方法は？

精密再現曲線の「最適な」操作点を決定する標準的な方法はありますか？（つまり、精度と再現率の間の適切なトレードオフを提供する曲線上のポイントを決定します）ありがとう

11 machine-learning precision-recall

1

メソッド選択に適したフレームワークは何ですか？

私はメソッド選択の理論的フレームワーク（注：モデル選択ではない）を調査しており、体系的で数学的に動機付けられた研究はほとんど見つかりませんでした。「メソッドの選択」とは、問題または問題のタイプに関して適切な（またはより良い、最適な）メソッドを区別するためのフレームワークを意味します。私が見つけたのは、断片的である場合でも、特定の方法とその調整（つまり、ベイズ法での事前選択）、およびバイアス選択による方法選択（例：帰納的ポリシー：バイアス選択のプラグマティクス）にかなりの労力を費やしています。機械学習の開発のこの初期段階では非現実的かもしれませんが、許容可能な変換とテストをスケールタイプで処方する際に測定理論が行うようなものを見つけたいと思っていました。助言がありますか？

11 machine-learning methodology theory

4

Facebookの預言者は線形回帰と何が違うのですか？

Facebookの預言者について私が読んだのは、時系列を基本的にトレンドと季節性に分解することです。たとえば、加法モデルは次のように記述されます。 y(t)=g(t)+s(t)+h(t)+ety(t)=g(t)+s(t)+h(t)+et y(t) = g(t) + s(t) + h(t) + e_t と ttt時間を g(t)g(t)g(t)トレンド（線形またはロジスティック） s(t)s(t)s(t)季節性（毎日、毎週、毎年...） h(t)h(t)h(t)休日 etete_tエラー私の質問は次のとおりです。単純な線形回帰でそれを行うことはできませんか？それらを比較すると、結果の点でどのような違いがありますか、そしてなぜですか？

11 regression machine-learning time-series prophet

1

SVMを分類確率として解釈することが間違っているのはなぜですか？

私のSVMの理解は、それがロジスティック回帰（LR）に非常に似ていることです。つまり、特徴の重み付けされた合計がクラスに属する確率を得るためにシグモイド関数に渡されますが、クロスエントロピー（ロジスティック）損失ではありません。関数、ヒンジ損失を使用してトレーニングが実行されます。ヒンジ損失を使用する利点は、カーネル化をより効率的にするために、さまざまな数値トリックを実行できることです。ただし、欠点は、結果のモデルの情報が、対応するLRモデルの情報よりも少ないことです。そのため、例えば、（線形カーネルを使用して）kernelisationずにSVMの決定境界はまだLRう出力0.5の確率と同じ場所になり、しかし 1は、クラスに属する確率が離れてからの減衰どのように迅速に伝えることはできません決定境界。私の2つの質問は次のとおりです。上記の私の解釈は正しいですか？ヒンジ損失を使用すると、SVMの結果を確率として解釈することが無効になりますか？

11 machine-learning logistic svm

1

XGBoostは予測フェーズで欠落データを処理できます

最近、XGBoostアルゴリズムを確認しましたが、このアルゴリズムは、トレーニングフェーズで欠落データを（補完を必要とせずに）処理できることに気付きました。XGboostが新しい観測値の予測に使用される場合、または欠損データを補完する必要がある場合、XGboostが欠損データを（補完を必要とせずに）処理できるかどうか疑問に思っていました。前もって感謝します。

11 machine-learning missing-data data-imputation xgboost

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」