統計とビッグデータ machine-learning

3

サポートベクトル回帰を使用して時系列予測を試みた人はいますか？サポートベクターマシンを理解し、サポートベクター回帰を部分的に理解していますが、時系列、特に多変量時系列をモデル化するためにそれらを使用する方法を理解していません。私はいくつかの論文を読み込もうとしましたが、レベルが高すぎます。特に多変量時系列に関連して、誰もが彼らがどのように機能するかを簡単に説明できますか？編集：少し詳しく説明するために、株価の例で説明してみましょう。 N日間の株価があるとします。次に、毎日、特徴ベクトルを作成できます。特徴ベクトルは、単純な場合、前日の価格と当日の価格になります。各特徴ベクトルの応答は、翌日の価格になります。したがって、昨日の価格と今日の価格を考えると、目的は翌日の価格を予測することです。私が理解していないのは、6か月のトレーニングデータがあるとします。最近の特徴ベクトルをどのように重視するのでしょうか。

22 time-series machine-learning svm

9

ニューラルネットワークの予測の信頼性を判断する方法

私の質問を説明するために、たとえば入力にはある程度のノイズがあり、出力にはないトレーニングセットがあるとします。 # Training data [1.02, 1.95, 2.01, 3.06] : [1.0] [2.03, 4.11, 5.92, 8.00] : [2.0] [10.01, 11.02, 11.96, 12.04] : [1.0] [2.99, 6.06, 9.01, 12.10] : [3.0] ここで、出力は、ノイズがない場合の入力配列の勾配です（実際の勾配ではありません）。ネットワークをトレーニングした後、特定の入力に対して出力は次のようになります。 # Expected Output [1.01, 1.96, 2.00, 3.06] : 95% confidence interval of [0.97, 1.03] [2.03, 4.11, 3.89, 3.51] : 95% …

22 regression machine-learning neural-networks confidence-interval prediction-interval

2

すべての機械学習アルゴリズムはデータを線形に分離しますか？

私はプログラミングと機械学習が大好きです。ほんの数ヶ月前、機械学習プログラミングについて学び始めました。定量的科学のバックグラウンドを持っていない多くの人と同様に、広く使用されているMLパッケージ（キャレットR）のアルゴリズムとデータセットをいじって、MLについても学び始めました。しばらく前に、著者がMLでの線形回帰の使用法について話しているブログを読みました。私が正しいことを覚えているなら、彼は最終的にすべての機械学習が線形問題または非線形問題に対してさえ、ある種の「線形回帰」（この正確な用語を使用したかどうかわからない）を使用する方法について話しました。その時、私は彼がその意味を理解していませんでした。非線形データに機械学習を使用するという私の理解は、非線形アルゴリズムを使用してデータを分離することです。これは私の考えでした線形方程式を使用して線形データを分類し、非線形データに対してy = s i n （x ）と言う非線形方程式を使用するとします。y= m x + cy=mバツ+cy=mx+cy= s i n （x ）y=s私n（バツ）y=sin(x) この画像は、サポートベクターマシンのsikit learn Webサイトから取得したものです。SVMでは、MLの目的で異なるカーネルを使用しました。私の最初の考えは、線形関数はデータを線形関数で分離し、RBFカーネルは非線形関数を使用してデータを分離することでした。しかし、その後、著者がニューラルネットワークについて語っているこのブログを見ました。左サブプロットの非線形問題を分類するために、ニューラルネットワークは、最終的に右サブプロットの変換されたデータに単純な線形分離を使用できるようにデータを変換します私の質問は、最終的にすべての機械学習アルゴリズムが線形分離を使用して分類するかどうかです（線形/非線形データセット）？

22 machine-learning

2

Elastic Net Logistic Regressionでの最適なアルファの選択

glmnetR のパッケージを使用して、0から1のグリッドでラムダ値を選択することにより、ヘルスケアデータセットに対してElastic-Netロジスティック回帰を実行しています。短縮コードは次のとおりです。αα\alpha alphalist <- seq(0,1,by=0.1) elasticnet <- lapply(alphalist, function(a){ cv.glmnet(x, y, alpha=a, family="binomial", lambda.min.ratio=.001) }) for (i in 1:11) {print(min(elasticnet[[i]]$cvm))} これは、からの増分でのアルファの各値の平均交差検証誤差を出力します。1.0 0.10.00.00.01.01.01.00.10.10.1 [1] 0.2080167 [1] 0.1947478 [1] 0.1949832 [1] 0.1946211 [1] 0.1947906 [1] 0.1953286 [1] 0.194827 [1] 0.1944735 [1] 0.1942612 [1] 0.1944079 [1] 0.1948874 私が文献で読んだものに基づいて、最適な選択は、cvエラーが最小化される場所です。しかし、アルファの範囲にわたってエラーには多くの変動があります。私はいくつかの局所的な最小値を見ていますが、グローバルな最小誤差はfor です。αα\alpha0.1942612alpha=0.8 一緒に行くのは安全alpha=0.8ですか？又は、変形所与、Iは、再実行する必要がありcv.glmnet、よりクロスバリデーションひだ（例えば、との代わりに）、または、おそらくより多くのの間のインクリメント及びCVエラーパスの鮮明な画像を取得しますか？10 α202020101010αα\alphaalpha=0.01.0

22 machine-learning cross-validation glmnet elastic-net

8

特徴点ごとのデータではなく、距離行列のみを使用してK平均（またはその近縁）クラスタリングを実行します。

所有しているオブジェクトに対してK-meansクラスタリングを実行したいのですが、オブジェクトは空間内のポイント、つまりobjects x featuresデータセットによって記述されていません。ただし、2つのオブジェクト間の距離は計算できます（類似度関数に基づいています）。そのため、距離行列を破棄しobjects x objectsます。私は以前にK-meansを実装しましたが、それはポイントデータセットの入力でした。距離行列の入力では、ポイント表現なしでクラスタを「中心」に更新する方法が明確ではありません。これは通常どのように行われますか？そのために、それに近いK-meansまたはメソッドのバージョンはありますか？

22 machine-learning clustering data-mining k-means distance

3

LarsとGlmnetがLasso問題に対して異なるソリューションを提供するのはなぜですか？

私は、より良好なRパッケージを理解したいLarsとGlmnet：ラッソ問題解決するために使用され、（p変数およびNサンプルについては、3ページのwww.stanford.edu/~hastie/Papers/glmnet.pdfを参照）M I nは（β0β）∈ Rp + 1[ 12N∑私 = 1N（ y私− β0− xT私β）2+ λ | |β| |l1]m私n（β0β）∈Rp+1[12N∑私=1N（y私−β0−バツ私Tβ）2+λ||β||l1]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 + \lambda||\beta ||_{l_{1}} \right]pppNNN したがって、同じおもちゃのデータセットに両方を適用しました。残念ながら、2つの方法は同じデータ入力に対して同じソリューションを提供しません。誰が違いがどこから来るのかを知っていますか？結果を次のように取得しました。いくつかのデータ（8個のサンプル、12個の特徴、Toeplitzデザイン、すべてが中心）を生成した後、Larsを使用してLassoパス全体を計算しました。次に、Larsによって計算されたラムダのシーケンス（0.5を乗算）を使用してGlmnetを実行し、同じソリューションを取得したいと考えましたが、実行しませんでした。ソリューションが似ていることがわかります。しかし、どのように違いを説明できますか？以下に私のコードを見つけてください。関連する質問があります：LASSOソリューションを計算するためのGLMNETまたはLARS？、しかし、私の質問に対する答えは含まれていません。セットアップ： # Load packages. library(lars) library(glmnet) library(MASS) # Set parameters. nb.features <- 12 nb.samples <- 8 nb.relevant.indices <- 3 snr <- 1 …

22 r regression machine-learning lasso regularization

4

Angry Birdsをプレイするための機械学習システムをどのように設計しますか？

あまりにも多くのAngry Birdsをプレイした後、私は自分の戦略を観察し始めました。各レベルで3つ星を獲得するための非常に具体的なアプローチを開発したことがわかりました。そのため、Angry Birdsをプレイできる機械学習システムの開発の課題について疑問に思いました。ゲームを操作して鳥を放つのは簡単です。しかし、私が抱えていた1つの質問は、システムの「ビルディングブロック」についてです。機械学習システムは、単純な概念または問題についての理解で機能するようです。多くの場合、これは入力として機能としてエンコードされます。そのため、システムには、戦略を生成するためにいくつかの高レベルの概念を理解する能力が必要と思われます。これは本当ですか？また、そのようなシステムを開発する上での課題や困難な部分は何ですか？編集＃1：ここにいくつかの説明があります。ポイントを最大化する必要があるため、3つ星を取得するのは難しい問題です。これは、2つの非排他的な方法で実行できます。1）使用する鳥の数を最小限に抑えます（未使用の鳥ごとに10,000ポイントを獲得します）。2）ガラス、木材、その他のオブジェクトの破壊を最大化しました。破壊されたオブジェクトごとにポイントが付与されます。1羽の鳥で10,000ポイント以上のオブジェクトを破壊することができます。「高レベルの概念」についてもう少し説明します。上記のポイントを最大化するには、各鳥の特別な力を使用する必要があります。したがって、それは、マップのレイアウトに応じて、異なる軌道で異なる鳥を発射することを意味します。そして、プレイ中に特定の順序で特定の鳥と特定の領域を破壊する戦略を開発します。各鳥を使用して特定のエリアを破壊する方法を理解していないと、システムは3つ星を獲得することを学ぶことができなかったようです。それで、そのようなものをどのように管理し、エンコードしますか？システムがこれらの高レベルの概念を学習できることをどのように確認しますか？

22 machine-learning reinforcement-learning

1

アブレーション研究とは何ですか？そしてそれを実行する体系的な方法はありますか？

アブレーション研究とは何ですか？そしてそれを実行する体系的な方法はありますか？たとえば、モデルとして呼び出す線形回帰には予測子があります。nnn これに対してアブレーション研究をどのように実行しますか？どの指標を使用すればよいですか？包括的な情報源または教科書をいただければ幸いです。

22 regression machine-learning neural-networks

4

MCMC手法のサンプリングプロセスを「改善」するために、機械学習アルゴリズムまたは深層学習アルゴリズムを利用できますか？

MCMC（マルコフチェーンモンテカルロ）手法に関する知識が少ないことから、サンプリングは前述の手法の重要な部分であると理解しています。最も一般的に使用されるサンプリング方法は、ハミルトニアンとメトロポリスです。機械学習やディープラーニングを利用して、より効率的なMCMCサンプラーを構築する方法はありますか？

21 machine-learning mcmc monte-carlo markov-process

2

いつ連続的な独立変数/機能を離散化/ビン化すべきか、そうすべきではないのか？

いつ独立変数/機能を離散化/ビン化する必要がありますか？質問に答える私の試み：一般に、ビニングは情報を失うため、ビン化するべきではありません。ビニングは、実際にはモデルの自由度を高めているため、ビニング後に過剰適合を引き起こす可能性があります。「高バイアス」モデルがある場合、ビニングは悪くないかもしれませんが、「高分散」モデルがある場合、ビニングを避ける必要があります。使用しているモデルによって異なります。それが線形モードであり、データに多くの「外れ値」がある場合、ビニング確率が優れています。ツリーモデルがある場合、外れ値とビニングはあまりにも大きな違いを生みます。私は正しいですか？そして他に何？この質問は何度も聞かれるべきだと思ったが、これらの投稿だけでは履歴書で見つけることができない連続変数をビン化する必要がありますか？連続予測変数を分割することの利点は何ですか？

21 machine-learning continuous-data feature-construction binning

2

制限付きボルツマンマシン：機械学習でどのように使用されますか？

バックグラウンド：はい、制限付きボルツマンマシン（RBM）を使用して、ニューラルネットワークの重みを開始できます。また、深い信念ネットワークを構築するための「層ごとの」方法で使用することができる訓練すること、である（の上に番目の層（N - 1 ）、次いで番目の層、及び訓練しますの上に層目番目の層、リンスを繰り返し...） nnn（n − 1 ）（n−1）(n-1)n + 1n+1n+1nnn。 RBMの使用方法については、制限付きボルツマンマシン（RBM）の優れたチュートリアルのスレッドから詳細を見つけることができます。ここでは、いくつかの論文やチュートリアルを見つけることができます。私の質問は次のとおりです。 RBMは産業プロジェクトまたは学術プロジェクトで実際に使用されていますかはいの場合、どのプロジェクトがどのように使用されていますか？人気のあるライブラリ（tensorflow、Caffe、Theonoなど）はRBMモジュールを提供しますか？共有してくれてありがとう。RBMが実際に本当に役立つかどうか知りたいです。

21 machine-learning neural-networks deep-learning deep-belief-networks rbm

5

オーバーフィッティング：特効薬はありませんか？

私の理解では、適切な相互検証とモデル選択手順を踏んだとしても、モデルの複雑さ、期間に制限を課さない限り、モデルを十分に検索すると過適合が発生します。さらに、多くの場合、人々は、提供できる保護を損なうデータからモデルの複雑さに対する罰則を学ぼうとします。私の質問は次のとおりです。上記の声明にはどれほど真実がありますか？ MLの専門家は、「私の会社/研究室では、利用可能なすべてのモデル（キャレットやscikit-learnなどのライブラリから）を常に試して、どれが最適かを確認します」とよく耳にします。私はしばしば、このアプローチは交差検証に真剣であり、任意の方法でホールドアウトセットを保持している場合でも簡単にオーバーフィットできると主張します。さらに、検索が難しくなればなるほど、オーバーフィットする可能性が高くなります。言い換えれば、過剰な最適化は本当の問題であり、体系的にそれと戦うのに役立つ経験則はありません。このように考えるのは間違っていますか？

21 machine-learning cross-validation goodness-of-fit scikit-learn caret

4

「半教師付き学習」-これは過剰適合ですか？

私は、Kaggleコンペティション（マルウェア分類）の勝利ソリューションのレポートを読んでいました。レポートはこのフォーラムの投稿にあります。問題は、トレインセットに10000個の要素、テストセットに10000個の要素がある分類問題（9つのクラス、メトリックは対数損失）でした。競争中、モデルはテストセットの30％に対して評価されました。もう1つの重要な要素は、モデルのパフォーマンスが非常に優れていたことです（100％に近い精度）著者は次の手法を使用しました。もう1つの重要なテクニックは、半教師あり学習です。最初に、最適なモデルの最大確率を選択して、テストセットの擬似ラベルを生成します。次に、トレインデータとテストデータの両方を使用して、クロス検証方式でテストセットを再度予測します。たとえば、テストデータセットは4つのパートA、B、C、Dに分割されます。トレーニングデータ全体と、疑似ラベル付きのテストデータA、B、Cを新しいトレーニングセットとして使用し、テストを予測します。 Dを設定します同じ方法を使用してA、B、Cを予測します。Xiaozhouによって発明されたこのアプローチは驚くほどうまく機能し、ローカルクロス検証損失、パブリックLB損失、プライベートLB損失を削減します。最高の半教師あり学習モデルは、プライベートLBログ損失で0.0023を達成できます。これは、すべてのソリューションで最高のスコアです。結果をどのように改善できるのか、本当にわかりません。それは、テストセットの30％が「漏出」し、この情報を使用する方法だったからでしょうか。それとも、なぜ機能するのかを説明する理論的な理由はありますか？

21 machine-learning random-forest boosting overfitting semi-supervised

3

トレーニングとして肯定的なケースのみで結果を予測する方法は？

簡単にするために、スパム/非スパム電子メールの典型的な例に取り組んでいるとしましょう。 20000通のメールがあります。これらのうち、2000年はスパムであることは知っていますが、スパムではないメールの例はありません。残りの18000がスパムかどうかを予測したいと思います。理想的には、私が探している結果は、電子メールがスパムである確率（またはp値）です。この状況で賢明な予測を行うために、どのアルゴリズムを使用できますか？現時点では、距離ベースの方法で、自分のメールが既知のスパムメールにどれだけ似ているかを考えています。どのようなオプションがありますか？より一般的には、教師あり学習方法を使用できますか、それを行うためにトレーニングセットに否定的なケースが必要になる必要がありますか？教師なし学習アプローチに限定されていますか？半教師あり方法はどうですか？

21 machine-learning predictive-models unsupervised-learning supervised-learning semi-supervised

1

ROC曲線の分析のためにベイジアン法を発明したのですか？

前文これは長い投稿です。これを読み直している場合は、質問の部分を修正したことに注意してください。ただし、背景資料は同じままです。さらに、私は問題の解決策を考案したと信じています。そのソリューションは、投稿の下部に表示されます。私の元のソリューション（この投稿から編集済み。そのソリューションの編集履歴を参照）が必然的に偏った推定値を生成したことを指摘してくれたCliffABに感謝します。問題機械学習の分類問題において、モデルのパフォーマンスを評価する1つの方法は、ROC曲線、またはROC曲線下面積（AUC）を比較することです。ただし、ROC曲線またはAUCの推定値の変動性についてはほとんど議論されていません。つまり、それらはデータから推定された統計であるため、いくつかのエラーが関連付けられています。これらの推定値の誤差を特徴付けることは、たとえば、ある分類器が実際に別の分類器より優れているかどうかを特徴付けるのに役立ちます。この問題に対処するために、ROC曲線のベイズ分析と呼ばれる次のアプローチを開発しました。問題についての私の考えには、2つの重要な所見があります。 ROC曲線は、データから推定された量で構成されており、ベイズ分析に適しています。 ROC曲線は、真の陽性率を偽陽性率F P R （θ ）に対してプロットすることで構成されます。それぞれ、データから推定されます。θのT P RおよびF P R関数、クラスAをBからソートするために使用される決定しきい値（ランダムフォレストでのツリー投票、SVMでの超平面からの距離、ロジスティック回帰での予測確率など）を検討します。判定閾値の値が変化θは、別の見積もりを返しますT P RをTPR （θ ）TPR（θ）TPR(\theta)FPR(θ)FPR(θ）FPR(\theta)TPRTPRTPRFPRFPRFPRθθ\thetaθθ\thetaTPRTPRTPRおよび。さらに、T P R （θ ）は一連のベルヌーイ試行における成功確率の推定値であると考えることができます。実際、TPRはT Pとして定義されていますFPRFPRFPRTPR(θ)TPR(θ）TPR(\theta)また、用いた実験において二項成功確率のMLEであるTPの成功とTP+FN>0合計試験。TPTP+FN,TPTP+FN,\frac{TP}{TP+FN},TPTPTPTP+FN>0TP+FN>0TP+FN>0 とF P R （θ ）の出力をランダム変数と考えると、成功と失敗の数が正確にわかっている二項実験の成功確率を推定する問題に直面します（T P、F P、F N、およびT Nによって与えられ、これらはすべて固定されていると仮定します）。従来、単純にMLEを使用し、TPRとFPRがθの特定の値に対して固定されていると仮定しています。TPR(θ)TPR(θ)TPR(\theta)FPR(θ)FPR(θ)FPR(\theta)TPTPTPFPFPFPFNFNFNTNTNTNθθ\theta。しかし、ROC曲線のベイジアン分析では、ROC曲線の事後分布からサンプルを描画することで得られるROC曲線の事後シミュレーションを描画します。この問題の標準的なベイジアンモデルは、成功確率に優先するベータを持つ二項尤度です。成功確率の事後分布もベータなので、各、TPRおよびFPR値の事後分布があります。これにより、2番目の観察結果が得られます。θθ\theta ROC曲線は減少していません。そうつのいくつかの値をサンプリングいったん及びF P R （θに）、サンプリングポイントのROC空間「南東」の点をサンプリングするゼロ可能性があります。しかし、形状に制約のあるサンプリングは難しい問題です。TPR(θ)TPR(θ)TPR(\theta)FPR(θ)FPR(θ)FPR(\theta) ベイジアンアプローチを使用して、単一の推定セットから多数のAUCをシミュレートできます。たとえば、20個のシミュレーションは、元のデータと比較すると次のようになります。この方法には多くの利点があります。たとえば、1つのモデルのAUCが別のモデルよりも大きい確率は、事後シミュレーションのAUCを比較することで直接推定できます。分散の推定値は、リサンプリング方法よりも安価なシミュレーションを介して取得できます。これらの推定値は、リサンプリング方法から生じる相関サンプルの問題を引き起こしません。溶液上記の2つに加えて、問題の性質について3番目と4番目の観察を行うことにより、この問題の解決策を開発しました。および F P R （θ ）には、シミュレーションに適した周辺密度があります。TPR(θ)TPR(θ)TPR(\theta)FPR(θ)FPR(θ)FPR(\theta) 場合（副F P R …

21 machine-learning bayesian sampling roc auc

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」