タグ付けされた質問 「semi-supervised」


4
「半教師付き学習」-これは過剰適合ですか?
私は、Kaggleコンペティション(マルウェア分類)の勝利ソリューションのレポートを読んでいました。レポートはこのフォーラムの投稿にあります。問題は、トレインセットに10000個の要素、テストセットに10000個の要素がある分類問題(9つのクラス、メトリックは対数損失)でした。 競争中、モデルはテストセットの30%に対して評価されました。もう1つの重要な要素は、モデルのパフォーマンスが非常に優れていたことです(100%に近い精度) 著者は次の手法を使用しました。 もう1つの重要なテクニックは、半教師あり学習です。最初に、最適なモデルの最大確率を選択して、テストセットの擬似ラベルを生成します。次に、トレインデータとテストデータの両方を使用して、クロス検証方式でテストセットを再度予測します。たとえば、テストデータセットは4つのパートA、B、C、Dに分割されます。トレーニングデータ全体と、疑似ラベル付きのテストデータA、B、Cを新しいトレーニングセットとして使用し、テストを予測します。 Dを設定します 同じ方法を使用してA、B、Cを予測します。Xiaozhouによって発明されたこのアプローチは驚くほどうまく機能し、ローカルクロス検証損失、パブリックLB損失、プライベートLB損失を削減します。最高の半教師あり学習モデルは、プライベートLBログ損失で0.0023を達成できます。これは、すべてのソリューションで最高のスコアです。 結果をどのように改善できるのか、本当にわかりません。それは、テストセットの30%が「漏出」し、この情報を使用する方法だったからでしょうか。 それとも、なぜ機能するのかを説明する理論的な理由はありますか?

3
トレーニングとして肯定的なケースのみで結果を予測する方法は?
簡単にするために、スパム/非スパム電子メールの典型的な例に取り組んでいるとしましょう。 20000通のメールがあります。これらのうち、2000年はスパムであることは知っていますが、スパムではないメールの例はありません。残りの18000がスパムかどうかを予測したいと思います。理想的には、私が探している結果は、電子メールがスパムである確率(またはp値)です。 この状況で賢明な予測を行うために、どのアルゴリズムを使用できますか? 現時点では、距離ベースの方法で、自分のメールが既知のスパムメールにどれだけ似ているかを考えています。どのようなオプションがありますか? より一般的には、教師あり学習方法を使用できますか、それを行うためにトレーニングセットに否定的なケースが必要になる必要がありますか?教師なし学習アプローチに限定されていますか?半教師あり方法はどうですか?

4
なぜ疑似ラベル付けを使用すると、結果に大きな影響があるのですか?
私は半教師あり学習方法を調査しており、「疑似ラベル付け」の概念に出くわしました。 私が理解しているように、疑似ラベル付けでは、ラベル付けされたデータのセットとラベル付けされていないデータのセットがあります。最初に、ラベル付きデータのみでモデルをトレーニングします。次に、その初期データを使用して、ラベルなしデータを分類(仮ラベルを添付)します。次に、ラベル付きデータとラベルなしデータの両方をモデルのトレーニングにフィードバックし、既知のラベルと予測されたラベルの両方に(再)適合させます。(このプロセスを繰り返し、更新されたモデルでラベルを付け直します。) 主張されている利点は、ラベルなしデータの構造に関する情報を使用してモデルを改善できることです。次の図のバリエーションがよく示され、プロセスが(ラベルなし)データの場所に基づいてより複雑な決定境界を作成できることを「示しています」。 Techerin CC BY-SA 3.0によるWikimedia Commonsからの画像 しかし、私はその単純な説明を完全には購入していません。単純に、元のラベル付きのみのトレーニング結果が決定境界の上限である場合、疑似ラベルはその決定境界に基づいて割り当てられます。つまり、上の曲線の左手は白の疑似ラベルが付けられ、下の曲線の右手は黒の疑似ラベルが付けられます。新しい疑似ラベルは単に現在の決定境界を強化するだけなので、再トレーニング後は曲線の決定境界が得られません。 別の言い方をすれば、現在のラベル付きのみの決定境界は、ラベルなしデータに対して完全な予測精度を持ちます(それを作成するために使用していたため)。疑似ラベル付きデータを追加するだけで、その決定境界の位置を変更する原因となる原動力(勾配)はありません。 図で具体化された説明が不足していると私は思うのですか?それとも私が見逃しているものはありますか?ない場合は、何である擬似ラベルの利点は、擬似ラベルの上に完璧な精度を持って事前に再訓練決定境界与えられ、?

1
遠隔監視、自己訓練、自己監視学習、および弱い監視の間に違いはありますか?
私が読んだことから: 遠隔監督: A Distant supervision algorithm usually has the following steps: 1] It may have some labeled training data 2] It "has" access to a pool of unlabeled data 3] It has an operator that allows it to sample from this unlabeled data and label them and this operator is …

2
非類似度メジャーの重みを見つける方法
クラスタリングに使用できる非類似度メジャーの属性の重みを学習(推定)したいと思います。 「類似」するオブジェクトのペアのいくつかの例(同じクラスター内にある必要があります)、および「類似していない」オブジェクトのペアのいくつかの例(c i、d i)があります。 "(同じクラスター内にあってはなりません)。各オブジェクトにはいくつかの属性があります。必要に応じて、各オブジェクトをd次元の特徴ベクトルと考えることができます。ここで、各特徴は非負の整数です。そのような類似/非類似オブジェクトの例を使用して、非類似度測定値の最適な特徴の重みをそれらから推定する手法はありますか?(ai,bi)(ai,bi)(a_i,b_i)(ci,di)(ci,di)(c_i,d_i)ddd それが役立つ場合、私のアプリケーションでは、重み付けされたL2ノルムである非類似度の測定に集中することはおそらく妥当でしょう。 d(x,y)=∑jαj(x[j]−y[j])2.d(x,y)=∑jαj(x[j]−y[j])2.d(x,y) = \sum_j \alpha_j (x[j] - y[j])^2. どこの重み知られていないと学習されるべきです。(または、重み付きコサイン類似性尺度のいくつかの種類があまりにも合理的であるかもしれない。)の重みを学習することが良いアルゴリズムですα Jを例与えられ、そのような措置のために?または、私が考慮すべき類似性測定値/非類似性測定値を学習する他の方法はありますか?αjαj\alpha_jαjαj\alpha_j ディメンションの数は残念ながら非常に多くなっています(数千以上。バッグオブワード機能から派生しています)。しかし、私は何万もの例を持っています。次に、クラスタ化したいオブジェクトが数十万あるので、優れた非類似度メトリックを学習するには、例から一般化することが重要です。 私はこれが半教師ありクラスタリングのルーブリックに該当することを収集します。これは「類似性適応」の傾向のように聞こえますが、この目的に使用するアルゴリズムの明確な説明を見つけることができませんでした。

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

2
モデリングでの出力変数の部分測定の使用
私の質問は次のとおりです。トレーニングセットで部分的に測定された出力データをどのように使用できますか?これは曖昧なので、風変わりな話で具体化します。 リスにはナッツがありますが、いくつですか? セットアップ 森にはリスのセットと木のセットがあります。リス はナットがあります。リスは、1本の木または森の中のさまざまな木にナッツを保管します。特定のリスがリスの重量と頬の容量などの入力機能から収集したナッツの数を予測したいと思います。SSSTTTsi∈Ssi∈Ss_i \in Sni∈Nni∈Nn_i \in N 研究フェーズ1: リスのサブセットを監視しました。彼らの測定値(体重と頬の容量)を取り、数えました 彼らが集めたナッツの数と 彼らがそれらを保管した何本の木 (例:リス#55は1つのツリーに5つのナッツ、別のツリーに10つのナッツ、別のツリーに500つのナッツ[3つのツリーは不明です]を保存しました) 研究フェーズ2: 木のサブセットを監視しました。リスが私たちの木の1つに到着したら、IDを付け(後で研究サブセットの別の木に行ったかどうかを知るため)、それらを測定し(体重と頬の容量)、落とした木の実の数を数えました。これにより、リスのサブセットの部分的なナットコレクションが測定されました。 (たとえば、ツリー#23では、リス#99から10個、リス#88から50個、ツリー#24では50個のナッツを収集しました...) (重要な注意:リスIDはフェーズ間で保持されません。) 質問 フェーズ2のリスのナットの総数をモデル化するとします。モデリングの結果を増やすために、それらの部分ナット測定をどのように使用できますか? さらに、部分的に測定された出力をトレーニングセットにどのように導入できますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.