タグ付けされた質問 「sampling」

4
ノイズ対照推定(NCE)損失の直感的な説明?
これら2つのソースからNCE(候補サンプリングの形式)について読みました。 テンソルフローの評価 オリジナルペーパー 誰かが次のことで私を助けることができます: NCEの仕組みの簡単な説明(上記を解析して理解するのは難しいことがわかったので、そこに提示された数学につながる直感的なものは素晴らしいでしょう) 上記のポイント1の後、これがネガティブサンプリングとどのように異なるかについての自然に直感的な説明。数式にわずかな変更があることがわかりますが、数学を理解できませんでした。ネガティブサンプリングのコンテキストでの直感的な理解はありword2vecます。ボキャブラリーからランダムにいくつかのサンプルを選択し、Vそれらのみを更新するため|V|、サイズが大きくなり、高速化が実現します。間違っている場合は修正してください。 どちらをいつ使用するか、どのように決定されますか?例を含めることができれば素晴らしいと思います(アプリケーションを理解しやすいかもしれません) NCEはネガティブサンプリングより優れていますか?どのような方法で良いですか? ありがとうございました。

2
train_test_split()エラー:サンプル数が一致しない入力変数が見つかりました
Pythonはかなり新しいですが、いくつかの分類データに基づいて最初のRFモデルを構築します。すべてのラベルをint64数値データに変換し、numpy配列としてXおよびYにロードしましたが、モデルをトレーニングしようとするとエラーが発生します。 配列は次のようになります。 >>> X = np.array([[df.tran_cityname, df.tran_signupos, df.tran_signupchannel, df.tran_vmake, df.tran_vmodel, df.tran_vyear]]) >>> Y = np.array(df['completed_trip_status'].values.tolist()) >>> X array([[[ 1, 1, 2, 3, 1, 1, 1, 1, 1, 3, 1, 3, 1, 1, 1, 1, 2, 1, 3, 1, 3, 3, 2, 3, 3, 1, 1, 1, 1], [ 0, 5, …

1
層別サンプリングは必要ですか(ランダムフォレスト、Python)?
Pythonを使用して、不均衡なデータセットでランダムフォレストモデルを実行します(ターゲット変数はバイナリクラスでした)。トレーニングデータセットとテストデータセットを分割するとき、階層化されたサンプリング(表示されているコードなど)を使用するかどうかに苦労しました。これまでのところ、プロジェクトで層別化されたケースがより高いモデルのパフォーマンスにつながることを観察しました。しかし、現在のデータセットとターゲットクラスの分布が非常に異なる可能性が高い新しいケースを予測するためにモデルを使用すると思います。そこで、私はこの制約を緩め、階層化されていないスプリットを使用する傾向がありました。誰でもこの点を明確にするためにアドバイスできますか? train,test=train_test_split(myDataset, test_size=0.25, stratify=y)

1
ランダムフォレストを使用してサンプリングするフィーチャの数
Wikipediaのページ引用符「統計的学習の要素は、」言います: 通常、特徴を持つ分類問題の 場合、各分割で特徴が使用されます。ppp⌊p–√⌋⌊p⌋\lfloor \sqrt{p}\rfloor 私はこれがかなり良い教育された推測であり、おそらく経験的証拠によって確認されたことを理解していますが、平方根を選ぶ他の理由はありますか?そこで起こっている統計現象はありますか? これは何らかの形でエラーの分散を減らすのに役立ちますか? これは回帰と分類で同じですか?

3
クラスのバランスが取れていない場合、検証/テストデータセットでサンプリングを使用する必要がありますか?
私は機械学習の初心者であり、状況に直面しています。IPinYouデータセットを使用してリアルタイム入札の問題に取り組んでおり、クリック予測をしようとしています。 知っているかもしれませんが、データセットは非常に不均衡です。1つのポジティブな例(クリック)に対して約1300のネガティブな例(クリックなし)です。 これが私がすることです: データを読み込む データセットを3つのデータセットに分割します。A=トレーニング(60%)B =検証(20%)C =テスト(20%) 各データセット(A、B、C)について、比率が5になるように各ネガティブクラスでアンダーサンプリングを行います(1つのポジティブな例に対して5つのネガティブな例)。これにより、よりバランスのとれた3つの新しいデータセットが得られます。A 'B' C ' 次に、データセットA 'とロジスティック回帰を使用してモデルをトレーニングします。 私の質問は: どのデータセットを検証に使用する必要がありますか?BまたはB '? どのデータセットをテストに使用する必要がありますか?CまたはC ' モデルの評価に最も関連するメトリックはどれですか?F1Scoreはよく使用されるメトリックのようです。しかし、ここでは不均衡なクラスのため(データセットBとCを使用する場合)、精度は低く(0.20未満)、F1Scoreは低いリコール/精度の影響を非常に受けます。aucPRまたはaucROCを使用する方が正確ですか? 学習曲線をプロットする場合、どのメトリックスを使用すればよいですか?(検証にB 'データセットを使用する場合、%errorは関係ないことを知っています) お時間をいただきありがとうございます! よろしく。

2
データの不均衡を処理する必要があるのはなぜですか?
データの不均衡に対処する必要がある理由を知る必要があります。私はそれをどのように扱うか、アップサンプリングまたはダウンサンプリング、またはSmoteを使用することで問題を解決するためのさまざまな方法を知っています。 たとえば、100のうち1%のまれな疾患があり、トレーニングセットに50/50サンプルのバランスのとれたデータセットを使用することに決めたとします。疾患?比率が100分の1であっても。 データの不均衡に対処する必要があるのはなぜですか? バランスを設定するための推奨比率は何ですか

1
LSTMセルはいくつ使用すればよいですか?
使用する必要があるLSTMセルの最小、最大、および「妥当な」量に関する経験則(または実際の規則)はありますか?具体的には、TensorFlowとプロパティのBasicLSTMCellに関連していnum_unitsます。 私が定義する分類問題があると仮定してください: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples たとえば、トレーニングの例の数は次の数よりも多い必要がありますか? 4*((n+1)*m + m*m)*c cセルの数はどこですか?これに基づいています:LSTMネットワークのパラメーターの数を計算する方法?私が理解しているように、これはパラメータの総数を与えるはずであり、トレーニング例の数よりも少なくなければなりません。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

3
Python用のすぐに使える優れた言語モデルはありますか?
私はアプリケーションのプロトタイプを作成していますが、生成されたいくつかの文の複雑さを計算するための言語モデルが必要です。 すぐに使用できるPythonのトレーニング済み言語モデルはありますか?のような単純なもの model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 一部のフレームワークを確認しましたが、必要なものが見つかりませんでした。私は次のようなものを使用できることを知っています: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) これはブラウンコーパスの優れたチューリング確率分布を使用していますが、1bワードデータセットなどの大きなデータセットで巧妙に作成されたモデルを探していました。一般的なドメイン(ニュースだけでなく)の結果を実際に信頼できるもの
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

3
データセットを不均衡と見なす必要があるのはいつですか?
データセット内の正と負の例の数が不均衡な状況に直面しています。 私の質問は、データセットである種のバランシングを強制するために大きなカテゴリをサブサンプリングする必要があるときを教えてくれる経験則がありますか? 例: 正の例の数が1,000で負の例の数が10,000の場合、データセット全体で分類器をトレーニングする必要がありますか、それとも負の例をサブサンプリングする必要がありますか? 1,000の正の例と100,000の負の例についても同じ質問です。 10,000人が肯定的で1,000人が否定的である場合も同じ質問です。 等...

2
交差検証:K分割と反復ランダムサブサンプリング
分類問題のためにどのタイプのモデル交差検証を選択するのか、Kフォールドかランダムサブサンプリング(ブートストラップサンプリング)か? 私の推測では、トレーニングにはデータセットの2/3(約1000アイテム)を使用し、検証には1/3を使用します。 この場合、Kフォールドは3回の反復(フォールド)しか提供しないため、安定した平均誤差を確認するには不十分です。 一方、ランダムサブサンプリング機能は好きではありません。一部の項目はトレーニング/検証の対象として選択されず、一部は複数回使用されます。 使用される分類アルゴリズム:ランダムフォレストとロジスティック回帰。

3
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.