タグ付けされた質問 「predictive-modeling」

結果を予測するために使用される統計的手法。

8
機械学習で過剰適合が悪いのはなぜですか?
ロジックは、モデルを過剰適合させると、一般化する能力が制限されることをしばしば述べていますが、これは、過剰適合は、特定の複雑さの後にモデルの改善を止めることを意味するにすぎません。過剰適合は、データの複雑さに関係なく、モデルを悪化させますか?もしそうなら、なぜそうなのですか? 関連:上記の質問「モデルはいつ適合しませんか?」のフォローアップ

4
新しい観察結果が利用可能な場合、モデルを再トレーニングする必要がありますか?
ですから、このテーマに関する文献を見つけることはできませんでしたが、考えてみる価値のあるもののようです。 新しい観察結果が利用可能な場合のモデルのトレーニングと最適化のベストプラクティスは何ですか? 予測が低下し始める前にモデルを再トレーニングする期間/頻度を決定する方法はありますか? 集約されたデータに対してパラメーターが再最適化されると、過剰適合になりますか? 学習は必ずしもオンラインであるとは限らないことに注意してください。最近の予測で大幅な変動を観察した後、既存のモデルをアップグレードすることもできます。

1
LSTMを使用した時系列予測:時系列を静止させることの重要性
定常性と差分に関するこのリンクでは、ARIMAのようなモデルは平均、分散、自己相関などの統計的特性が時間とともに一定であるため、予測には定常化された時系列が必要であると述べられています。RNNは非線形関係を学習する能力が優れているため(ここでの説明:時系列予測のためのリカレントニューラルネットワークの約束)、データが大きい場合は従来の時系列モデルよりも優れたパフォーマンスを発揮するため、定常化の方法を理解することが不可欠ですデータは結果に影響します。答えを知る必要がある質問は次のとおりです。 従来の時系列予測モデルの場合、時系列データの定常性により、予測が容易になり、その理由と方法がわかります。 LSTMを使用して時系列予測モデルを構築する際、時系列データを固定することは重要ですか?もしそうなら、なぜですか?

2
Word2vecモデルを使用して単語を予測する
「??ドアを開くと、自動的に加熱が開始されます」という文が与えられます。 ??で可能な単語のリストを取得したい 確率で。 word2vecモデルで使用される基本的な概念は、周囲のコンテキストが与えられた単語を「予測」することです。 モデルが構築されたら、新しい文に対して予測タスクを実行するための正しいコンテキストベクトル操作は何ですか? それは単なる線形和ですか? model.most_similar(positive=['When','I','open','the','door','it','starts' ,'heating','automatically'])

5
機械学習で疎データと密データを結合してパフォーマンスを改善する
予測可能なスパースな特徴があり、また予測的ないくつかの濃い特徴があります。これらの機能を組み合わせて、分類器の全体的なパフォーマンスを改善する必要があります。 今、これらを一緒にしようとすると、密な特徴が疎な特徴よりも支配する傾向があるため、密な特徴のみのモデルと比較してAUCが1%しか改善されません。 誰かが同様の問題に遭遇しましたか?入力を本当に感謝します。私はすでに多くの異なる分類器、分類器の組み合わせ、特徴変換、異なるアルゴリズムでの処理を試しました。 助けてくれてありがとう。 編集: 私はすでにコメントに記載されている提案を試しました。私が観察したのは、データのほぼ45%でスパースフィーチャが非常によく機能し、スパースフィーチャのみで約0.9のAUCが得られることですが、残りのものでは約0.75のAUCで密なフィーチャが良好に機能します。これらのデータセットを分離しようとしましたが、AUCが0.6になるため、モデルを単純にトレーニングして使用する機能を決定することはできません。 コードスニペットに関して、私は非常に多くのことを試しましたので、何を正確に共有すべきかわかりません:(

5
シーボーンヒートマップを大きくする
corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

3
xgboostの確率を予測する方法は?
以下の予測関数は-ve値も提供しているため、確率にはなりません。 param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) グーグルで試しましたpred_s <- predict(bst, x_mat_s2,type="response") が、うまくいきませんでした。 質問 代わりに確率を予測する方法は?


1
ハッシュトリック-実際に何が起こるか
MLアルゴリズム、たとえばVowpal Wabbitや、クリックスルーレートコンペティション(Kaggle)に勝ついくつかの因数分解マシンが、機能が「ハッシュ化されている」と言及するとき、実際にはモデルにとって何を意味するのでしょうか?インターネットアドのIDを表す変数があり、「236BG231」などの値をとるとしましょう。次に、この機能がランダムな整数にハッシュされることを理解しています。しかし、私の質問は: モデルで現在使用されている整数(整数(数値)または ハッシュされた値は、実際にはまだカテゴリー変数のように扱われ、ワンホットエンコードされていますか?したがって、ハッシュのトリックは、単に大きなデータで何らかの形でスペースを節約することですか?

1
LSTMセルはいくつ使用すればよいですか?
使用する必要があるLSTMセルの最小、最大、および「妥当な」量に関する経験則(または実際の規則)はありますか?具体的には、TensorFlowとプロパティのBasicLSTMCellに関連していnum_unitsます。 私が定義する分類問題があると仮定してください: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples たとえば、トレーニングの例の数は次の数よりも多い必要がありますか? 4*((n+1)*m + m*m)*c cセルの数はどこですか?これに基づいています:LSTMネットワークのパラメーターの数を計算する方法?私が理解しているように、これはパラメータの総数を与えるはずであり、トレーニング例の数よりも少なくなければなりません。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

3
Python用のすぐに使える優れた言語モデルはありますか?
私はアプリケーションのプロトタイプを作成していますが、生成されたいくつかの文の複雑さを計算するための言語モデルが必要です。 すぐに使用できるPythonのトレーニング済み言語モデルはありますか?のような単純なもの model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 一部のフレームワークを確認しましたが、必要なものが見つかりませんでした。私は次のようなものを使用できることを知っています: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) これはブラウンコーパスの優れたチューリング確率分布を使用していますが、1bワードデータセットなどの大きなデータセットで巧妙に作成されたモデルを探していました。一般的なドメイン(ニュースだけでなく)の結果を実際に信頼できるもの
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

4
ランダムフォレストでの過剰適合を回避する方法は?
無作為の森での過剰適合を避けたいです。この点で、mtry、nodesize、maxnodesなどを使用するつもりです。これらのパラメーターの値を選択するのを手伝っていただけませんか?私はRを使用しています。 また、可能であれば、ランダムフォレスト(R)に対してk分割交差検証を使用する方法を教えてください。

3
回帰木は継続的に予測できますか?
ような滑らかな関数があるとしますf(x 、y)= x2+ y2f(x,y)=x2+y2f(x, y) = x^2+y^2。トレーニングセットそしてもちろん、私は知りませんが、どこでもを評価できます。F FD ⊊ { ((X 、Y)、f(x 、y))| (x 、y)∈ R2}D⊊{((x,y),f(x,y))|(x,y)∈R2}D \subsetneq \{((x, y), f(x,y)) | (x,y) \in \mathbb{R}^2\}ffffff 回帰木は関数の滑らかなモデルを見つけることができますか(したがって、入力の小さな変化は出力の小さな変化のみを与えるはずです)? 講義10:回帰ツリーで読んだことから、回帰ツリーは基本的に関数値をビンに入れるように見えます: 従来の回帰木の場合、各セルのモデルは、Yの一定の推定値です。 彼らが「クラシック」と書いているとき、細胞がより興味深い何かをするバリアントがあると思いますか?

3
マルチパーティシステムでの選挙の結果を計算するために使用する回帰
議会選挙の結果を予測したい。私の出力は、各当事者が受け取る%になります。3つ以上の関係者がいるため、ロジスティック回帰は実行可能なオプションではありません。パーティごとに個別の回帰を行うこともできますが、その場合、結果は何らかの形で互いに独立しています。結果の合計が100%になるとは限りません。 どの回帰(または他の方法)を使用する必要がありますか?特定のライブラリを介してRまたはPythonでこのメソッドを使用することは可能ですか?

3
KS、AUROC、およびGiniの関係
コルモゴロフ–スミルノフ検定(KS)、AUROC、ジニ係数などの一般的なモデル検証統計はすべて機能的に関連しています。しかし、私の質問は、これらがすべて関連していることを証明することに関係しています。誰かがこれらの関係を証明するのを手伝ってくれる人がいるかどうか知りたいです。私はオンラインで何も見つけることができませんでしたが、証明がどのように機能するかについて本当に興味があります。たとえば、私はGini = 2AUROC-1を知っていますが、私の最良の証明はグラフを指すことです。正式な証明に興味があります。どんな助けでも大歓迎です!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.