データサイエンス predictive-modeling

8

ロジックは、モデルを過剰適合させると、一般化する能力が制限されることをしばしば述べていますが、これは、過剰適合は、特定の複雑さの後にモデルの改善を止めることを意味するにすぎません。過剰適合は、データの複雑さに関係なく、モデルを悪化させますか？もしそうなら、なぜそうなのですか？関連：上記の質問「モデルはいつ適合しませんか？」のフォローアップ

49 machine-learning predictive-modeling

4

新しい観察結果が利用可能な場合、モデルを再トレーニングする必要がありますか？

ですから、このテーマに関する文献を見つけることはできませんでしたが、考えてみる価値のあるもののようです。新しい観察結果が利用可能な場合のモデルのトレーニングと最適化のベストプラクティスは何ですか？予測が低下し始める前にモデルを再トレーニングする期間/頻度を決定する方法はありますか？集約されたデータに対してパラメーターが再最適化されると、過剰適合になりますか？学習は必ずしもオンラインであるとは限らないことに注意してください。最近の予測で大幅な変動を観察した後、既存のモデルをアップグレードすることもできます。

28 machine-learning predictive-modeling optimization training

1

LSTMを使用した時系列予測：時系列を静止させることの重要性

定常性と差分に関するこのリンクでは、ARIMAのようなモデルは平均、分散、自己相関などの統計的特性が時間とともに一定であるため、予測には定常化された時系列が必要であると述べられています。RNNは非線形関係を学習する能力が優れているため（ここでの説明：時系列予測のためのリカレントニューラルネットワークの約束）、データが大きい場合は従来の時系列モデルよりも優れたパフォーマンスを発揮するため、定常化の方法を理解することが不可欠ですデータは結果に影響します。答えを知る必要がある質問は次のとおりです。従来の時系列予測モデルの場合、時系列データの定常性により、予測が容易になり、その理由と方法がわかります。 LSTMを使用して時系列予測モデルを構築する際、時系列データを固定することは重要ですか？もしそうなら、なぜですか？

21 deep-learning predictive-modeling time-series forecast lstm

2

Word2vecモデルを使用して単語を予測する

「??ドアを開くと、自動的に加熱が開始されます」という文が与えられます。 ??で可能な単語のリストを取得したい確率で。 word2vecモデルで使用される基本的な概念は、周囲のコンテキストが与えられた単語を「予測」することです。モデルが構築されたら、新しい文に対して予測タスクを実行するための正しいコンテキストベクトル操作は何ですか？それは単なる線形和ですか？ model.most_similar(positive=['When','I','open','the','door','it','starts' ,'heating','automatically'])

20 nlp predictive-modeling word-embeddings

5

機械学習で疎データと密データを結合してパフォーマンスを改善する

予測可能なスパースな特徴があり、また予測的ないくつかの濃い特徴があります。これらの機能を組み合わせて、分類器の全体的なパフォーマンスを改善する必要があります。今、これらを一緒にしようとすると、密な特徴が疎な特徴よりも支配する傾向があるため、密な特徴のみのモデルと比較してAUCが1％しか改善されません。誰かが同様の問題に遭遇しましたか？入力を本当に感謝します。私はすでに多くの異なる分類器、分類器の組み合わせ、特徴変換、異なるアルゴリズムでの処理を試しました。助けてくれてありがとう。編集：私はすでにコメントに記載されている提案を試しました。私が観察したのは、データのほぼ45％でスパースフィーチャが非常によく機能し、スパースフィーチャのみで約0.9のAUCが得られることですが、残りのものでは約0.75のAUCで密なフィーチャが良好に機能します。これらのデータセットを分離しようとしましたが、AUCが0.6になるため、モデルを単純にトレーニングして使用する機能を決定することはできません。コードスニペットに関して、私は非常に多くのことを試しましたので、何を正確に共有すべきかわかりません:(

17 machine-learning classification predictive-modeling scikit-learn supervised-learning

5

シーボーンヒートマップを大きくする

corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか？

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

3

xgboostの確率を予測する方法は？

以下の予測関数は-ve値も提供しているため、確率にはなりません。 param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) グーグルで試しましたpred_s <- predict(bst, x_mat_s2,type="response") が、うまくいきませんでした。質問代わりに確率を予測する方法は？

16 machine-learning r predictive-modeling decision-trees

3

なぜアンサンブルはそれほど不当に効果的ですか

学習者の集団が可能な限り最高のモデル結果をもたらすことは公理的になったようです。たとえば、単一モデルがKaggleなどの競争に勝つ場合は、はるかにまれになっています。アンサンブルが非常に効果的である理由について理論的な説明はありますか？

14 machine-learning data-mining predictive-modeling

1

ハッシュトリック-実際に何が起こるか

MLアルゴリズム、たとえばVowpal Wabbitや、クリックスルーレートコンペティション（Kaggle）に勝ついくつかの因数分解マシンが、機能が「ハッシュ化されている」と言及するとき、実際にはモデルにとって何を意味するのでしょうか？インターネットアドのIDを表す変数があり、「236BG231」などの値をとるとしましょう。次に、この機能がランダムな整数にハッシュされることを理解しています。しかし、私の質問は：モデルで現在使用されている整数（整数（数値）またはハッシュされた値は、実際にはまだカテゴリー変数のように扱われ、ワンホットエンコードされていますか？したがって、ハッシュのトリックは、単に大きなデータで何らかの形でスペースを節約することですか？

12 machine-learning predictive-modeling kaggle

1

LSTMセルはいくつ使用すればよいですか？

使用する必要があるLSTMセルの最小、最大、および「妥当な」量に関する経験則（または実際の規則）はありますか？具体的には、TensorFlowとプロパティのBasicLSTMCellに関連していnum_unitsます。私が定義する分類問題があると仮定してください： t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples たとえば、トレーニングの例の数は次の数よりも多い必要がありますか？ 4*((n+1)*m + m*m)*c cセルの数はどこですか？これに基づいています：LSTMネットワークのパラメーターの数を計算する方法？私が理解しているように、これはパラメータの総数を与えるはずであり、トレーニング例の数よりも少なくなければなりません。

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

3

Python用のすぐに使える優れた言語モデルはありますか？

私はアプリケーションのプロトタイプを作成していますが、生成されたいくつかの文の複雑さを計算するための言語モデルが必要です。すぐに使用できるPythonのトレーニング済み言語モデルはありますか？のような単純なもの model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 一部のフレームワークを確認しましたが、必要なものが見つかりませんでした。私は次のようなものを使用できることを知っています： from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) これはブラウンコーパスの優れたチューリング確率分布を使用していますが、1bワードデータセットなどの大きなデータセットで巧妙に作成されたモデルを探していました。一般的なドメイン（ニュースだけでなく）の結果を実際に信頼できるもの

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

4

ランダムフォレストでの過剰適合を回避する方法は？

無作為の森での過剰適合を避けたいです。この点で、mtry、nodesize、maxnodesなどを使用するつもりです。これらのパラメーターの値を選択するのを手伝っていただけませんか？私はRを使用しています。また、可能であれば、ランダムフォレスト（R）に対してk分割交差検証を使用する方法を教えてください。

11 machine-learning data-mining r predictive-modeling random-forest

3

回帰木は継続的に予測できますか？

ような滑らかな関数があるとしますf（x 、y）= x2+ y2f(x,y)=x2+y2f(x, y) = x^2+y^2。トレーニングセットそしてもちろん、私は知りませんが、どこでもを評価できます。F FD ⊊ { （（X 、Y）、f（x 、y））| （x 、y）∈ R2}D⊊{((x,y),f(x,y))|(x,y)∈R2}D \subsetneq \{((x, y), f(x,y)) | (x,y) \in \mathbb{R}^2\}ffffff 回帰木は関数の滑らかなモデルを見つけることができますか（したがって、入力の小さな変化は出力の小さな変化のみを与えるはずです）？講義10：回帰ツリーで読んだことから、回帰ツリーは基本的に関数値をビンに入れるように見えます：従来の回帰木の場合、各セルのモデルは、Yの一定の推定値です。彼らが「クラシック」と書いているとき、細胞がより興味深い何かをするバリアントがあると思いますか？

11 predictive-modeling regression decision-trees

3

マルチパーティシステムでの選挙の結果を計算するために使用する回帰

議会選挙の結果を予測したい。私の出力は、各当事者が受け取る％になります。3つ以上の関係者がいるため、ロジスティック回帰は実行可能なオプションではありません。パーティごとに個別の回帰を行うこともできますが、その場合、結果は何らかの形で互いに独立しています。結果の合計が100％になるとは限りません。どの回帰（または他の方法）を使用する必要がありますか？特定のライブラリを介してRまたはPythonでこのメソッドを使用することは可能ですか？

11 classification r python regression predictive-modeling

3

KS、AUROC、およびGiniの関係

コルモゴロフ–スミルノフ検定（KS）、AUROC、ジニ係数などの一般的なモデル検証統計はすべて機能的に関連しています。しかし、私の質問は、これらがすべて関連していることを証明することに関係しています。誰かがこれらの関係を証明するのを手伝ってくれる人がいるかどうか知りたいです。私はオンラインで何も見つけることができませんでしたが、証明がどのように機能するかについて本当に興味があります。たとえば、私はGini = 2AUROC-1を知っていますが、私の最良の証明はグラフを指すことです。正式な証明に興味があります。どんな助けでも大歓迎です！

11 data-mining statistics predictive-modeling accuracy

タグ付けされた質問 「predictive-modeling」

タグ付けされた質問「predictive-modeling」