タグ付けされた質問 「model-selection」

4
機能の数とインスタンスの数に関する「経験則」はありますか?(小さなデータセット)
特徴の数と観測の数の発見的方法があるかどうか疑問に思っています。明らかに、特徴の数が観測の数に等しい場合、モデルはオーバーフィットします。スパースメソッド(LASSO、エラスティックネット)を使用することで、いくつかの機能を削除してモデルを削減できます。 私の質問は(理論的に):メトリックを使用してモデル選択を評価する前に、最適な特徴数を観測数に関連付ける経験的観測はありますか? たとえば、各クラスに20個のインスタンスがあるバイナリ分類問題の場合、使用する機能の数に上限はありますか?

1
LSTMセルはいくつ使用すればよいですか?
使用する必要があるLSTMセルの最小、最大、および「妥当な」量に関する経験則(または実際の規則)はありますか?具体的には、TensorFlowとプロパティのBasicLSTMCellに関連していnum_unitsます。 私が定義する分類問題があると仮定してください: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples たとえば、トレーニングの例の数は次の数よりも多い必要がありますか? 4*((n+1)*m + m*m)*c cセルの数はどこですか?これに基づいています:LSTMネットワークのパラメーターの数を計算する方法?私が理解しているように、これはパラメータの総数を与えるはずであり、トレーニング例の数よりも少なくなければなりません。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

4
特徴選択方法のパフォーマンスを比較する方法は?
いくつかの特徴選択 /変数選択アプローチがあります(たとえば、Guyon&Elisseeff、2003 ; Liu et al。、2010を参照): フィルター方法(例:相関ベース、エントロピーベース、ランダムフォレスト重要度ベース)、 ラッパーメソッド(たとえば、前方検索、山登り検索)、および 特徴選択がモデル学習の一部である埋め込みメソッド。 公開されているアルゴリズムの多くは、R、Pythonなどの機械学習ツールにも実装されています。 異なる特徴選択アルゴリズムを比較し、特定の問題/データセットに最適な方法を選択するための適切な方法は何ですか?さらなる質問は、特徴選択アルゴリズムのパフォーマンスを測定する既知のメトリックがあるかどうかです。

2
科学者はどのようにして正しい隠れマルコフモデルのパラメーターとトポロジーを思い付きますか?
隠れマルコフモデルが、遺伝子の検索などのゲノムシーケンスでどのように使用されるかを理解しています。しかし、特定のマルコフモデルを考え出す方法がわかりません。つまり、モデルにはいくつの状態があるべきですか?可能な遷移はいくつありますか?モデルにループが必要ですか? 彼らは自分のモデルが最適であることをどのようにして知るのでしょうか? 彼らは、10の異なるモデルを想像し、それらの10のモデルをベンチマークして、最高のモデルを公開しますか?

3
数学の畳み込みとCNNの関係
畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか?gウェイトをかけるフィルターのような機能ですか?
10 machine-learning  neural-network  deep-learning  cnn  convolution  machine-learning  ensemble-modeling  machine-learning  classification  data-mining  clustering  machine-learning  feature-selection  convnet  pandas  graphs  ipython  machine-learning  apache-spark  multiclass-classification  naive-bayes-classifier  multilabel-classification  machine-learning  data-mining  dataset  data-cleaning  data  machine-learning  data-mining  statistics  correlation  machine-learning  data-mining  dataset  data-cleaning  data  beginner  career  python  r  visualization  machine-learning  data-mining  nlp  stanford-nlp  dataset  linear-regression  time-series  correlation  anomaly-detection  ensemble-modeling  data-mining  machine-learning  python  data-mining  recommender-system  machine-learning  cross-validation  model-selection  scoring  prediction  sequential-pattern-mining  categorical-data  python  tensorflow  image-recognition  statistics  machine-learning  data-mining  predictive-modeling  data-cleaning  preprocessing  classification  deep-learning  tensorflow  machine-learning  algorithms  data  keras  categorical-data  reference-request  loss-function  classification  logistic-regression  apache-spark  prediction  naive-bayes-classifier  beginner  nlp  word2vec  vector-space-models  scikit-learn  decision-trees  data  programming 

2
本番環境の機械学習モデル
利用可能なラベル付きデータを使用して、モデルが日付にトレーニングされ、トレーニングとテストに分割されたとしましょう。すなわち、t r a i n d t 1、t e s t d t 1です。次に、このモデルが本番環境にデプロイされ、新しい受信データを予測します。一部のX日通過との間に収集された標識されたデータの束が存在するD 、T 1及びD T 1 + X日は、それを呼び出すことができますD A T A Xdt1dt1dt1traindt1traindt1train_{dt1}testdt1testdt1test_{dt1}XXXdt1dt1dt1dt1+Xdt1+Xdt1 + XDataxDataxData_x。私の現在のアプローチでは、私は外のランダムなサンプルを取る (80/20スプリットを例えばのために取ります)、DATAxDATAxDATA_x したがって、 のD A T A x = t r a i n x(d t 1でトレーニングされた既存のモデルを微調整するために使用される新しいデータ) 20 %のD A T A x = t …

3
入れ子の交差検証と最適な回帰モデルの選択-これは正しいSKLearnプロセスですか?
正しく理解していれば、入れ子になったCVは、どのモデルとハイパーパラメーターのチューニングプロセスが最適かを評価するのに役立ちます。内側のループ(GridSearchCV)は最適なハイパーパラメーターを見つけ、外側のループ()はハイパーパラメーターcross_val_score調整アルゴリズムを評価します。次にmse、最終的なモデルテストで最小化する(回帰分類器を調べている)外側のループから、どのチューニング/モデルコンボを選択するかを決定します。 ネストされた相互検証に関する質問/回答を読みましたが、これを利用する完全なパイプラインの例を見たことはありません。それで、以下の私のコード(実際のハイパーパラメータ範囲は無視してください-これは単なる例です)と思考プロセスは理にかなっていますか? from sklearn.cross_validation import cross_val_score, train_test_split from sklearn.grid_search import GridSearchCV from sklearn.metrics import mean_squared_error from sklearn.ensemble import RandomForestRegressor from sklearn.svm import SVR from sklearn.datasets import make_regression # create some regression data X, y = make_regression(n_samples=1000, n_features=10) params = [{'C':[0.01,0.05,0.1,1]},{'n_estimators':[10,100,1000]}] # setup models, variables mean_score = [] models = [SVR(), …

2
モデルの解釈可能性とモデルの予測力のトレードオフを平易な言葉でどのように説明しますか?
データと質問に依存することはわかっていますが、特定のデータセットに対して、かなり複雑な非線形モデル(ただし解釈が難しい)を使用して、より優れた予測能力を提供できるシナリオを想像してください。データ内、または予測力は低くても解釈が簡単な単純なモデル(おそらく線形モデルなど)を持っています。これは、機械学習モデルを解釈する方法についてのアイデアを議論する非常に良い投稿です。 業界は非常に慎重ですが、より複雑なモデルの採用に徐々に関心を寄せています。それでも彼らはトレードオフを明確に知りたいですか?データサイエンティストは、おそらくデータチームと意思決定者の間に座っている人であり、これらのことを素人の言葉で説明できる必要があることがよくあります。 私はここでブレインストーミングをして、このようなトレードオフを非技術者に説明するためにどのような類推を思いつくかを確認しようとしていますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.