データサイエンス kaggle

3

私はkaggleコンテストに参加しています。データセットには約100個のフィーチャがあり、すべてが（実際にそれらが表すものに関して）不明です。基本的にそれらは単なる数字です。これらの機能に対して多くの機能エンジニアリングが行われています。未知の機能に対してどのように機能エンジニアリングを実行できるのでしょうか？誰かがこれを理解するのを助けてもらえますか？また、未知の機能に対して機能エンジニアリングを実行する方法に関するヒントがありますか？

19 machine-learning feature-selection feature-extraction feature-engineering kaggle

5

シーボーンヒートマップを大きくする

corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか？

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

3

歪んだデータを正規分布に変換する理由

Kaggle（住宅価格に関するヒューマンアナログのカーネル：Advance Regression Techniques）での住宅価格競争の解決策を経験していて、この部分に出会いました： # Transform the skewed numeric features by taking log(feature + 1). # This will make the features more normal. from scipy.stats import skew skewed = train_df_munged[numeric_features].apply(lambda x: skew(x.dropna().astype(float))) skewed = skewed[skewed > 0.75] skewed = skewed.index train_df_munged[skewed] = np.log1p(train_df_munged[skewed]) test_df_munged[skewed] = np.log1p(test_df_munged[skewed]) 歪んだ分布を正規分布に変換する必要があるかどうかはわかりません。誰かが詳細に説明できますか：なぜこれがここで行われているのですか？またはこれはどのように役立ちますか？これは機能のスケーリングとどう違うのですか？これは機能エンジニアリングに必要なステップですか？この手順をスキップするとどうなりますか？

15 regression feature-extraction feature-engineering kaggle feature-scaling

1

ハッシュトリック-実際に何が起こるか

MLアルゴリズム、たとえばVowpal Wabbitや、クリックスルーレートコンペティション（Kaggle）に勝ついくつかの因数分解マシンが、機能が「ハッシュ化されている」と言及するとき、実際にはモデルにとって何を意味するのでしょうか？インターネットアドのIDを表す変数があり、「236BG231」などの値をとるとしましょう。次に、この機能がランダムな整数にハッシュされることを理解しています。しかし、私の質問は：モデルで現在使用されている整数（整数（数値）またはハッシュされた値は、実際にはまだカテゴリー変数のように扱われ、ワンホットエンコードされていますか？したがって、ハッシュのトリックは、単に大きなデータで何らかの形でスペースを節約することですか？

12 machine-learning predictive-modeling kaggle

1

LSTMセルはいくつ使用すればよいですか？

使用する必要があるLSTMセルの最小、最大、および「妥当な」量に関する経験則（または実際の規則）はありますか？具体的には、TensorFlowとプロパティのBasicLSTMCellに関連していnum_unitsます。私が定義する分類問題があると仮定してください： t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples たとえば、トレーニングの例の数は次の数よりも多い必要がありますか？ 4*((n+1)*m + m*m)*c cセルの数はどこですか？これに基づいています：LSTMネットワークのパラメーターの数を計算する方法？私が理解しているように、これはパラメータの総数を与えるはずであり、トレーニング例の数よりも少なくなければなりません。

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

2

トレーニングセットに負のy値がない場合、勾配ブースティング回帰は負の値を予測するのはなぜですか？

私は木の数を増やすと学ぶscikitさんGradientBoostingRegressor、私は私のトレーニングやテストセットには負の値が存在しないにもかかわらず、多くの負の予測を取得します。私は約10の機能を持っていますが、そのほとんどはバイナリです。私が調整していたパラメーターのいくつかは次のとおりです。木/反復の数; 深さを学ぶ; そして学習率。負の値のパーセンテージは、最大で2％のようです。学習深度1（切り株）は、負の値の最大の％を持っているように見えました。このパーセンテージは、ツリーが多く、学習率が小さいほど増加するように見えました。データセットは、kaggle遊び場コンテストの1つからのものです。私のコードは次のようなものです： from sklearn.ensemble import GradientBoostingRegressor X_train, X_test, y_train, y_test = train_test_split(X, y) reg = GradientBoostingRegressor(n_estimators=8000, max_depth=1, loss = 'ls', learning_rate = .01) reg.fit(X_train, y_train) ypred = reg.predict(X_test)

8 machine-learning python algorithms scikit-learn kaggle

タグ付けされた質問 「kaggle」

タグ付けされた質問「kaggle」