タグ付けされた質問 「data-preprocessing」

1
Scikit-learnでのワンホットエンコーディングとダミーエンコーディング
カテゴリー変数をエンコードするには、2つの異なる方法があります。たとえば、1つのカテゴリ変数にn個の値があります。ワンホットエンコーディングに変換してN個の変数ながらダミーコードへと変換し、N-1の変数。カテゴリ変数がk個あり、それぞれにn個の値がある場合。1つのホットエンコーディングはkn変数で終わり、ダミーエンコーディングはkn-k変数で終わります。 ワンホットエンコーディングの場合、インターセプトにより共線性の問題が発生し、モデルが正常に機能しないことがあります。誰かがそれを「ダミー変数トラップ」と呼びます。 私の質問: Scikit-learnの線形回帰モデルにより、ユーザーはインターセプトを無効にできます。ワンホットエンコーディングの場合、常にfit_intercept = Falseを設定する必要がありますか?ダミーエンコーディングの場合、fit_interceptは常にTrueに設定する必要がありますか?ウェブサイトに「警告」は表示されません。 ワンホットエンコーディングではより多くの変数が生成されるため、ダミーエンコーディングよりも自由度が高くなりますか?

2
ランダムフォレストでは、入力変数をスケーリングまたは中央揃えする必要がありますか?
入力変数の次元は異なります。一部の変数は10進数ですが、一部の変数は数百です。ランダムフォレストを使用する場合、データを無次元化するために、これらの入力変数を中央に置く(平均を引く)か、スケーリング(標準偏差で除算)することが不可欠ですか?

2
ニューラルネット:ワンホット変数圧倒的連続?
約20列(20フィーチャ)の未加工データがあります。それらのうちの10個は連続データであり、10個はカテゴリカルです。一部のカテゴリデータには、50個の異なる値(米国の州)が含まれる場合があります。データを前処理した後、10個の連続した列が10個の準備された列になり、10個のカテゴリ値が200個のワンホットエンコード変数のようになります。これらの200 + 10 = 210の機能すべてをニューラルネットに入れると、200の1ホットフィーチャ(10のカテゴリ列)が10の連続フィーチャを完全に支配するのではないかと心配しています。 おそらく、1つの方法は、列などを「グループ化」することです。これは有効な懸念事項ですか?この問題に対処する標準的な方法はありますか? (私はKerasを使用していますが、それほど重要ではないと思います。)

3
ワンホットエンコーディングが必要なアルゴリズムは何ですか?
順序付けされていないカテゴリ変数にワンホットエンコーディングをいつ使用するか、いつ使用しないかはわかりません。アルゴリズムが距離メトリックを使用して類似性を計算するときはいつでもそれを使用します。順序付けされていないカテゴリカル機能をワンホットエンコードする必要があるアルゴリズムのタイプと、そうでないアルゴリズムについて、一般的な経験則を教えてください。

1
トレイン/有効/テストセットの平均の減算に関する質問
私はデータの前処理を行っており、後でデータにConvonetsを構築します。 私の質問は、100個の画像を含む合計データセットがあるとします。100個の画像のそれぞれについて平均を計算し、それを各画像から差し引いて、これをトレーニングセットと検証セットに分割しました。特定のテストセットで処理する手順ですが、このリンクによると、これは正しい方法ではないようです。http://cs231n.github.io/neural-networks-2/#datapre " 一般的な落とし穴。前処理に関して重要なポイントは、前処理の統計情報(データ平均など)はトレーニングデータでのみ計算し、検証/テストデータに適用する必要があることです。たとえば、平均の計算とそれからの減算データセット全体のすべての画像と、データをtrain / val / test分割に分割するのは誤りです。代わりに、平均はトレーニングデータに対してのみ計算され、すべての分割から均等に減算される必要があります(train / val / test)。 」 著者が言っているのは、平均を計算して各画像内で減算せず、画像セット全体の平均(つまり(image1 + ... + image100)/ 100)を計算して平均を減算することだと思いますそれぞれの画像。 だれでも説明できるのかよくわかりません。また、おそらく私がやっていたことが間違っている理由を説明することもできます(実際に間違っている場合)。

2
バケット化とは何ですか?
私は、機械学習の「バケット化」について、運が悪ければ明確な説明を探して回りました。これまで私が理解しているのは、バケット化は、連続する値の範囲が1つの離散値に置き換えられるデジタル信号処理の量子化に似ているということです。これは正しいです? バケット化を適用することの長所と短所(情報を失うことによる明らかな影響以外)は何ですか?バケット化の適用方法に関する経験則はありますか?機械学習を適用する前にバケット化を適用するためのガイドライン/アルゴリズムはありますか?

2
多くの人が、歪んだデータを機械学習アプリケーション用の通常の分散データに変換したいのはなぜですか?
画像および表形式のデータの場合、多くの人が、前処理中に歪んだデータを正規分布データに変換します。 機械学習における正規分布とはどういう意味ですか?それは機械学習アルゴリズムの本質的な仮定ですか? 画像データでさえ、画像のピクセル全体を正規分布または均一分布に従うように変換する分位変換を見てきました。 私は1つの理由を考えることができます:外れ値の影響を回避するため。しかし、これらの変換はデータの元の分布を歪めます。 なぜ正規分布が機械学習にとって非常に重要で、多くの前処理にこのステップが含まれているのですか?

1
スパースカテゴリカルクロスエントロピー多分類モデルへの入力用にデータを準備する方法[終了]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新することがありますので、話題のクロス検証済みのため。 2年前休業。 だから私は日付やツイート自体などのいくつかの列を含むツイートのセットをいくつか持っていますが、2つの列を使用してモデルを構築したいです(感情&株価)感情分析は各ツイートで実行され、株式私のDBではそれらの隣にそのような価格: +--------------------+-------------+ | sentiment | stock_price | +--------------------+-------------+ | 0.0454545454545455 | 299.82 | | 0.0588235294117647 | 299.83 | | 0.0434782608695652 | 299.83 | | -0.0625 | 299.69 | | 0.0454545454545455 | 299.7 | +--------------------+-------------+ sparse_categorical_crossentropyの入力用にこのデータを準備するにはどうすればよいですか?私はつぶやきの感情を取得し、それらと株価の相関関係を見つけることができるようにしたいと考えています。出力ラベルを高、低、低にしたいのですが、方法がわかりません。これまでのところ、モデルを作成しましたが、入力データを正しくフォーマットしたかどうかわかりません しかし、モデルをトレーニングすると、これが出力として得られます。 入力データについて、精度と検証精度が変わらないのは何ですか?これは過剰適合の兆候のようです。ドロップアウトレイヤーを追加しようとしましたが、機能しません。どうすれば修正できますか?どこが間違っているのですか? 株価のデータは、自分の1つのホットエンコーディングのように1/0 / -1を使用して、株価がまだ上がっているか下がっているのかを示すようにしました。 Name: pct_chg, dtype: float64 0 0.0 …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.