タグ付けされた質問 「feature-scaling」

3
入力データの機能変換
私はこのOTTO Kaggleチャレンジのソリューションについて読んでいましたが、そもそもソリューションは入力データXにいくつかの変換、たとえばLog(X + 1)、sqrt(X + 3/8)などを使用しているようです。どの種類の変換をさまざまな分類子に適用するかに関する一般的なガイドラインは? 平均値と最小値と正規化の概念を理解しています。ただし、上記の変換では、データのダイナミックレンジを圧縮するためにLogとSqrtが使用されていると思います。また、x軸のシフトはデータを再センタリングするためのものです。ただし、著者は、異なる分類器に入力する場合、同じ入力Xに対して異なる正規化方法を使用することを選択します。何か案は?

3
周期的順序属性を変換する良い方法は何ですか?
属性として「時間」フィールドがありますが、周期的な値を取ります。「23」や「0」時間などの情報を保持するように機能を変換するにはどうすればよいでしょうか。 私が考えることができる1つの方法は、変換を行うことです: min(h, 23-h) Input: [0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23] Output: [0 1 2 3 4 5 6 7 8 9 10 11 11 10 9 8 7 6 5 4 …

1
1つのホットベクトルを数値属性でスケーリングする必要があります
カテゴリ属性と数値属性の組み合わせを持つ場合、通常、カテゴリ属性を1つのホットベクトルに変換します。私の質問は、それらのベクトルをそのままにして、標準化/正規化を通じて数値属性をスケーリングするのですか、それとも数値属性とともに1つのホットベクトルをスケーリングするのですか?

1
経度/緯度機能を扱う方法[終了]
閉じた。この質問には詳細または明確さが必要です。現在、回答を受け付けていません。 この質問を改善したいですか?詳細を追加し、この投稿を編集して問題を明確にします。 閉じた3年前。 25個の機能を持つ架空のデータセットに取り組んでいます。特徴の2つは場所の緯度と経度であり、その他はさまざまな範囲のpH値、標高、windSpeedなどです。他の機能で正規化を実行できますが、緯度/経度機能にどのようにアプローチしますか? 編集:これは、農業の収量を​​予測する問題です。緯度/経度は非常に重要だと思います。ロケーションは予測に不可欠であるため、ジレンマになります。

3
歪んだデータを正規分布に変換する理由
Kaggle(住宅価格に関するヒューマンアナログのカーネル:Advance Regression Techniques)での住宅価格競争の解決策を経験していて、この部分に出会いました: # Transform the skewed numeric features by taking log(feature + 1). # This will make the features more normal. from scipy.stats import skew skewed = train_df_munged[numeric_features].apply(lambda x: skew(x.dropna().astype(float))) skewed = skewed[skewed > 0.75] skewed = skewed.index train_df_munged[skewed] = np.log1p(train_df_munged[skewed]) test_df_munged[skewed] = np.log1p(test_df_munged[skewed]) 歪んだ分布を正規分布に変換する必要があるかどうかはわかりません。誰かが詳細に説明できますか: なぜこれがここで行われているのですか?またはこれはどのように役立ちますか? これは機能のスケーリングとどう違うのですか? これは機能エンジニアリングに必要なステップですか?この手順をスキップするとどうなりますか?


2
機能スケーリングの結果
私は現在SVMを使用しており、トレーニング機能を[0,1]の範囲にスケーリングしています。最初にトレーニングセットを適合/変換し、次に同じ変換をテストセットに適用します。例えば: ### Configure transformation and apply to training set min_max_scaler = MinMaxScaler(feature_range=(0, 1)) X_train = min_max_scaler.fit_transform(X_train) ### Perform transformation on testing set X_test = min_max_scaler.transform(X_test) トレーニングセットの特定のフィーチャの範囲が[0,100]であり、テストセットの同じフィーチャの範囲が[-10,120]であると仮定します。トレーニングセットでは、その機能は[0,1]に適切にスケーリングされますが、テストセットでは、その機能は[-0.1,1.2]のような最初に指定された範囲外の範囲にスケーリングされます。 テストセットの機能がモデルのトレーニングに使用されている機能の範囲外にあると、どのような結果になるのでしょうか。これは問題ですか?

2
データの線形回帰とスケーリング
次のプロットは、線形回帰で得られた係数を示しています(mpgターゲット変数として、その他すべてを予測子として)。 データをスケーリングする場合としない場合の両方のmtcarsデータセット(こことここ)の場合: これらの結果をどのように解釈しますか?変数hpとdispは、データがスケーリングされている場合にのみ重要です。あるamとqsec同様に重要であるかamよりも重要qsec?どちらの変数が重要な決定要因mpgか? あなたの洞察をありがとう。

3
ゼロ平均と単位分散
私はデータスケーリング、特に標準化手法を研究しています。私はその背後にある数学を理解しましたが、特徴にゼロ平均と単位分散を与えることが重要である理由がはっきりしません。 説明して頂けますか ?


4
さまざまな機能を持つデータシリーズからの予測
データポイントの機能が等しくない問題を調べています。 各インスタンスは、システム全体でのアイテムの進行を表します。それらの多くはエンドポイントまで進んでおり、他のものはまだ中間段階にあります。ステージ数は既知です(合計10)。各ステージに入る時間があります。重要なのは、彼らが最終段階に到達する時期を予測することです。 これを処理する方法はいくつかあります。決定木はこれを適切に処理できるかもしれません。ステージのエントリ時間が不明な場合でも、ステージのデータから妥当な予測を行うことができます。 誰かが私を正しい方向に向けることができますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.