タグ付けされた質問 「feature-construction」


3
ニューラルネットワークのトレーニングのためにカテゴリ型入力機能と連続入力機能を組み合わせる方法
カテゴリー型と連続型の2種類の入力特徴があるとします。カテゴリカルデータはワンホットコードAとして表すことができますが、連続データはN次元空間の単なるベクトルBです。A、Bはまったく異なる種類のデータであるため、単にconcat(A、B)を使用することは適切な選択ではないようです。たとえば、Bとは異なり、Aには番号順がありません。私の質問は、このような2種類のデータをどのように組み合わせるか、またはそれらを処理する従来の方法があるかどうかです。 実際、私は写真に示されているような素朴な構造を提案しています ご覧のように、最初のいくつかのレイヤーは、データAを連続空間の中間出力に変更(またはマップ)するために使用され、データBと連結されて、後のレイヤーの連続空間で新しい入力フィーチャを形成します。それが妥当なのか、それとも単なる「試行錯誤的な」ゲームなのか。ありがとうございました。

4
これは特徴エンジニアリングの良い習慣ですか?
機能エンジニアリングについて実際的な質問があります...ロジスティック回帰を使用して住宅価格を予測し、郵便番号を含む一連の機能を使用したいとします。次に、機能の重要度を確認したところ、zipはかなり優れた機能であることがわかったので、zipに基づいていくつかの機能を追加することにしました。各ジップの病院の。これらの4つの新機能により、モデルのパフォーマンスが向上しました。だから私はさらにzip関連の機能を追加します...そしてこのサイクルが繰り返されます。最終的に、モデルはこれらのzip関連の機能によって支配されますよね? 私の質問: そもそもこれらを行うことには意味がありますか? はいの場合、このサイクルを停止するのに適切なタイミングを知るにはどうすればよいですか? そうでない場合、なぜでしょうか?

2
テストデータの機能がトレーニングデータよりも少ない場合はどうすればよいですか?
店舗の売上を予測していて、トレーニングデータに2つの機能セットがあるとします。 日付のある店舗の売上に関する1つ(「店舗」フィールドは一意ではありません) 店舗タイプに関する1つ(「店舗」フィールドはここでは一意です) したがって、マトリックスは次のようになります。 +-------+-----------+------------+---------+-----------+------+-------+--------------+ | Store | DayOfWeek | Date | Sales | Customers | Open | Promo | StateHoliday | +-------+-----------+------------+---------+-----------+------+-------+--------------+ | 1 | 5 | 2015-07-31 | 5263.0 | 555.0 | 1 | 1 | 0 | | 2 | 5 | 2015-07-31 | 6064.0 | 625.0 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.