店舗の売上を予測していて、トレーニングデータに2つの機能セットがあるとします。
- 日付のある店舗の売上に関する1つ(「店舗」フィールドは一意ではありません)
- 店舗タイプに関する1つ(「店舗」フィールドはここでは一意です)
したがって、マトリックスは次のようになります。
+-------+-----------+------------+---------+-----------+------+-------+--------------+
| Store | DayOfWeek | Date | Sales | Customers | Open | Promo | StateHoliday |
+-------+-----------+------------+---------+-----------+------+-------+--------------+
| 1 | 5 | 2015-07-31 | 5263.0 | 555.0 | 1 | 1 | 0 |
| 2 | 5 | 2015-07-31 | 6064.0 | 625.0 | 1 | 1 | 0 |
| 3 | 5 | 2015-07-31 | 8314.0 | 821.0 | 1 | 1 | 0 |
| 4 | 5 | 2015-07-31 | 13995.0 | 1498.0 | 1 | 1 | 0 |
| 5 | 5 | 2015-07-31 | 4822.0 | 559.0 | 1 | 1 | 0 |
| 6 | 5 | 2015-07-31 | 5651.0 | 589.0 | 1 | 1 | 0 |
| 7 | 5 | 2015-07-31 | 15344.0 | 1414.0 | 1 | 1 | 0 |
| 8 | 5 | 2015-07-31 | 8492.0 | 833.0 | 1 | 1 | 0 |
| 9 | 5 | 2015-07-31 | 8565.0 | 687.0 | 1 | 1 | 0 |
| 10 | 5 | 2015-07-31 | 7185.0 | 681.0 | 1 | 1 | 0 |
+-------+-----------+------------+---------+-----------+------+-------+--------------+
[986159 rows x 4 columns]
そして
+-------+-----------+------------+---------------------+
| Store | StoreType | Assortment | CompetitionDistance |
+-------+-----------+------------+---------------------+
| 1 | c | a | 1270 |
| 2 | a | a | 570 |
| 3 | a | a | 14130 |
| 4 | c | c | 620 |
| 5 | a | a | 29910 |
| 6 | a | a | 310 |
| 7 | a | c | 24000 |
| 8 | a | a | 7520 |
| 9 | a | c | 2030 |
| 10 | a | a | 3160 |
+-------+-----------+------------+---------------------+
[1115 rows x 4 columns]
2番目のマトリックスは、店舗タイプ、販売する商品の品揃えグループ、および最も近い競合店舗からの距離を示しています。
しかし、私のテストデータでは、最初のマトリックスに情報がありCustomers
、Sales
フィールドとフィールドはありません。目的は、与えられた販売フィールドを予測することです
- お店
- 曜日
- 日付
- 開いている(店が開いているかどうか)
- プロモ(ストアにプロモーションがあるかどうか)
- StateHoliday(州の休日かどうか)
私は簡単に予測するために、上記の箇条書きのフィールドに基づいて分類器を訓練することができますSales
が、どのように私は私がテストデータでは得られないだろうというのが私の学習データにおける第2の行列を利用することができますか?
Storeタイプに関する2番目のマトリックスは静的であり、テストデータに簡単に結合できると想定するのは理にかなっていますか?
テストデータの機能セットに穴がある場合はどうなりますか。たとえば、テストデータの一部の行で、「Promo」の値がないとします。
Customers
データは、競争に非常に具体的です。MLの一般的な欠損値(空のPromo
値など)を処理する方法がわからない場合は、この問題をその問題のみに変更することをお勧めします。このサイト上でそれについていくつかの答えがすでにあり、例えばdatascience.stackexchange.com/questions/8322/...