テストデータの機能がトレーニングデータよりも少ない場合はどうすればよいですか?


10

店舗の売上を予測していて、トレーニングデータに2つの機能セットがあるとします。

  • 日付のある店舗の売上に関する1つ(「店舗」フィールドは一意ではありません)
  • 店舗タイプに関する1つ(「店舗」フィールドはここでは一意です)

したがって、マトリックスは次のようになります。

+-------+-----------+------------+---------+-----------+------+-------+--------------+
| Store | DayOfWeek |    Date    |  Sales  | Customers | Open | Promo | StateHoliday |
+-------+-----------+------------+---------+-----------+------+-------+--------------+
|   1   |     5     | 2015-07-31 |  5263.0 |   555.0   |  1   |   1   |      0       |
|   2   |     5     | 2015-07-31 |  6064.0 |   625.0   |  1   |   1   |      0       |
|   3   |     5     | 2015-07-31 |  8314.0 |   821.0   |  1   |   1   |      0       |
|   4   |     5     | 2015-07-31 | 13995.0 |   1498.0  |  1   |   1   |      0       |
|   5   |     5     | 2015-07-31 |  4822.0 |   559.0   |  1   |   1   |      0       |
|   6   |     5     | 2015-07-31 |  5651.0 |   589.0   |  1   |   1   |      0       |
|   7   |     5     | 2015-07-31 | 15344.0 |   1414.0  |  1   |   1   |      0       |
|   8   |     5     | 2015-07-31 |  8492.0 |   833.0   |  1   |   1   |      0       |
|   9   |     5     | 2015-07-31 |  8565.0 |   687.0   |  1   |   1   |      0       |
|   10  |     5     | 2015-07-31 |  7185.0 |   681.0   |  1   |   1   |      0       |
+-------+-----------+------------+---------+-----------+------+-------+--------------+
[986159 rows x 4 columns]

そして

+-------+-----------+------------+---------------------+
| Store | StoreType | Assortment | CompetitionDistance |
+-------+-----------+------------+---------------------+
|   1   |     c     |     a      |         1270        |
|   2   |     a     |     a      |         570         |
|   3   |     a     |     a      |        14130        |
|   4   |     c     |     c      |         620         |
|   5   |     a     |     a      |        29910        |
|   6   |     a     |     a      |         310         |
|   7   |     a     |     c      |        24000        |
|   8   |     a     |     a      |         7520        |
|   9   |     a     |     c      |         2030        |
|   10  |     a     |     a      |         3160        |
+-------+-----------+------------+---------------------+
[1115 rows x 4 columns]

2番目のマトリックスは、店舗タイプ、販売する商品の品揃えグループ、および最も近い競合店舗からの距離を示しています。

しかし、私のテストデータでは、最初のマトリックスに情報がありCustomersSalesフィールドとフィールドはありません。目的は、与えられた販売フィールドを予測することです

  • お店
  • 曜日
  • 日付
  • 開いている(店が開いているかどうか)
  • プロモ(ストアにプロモーションがあるかどうか)
  • StateHoliday(州の休日かどうか)

私は簡単に予測するために、上記の箇条書きのフィールドに基づいて分類器を訓練することができますSalesが、どのように私は私がテストデータでは得られないだろうというのが私の学習データにおける第2の行列を利用することができますか?

Storeタイプに関する2番目のマトリックスは静的であり、テストデータに簡単に結合できると想定するのは理にかなっていますか?

テストデータの機能セットに穴がある場合はどうなりますか。たとえば、テストデータの一部の行で、「Promo」の値がないとします。


あなたはKaggleフォーラムでこれを頼むことができます知っている、そしてそれがされ、すでに答えkaggle.com/c/rossmann-store-sales/forums/t/17137/...kaggle.com/c/rossmann-store-sales/forums / t / 16730 /…
Neil Slater、

うーん、私のカグルのノービネスを許して。誰も私の手を持たない最初のカグル=)
alvas

1
問題ない。Customersデータは、競争に非常に具体的です。MLの一般的な欠損値(空のPromo値など)を処理する方法がわからない場合は、この問題をその問題のみに変更することをお勧めします。このサイト上でそれについていくつかの答えがすでにあり、例えばdatascience.stackexchange.com/questions/8322/...
ニール・スレーター

回答:



2

問題の記述方法に問題があると思います。テストしたデータには2つのフィールドがないと言っていますが、それは正しくありません。

すべてのデータを取得して、トレーニングセットとテストセットの2つのグループに分割する必要があります。80%-20%または70%-30%の割合で。次に、トレーニングセットのデータを使用してアルゴリズムをトレーニングし、テストセットのデータを使用してモデルの精度をテストします。

得られる精度は、モデルが正しい確率です。または別の言い方をすると、次回モデルを使用して販売を予測するとき、精度は予測が本当である確率です


OPの「テストデータ」という用語の使用に夢中になり、質問の本質を完全に逃していると思います...
Patrick Coulombe
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.