テストデータの機能がトレーニングデータよりも少ない場合はどうすればよいですか？

10

店舗の売上を予測していて、トレーニングデータに2つの機能セットがあるとします。

日付のある店舗の売上に関する1つ（「店舗」フィールドは一意ではありません）
店舗タイプに関する1つ（「店舗」フィールドはここでは一意です）

したがって、マトリックスは次のようになります。

+-------+-----------+------------+---------+-----------+------+-------+--------------+
| Store | DayOfWeek |    Date    |  Sales  | Customers | Open | Promo | StateHoliday |
+-------+-----------+------------+---------+-----------+------+-------+--------------+
|   1   |     5     | 2015-07-31 |  5263.0 |   555.0   |  1   |   1   |      0       |
|   2   |     5     | 2015-07-31 |  6064.0 |   625.0   |  1   |   1   |      0       |
|   3   |     5     | 2015-07-31 |  8314.0 |   821.0   |  1   |   1   |      0       |
|   4   |     5     | 2015-07-31 | 13995.0 |   1498.0  |  1   |   1   |      0       |
|   5   |     5     | 2015-07-31 |  4822.0 |   559.0   |  1   |   1   |      0       |
|   6   |     5     | 2015-07-31 |  5651.0 |   589.0   |  1   |   1   |      0       |
|   7   |     5     | 2015-07-31 | 15344.0 |   1414.0  |  1   |   1   |      0       |
|   8   |     5     | 2015-07-31 |  8492.0 |   833.0   |  1   |   1   |      0       |
|   9   |     5     | 2015-07-31 |  8565.0 |   687.0   |  1   |   1   |      0       |
|   10  |     5     | 2015-07-31 |  7185.0 |   681.0   |  1   |   1   |      0       |
+-------+-----------+------------+---------+-----------+------+-------+--------------+
[986159 rows x 4 columns]

そして

+-------+-----------+------------+---------------------+
| Store | StoreType | Assortment | CompetitionDistance |
+-------+-----------+------------+---------------------+
|   1   |     c     |     a      |         1270        |
|   2   |     a     |     a      |         570         |
|   3   |     a     |     a      |        14130        |
|   4   |     c     |     c      |         620         |
|   5   |     a     |     a      |        29910        |
|   6   |     a     |     a      |         310         |
|   7   |     a     |     c      |        24000        |
|   8   |     a     |     a      |         7520        |
|   9   |     a     |     c      |         2030        |
|   10  |     a     |     a      |         3160        |
+-------+-----------+------------+---------------------+
[1115 rows x 4 columns]

2番目のマトリックスは、店舗タイプ、販売する商品の品揃えグループ、および最も近い競合店舗からの距離を示しています。

しかし、私のテストデータでは、最初のマトリックスに情報がありCustomers、Salesフィールドとフィールドはありません。目的は、与えられた販売フィールドを予測することです

お店
曜日
日付
開いている（店が開いているかどうか）
プロモ（ストアにプロモーションがあるかどうか）
StateHoliday（州の休日かどうか）

私は簡単に予測するために、上記の箇条書きのフィールドに基づいて分類器を訓練することができますSalesが、どのように私は私がテストデータでは得られないだろうというのが私の学習データにおける第2の行列を利用することができますか？

Storeタイプに関する2番目のマトリックスは静的であり、テストデータに簡単に結合できると想定するのは理にかなっていますか？

テストデータの機能セットに穴がある場合はどうなりますか。たとえば、テストデータの一部の行で、「Promo」の値がないとします。

— アルバ
ソース

あなたはKaggleフォーラムでこれを頼むことができます知っている、そしてそれがされ、すでに答え： kaggle.com/c/rossmann-store-sales/forums/t/17137/...とkaggle.com/c/rossmann-store-sales/forums / t / 16730 /…

— Neil Slater、

うーん、私のカグルのノービネスを許して。誰も私の手を持たない最初のカグル=）

— alvas

1

問題ない。Customersデータは、競争に非常に具体的です。MLの一般的な欠損値（空のPromo値など）を処理する方法がわからない場合は、この問題をその問題のみに変更することをお勧めします。このサイト上でそれについていくつかの答えがすでにあり、例えばdatascience.stackexchange.com/questions/8322/...

— ニール・スレーター

6

教師なし学習に追加機能を使用します。ウラジミールヴァプニクがSVMのコンテキストでこれを行うのを楽しんでいるかもしれません。SVMを特権学習と呼びます。インテリジェントティーチャーによる学習：類似性制御と知識伝達

— エムレ
ソース

2

問題の記述方法に問題があると思います。テストしたデータには2つのフィールドがないと言っていますが、それは正しくありません。

すべてのデータを取得して、トレーニングセットとテストセットの2つのグループに分割する必要があります。80％-20％または70％-30％の割合で。次に、トレーニングセットのデータを使用してアルゴリズムをトレーニングし、テストセットのデータを使用してモデルの精度をテストします。

得られる精度は、モデルが正しい確率です。または別の言い方をすると、次回モデルを使用して販売を予測するとき、精度は予測が本当である確率です

— ホープヒューマノイド
ソース

OPの「テストデータ」という用語の使用に夢中になり、質問の本質を完全に逃していると思います...

— Patrick Coulombe