製品のリスト(領収書に記載されている製品名など)や、製品を購入した販売者などの変数が含まれています。
私はそれらの多くを手動でカテゴリの固定グループに分類しています(たとえば、アルコール飲料、野菜、肉など)。
データはいつものようにノイズが多いです。この場合、スキャンされた領収書から取得されるため特にノイズが多く、あまり良くないスキャンのOCRは通常非常にノイズが多くなります。
上記の2つの変数を使用して、新しいデータを分類するアルゴリズムを試してみたい。
ここには、いくつかの主要なバリエーションのソースがあります。
- OCRは、製品(例:鶏肉)が多くの異なるが比較的類似したスペル(例:チキン、ヒッケン、チキンなど)で見つかることを意味します。
- 同じ商品でも、商品を販売した販売者によって名前が異なる場合があります。この場合、名前はマーチャント間で類似しているか完全に異なっている可能性がありますが、すべてのマーチャント内では類似しています。
- 同じ商品は、同じ商人の中で非常に異なる名前を持つことができます(たとえば、レシートの名前がブランド名であるブランド製品と一般名、ソフトドリンクとコカコーラ)。
(文字列間の距離(主に上記のバリエーションの最初の主要なソースに取り組む)など)を使用して、いくつかの(素朴な)分類器を試してみましたが、結果に満足していません。
そこで、私はこの問題に取り組む方法についてのアイデアを求めるために、ここに手を差し伸べたかったのです。多くの人がこの種の問題で私がしたよりも(数時間)「解決」したか、少なくともずっと長く働いたと思いますので、ここでのガイダンスを本当に感謝します。
ちなみに、私は主にRを使用しているので、Rベースのソリューションをいただければ幸いです。