レイアウトが異なるPDFファイルからテキスト情報を抽出する-機械学習
現在作成しようとしているMLプロジェクトについてサポートが必要です。 多くの異なるサプライヤーから大量の請求書を受け取ります-すべて独自のレイアウトで。請求書から3つの重要な要素を抽出する必要があります。これらの3つの要素はすべて、すべての請求書のテーブル/ラインアイテムにあります。 3要素は次のとおりです。 1:関税番号(桁) 2:数量(常に数字) 3:合計明細金額(金額) 以下のスクリーンショットを参照してください。サンプルの請求書でこれらのフィールドにマークを付けています。 このプロジェクトは、正規表現に基づいたテンプレートアプローチから始めました。しかし、これはまったくスケーラブルではなく、大量の異なるルールになってしまいました。 ここで機械学習が役立つことを願っています-あるいは、ハイブリッドソリューションですか? 一般的な分母 では、すべての私の請求書の、異なるレイアウトのにもかかわらず、各ライン項目がします常に 1つので構成されて関税番号。この関税番号は常に8桁で、常に次のような方法でフォーマットされます。 xxxxxxxx xxxx.xxxx xx.xx.xx.xx (「x」は0から9までの数字です)。 さらに、請求書で確認できるように、1行あたりの単価と合計金額の両方があります。私が必要とする量は常に各行で最高です。 出力 上記のような各請求書について、各行の出力が必要です。これは、たとえば次のようなものになります。 { "line":"0", "tariff":"85444290", "quantity":"3", "amount":"258.93" }, { "line":"1", "tariff":"85444290", "quantity":"4", "amount":"548.32" }, { "line":"2", "tariff":"76109090", "quantity":"5", "amount":"412.30" } ここからどこへ行く? 私が何をしようとしているのかが機械学習に該当するかどうか、また該当する場合はどのカテゴリに該当するかわかりません。コンピュータビジョンですか?NLP?名前付きエンティティの認識? 私の最初の考えは: 請求書をテキストに変換します。(請求書はすべてpdftotextテキスト化可能なPDFであるため、正確なテキスト値を取得するようなものを使用できます) カスタム作成名前付きエンティティのためにquantity、tariffそしてamount 見つかったエンティティをエクスポートします。 でも、足りないものがあるようです。 誰かが正しい方向に私を助けることができますか? 編集: 請求書テーブルセクションがどのように表示されるかを示す他の例については、以下をご覧ください。 請求書の例2 請求書の例3 編集2: …