タグ付けされた質問 「information-extraction」

6
Appleはどのように電子メールの日付、時刻、アドレスを見つけますか?
iOSメールクライアントでは、メールに日付、時刻、場所が含まれている場合、テキストがハイパーリンクになり、リンクをタップするだけで予定を作成したり、地図を見たりすることができます。英語のメールだけでなく、他の言語でも機能します。私はこの機能が大好きで、彼らがそれをどのように行うかを理解したいと思います。 これを行う素朴な方法は、多くの正規表現を用意してそれらをすべて実行することです。ただし、これはあまりスケールできず、特定の言語や日付形式でのみ機能します。Appleは、エンティティを抽出するために機械学習の概念を使用している必要があると思います(8:00 PM、8PM、8:00、 0800、20:00、20h、20h00、2000など)。 Appleがどのようにして電子メールクライアントでエンティティを非常に迅速に抽出できるかについてのアイデアはありますか?どのような機械学習アルゴリズムを適用して、このようなタスクを達成しますか?

2
Pythonを使用したPDF解析-フォーマットされたプレーンテキストの抽出[クローズ]
閉まっている。この質問は、StackOverflowのガイドラインを満たしていません。現在、回答を受け付けていません。 この質問を改善したいですか?質問を更新して、StackOverflowのトピックになります。 5年前に閉鎖されました。 この質問を改善する PDFドキュメントからテキストを抽出できるPDFライブラリを探しています。PyPDFを見てきましたが、これでPDFドキュメントからテキストを非常にうまく抽出できます。これに伴う問題は、ドキュメントにテーブルがある場合、テーブル内のテキストがドキュメントの残りのテキストと一致して抽出されることです。これは、役に立たず、文字化けしているように見えるテキストのセクションを生成するため、問題になる可能性があります(たとえば、多数の数字がマッシュアップされます)。 表や特別なフォーマットを除いて、PDFドキュメントからテキストを抽出したいと思います。これを行うライブラリはありますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.