検索エンジンが行うのと同じまたは同様の方法で一部のテキストをトークン化する方法を探しています。
これを行う理由は、トークンに対して統計分析を実行できるようにするためです。私たちが使用している言語はpythonであるため、その言語で機能するテクニックを好みますが、必要に応じて別の言語を使用するように設定することもできます。
例
元のトークン:
私たちはいくつかの素晴らしいブリトーを持っています!
より簡略化:(複数形と句読点を削除)
私たちはいくつかの素晴らしいブリトーを持っています
さらに簡略化:(余分な単語を削除)
素晴らしいブリトー
最良:(肯定的および否定的な意味を認識する):
ブリトー-ポジティブ-
パーサーコンビネーターを調べてください。これはpython valuedlessons.com/2008/02/のパーサーコンビネーターライブラリです。他のpyparsing.wikispaces.comパーサーコンビネーターでは、正規表現に似たマッチ試行に基づいて、ほとんどDSLに似たアプローチでパースできますが、はるかに柔軟です/パワフル
—
Jimmy Hoffa
頭に浮かぶもう1つのアプローチ(ただし、少しおもしろい感じがします...)は、1つのテーブルに必要な一意のトークンがあるトークンデータベースを作成し、トークンを削除するためのブラックリストテーブルとホワイトリストを作成することです。多くのトークンを、必要なトークン内のトークンレコードの1つにマップするIDを持っている、重複トークンのテーブル。基本的に、必要な2つの言語間で翻訳する辞書データベースです。一方の言語は、「素晴らしい」「素晴らしい」「素晴らしい」がすべて「-positive-」で同じものに翻訳される最小化された語彙です
—
Jimmy Hoffa