英語のテキストの段落を含む2つの大きなファイルがあります。
- 最初のテキストは約200ページの長さで、ページあたり約10段落(各段落は5文長)です。
- 2番目のテキストには、最初のテキストとほぼ同じ段落とテキストが含まれています。また、ページ数は200ページで、1ページに10段落あります。ただし、最初のテキストと比較すると、段落はランダム化され、順序が異なります。また、大部分の段落では、類似の段落と比較して、表現にわずかな変更があります。たとえば、最初のテキストの段落には次のような
Like Jimmy, I wanted to go to the palace
文があり、2番目のテキストの段落の対応する文にはがありますLike Jimmy, I really wanted to go to the castle
。
私は、追加のような、ここで変更を取得できるようにしたいreally
との削除palace
が置換されましたcastle
。段落がおおまかに揃っている場合、テキストを比較する方法はたくさんあるので、これはかなり簡単です。ただし、段落が揃っていないため、そうではありません。
ファイルが小さい場合(数段落)、レーベンシュタイン距離はおそらくうまく機能しますが、ファイルが大きいため、テキスト1の各段落をテキスト2の各段落と比較して、一致する段落を見つけるのは非効率的です。
この問題を効率的に処理するには、他にどのようなアプローチがありますか?