1
2つの並列テキストファイルをシャッフルする
約50 milの単語を含む2つの文に揃えられた平行コーパス(テキストファイル)があります。(Europarlコーパスから->法的文書の並行翻訳)。2つのファイルの行をシャッフルしたいのですが、どちらも同じ方法です。私は、gshuf(私はMacを使用しています)を使用して、1つの一意のランダムソースを使用してそれにアプローチしたいと思いました。 gshuf --random-source /path/to/some/random/data file1 gshuf --random-source /path/to/some/random/data file2 しかしend of file、ランダムシードには、ソートするファイルに含まれるすべての単語を含める必要があるため、エラーメッセージが表示されました。本当?はいの場合、自分のニーズに合ったランダムシードをどのように作成すればよいですか?いいえの場合、他にどのようにファイルを並行してランダム化できますか?それらを一緒に貼り付け、ランダム化してから再び分割することを考えました。ただし、ファイルで発生しない区切り文字を最初に見つける必要があるため、これは醜いようです。