約50 milの単語を含む2つの文に揃えられた平行コーパス(テキストファイル)があります。(Europarlコーパスから->法的文書の並行翻訳)。2つのファイルの行をシャッフルしたいのですが、どちらも同じ方法です。私は、gshuf(私はMacを使用しています)を使用して、1つの一意のランダムソースを使用してそれにアプローチしたいと思いました。
gshuf --random-source /path/to/some/random/data file1
gshuf --random-source /path/to/some/random/data file2
しかしend of file
、ランダムシードには、ソートするファイルに含まれるすべての単語を含める必要があるため、エラーメッセージが表示されました。本当?はいの場合、自分のニーズに合ったランダムシードをどのように作成すればよいですか?いいえの場合、他にどのようにファイルを並行してランダム化できますか?それらを一緒に貼り付け、ランダム化してから再び分割することを考えました。ただし、ファイルで発生しない区切り文字を最初に見つける必要があるため、これは醜いようです。
了解しました。ランダム化したいものは何でも、/ dev / urandomを使用すれば、いいですよね。貼り付け区切り文字は良いヒントです、ありがとう!
—
conipo
random sources
。に関してpaste
は、ファイルで発生する可能性の低いいくつかの低ASCII文字(\x02
、\x03
...など)を区切り文字として使用できます。