非ASCII(\ x00- \ x7F)のすべての文字をスペースに置き換える必要があります。私が何かを欠落していない限り、これはPythonでは簡単なことではないことに驚いています。次の関数は、すべての非ASCII文字を単に削除します。
def remove_non_ascii_1(text):
return ''.join(i for i in text if ord(i)<128)
そして、これは非ASCII文字を文字コードポイントのバイト数に従ってスペースの量で–
置き換えます(すなわち、文字は3つのスペースで置き換えられます):
def remove_non_ascii_2(text):
return re.sub(r'[^\x00-\x7F]',' ', text)
ASCII以外のすべての文字を1つのスペースに置き換えるにはどうすればよいですか?
無数の同様のSOの質問、なしのアドレス文字代替として反対するストリッピング、そしてさらにすべての非ASCII文字ではない、特定の文字取り組みます。
–
。それはだ、この男。