クライアントからUTF-8の有効な文字を受け取ることになっているソケットサーバーがあります。
問題は、一部のクライアント(主にハッカー)が間違った種類のデータをすべて送信していることです。
私は本物のクライアントを簡単に区別できますが、送信したすべてのデータをファイルに記録しているので、後で分析できます。
このようなエラーœ
が発生することがありUnicodeDecodeError
ます。
これらの文字の有無にかかわらず、文字列UTF-8を作成できるようにする必要があります。
更新:
私の特定のケースでは、ソケットサービスはMTAだったため、次のようなASCIIコマンドのみを受信することを期待しています。
EHLO example.com
MAIL FROM: <john.doe@example.com>
...
これらすべてをJSONでログに記録していました。
その後、善意のない人々が、あらゆる種類のジャンクを売ることに決めました。
そのため、私の特定のケースでは、非ASCII文字を削除しても問題ありません。