おそらく、あなたの問題はあなたがそれを大丈夫に解析したことであり、そして今あなたはXMLの内容を印刷しようとしているのですが、いくつかの外国のUnicode文字があるためにそれができません。最初にあなたのユニコード文字列をアスキーとしてエンコードしてみてください:
unicodeData.encode('ascii', 'ignore')
「無視」の部分は、それらの文字をスキップするように指示します。Pythonドキュメントから:
>>> u = unichr(40960) + u'abcd' + unichr(1972)
>>> u.encode('utf-8')
'\xea\x80\x80abcd\xde\xb4'
>>> u.encode('ascii')
Traceback (most recent call last):
File "<stdin>", line 1, in ?
UnicodeEncodeError: 'ascii' codec can't encode character '\ua000' in position 0: ordinal not in range(128)
>>> u.encode('ascii', 'ignore')
'abcd'
>>> u.encode('ascii', 'replace')
'?abcd?'
>>> u.encode('ascii', 'xmlcharrefreplace')
'ꀀabcd޴'
:あなたはこの記事読みたいかもしれませんhttp://www.joelonsoftware.com/articles/Unicode.html、私は何が起こっている上の基本的なチュートリアルとして非常に有用であることが判明しました。読んだ後は、どのコマンドを使用するかを推測しているように感じることはなくなります(または少なくともそれが私に起こりました)。
unicode()
ますか?