タグ付けされた質問 「diacritics」

8
Pythonユニコード文字列のアクセントを削除する最良の方法は何ですか?
PythonにUnicode文字列があり、すべてのアクセント(発音区別符号)を削除したいと思います。 私はJavaでこれを行うエレガントな方法をWebで見つけました: Unicode文字列をその長い正規化された形式に変換します(文字と発音区別符号に別の文字を使用) Unicodeタイプが「発音区別符号」であるすべての文字を削除します。 pyICUなどのライブラリをインストールする必要がありますか、それともpython標準ライブラリだけで可能ですか?そして、python 3はどうですか? 重要な注意:アクセント記号付き文字からアクセント記号なしの対応する文字への明示的なマッピングを含むコードは避けたいです。

29
JavaScriptで文字列のアクセント/発音区別符号を削除する
文字列からアクセント付き文字を削除するにはどうすればよいですか?特にIE6では、次のようなものがありました。 accentsTidy = function(s){ var r=s.toLowerCase(); r = r.replace(new RegExp(/\s/g),""); r = r.replace(new RegExp(/[àáâãäå]/g),"a"); r = r.replace(new RegExp(/æ/g),"ae"); r = r.replace(new RegExp(/ç/g),"c"); r = r.replace(new RegExp(/[èéêë]/g),"e"); r = r.replace(new RegExp(/[ìíîï]/g),"i"); r = r.replace(new RegExp(/ñ/g),"n"); r = r.replace(new RegExp(/[òóôõö]/g),"o"); r = r.replace(new RegExp(/œ/g),"oe"); r = r.replace(new RegExp(/[ùúûü]/g),"u"); r = r.replace(new RegExp(/[ýÿ]/g),"y"); …

19
.NETで文字列から発音区別符号(アクセント)を削除するにはどうすればよいですか?
フランス語カナダの一部の文字列を変換しようとしています。基本的に、文字を保持したまま、文字のフランス語アクセント記号を削除できるようにしたいと考えています。(例:に変換さéれるeので、crème brûléeになりますcreme brulee) これを達成するための最良の方法は何ですか?
433 .net  string  diacritics 

12
アクセントを取り除き、文字列全体を通常の文字に変換する方法はありますか?
String.replaceAll()メソッドを使用したり、文字を1つずつ置き換えたりする以外に、アクセントを取り除き、それらの文字を規則的にするためのより良い方法はありますか?例: 入力: orčpžsíáýd 出力: orcpzsiayd ロシア語のアルファベットや中国語のアルファベットのように、アクセントのあるすべての文字を含める必要はありません。
263 java  string  diacritics 

22
Microsoft Excelは.csvファイルの発音区別符号を壊しますか?
プログラムでデータを(PHP 5.2を使用して).csvテストファイルにエクスポートしています。 データの例:( Numéro 1アクセント付きのeに注意してください)。データはutf-8(追加されたBOMなし)です。 このファイルをMS Excelで開くと、と表示されNuméro 1ます。 これを正しく表示するテキストエディター(UltraEdit)で開くことができます。UEは文字がであることを報告しますdecimal 233。 テキストデータを.csvファイルにエクスポートして、MS Excelで、できればインポートウィザードやデフォルト以外のウィザード設定を強制せずに正しくレンダリングできるようにするにはどうすればよいですか?

12
記号、アクセント文字を英語のアルファベットに変換する
問題は、ご存じのように、Unicodeチャートには何千もの文字があり、類似の文字をすべて英語のアルファベットの文字に変換したいということです。 たとえば、ここにいくつかの変換があります: ҥ->H Ѷ->V Ȳ->Y Ǭ->O Ƈ->C tђє Ŧค๓เℓy --> the Family ... そして、私は手紙A / aの20以上のバージョンがあることを見ました。それらを分類する方法がわかりません。彼らは干し草の山の針のように見えます。 ユニコード文字の完全なリストはhttp://www.ssec.wisc.edu/~tomw/java/unicode.html またはhttp://unicode.org/charts/charindex.htmlにあります。下にスクロールしてみて、文字のバリエーションを確認してください。 これらすべてをJavaでどのように変換できますか?私を助けてください :(

12
Unicode文字から発音区別符号(charǹňñṅņṇṋṉ̈ɲƞᶇɳȵ)を削除する
分音記号付きの文字(チルダ、サーカムフレックス、キャレット、ウムラウト、キャロン)とその「単純な」文字との間でマッピングできるアルゴリズムを探しています。 例えば: ń ǹ ň ñ ṅ ņ ṇ ṋ ṉ ̈ ɲ ƞ ᶇ ɳ ȵ --> n á --> a ä --> a ấ --> a ṏ --> o 等。 私はこれをJavaで実行したいのですが、Unicodeのようなもので、どの言語でも簡単に実行できるはずです。 目的:分音記号付きの単語を簡単に検索できるようにします。たとえば、テニスプレーヤーのデータベースがあり、Björn_Borgが入力されている場合は、Bjorn_Borgも保持するので、誰かがBjörnではなくBjornに入った場合にそれを見つけることができます。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.