組み込みシステムプロジェクトにSEアジア文字セットを含めるための絶対的な最小要件は何ですか?


14

私は、組み込みコンピュータシステムを製造する製品に統合し始めた会社で働いています。当社には非常に幅広い製品があり、それらは世界中に配布されています。さらに、システムにフラッシュされたファームウェアに応じて複数の目的に使用できる統合ボードをいくつか設計しました。このように、さまざまな製品のコンピューターハードウェアを再設計する必要はありません。特定の製品のニーズに合わせてファームウェアレイヤーを書き直すだけです。

これらのハードウェアの制限のため、ハードウェアの変更は議会の行為を取りますが、新しいソフトウェアの作成ははるかに簡単です。

当社の製品の1つには、以前に実装する必要がなかった新しい要件があります。これは、ユーザー入力テキストの必要性です。

現在、国際的なテキストをリソースに保存することができ、必要なフォント文字のみがビットマップ画像にコンパイルされています。これは、言語セット全体のごく一部しか使用していないため、中国語や日本語などの表意文字の言語を最小限のスペースに保存できることを意味します。

この新製品ではユーザーがテキストを入力する必要があるため、広範な文字セットを実装する必要があります。主にPC開発者として、私はASCII、Unicode、UTF-8などにかなり精通していますが、ボード上にFRAMが限られているため、これらの言語の完全な文字セットを実装することはできません。フォントデータを保存します。

私の経営陣は、表意文字の多い言語に使用できる最小限の文字セットがあることを望んでいます。日本語の発音記号(ひらがな?)があると思います。中国語、韓国語、ベトナム語などの言語にも同様の発音記号がありますか?その質問に対する答えは「絶対に、いいえ」であると確信していますが、質問する価値のある質問です。

経営陣は、一般的に使用されているすべての主要言語をカバーする約8,000文字の限られた文字セットのみを使用できるという「ソフト」要件を設定しています。これが不可能な場合は、限られたハードウェアリソースに基づいてニーズを満たすために、何らかの形の代替方法を探す必要があります。

この問題は以前に解決されていなければならないと確信しています。広範なフォントおよび文字エンコードシステムを必要とする一方で、このような制約内で作業した経験はありますか?もしそうなら、あなたはどんな知恵のナゲットを提供できますか?


韓国も日本も東南アジアの一部ではありません。E Asiaに属します。もちろん、S、SE、E Asiaの場合は、その旨をお書きください
ラララ

回答:


25

これは素晴らしい質問です。

一度に1つの言語で回答に取り組むため。

ベトナム人

ベトナム語はもはや表意文字を使用していませんが、そのラテン語セットは非常に幅広です。

TiếngViệt、hayviệtngữ、làngônngữcủangườiViệt(ngườiKinh)vàlàngônngữchínhthứctạiViệtNam。Đâylàtiếngmẹđẻcủakhoảng85%dâncưViệtNam、cùngvớigầnbatriệungườiViệthảingoại、màphầnlớnlàngườiMỹgốcViệt。TiếngViệtcònlàngônngữth haicủacácdântộcthiểusốtạiViệtNam。

その理由は、すべてのベトナム語の音節には、発音に影響を与える6つのトーンマークの1つがあり、さらに1つの非標準の子音グリフと6つの非標準の母音があるためです。

Unicodeは母音の上にトーンマークを作成します。グリフを作成する能力がある場合、ベトナム語では13個の追加グリフのみが必要ですが、そうでない場合は、1個の子音+ 12個の母音* 6トーン+ 6個の新しい母音トーンレス= 79個の追加グリフが必要です downcaseで、かつ大文字。

韓国語

韓国語は悪いニュースです。韓国語はハングルと呼ばれるアルファベットで書かれていますが、技術的にはアルファベットです 68文字の(ジャモと呼ばれます)ですが、実際にはジャモで構成された音節サイズのブロックで書かれています。

韓国語のテキストの例:

한글조선글은한국어의문자로서、1443년제4대세종이세종(訓民正音)이름으라는창제하여1446 이후한문을고수하는경시되경시되경시되하였으나년년년년년년년년년년년년년년년년년년년년년년년년년년년년년년년년년년년년년년년년년19년19 이름을사용하였다。

Unicodeには11,172個の完成したブロック文字がありますが、ロジックをコーディングして最終的な「ブロック」を自分で作成する場合は、文字セットを大幅に節約できます。

基本的に、すべての音節は、子音+母音と子音+母音+最終の2つのカテゴリに分割できます。ここで、finalは母音、子音、または複合語です。CV音節は、左がC、右がVで構成されています。CVF子音は、上部(左から右)にCVブロック、下部に最終ブロックで構成されます。

したがって、基本的には、次のものが必要です。

  • 19のイニシャル、2つの形式
  • 21内側、2つの形式
  • 28決勝

合計108個のシンボル。(韓国語には「合字」がないことは絶対にわかりません。そのため、構築されたブロックはコンポーネントの組み合わせとは異なるように見える場合がありますが、これは今のところ最高です。)

日本語

お気づきのとおり、日本語には表音文字がありますが、実際には1つではなく2つです!ひらがなとカタカナは、どちらも同じ音節の48音節ですが、異なる文脈で使用されます(カタカナは外国語に使用され、ひらがなは文法に使用されます)。

悲しいことに(私たちの目的のために)、日本語はこれら2つのアルファベットだけを使用して完全に書くことはほとんど不可能です- この文脈で知られている漢字、または漢字は、日本語のテキストに不可欠です。

義務的な記述例:

現在一般には平仮名と片仮名のことを指す。表音文字の一種であり、基本的に1字が1音節をあらわす音節文字に分類される。漢字に対して和字(わじ)とも言う。ただし和字は和製漢字を意味する事もある。

漢字のほかに、2つの音声アルファベット+中国語には存在しない7つの一般的な漢字をマップするには、103個のグリフが必要です。

CKJ句読点

これに関する専門家ではありませんが、中国と日本人はどちらも古典的な東アジアの句読点を使用しています。Unicodeには、CJKの句読点と記号専用の64個の記号があります。

中国語

したがって、「予算」には7631文字が残っています。漢字をカバーするのに十分ですか?

漢字為上古時代的華夏族人所發明創製並作改進、目前確定切歷史可追溯至約公元前1300年商朝的甲骨文、籀文、金文。再到秦朝的小篆、發展至漢朝隸變、これは、これまでずっと継続的に使用されていた時間の中で最も長い主要な文字であり、また、古くなった各大文字体系で唯一の伝達から現在の文字、期間東亞諸國都一定程度自行である創製漢字。

100,000を超える文字が存在するため、基本的には完全に中国語の文字カバーであり、アクティブに使用されるサブセットははるかに小さくなります。一般的なリテラシーには2000〜3000文字で十分であると言われています(HSK、中国語のTOEFLのようなテスト、最高レベルの2800文字、HSK Advancedの知識が必要)、教育を受けた人には4000〜5000文字で十分です。

、 - (台湾では後者、前者は中国で使用されている)で異なりいる簡体字および繁体字の文字があることを念頭に置いて、多くの文字、7600個のシンボルの残り、私は言うだろう、だろうだけで十分なため、ほとんどのユースケースをカバーするために両方のキャラクターセット。

ご質問がある場合はお気軽にお問い合わせください!


5
ワオ。これは、SOに投稿した質問に対して受け取った最高の回答です。それは未解決のままだったので、私は今日この質問を早めに修正しました。私たちの要件はわずかに変更されましたが、私たちの製品の性質も知っているので、これは将来的にはいつか必要になると思います。+1と投票に答えます。私もあなたにそれ以上のポイントを与えたいと思います。ありがとう1,000,000!
RLH

タイが好きじゃない?
ラララ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.