1. ホーム
  2. Web制作
  3. HTML/Xhtml

HTML中国語文字エンコーディング標準紹介

2022-01-15 04:48:24

HTMLでは、ウェブページに使用するエンコーディングを指定する必要があり、通常、次のような形式で指定します。

<ブロッククオート

また、HTML5 の新しいバージョンでは、よりシンプルなアプローチも使用できます。

世界では多くの言語や文字が使用されているため、言語やプラットフォームを超えたテキスト変換や処理の要件を満たすために、国際機関がユニコード・エンコードを開発し、1994年に公式に発表され、現在では古代文字記号を含む人間が読めるすべての文字の文字セットを定義する114万4112個のコードポイントが継続的に提供されています。しかし、Unicodeエンコーディングでは、非常に多くの文字を表現するために、通常32ビット(すなわち4バイト)で文字を表現するため、比較的大きな記憶領域を必要とし、また、一般的に使用される文字(ASCIIなど)にはより長いエンコーディングを必要とし、メモリ使用効率が悪いという問題があります。

UTF-8では、よく使う文字はより少ないバイト数で、あまり使わない文字はより多くのバイト数で表現できるため、符号化空間の使用効率が向上します。例えば、ASCIIコードでは今でも1バイトで表現していますが、これは一部の上位ビットを識別して符号化することで実現しており、ASCII符号化とUnicodeの橋渡しをするものです。具体的な符号化方式は
-000000~007F: 0xxxxxxx, 1バイトとして格納され、異なる文字を表すことができる7ビットで、一般的にASCII文字に相当する
-0080~07FF: 110xxxxx, 10xxxxxx, 2バイトとして格納され、11ビットで異なる文字を表現します。
-0800~FFFF: 1110xxxx, 10xxxxxx, 10xxxxxx, 3 バイトとして格納され、16 ビットで異なる文字を表現します。
-10000~1FFFFF: 11110xxx, 10xxxxxx, 10xxxxxx, 10xxxxxx, 4 バイトとして格納され、異なる文字用に 21 ビットが割り当てられています。
最上位ビットが0でない場合、数値の0の前の数字はシーケンスに含まれるコードエレメントの数を示す、というルールがおわかりいただけると思います。他にもUTF-16、UTF-32などの符号化方式がありますが、UTF-8の方がより採用されており、すべての符号化方式をセットで表すことも可能です。

中国語の文字をコンピュータで表現するために過去に最もよく使われた符号化方式は、1980年に発表されたGB2312(情報交換用漢字符号化基本セット")で、2バイトで漢字を表現し、ASCII文字セットと互換性のある6763文字の漢字と682文字の非漢字図形文字が入っています。しかし、このエンコーディングでは漢字の数が少なく、RTHKで使われている繁体字や、一部の特殊文字、古書中の文字などは表現できないため、実用上、多くの不便を感じることになる。その後、GBKをベースにGB2312が拡張され、繁体字や一部の異体字を表現できるようになり、利用範囲が拡大されました。

より幅広い用途に対応するため、GB18030-2000 では 27,533 字、GB18030-2005 では 70,244 字の漢字に加え、チベット語、モンゴル語、ダイ語、イ語、韓国 語、ウイグル語などのエンコーディング規格が発表されました。GB18030の総符号化空間は150万コードビットを超えています。1 バイトの部分は GB/T11383 の符号化構造と規則を採用し、ASCII コードの対応する符号ビットに相当する 0x00 から 0x7F の符号ビットを使用します。2 バイトの部分は、最初のバイト符号ビットが 0x81 から 0xFE で、最後のバイト符号ビットがそれぞれ 0x40 から 0x7E と 0x80 から 0xFE で、4 バイトの部分は GB18030 のコードがまだ拡張中であるため、GB18030 は、この符号ビットを使用します。

より多くの漢字や一部の特殊記号を表現するため、また将来的な互換性を高めるために、新しいページではGB18030規格を使用することが最善であり、これは以下の2つの方法のいずれかでエンコーディングを指定することを意味します。

<ブロッククオート

<メタ

もちろん、外国語のテキストを表示するのに便利なように、国際的に認められているUTF-8エンコードを使用することも可能です。