1. ホーム
  2. unicode

[解決済み] 実際に使われている非BMPのUnicode文字で最も多いものは何ですか?[クローズド]

2022-05-14 10:04:45

質問

あなたの経験では、BMP (Basic Multilingual Plane) の外にある、どの Unicode 文字、コードポイント、範囲がこれまでで最も一般的でしたか?これらは、UTF-8 で 4 バイトを必要とするもの、または UTF-16 でサロゲートを必要とするものです。

私は、最も普及している日中韓マルチバイト文字セットに含まれていない、名前に使用される中国語や日本語の文字が答えになると予想していました。しかし、私が最も多く作業しているプロジェクトである英語版 Wiktionary では ゴシック アルファベット が今のところはるかに一般的です。

アップデイト

私はウィキペディア全体をスキャンして非BMP文字を探すソフトウェアをいくつか書きましたが、驚いたことに、日本語版ウィキペディアでもゴシック文字が最も一般的であることがわかりました。これは中国の Wikipedia でも同じですが、50 回から 70 回も使用されている漢字が多く、その中には "、"、"、"が含まれていました。

どのように解決するのですか?

絵文字は現在、BMP 以外の文字として圧倒的によく使われています。U+1F602 FACE WITH TEARS OF JOY として知られる「?」は、Twitter のパブリック ストリームで最もよく見られるものです。チルダよりも頻度が高いのです!