絵文字のユニコード符号化: 符号化提案用のオープンソースデータ

2008年 11月 27日

Markus Scherer

ユニコードソフトウェアエンジニア

絵文字とは、顔の表情やその他のシンボルなどを絵で表現した文字で、日本の携帯電話ユーザーの間で特に人気があり、広く使用されているものです。先月、Gmail でも絵文字が使用可能になりました。詳しくはGmail チームのブログポスト「Gmail で絵文字が使えるようになりました」をご覧ください。

これらの絵文字は携帯電話会社が各々独自に創作したもので、メールやウェブなどで使われています。絵文字は元々各携帯会社のユーザー同士で使用されることを前提に作られたものですが、現在では各社間である程度の互換性を保つための絵文字変換表も利用されています。ユーザーは携帯会社や機種の違いに関わらず、見慣れている絵文字が表示されることを期待しています。自分がメールで送った絵文字が、受信側でも同じか同等の絵文字で表示されること、ウェブで見る絵文字が他の携帯ユーザーにも同じに見えること、また検索エンジンで絵文字を探せば、結果が返ってくること。こういうサービスを実際にうまく動作させるには、絵文字がユニコードとして標準化されることが必要になります。（ユニコード標準：現在多くのコンピューター環境で使われている国際共通の符号化文字集合）。

自現在、日本の携帯絵文字の全てをユニコードの文字として共通符号化しようという提案が進行しています。そのためには、現在使用されている絵文字のうちどれが既にユニコード符号化されているか、新しく符号化しなければならない絵文字はどれかなどを調査する作業が必要です。この提案を支援する目的で、私たちが提案している絵文字のマッピングや変換表、更に絵文字データからHTMLの表などを作成するのに役立つツールなどを「emoji4unicode 」という名前でオープンソースプロジェクトとして公開します。これによりユニコードコンソーシアムの他のメンバーとの協力を強め、携帯電話会社、更に携帯絵文字に関心のある皆様からフィードバックをいただければ幸いです。これらの表やツールを公開することによって、絵文字のユニコード符号化をより迅速に実現できることを願っています。詳しくは絵文字ユニコード符号化プロジェクトページ、絵文字オープンソース・データページをご覧ください。フィードバックはこのページからお願いいたします。

絵文字のユニコード符号化: 符号化提案用のオープンソースデータ

関連記事