未来情報産業株式会社 CCSとCESの管理の分離


LOCATION:

CCSとCESの管理の分離

「文字コード」と一言で呼ばれますが、次の二つの概念を含んでいます。

ある集合に、どのような文字をどのような番号で配置させるか、というのがCCSです。それを、実際にコンピューターで扱えるような形式にしたものをCESといいます。追って説明します。

技術

符号化文字集合(CCS)

日本語の符号化文字集合には、次のようなものがあります。

  • JIS X 0208
  • JIS X 0212
  • JIS X 0213
  • Unicode

これらは、このままではコンピューターで扱いにくいので、コンピューターで扱えるように符号化します。この方法が次のCESです。

文字符号化方法(CES)

JISの符号の場合、次のようなものがよく使われます。

  • シフトJIS (Shift_JIS)
  • EUC-JP
  • ISO-2022-JP (いわゆるJISコード)

Unicodeの符号の場合、次のようなものがよく使われます。

  • UTF-8
  • UTF-16

実装と対応について

弊社製品「もじかん」では、CCSとCESを分離して管理しています。

分離の目的

例えば「シフトJIS」とひとくくりにして変換する文字コード変換ツールは星の数ほどあります。

しかし、シフトJISはあくまでも符号化方法(CES)で、実際の文字集合(CCS)が何であるかは分かりません。

正確に変換したいというニーズを満たすためには、両者を分離して管理する必要があります。

もじかんは、両者を分離して管理しており、それを指定することができます。

符号化文字集合(CCS)の例

「もじかん」では、様々なCCSに対応しています。

一つシフトJISでも、40種類以上のCCSに対応し、様々な環境で作られた文書を、他の環境で利用できるように変換することができます。

現在、日本語で対応する符号と集合は、もじかんの対応符号(言語別)‐日本語を参照して下さい。

もじかん

弊社「もじかん」では、様々なCCSを情報損失なく扱うために、内部では独自の符号体系を用いています。

Unicodeを介する変換も多くありますが、そうでない変換もあります。

また、Unicodeに無い文字にも対応することができます。

資料請求・問い合わせ

電子メールで、info@mirai-ii.co.jpまでよろしくお願いします。

戻る
Copyright © Mirai Corporation 2007-2010 All rights reserved.