未来情報産業株式会社 高精度自動認識


LOCATION:

高精度自動認識

文字コードを自動的に認識する機能が搭載されています。

符号を読み取り、自動的に判断することで、入力の符号を逐一指定する手間を省くことが可能です。

技術

方式

自動認識には様々な方法があります。

  • バイト列の特徴から推測する方法
  • 単語などを認識し、符号を推測する方法

現在は、前者について研究を進め、実装をしています。このため、特定の単語が含まれないような場合でも認識に成功します。

将来的に様々な言語に対応する予定でいますが、現在は日本語の処理を実装しています。

機能

ISO/IEC 2022のエスケープシーケンスや、UnicodeのBOMのような、認識のために必要な情報がある場合には特殊な技術なく認識することができます。

しかし、そうではない符号でも、その符号の特徴を評価し、高精度に符号を認識する自動認識機能の開発に成功しています。

高精度に判定するため、壊れた文書もある程度判定する、という曖昧な処理をお求めの場合には向いていませんが、正常な文書を判定するのには適しています。

日本語

日本語モードでは、次を自動で認識します。

  • ISO-2022-JP
  • Shift_JIS
  • EUC-JP
  • UTF-8N
  • HZ (大陸簡体)

Shift_JIS/EUC-JPと、BOMの無いUTF-8(UTF-8N)の同時自動認識は、それぞれでバイト数が全く違うため難易度が高い技術になりますが、これを実現し、符号列を点数評価することで自動認識します。

この自動認識機能は製品「もじかん」に実装されていますが、この機能のみの販売も致しております。

中文(台湾正体)

台湾正体モードでは、次を自動で認識します。

  • Big5 (台湾正体)
  • EUC-TW (台湾正体)
  • UTF-8N

技術的難易度は日本語の場合と同様で、それぞれでバイト数が全く違う符号列を点数評価することで自動認識します。

この自動認識機能は製品「もじかん」に実装されていますが、この機能のみの販売も致しております。

中文(大陸簡体)

大陸簡体モードでは、次を自動で認識する処理を実現させる予定です。

  • GB2312 (大陸簡体)
  • ISO-2022-CN (大陸簡体)
  • HZ (大陸簡体)
  • UTF-8N

特に大陸簡体モードでなくても、上記のGB2312以外は自動で認識できています。

実装と対応について

もじかん

弊社製品「もじかん」では、日本語の自動判別が搭載されています。

この他、ISO/IEC 2022の符号の認識に対応し、もじかんではISO/IEC 2022準拠の全符号の処理に対応しています。

資料請求・問い合わせ

電子メールで、info@mirai-ii.co.jpまでよろしくお願いします。

戻る
Copyright © Mirai Corporation 2007-2010 All rights reserved.