日本語処理における問題点とは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > ウィキペディア小見出し辞書 > 日本語処理における問題点の意味・解説 

日本語処理における問題点

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2020/12/04 15:52 UTC 版)

CJK互換漢字」の記事における「日本語処理における問題点」の解説

CJK互換漢字はその名前にかかわらずCJK統合漢字互換等価ではなく正準等価であり、互いに区別されることを期待してならないこのため4種類正規化のいずれを採用してCJK統合漢字分解変換)されてしまい、日本の人名理などにおいて要求されることのある一部人名用漢字などの区別が、Unicodeプレーンテキスト上で保証されるとは限らない一部CJK互換漢字等価性正準等価から互換等価変えるべきであるという主張があるが、UnicodeではJIS X 0213用の互換漢字一部新たに収録せず、既存KS X 1001互換文字用の領域などに収録されていた文字流用している。このため日本語だけの都合等価性変えることはできない。またUnicodeには正規化安定性原則があり、その意味でも等価性変更現実的ではない。 一方濁点半濁点合成済み仮名文字(たとえば「が」)は、仮名文字合成用濁点半濁点続けた文字組み合わせ(たとえば「か」+「 ゙」)と同一視する需要がある。このため単純に正規化を行わなければ済む問題でもないアップルはこのジレンマ解決するため、CJK互換漢字正規化から除外した新し正規化形式追加UTCUnicode Technical Committee, Unicode技術委員会)に提案したが、否決された。そこでアップルCJK互換漢字を含む一部文字分解されない独自の正規化形式定め自社オペレーティングシステム導入している。 アドビ日本語組版理において必要とされる可能性がある字体区別CJK互換漢字頼らずUnicodeプレーンテキスト上で維持するために、Adobe-Japan1-6異体字集合Unicode漢字字形データベース (Ideographic Variation Database) に登録申請し2007年12月14日登録された(詳細異体字セレクタ参照)。 2013年9月制定のUnicode6.3ではこれとは別に基本多言語面異体字セレクタ使用するStandardized Variantsとして、互換漢字用の異体字セレクタ登録された。互換漢字ブロックおよびその補助集合にある統合漢字扱いする12字を除く1002文字全て含んでいる。字形でなくKS X 1001読み違いによる重複収録Big5誤って重複収録されたものに対応する互換漢字登録されている。

※この「日本語処理における問題点」の解説は、「CJK互換漢字」の解説の一部です。
「日本語処理における問題点」を含む「CJK互換漢字」の記事については、「CJK互換漢字」の概要を参照ください。

ウィキペディア小見出し辞書の「日本語処理における問題点」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「日本語処理における問題点」の関連用語

日本語処理における問題点のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



日本語処理における問題点のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、WikipediaのCJK互換漢字 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2025 GRAS Group, Inc.RSS