Internationalized Resource Identifier
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2026/03/20 15:12 UTC 版)
Internationalized Resource Identifier(IRI)とは、Uniform Resource Identifier (URI) を拡張したものである(URI自身も Uniform Resource Locator (URL) を拡張したもの)。国際化資源(リソース)識別子とも。URI ではASCII文字セットのサブセットに制限されていたが、IRI は Universal Character Set (Unicode/ISO 10646) を含むことができ、漢字、仮名文字、ハングル、キリル文字などを使うことができる。
仕様上の重要点は、IRIがURIを置き換える別体系ではなく、必要に応じてURIへ写像できる補完概念として定義されている点である[1]。RFC 3987 では、ASCII に含まれない文字はUTF-8のオクテット列へ変換したうえでパーセントエンコードしてURIへ写像し、この変換はURIそのものに対しては恒等であり、再適用しても変化しないとされる[1]。そのため、IRIは人間に読みやすい多言語表現を許容しつつ、既存のURIベース実装と互換性を保つための入口として機能する[1][2]。また、ドメイン名を用いる ireg-name 成分では、既存の名前解決系との相互運用性を高めるため、各ラベルにToASCII操作を適用してASCIIへ変換する運用も示されている[1][2]。
RDF 1.1 では、IRI は RDF グラフ中の識別子として扱われ、絶対 IRI であることが求められる[3]。RDF では IRI の比較に追加の正規化を行わず、単純な文字列比較で等価性を扱うため、表記の選び方そのものがデータの相互運用性に直結する[3]。また、URI に対してのみ定義された操作に IRI を用いる場合には、RFC 3987 の写像規則に従って URI へ変換してから扱うことが求められる[3][1]。さらに HTTP URI を用いて資源を識別し、参照時に機械可読な表現を返すという Linked Data の実践では、URI 設計と多言語対応を結びつける識別子基盤として IRI を位置づけられる[3][4]。
利点
URI を多言語対応させることで、ラテンアルファベットに不案内なユーザーにもわかりやすくなり、Unicodeの入力が難しくないと仮定すれば、URIシステムへのアクセス可能性が広がる。
欠点
IRI と ASCII の URI の混合は、実際には別のサイトであるにもかかわらず、あるサイトにいるかのように錯覚させることができ、フィッシング詐欺が容易になる。例えば、www.ebay.com や www.paypal.com の "a" を見た目が似ていて異なる文字コードの文字(キリル文字の"а"など)に置換し、そのIRIを不正なサイトを指すように設定する。
現在のキーボードでは、他の言語のWebリソースへのアクセスは非常に難しい。逆に、オープンソースのプログラム(それ以外も)はそのような問題を避けるため、ラテン文字のみで書かれることが多い。
脚注
出典
- ^ a b c d e “RFC 3987: Internationalized Resource Identifiers (IRIs)” (英語). RFC Editor (2005年1月). 2026年3月20日閲覧。
- ^ a b “Internationalized Resource Identifiers (IRIs)” (英語). W3C Internationalization. 2026年3月20日閲覧。
- ^ a b c d “RDF 1.1 Concepts and Abstract Syntax” (英語). W3C (2014年2月25日). 2026年3月20日閲覧。
- ^ “Best Practices for Publishing Linked Data” (英語). W3C (2014年1月9日). 2026年3月20日閲覧。
関連項目
外部リンク
- Internationalized Resource Identifierのページへのリンク