固有表現
【英】Named Entity
固有表現とは、人名や地名などといった固有名詞や、日付表現、時間表現などに関する総称である。自然言語処理において、文書の中から固有表現を抽出する研究課題は固有表現抽出と呼ばれる。
固有表現の種類については、アメリカ合衆国のDARPAが組織した評価型プロジェクトであるMUCでは、「組織名 (ORGANIZATION)、人名 (PERSON)、 地名 (LOCATION)、日付表現 (DATE)、時間表現 (TIME)、金額表現 (MONEY)、 割合表現 (PERCENT)」の7種類と規定されている。また、 情報抽出や情報検索に関する日本国内の評価型ワークショップであるIREXでは、MUCの分類に固有物名 (ARTIFACT)を加えた全8種類を固有表現と規定している。
固有表現
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/05/22 03:25 UTC 版)
固有表現(こゆうひょうげん、Named Entity)とは、情報抽出において、人、場所、組織、製品などのように、固有名詞によって表される実在する対象を指す。これは物理的実体を持つ場合もあれば、抽象的な概念であることもある。例としては、福沢諭吉、東京都、Nintendo Switchなどが挙げられ、命名可能なあらゆるものが含まれる。
歴史的には、「固有表現」という用語はMUC-6評価キャンペーン[1]で初めて明示的に導入された。当時の定義は「ENAMEX」(人名、地名、組織名などのエンティティ名表現)および「NUMEX」(数値表現)を含んでいた。
より形式的な定義では、ソール・クリプキの提唱した固定指示子(rigid designator)の概念に基づく。ここでいう「Named(命名された)」という語は、リファレンス対象に対して1つ以上の固定指示子が対応するようなエンティティに限定することを意図している[2]。 固定指示子は、すべての可能世界において同じ対象を指す表現である。これに対し、非固定指示子(Non-rigid designator)は、文脈や世界により異なる対象を指す可能性がある。
例として、「石破茂は日本の首相である」という文を考えると、「石破茂」と「日本」は、それぞれ具体的な対象を指すため固有表現である。一方、「首相」は時代や文脈によって指す対象が異なるため、固有表現ではないとされる。固定指示子には通常、固有名詞のほか、生物種や物質名などの自然言語的名称も含まれる。
ただし、固有表現抽出の分野では、時間表現や数値表現(たとえば通貨額や単位表現)も固有表現として扱われることが一般的であり、この点では固定指示子に基づく厳密な定義とは異なる。すなわち、固有表現のほうが固定指示子よりも幅広い表現を含む。
テキスト中から固有表現を抽出するタスクは「固有表現抽出」(Named Entity Recognition, NER) と呼ばれ、抽出された固有表現の指す実体を同定するタスクは「エンティティ・リンキング」あるいは「固有表現の曖昧性解消」(Named Entity Disambiguation, NED) と呼ばれる。これらはいずれも専用のアルゴリズムやリソースを必要とする[3]。
関連項目
- 固有表現抽出
- エンティティ・リンキング
- 情報抽出
- 知識抽出
- テキストマイニング
- トゥルーケーシング
- Apache OpenNLP
- spaCy
参考文献
- ^ Grishman, Ralph; Sundheim, Beth (1996). Design of the MUC-6 evaluation (PDF). TIPSTER '96 Proceedings.
- ^ Nadeau, David; Sekine, Satoshi (2007). A survey of named entity recognition and classification (PDF). Lingvisticae Investigationes.
- ^ Nouvel, Damien; Ehrmann, Maud; Rosset, Sophie (2015). Wiley. ed. Named Entities for Computational Linguistics. ISBN 978-1-84821-838-3
- 固有表現のページへのリンク