トークナイザ
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/12/28 16:52 UTC 版)
トークン化は、スキャナによって得られた部分文字列に、トークンの種別の情報を付け(この部分の仕事は、実際のところスキャナによって適合するルールが選ばれた時点でほとんど済んでいる)、その種類によっては、たとえば整数ならその整数値といったような意味値(semantic value)を与える処理である。 部分文字列の列からトークンを構築するには、字句解析器には第二段階の評価器が必要であり、評価器は文字列に対して「値」を付与する。文字列と型を結びつけたものが適切にトークンを表し、構文解析器に入力できるものとなる。括弧などの一部のトークンは「値」を持たないので、評価器(関数)はそれらについては何も返さない。整数、識別子、文字列などを扱う評価器は非常に複雑になる。空白やコメントなどはそのまま捨ててしまうこともある。最終的に、#トークンの節に挙げた表のような形の情報を持った、トークン列が得られる。
※この「トークナイザ」の解説は、「字句解析」の解説の一部です。
「トークナイザ」を含む「字句解析」の記事については、「字句解析」の概要を参照ください。
- トークナイザのページへのリンク