アノテーション
アノテーションとは、「注釈」を意味する語であり、とりわけIT用語としては「特定のデータに対して情報タグ(メタデータ)を付加する」という意味で用いられる言葉である。
アノテーションとして付加されるメタデータは基本的に文字情報=テキストデータであるが、メタデータの付与対象となるデータの形式は幅広い。テキストデータもあれば画像データ、音声データなど、あらゆる種類のメディアにアノテーションが付与され得る。
AI(人工知能)の分野では、音声・画像・テキストなどのデータ(教師データ)に付加されるメタデータ(情報タグ)をアノテーションを呼ぶ。AIは情報タグを参照しつつ教師データを取り込むことで、教師データ自体からは見出しにくい抽象的・婉曲的な要素を理解し、各データの特徴や傾向を学習する。
アノテーション
「アノテーション」とは・「アノテーション」の意味
「アノテーション」とは「注釈」「注記」を意味する英単語「annotation」に由来し、IT分野においては「データに対して補足となる情報(メタデータ)をタグ付けすること」を意味する。同じ「アノテーション」という用語でも分野や文脈によって指すものは違うが、アプリケーションなどのユーザーに伝えるための情報、機械(プログラム)に伝える情報、データ分析のための情報、などといった種類がある。動画投稿サイト「YouTube(ユーチューブ)」では、動画の上にクリック可能なテキストやエリアを表示させることができるアノテーション機能が存在した。しかし、2017年にアノテーションの編集機能は廃止され、代替としてカード機能が使われるようになった。Webサイトでは、異なるURLを持つ同一内容のページが複数存在することがある。例えば、パソコン用とスマートフォン用で別のURLを使っている場合や、多言語サイトの場合などである。重複ペナルティによりSEO上の評価が下がらないように、検索エンジンにこれらのページの関係を正しく伝えるためのHTMLタグを設定することを、アノテーションと呼ぶ。
プログラミング言語のJavaにおけるアノテーションは、ソースコードに書かれていない命令をコンパイラや実行環境に対して伝えるための記述である。PDFファイルにおいて、印刷などでの実際の表示とは別に、文書へのフィードバックのためのテキストコメントを残すことができる。そのような機能のことを注釈(annotation)機能という。
生物学におけるゲノムアノテーションは、DNAの塩基配列のデータが、どのようなタンパク質の合成に関連するのかなどの遺伝子情報を、塩基配列のデータに対して注記していくプロセスのことを指す。音楽分野においてもアノテーションという概念について議論されている。この場合のアノテーションとは、インターネット上に大量に存在する音楽コンテンツのデータをよりよく利用できるようにするために、人間による解釈などによる意味付けを付与することだ。こうした音楽アノテーションには、楽譜にテキストを付与するというものも含まれる。
また、音声による案内に対しても、アノテーションという言葉が用いられる。例えば、歩行者や自転車などの低速な移動手段を用いる場合のナビゲーションを、視覚情報ではなく音響情報によって行うシステムが研究されているが、そのようなナビゲーションのための音声を「アノテーション音声」と呼ぶ。通常のイヤホンでは、風による雑音の影響が大きいためにアノテーション音声が聴き取りにくいことと、耳孔をふさいでいるので風雑音を抑制しすぎると周囲の音に気づきにくくなって危険であることが問題であり、耳孔をふざがない骨伝導ヘッドホンとの比較も含めて研究されている。
アノテーションという用語はAI(人工知能)の分野でも用いられている。AIに、例えば、物体検出・領域抽出・画像分類などの画像認識の能力を与えるためには、機械学習を行わせる。その際に、学習用の画像データに、その画像あるいは画像の特定の領域に何が写っているのかについての説明をタグ付けするプロセスのことを、アノテーションという。つまり、アノテーションのプロセスは、AIの教師あり学習に必要な学習データにおける正解のラベルを用意する役割を果たす。アノテーションが行われる対象となるデータは、画像以外にも、動画・音声・テキストなどがある。
AIにおいては大量の学習データが必要となる。一方で、データのアノテーションの作業を行うのは、人間である。しかも、対象データを注意深く高い集中力を持続しながら判断することや、データについて知見を持っていることが求められるため、必然的に人材や時間の確保の問題が生じてきてしまう。こうした状況において、アノテーションを効率化するために、ツールによる自動化を実現することなどが課題となっている。
「アノテーション」の語源・由来
「アノテーション」は、「注釈」「注記」を意味する英語の「annotation」に由来する。英語のannotationは、「印を付ける」「記す」「書き留める」という意味のラテン語「L.notare」と、「方向」「変化」などを表す接頭辞「ad」が語源である。つまり、語源から考えた意味は「何かに向かって書き留める」ということだ。そこから転じて「注釈」「注記」という意味になったのだろう。「アノテーション」の熟語・言い回し
例えば、プログラミング言語・Javaでプログラムを開発する際に、次のような言い回しが使われるだろう。「この拡張クラスのメソッドが、元のクラスのメソッドをオーバーライドしたものであることが保証されるようにOverrideアノテーションを付けておこう」
また、AIの分野においては、次のような言い回しが考えられる。
「教師あり機械学習に使うための学習データにアノテーションを行う作業をクラウドソーシングを使って外注化することにした」
アノテーション作業とは
アノテーション作業とは、教師あり学習でAIに学習させるデータに対して、言葉によるタグ付けを行うことで、意味や分類に関する情報を付与する作業である。画像分類の場合は、写真などの画像データに対して、それが表すもの、例えば「犬」なのか「猫」なのか、あるいはどの犬種なのか、などについての正解のラベル付けを行っていく。また、写真や動画に写っているものを検出する物体検出のためのアノテーションにおいては、自動車などの物体が写っている領域をボックスで囲み、その物体が何であるのかを表す言葉をタグ付けしていく。
テキストや音声などの言語に関するデータも、アノテーション作業によって意味付けされる。意味的アノテーションでは、単語が属するカテゴリが何なのか、例えば人名なのか会社名なのかなどの情報についてのタグ付けを行っていく。言語的アノテーションでは、指示語がどの単語を指示しているかなど、単語間のつながりに関するデータがタグ付けされていく。
アノテーション作業による学習データのタグ付けは、AIの精度に大きく関わるものであり、高品質なものが求められる。そのため、専門知識を持った人材の確保が、AIによるビッグデータ活用の現場における課題となる。
アノテーション
アノテーションとは「注記・注釈」のことであり、本文の内容について言及する(本文そのものとは別形式の)補足的な情報のことである。あるいは、そのような注記を追加するための機能のことである。
IT用語としては、プログラミングの分野においてソースコードの記述について言及する(メタデータ的な)情報をアノテーションを呼ぶことが多い。とりわけJavaにおいては、「アノテーション」は実行環境やコンパイラに対して指示するための機能を指す。Java以外では、開発者が他の開発者(人間)へ向けて記述したコメントを指して(単純な「注釈」の意味で)アノテーションと呼ぶ場合もあり得る。
動画共有サイト「YouTube」に関連する文脈では、動画コンテンツの上に重ねる形で投稿者のコメントやリンク等を追加できる機能を指してアノテーションと呼んだ。ただしYouTubeのアノテーション機能は2017年に停止され、2019年に完全に廃止(削除)された。なお、YouTubeでは2015年に「カード」機能が追加されており、これがアノテーションの役割をほぼ代替している。
もともとアノテーションという言葉は「注記」「注釈」「注解」「補注」などの意味で使われる一般的な英単語である。たとえば、日本語の文章において「注:」あるいは「※」などの記号を添えて加筆される注意書きなどは、アノテーションに該当する。
アノテーション
アノテーション
アノテーション
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/06/03 05:29 UTC 版)
「バイオインフォマティクス」の記事における「アノテーション」の解説
ゲノミクスの文脈においてアノテーションとは、DNA配列内の遺伝子領域やその機能、そしてその他の生物学的特徴をマークするプロセスである。ほとんどのゲノムは大きすぎるため、手動で注釈を付けることができない。そのため、このプロセスは自動化する必要がある。さらに次世代シーケンシング技術の登場によって大量のデータが高速に得られるようになっており、大量のゲノムに対して高速にアノテーションを付けたいという研究上の要望は高まっている。 包括的なゲノムアノテーションシステムは、自由生活生物である細菌Haemophilus influenzaeのゲノムの最初の完全な配列決定と分析を行ったThe Institute for Genomic Researchのチームによって、1995年に初めて報告された。Owen Whiteは、タンパク質をコードするすべての遺伝子とtRNA、rRNA、およびその他のサイトを特定し、またその生物学的機能を推定する初期のソフトウェアシステムを構築した。 現在でも、ほとんどのゲノムアノテーションシステムは当時と同様な機能を持っているが、例えばHaemophilus influenzaeでタンパク質をコードする遺伝子を見つけるために使用されたGeneMarkプログラムなどのように、ゲノムDNAの分析に利用される個々のプログラムの多くは常に更新されており、機能改善の模索が続けられている。 ヒトゲノムプロジェクトが2003年に完了したが、残された様々な課題や新たな目標の達成のために、アメリカ国立衛生研究所内の国立ヒトゲノム研究所によって新たにENCODEプロジェクトが発足した。このプロジェクトでは、次世代DNAシーケンス技術とゲノムタイリングアレイを使用して、ヒトゲノムの機能的な要素に関するデータを共同でコレクションすることが行われた。次世代シーケンシング技術は、塩基あたりのコストを大幅に削減して大量のデータを生成できる技術であり、しかも従来と同じ誤差精度(ベースコールエラー)と信頼性度(アセンブリエラー)を持っていることが特徴である[要出典]。
※この「アノテーション」の解説は、「バイオインフォマティクス」の解説の一部です。
「アノテーション」を含む「バイオインフォマティクス」の記事については、「バイオインフォマティクス」の概要を参照ください。
アノテーション
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/02/23 08:05 UTC 版)
アセンブリされたDNA配列は、さらに追加の解析がなされないとほとんどの場合価値はない。 ゲノムアノテーションはDNA配列に生物学的情報を付加し、意味付けするプロセスである。 このプロセスは三つのステップからなる。 ゲノムの非コード領域部分を同定する。 ゲノム上の遺伝子、何か機能を持った領域を同定する。(gene prediction) これらの要素に生物学的情報を付加する。
※この「アノテーション」の解説は、「ゲノミクス」の解説の一部です。
「アノテーション」を含む「ゲノミクス」の記事については、「ゲノミクス」の概要を参照ください。
- アノテーションのページへのリンク