タグクラウドとは？わかりやすく解説

IBM Word Cloud Generatorビルド32を使用して、完全なgzipされたリストアーカイブで作成されたFoundation-lワードクラウド（アーカイブおよびすべてのヘッダーと本文内の引用テキストからの重複メールなし）。 ^[1]

タグ・クラウド (tag cloud、 ワードクラウド 、またはビジュアルデザインの重み付きリスト ）はタグの視覚的記述を指す。テキストデータの斬新な視覚表現であり、通常はWebサイトでキーワードメタデータ（タグ）を描写したり、自由形式のテキストを視覚化するが、通常タグは単一の単語であり、各タグの重要性はフォントサイズまたは色で示される^[2]。この形式は、最も重要な用語をすばやく認識して、その相対的な重要度を判断するのに役立つが Webサイトのナビゲーション支援として使用される場合、用語はタグに関連付けられたアイテムにハイパーリンクされる。

歴史

ハイジパリ：1991年11月14日付、ジルドゥルーズとフェリックスガタリによるドイツ語版「A Thousand Plateaus」の最初のカバードラフト

ビジュアルデザインの言語ではタグクラウド（またはワードクラウド）は一種の「重み付けリスト」であり、地理マップで一般的に使用され、相対的な書体サイズに関して都市の相対的なサイズを表す。英語のキーワードの重み付きリストの初期の印刷例は Douglas CouplandのMicroserfs （1995）の「潜在意識ファイル」。ドイツの外観は1992年に発生^[3]。

「タグクラウド」という用語の特定の視覚形式と一般的な使用は Webサイトを記述するキーワードメタデータの頻度分布を視覚化するために主に使用される、初期のWeb 2.0 Webサイトおよびブログの広範な機能として、21世紀の最初の10年にコンテンツ、およびナビゲーション支援として顕著になっていく。

有名なウェブサイトの最初のタグクラウドは、2004年にFlickrの共同設立者でありインタラクションデザイナーのスチュワート・バターフィールドによって作成された写真共有サイトFlickrにあった。この実装はJim FlanaganのSearch Referral Zeitgeist、^[4] Webサイトのリファラーの視覚化に基づいていた。タグクラウドも、ほぼ同時期にDel.icio.usとTechnoratiによって普及した。

タグクラウドメソッドの過飽和とWebナビゲーションツールとしての有用性に関するあいまいさによりこれらの早期採用者の間で使用量が著しく減少する^[5] （Flickrは、2006年の「ベストプラクティス」Webby賞の5単語の受け入れスピーチで、ウェブ開発コミュニティに「謝罪」、「タグクラウドについてごめんなさい」と述べている。） ^[6]

ソフトウェア開発の第2世代は、テキストデータの基本的な視覚化方法として、タグクラウドの幅広い用途を発見。これに関連して、タグクラウドのいくつかの拡張が提案されるが例としてパラレルタグクラウド、 ^[7] SparkClouds、 ^[8]およびプレフィックスタグクラウドがある^[9]。 Adobe Flexで記述されたWord Cloud Explorerは、タグクラウドとテキスト分析のための多数のインタラクティブ機能を組み合わせている^[10]。

タイプ

世界各国の人口を示すデータクラウド。 *wordcloud*パッケージを使用してRで作成。国の人口からのデータ。中国とインドの比例サイズは半分に分割されていることに注意してください。

ソーシャルソフトウェアは主に3つのタイプのタグクラウドアプリケーションがあり、外観ではなくその意味によって区別される。最初のタイプには各アイテムの頻度のタグがあるが2番目のタイプにはすべてのアイテムとユーザーにわたって頻度が集計されるグローバルタグクラウドがあり、3番目のタイプでは、クラウドにはカテゴリが含まれ、サイズはサブカテゴリの数を示している。

周波数

最初のタイプではサイズはタグが単一のアイテムに適用された回数を表している^[11]。これは民主的に「投票」されたアイテムに関するメタデータを表示する手段として、また正確な結果が望ましくない場合に便利である。

2番目のより一般的に使用されるタイプで ^[要出典] サイズは各タグの人気度の表示として、タグが適用されたアイテムの数を表している。

意義

頻度の代わりにサイズを使用し、背景コーパスと比較して（たとえば、Wikipediaのすべてのテキストと比較して）単語と単語の共起の重要性を表すことができる^[12]。このアプローチはスタンドアロンでは使用でないが、ドキュメントの頻度を予想される分布と比較することに依存している。

分類

3番目のタイプでは、タグはコンテンツアイテムの分類方法として使用される。タグはクラウドで表され、大きなタグはそのカテゴリのコンテンツアイテムの量を表している。

タグクラウドの代わりにタグクラスターを構築するアプローチがいくつかあり、例えば文書内でタグの共起を適用など^[13]。

より一般的にはワードクラウドまたはデータクラウドの場合と同じ視覚技術を使用して、非タグデータを表示できる。

キーワードクラウドという用語が特定のWebサイトに関連するキーワードのグループを指す検索エンジンマーケティング（SEM）用語として使用される場合があるが近年タグクラウドは、Webページの検索エンジン最適化における役割と、情報システム内のコンテンツを効率的にナビゲートする際のユーザーのサポートにより人気を集めており^[14]、ナビゲーションツールとしてのタグクラウドは、検索エンジンスパイダーがクロールするときに^[15] Webサイトのリソースをより接続しやすくしている。これにより、サイトの検索エンジンのランクが向上する可能性があるがユーザーインターフェイスの観点からは、検索結果を要約するためによく使用され、特定の情報システムでコンテンツをより迅速な検索をサポート^[16]。

外観

株価の動きを示すデータクラウド。色は正または負の変化を示し、フォントサイズは変化率を示します。

タグクラウドは通常、インラインHTML要素を使用して表され、タグは、アルファベット順に、ランダムな順序で、重さなどでソートできる。フォントサイズ、フォントの色、強度、太さなどに加えて、さらに視覚的なプロパティが操作される場合があるが^[17]、最も一般的なのは行ごとの順次レイアウトでアルファベット順に並べ替えられた長方形のタグ配置で、最適なレイアウトの決定は予想されるユーザーの目標に基づいて決定する必要があり、タグを意味的にクラスター化して、類似のタグが互いに近くに表示されるようにする^[18] ^[19]か、単語を配置するためにtSNEなどの埋め込み手法を使用することを好む人もいる。エッジを追加して、タグの共起を強調し、相互作用を視覚化でき目的がタグのクラスター化であるかどうかにかかわらず、ヒューリスティックを使用してタグクラウドのサイズを縮小できる。

タグクラウドの視覚的分類は、タグの順序規則（例：アルファベット順、重要度別、コンテキスト別、ランダム、表示品質順）、クラウド全体の形状（例：四角形、円、マップの境界線）、形状タグの境界（長方形、または文字本体）、タグの回転（なし、無料、制限あり）、タグの垂直方向の配置（活版印刷のベースラインに固定、無料）で Web上のタグクラウドは、美観のモデリングと制御、タグの2次元レイアウトの構築の問題に対処する必要があり、これらはすべて揮発性ブラウザープラットフォームで短時間で実行する必要がある。Webで使用されるタグクラウドは、ロボットで読み取り可能にするために、グラフィックスではなくHTMLである必要があり、ブラウザーで利用可能なフォントを使用してクライアント側で構築され、長方形のボックスに収まる必要がある^[20]。

データクラウド

データクラウドまたはクラウドデータは、フォントサイズや色を使用して数値を示すデータ表示法^[21]でタグクラウド^[22]似ているが、単語数の代わりに、人口や株価などのデータを表示する。

テキストクラウド

テキストクラウドまたはワードクラウドは、特定のテキスト内の単語の頻度を重み付きリストとして視覚化したもの^[24]。この手法は最近、政治演説の話題の内容を視覚化するために広く使用されている ^[23] ^[25]。

コロケートクラウド

テキストクラウドの原則を拡張するコロケートクラウドは、ドキュメントまたはコーパスに対しより集中的なビューを提供。ドキュメント全体を要約する代わりにこのクラウドは特定の単語の使用状況を調べるが結果のクラウドには検索ワードと組み合わせて使用されることが多いワードが含まれ、これらのコロケートは、頻度（サイズ）とコロコロ強度（輝度）を表示するようにフォーマットされている。これにより、言語を参照および探索するためのインタラクティブな方法が提供される^[26]。

知覚

タグクラウドは、いくつかのユーザビリティ研究で調査対象となっており、以下の要約は、ローマンらによって与えられた研究結果の概要に基づいている： ^[17]

タグサイズ：大きいタグは小さいタグよりもユーザーの注意を引き付け（たとえば、文字数、位置、隣接タグ）
スキャン：ユーザーはタグクラウドを読み取るのではなくスキャン
センタリング：クラウドの中央にあるタグは、境界線に近いタグよりもユーザーの注目を集める（レイアウトの影響を受ける）
位置：左上の象限は、他の象限よりもユーザーの注意を引く（西部の読書習慣）
調査：タグクラウドは、特定のタグを検索する際に最適でないサポートを提供（タグに非常に大きなフォントサイズがない場合）

フェリックス等^[27]。数値をフォントのサイズにマッピングする従来のタグクラウドや、色や円や棒などの追加形状を使用する代替デザインと、人間の読み取りパフォーマンスの違いを、また単語の配置がパフォーマンスにどのように影響するかを比較。

数値を読み取るときにフォントサイズの代わりに追加のバーまたは円を使用すると、精度が向上
ただし、追加のマークが使用されていない場合、ユーザーは特定の単語をすばやく見つけることができる
パフォーマンスはタスクに依存。単語を見つけるなどの単純なタスクは、デザインの選択によって大きな影響を受けるが、タグクラウドのトピックを識別するなどのタスクへの影響ははるかに小さくなる

作成

ビュール数でソートされたウィキペディアの上位1000の重要な記事から構築されたワードル。 ^[28] Wordleギャラリーで入手できます。 ^[29]

原則として、タグクラウド内のタグのフォントサイズは、その発生率によって決まる。ウェブログなどのカテゴリの単語雲の場合、頻度は、たとえば、カテゴリに割り当てられているウェブログエントリの数に対応。周波数が小さい場合は、1から最大フォントサイズまで、フォントサイズを直接指定できる。値が大きい場合は、スケーリングを行う必要があります。線形正規化では、重み $t_{i}$

この項目は、インターネットやウェブに関連した書きかけの項目です。この項目を加筆・訂正などしてくださる協力者を求めています（PJ:コンピュータ/P:コンピュータ）。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

タグクラウドとは？わかりやすく解説

タグ‐クラウド【tag cloud】