ウェブスクレイピングとは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > 百科事典 > ウェブスクレイピングの意味・解説 

ウェブスクレイピング

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/11/24 23:26 UTC 版)

ウェブスクレイピング: Web scraping)とは、ウェブサイトから情報を抽出するコンピュータソフトウェア技術のこと。通常このようなソフトウェアプログラムは低レベルのHTTPを実装することで、もしくはウェブブラウザを埋め込むことによって、WWWのコンテンツを取得する。ウェブスクレイピングはユーザーが手動で行なうこともできるが、一般的にはボットやクローラ(: Web crawler)を利用した自動化プロセスを指す。

ウェブスクレイピングは多くの検索エンジンによって採用されている、ボットを利用してウェブ上の情報にインデックス付けを行うウェブインデクシングと密接な関係がある。ウェブスクレイピングではウェブ上の非構造化データの変換、一般的にはHTMLフォーマットからデータベースやスプレッドシートに格納・分析可能な構造化データへの変換に、より焦点が当てられている。また、コンピュータソフトウェアを利用して人間のブラウジングをシミュレートするウェブオートメーションとも関係が深い。ウェブスクレイピングの用途は、オンラインでの価格比較、気象データ監視、ウェブサイトの変更検出、研究、ウェブマッシュアップやウェブデータの統合等である。

手法

ウェブスクレイピングはWWWから自動的に情報を収集する処理に他ならない。この分野はいまだテキスト処理や意味論的理解、人工知能、ヒューマンコンピュータインタラクションの面でブレークスルーを必要としている野心的な手法であるセマンティックウェブと目指すところが近い。対して、ウェブスクレイピングでは既存技術に基づいた、その場しのぎであろうとも現実的な解決案を良しとする。したがって、ウェブスクレイピング技術は次のような異なる自動化技術の集合体である。

  • 人間によるコピーアンドペースト
  • 全文検索と正規表現マッチ
  • HTTPプログラミング
  • データマイニングアルゴリズム
  • DOM解析
  • HTMLパーサ
  • ウェブスクレイピングソフトウェア
  • 垂直統合プラットフォーム
  • 意味注釈認識

法的問題

ウェブスクレイピングはいくつかのウェブサイトの規約に反する可能性がある。 例えば、短文投稿サイトのツイッターではサービス利用規約によって明示的に禁止されており[1]APIの利用が必須となる。

ボットを禁止するための技術的手段

ウェブサイトの管理者にはボットを停止または処理を遅らせるいくつかの手段が存在する。

  • たとえば、HTMLを書く際にヘッダ内(<head></head>)に
<meta name="robots" content="noindex,nofollow">

と記載することで、当該ページを bot により(検索エンジンなどに)登録(index)したり、当該ページからリンクをたどっていかないように(nofollow)指定できる。

脚注

関連項目



このページでは「ウィキペディア」からウェブスクレイピングを検索した結果を表示しています。
Weblioに収録されているすべての辞書からウェブスクレイピングを検索する場合は、下記のリンクをクリックしてください。
 全ての辞書からウェブスクレイピング を検索

英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「ウェブスクレイピング」の関連用語

ウェブスクレイピングのお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



ウェブスクレイピングのページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアのウェブスクレイピング (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。

©2025 GRAS Group, Inc.RSS