ウェブ・スクレイピングとは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > デジタル大辞泉 > ウェブ・スクレイピングの意味・解説 

ウェブ‐スクレーピング【web scraping】

読み方:うぇぶすくれーぴんぐ

ウェブページ記述するHTMLファイルから不要な部分除き特定のデータのみを抽出して扱いやすい形式変換してまとめること。スクレーピング


Webスクレイピング

読み方:ウェブスクレイピング
【英】Web scraping

Webスクレイピングとは、WebサイトからWebページHTMLデータ収集して特定のデータ抽出整形し直すことである。

Webスクレイピングを行うことで、Webページ対象として、あたかもWeb API利用しているかのようにデータ効率的に取得収集することが可能になる用途の例としては、部分的にコンテンツ取り出して携帯電話向けのコンテンツ生成したり、小見出しの一覧を生成したり、といった使い方あある。Webスクレイピングは様々な手段実現可能であるが、PHPPerlといったスクリプト言語使用して行われることが多い。

なお、「スクレイピング」(scraping)とは元々「削る」や「こすり落とす」といった意味の英語である。

WWWのほかの用語一覧
Web制作:  SXO  グレーアウト  サイドバー  Webスクレイピング  8秒ルール  ディープリンク  トップページ

ウェブスクレイピング

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/11/24 23:26 UTC 版)

ウェブスクレイピング: Web scraping)とは、ウェブサイトから情報を抽出するコンピュータソフトウェア技術のこと。通常このようなソフトウェアプログラムは低レベルのHTTPを実装することで、もしくはウェブブラウザを埋め込むことによって、WWWのコンテンツを取得する。ウェブスクレイピングはユーザーが手動で行なうこともできるが、一般的にはボットやクローラ(: Web crawler)を利用した自動化プロセスを指す。

ウェブスクレイピングは多くの検索エンジンによって採用されている、ボットを利用してウェブ上の情報にインデックス付けを行うウェブインデクシングと密接な関係がある。ウェブスクレイピングではウェブ上の非構造化データの変換、一般的にはHTMLフォーマットからデータベースやスプレッドシートに格納・分析可能な構造化データへの変換に、より焦点が当てられている。また、コンピュータソフトウェアを利用して人間のブラウジングをシミュレートするウェブオートメーションとも関係が深い。ウェブスクレイピングの用途は、オンラインでの価格比較、気象データ監視、ウェブサイトの変更検出、研究、ウェブマッシュアップやウェブデータの統合等である。

手法

ウェブスクレイピングはWWWから自動的に情報を収集する処理に他ならない。この分野はいまだテキスト処理や意味論的理解、人工知能、ヒューマンコンピュータインタラクションの面でブレークスルーを必要としている野心的な手法であるセマンティックウェブと目指すところが近い。対して、ウェブスクレイピングでは既存技術に基づいた、その場しのぎであろうとも現実的な解決案を良しとする。したがって、ウェブスクレイピング技術は次のような異なる自動化技術の集合体である。

  • 人間によるコピーアンドペースト
  • 全文検索と正規表現マッチ
  • HTTPプログラミング
  • データマイニングアルゴリズム
  • DOM解析
  • HTMLパーサ
  • ウェブスクレイピングソフトウェア
  • 垂直統合プラットフォーム
  • 意味注釈認識

法的問題

ウェブスクレイピングはいくつかのウェブサイトの規約に反する可能性がある。 例えば、短文投稿サイトのツイッターではサービス利用規約によって明示的に禁止されており[1]APIの利用が必須となる。

ボットを禁止するための技術的手段

ウェブサイトの管理者にはボットを停止または処理を遅らせるいくつかの手段が存在する。

  • たとえば、HTMLを書く際にヘッダ内(<head></head>)に
<meta name="robots" content="noindex,nofollow">

と記載することで、当該ページを bot により(検索エンジンなどに)登録(index)したり、当該ページからリンクをたどっていかないように(nofollow)指定できる。

脚注

関連項目


ウェブスクレイピング

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2020/09/06 08:40 UTC 版)

スクリーンスクレイピング」の記事における「ウェブスクレイピング」の解説

「ウェブスクレイピング」を参照 Webページテキストベースマークアップ言語HTMLおよびXHTML)を使用して構築されており、テキスト形式有用なデータ豊富に含まれている。しかしほとんどのWebページ容易に自動処理するためではなく人間エンドユーザのために設計されている。このためウェブコンテンツスクレイピングするツールキット開発されている。Webサイトからデータ抽出するためのAPIウェブスクレイパー呼ばれている。

※この「ウェブスクレイピング」の解説は、「スクリーンスクレイピング」の解説の一部です。
「ウェブスクレイピング」を含む「スクリーンスクレイピング」の記事については、「スクリーンスクレイピング」の概要を参照ください。

ウィキペディア小見出し辞書の「ウェブ・スクレイピング」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ


英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「ウェブ・スクレイピング」の関連用語

ウェブ・スクレイピングのお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



ウェブ・スクレイピングのページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
デジタル大辞泉デジタル大辞泉
(C)Shogakukan Inc.
株式会社 小学館
IT用語辞典バイナリIT用語辞典バイナリ
Copyright © 2005-2025 Weblio 辞書 IT用語辞典バイナリさくいん。 この記事は、IT用語辞典バイナリの【Webスクレイピング】の記事を利用しております。
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアのウェブスクレイピング (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaのスクリーンスクレイピング (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2025 GRAS Group, Inc.RSS