ウェブスクレイパーとは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > デジタル大辞泉 > ウェブスクレイパーの意味・解説 

ウェブ‐スクレーパー【web scraper】

読み方:うぇぶすくれーぱー

ウェブスクレーピングを行うための専用ソフトウエアスクレーパー


ウェブスクレイピング

(ウェブスクレイパー から転送)

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/09/04 15:53 UTC 版)

ウェブスクレイピング: Web scraping)とは、ウェブサイトから情報を抽出するコンピュータソフトウェア技術のこと。通常このようなソフトウェアプログラムは低レベルのHTTPを実装することで、もしくはウェブブラウザを埋め込むことによって、WWWのコンテンツを取得する。ウェブスクレイピングはユーザーが手動で行なうこともできるが、一般的にはボットやクローラ(: Web crawler)を利用した自動化プロセスを指す。

ウェブスクレイピングは多くの検索エンジンによって採用されている、ボットを利用してウェブ上の情報にインデックス付けを行うウェブインデクシングと密接な関係がある。ウェブスクレイピングではウェブ上の非構造化データの変換、一般的にはHTMLフォーマットからデータベースやスプレッドシートに格納・分析可能な構造化データへの変換に、より焦点が当てられている。また、コンピュータソフトウェアを利用して人間のブラウジングをシミュレートするウェブオートメーションとも関係が深い。ウェブスクレイピングの用途は、オンラインでの価格比較、気象データ監視、ウェブサイトの変更検出、研究、ウェブマッシュアップやウェブデータの統合等である。

手法

ウェブスクレイピングはWWWから自動的に情報を収集する処理に他ならない。この分野はいまだテキスト処理や意味論的理解、人工知能、ヒューマンコンピュータインタラクションの面でブレークスルーを必要としている野心的な手法であるセマンティックウェブと目指すところが近い。対して、ウェブスクレイピングでは既存技術に基づいた、その場しのぎであろうとも現実的な解決案を良しとする。したがって、ウェブスクレイピング技術は次のような異なる自動化技術の集合体である。

  • 人間によるコピーアンドペースト
  • 全文検索と正規表現マッチ
  • HTTPプログラミング
  • データマイニングアルゴリズム
  • DOM解析
  • HTMLパーサ
  • ウェブスクレイピングソフトウェア
  • 垂直統合プラットフォーム
  • 意味注釈認識

法的問題

ウェブスクレイピングはいくつかのウェブサイトの規約に反する可能性がある。 例えば、短文投稿サイトのツイッターではサービス利用規約によって明示的に禁止されており[1]APIの利用が必須となる。

ボットを禁止するための技術的手段

ウェブサイトの管理者にはボットを停止または処理を遅らせるいくつかの手段が存在する。

  • たとえば、HTMLを書く際にヘッダ内(<head></head>)に
<meta name="robots" content="noindex,nofollow">

と記載することで、当該ページを bot により(検索エンジンなどに)登録(index)したり、当該ページからリンクをたどっていかないように(nofollow)指定できる。

脚注

関連項目



ウェブスクレイパー(web scraper)

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2019/10/10 01:57 UTC 版)

スクレイパー」の記事における「ウェブスクレイパー(web scraper)」の解説

ウェブサイトから情報抽出するコンピュータソフトウェア技術

※この「ウェブスクレイパー(web scraper)」の解説は、「スクレイパー」の解説の一部です。
「ウェブスクレイパー(web scraper)」を含む「スクレイパー」の記事については、「スクレイパー」の概要を参照ください。

ウィキペディア小見出し辞書の「ウェブスクレイパー」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ


英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「ウェブスクレイパー」の関連用語

ウェブスクレイパーのお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



ウェブスクレイパーのページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
デジタル大辞泉デジタル大辞泉
(C)Shogakukan Inc.
株式会社 小学館
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアのウェブスクレイピング (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaのスクレイパー (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2025 GRAS Group, Inc.RSS