ウェブ‐スクレーピング【web scraping】
Webスクレイピング
ウェブスクレイピング
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/11/11 07:19 UTC 版)
|
|
この記事は英語版の対応するページを翻訳することにより充実させることができます。(2024年11月)
翻訳前に重要な指示を読むには右にある[表示]をクリックしてください。
|
ウェブスクレイピング(英: Web scraping)とは、ウェブサイトから情報を抽出するコンピュータソフトウェア技術のこと。通常このようなソフトウェアプログラムは低レベルのHTTPを実装することで、もしくはウェブブラウザを埋め込むことによって、WWWのコンテンツを取得する。ウェブスクレイピングはユーザーが手動で行なうこともできるが、一般的にはボットやクローラ(英: Web crawler)を利用した自動化プロセスを指す。
ウェブスクレイピングは多くの検索エンジンによって採用されている、ボットを利用してウェブ上の情報にインデックス付けを行うウェブインデクシングと密接な関係がある。ウェブスクレイピングではウェブ上の非構造化データの変換、一般的にはHTMLフォーマットからデータベースやスプレッドシートに格納・分析可能な構造化データへの変換に、より焦点が当てられている。また、コンピュータソフトウェアを利用して人間のブラウジングをシミュレートするウェブオートメーションとも関係が深い。ウェブスクレイピングの用途は、オンラインでの価格比較、気象データ監視、ウェブサイトの変更検出、研究、ウェブマッシュアップやウェブデータの統合等である。
手法
ウェブスクレイピングはWWWから自動的に情報を収集する処理に他ならない。この分野はいまだテキスト処理や意味論的理解、人工知能、ヒューマンコンピュータインタラクションの面でブレークスルーを必要としている野心的な手法であるセマンティックウェブと目指すところが近い。対して、ウェブスクレイピングでは既存技術に基づいた、その場しのぎであろうとも現実的な解決案を良しとする。したがって、ウェブスクレイピング技術は次のような異なる自動化技術の集合体である。
- 人間によるコピーアンドペースト
- 全文検索と正規表現マッチ
- HTTPプログラミング
- データマイニングアルゴリズム
- DOM解析
- HTMLパーサ
- ウェブスクレイピングソフトウェア
- 垂直統合プラットフォーム
- 意味注釈認識
法的問題
ウェブスクレイピングはいくつかのウェブサイトの規約に反する可能性がある。 例えば、短文投稿サイトのツイッターではサービス利用規約によって明示的に禁止されており[1]、APIの利用が必須となる。
米国時間2025年11月10日に、Wikipediaを運営する非営利団体ウィキメディア財団は、AIを扱う企業へAIモデルのトレーニングを目的としたWikipedia等のデータ収集(スクレイピング)をする際に無断で行うのを止めて、ウィキメディア財団の提供する有料APIを利用し、Wikipedia等を出典としたことを示すクレジット表示と財政的支援を求める声明を発表した[2][3]。
ボットを禁止するための技術的手段
ウェブサイトの管理者にはボットを停止または処理を遅らせるいくつかの手段が存在する。
- たとえば、HTMLを書く際にヘッダ内(
<head>~</head>)に
<meta name="robots" content="noindex,nofollow">
と記載することで、当該ページを bot により(検索エンジンなどに)登録(index)したり、当該ページからリンクをたどっていかないように(nofollow)指定できる。
脚注
- ^ サービス利用規約 - Twitter
- ^ “AIの「タダ乗り」許さず--Wikipedia、AI企業に無断利用の停止と支払いを要求”. CNET Japan (2025年11月11日). 2025年11月11日閲覧。
- ^ “Wikipedia運営元、AI企業にAPIを介したデータ使用料支払いを要求”. ITmedia NEWS. 2025年11月11日閲覧。
関連項目
- 30 Digits
- Anubis (ソフトウェア)
- インポータ
- 80legs
- Octoparse
- コーパス言語学
- スクリーンスクレイピング
- レポートマイニング
- マッシュアップ (Webプログラミング)
- OpenSocial
- Scraper site
- 検索エンジンスパム
- コーパス
- クローラ
- robots.txt
- メタデータ
- アカウントアグリゲーション
- Job wrapping
- en:noindex、en:nofollow
- 岡崎市立中央図書館事件
ウェブスクレイピング
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2020/09/06 08:40 UTC 版)
「スクリーンスクレイピング」の記事における「ウェブスクレイピング」の解説
「ウェブスクレイピング」を参照 Webページはテキストベースのマークアップ言語(HTMLおよびXHTML)を使用して構築されており、テキスト形式の有用なデータが豊富に含まれている。しかしほとんどのWebページは容易に自動処理するためではなく、人間のエンドユーザのために設計されている。このため、ウェブコンテンツをスクレイピングするツールキットが開発されている。Webサイトからデータを抽出するためのAPIはウェブスクレイパーと呼ばれている。
※この「ウェブスクレイピング」の解説は、「スクリーンスクレイピング」の解説の一部です。
「ウェブスクレイピング」を含む「スクリーンスクレイピング」の記事については、「スクリーンスクレイピング」の概要を参照ください。
- ウェブスクレイピングのページへのリンク