スクレイピングとは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > デジタル大辞泉 > スクレイピングの意味・解説 

スクレーピング【scraping】

読み方:すくれーぴんぐ

原義は「こする、削り落とすの意味

スキー板スノーボードの裏面に塗ったワックス削り落とすこと。

ウェブスクレーピング


スクリーンスクレイピング

(スクレイピング から転送)

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/06/02 13:35 UTC 版)

スクリーンスクレイピングScreen scraping)とは、あるプログラムが人間に読みやすい形で出力した結果からデータを抽出する技術のこと。

概要

通常、プログラム間でのデータ転送にはコンピュータによる自動処理に適したデータ構造が用いられる。このようなデータ交換フォーマットプロトコルは厳格に構造化、整形化されており、容易に解析できるようになっていて、曖昧さが最小になるように設計されている。この場合、通信内容は人間に読みやすい形でないことがほとんどである。

つまり、スクリーンスクレイピングにおいて重要なのは、スクレイピング対象の出力結果は他のプログラムへの入力ではなく、エンドユーザーへの表示を想定しているであろうこと、そして整形化も、解析のために構造化もされていないであろうということである。スクリーンスクレピングには、画像やマルチメディア等のバイナリデータ、画面フォーマット、冗長なラベルや注釈、その他自動処理に必要ない・有害な情報を取り除くことも含まれる。

スクリーンスクレイピングは主に次のようなケースで行われる。

  1. 対象がレガシーシステムで、現在のハードウェアと互換性のあるメカニズムが他にない
  2. 対象がサードパーティー製システムで、より利便性の高いAPIが提供されていない

2番目のケースでは、システムの負荷増加、広告収入の減少、コンテンツをコントロール下に置けない等の理由で、システムの管理者(サードパーティ)がスクレイピングを望まない可能性がある。

スクリーンスクレイピングは一般的に他に利用可能なメカニズムがない場合に用いられる、その場しのぎで、エレガントでない「最後の手段」と考えられている。多大なプログラミングと処理のオーバーヘッドに加え、出力が人間を対象としているために構造が頻繁に変更される。人間であれば変更に対して簡単に対処できるが、コンピュータプログラムでは大抵の場合クラッシュしたり、誤った結果を表示してしまう。

スクリーンスクレイピング

元来、スクリーンスクレイピングとはターミナルコンピュータの画面からテキストデータを読み込む作業を指していた。これは一般的には補助ポート経由でターミナルのメモリを読み込むことで、またはターミナルの出力ポートを別のコンピュータシステムの入力ポートに接続することで行われていた。また、スクリーンスクレイピングという用語はデータの双方向交換を指しても使われている。単純な例では、ユーザインタフェースを通じて制御プログラムを操作することもスクリーンスクレイピングである。制御プログラムは人間によって使用されるインタフェースによってデータ入力されているからである。

古典的なスクリーンスクレイピングの具体例としては、データ処理がコンピュータ化され始めた1960年代に構築されたシステムを考えてみると良い。当時のコンピュータのユーザインタフェースと言えば主に仮想テレタイプに過ぎない単なるテキストベースのダム端末であった。より近代的なシステムにこれを接続したいと思うのは別段特別なことではない。この時、堅牢な解決法を用いるならば、ソースコードやシステムドキュメントAPI等(場合によっては当時の経験を持った50歳のコンピュータプログラマ)、現在容易に調達できないものが多数必要になってしまう。この場合の実行可能な解決法の一つは、ターミナルのユーザを「偽装」するスクリーンスクレイパーへ出力することである。スクリーンスクレイパーはTelnetを介してレガシーシステムに接続し、キーストロークをエミュレーションして古いユーザインタフェースを操作し、結果表示を処理して必要なデータを抽出したのち、近代的なシステムに渡す。

1980年代には、ロイターやテレレートおよびQuotron等の財務資料には人間の読者を対象とした24x80形式のデータが表示されていた。このデータのユーザ(特に投資銀行)は、取引の意思決定の計算に含めるための数値データを再入力する手間を省くため、文字データを数値データに取得・変換するアプリケーションを作成していた。この作業を指して、表示結果がシュレッダーを通過したように喩えて、特にイギリスにおいてページシュレッディング(page shredding)という語が使われていたことがある。さらにロイターの内部では、この変換作業をLogicizerと呼ばれるVAX/VMS上で動作するコンピュータシステムで行ったことから、ロジサイズド(logicized)という語を使っていたことがある[1]

より近代的な技術では、画面からビットマップデータをキャプチャしOCRエンジンを介して処理すること、GUIアプリケーションの場合には、オブジェクトの参照を取得し、プログラムからグラフィカルコントロールを操作することもスクリーンスクレイピングに含まれる。

ウェブスクレイピング

Webページはテキストベースのマークアップ言語(HTMLおよびXHTML)を使用して構築されており、テキスト形式の有用なデータが豊富に含まれている。しかしほとんどのWebページは容易に自動処理するためではなく、人間のエンドユーザのために設計されている。このため、ウェブコンテンツをスクレイピングするツールキットが開発されている。Webサイトからデータを抽出するためのAPIウェブスクレイパーと呼ばれている。

レポートマイニング

スクリーンスクレイピングやウェブスクレイピングは、動的な出力を対象としているが、レポートマイニングではHTML、PDF、テキスト等の人間に読めるフォーマットで出力されたファイルからのデータ抽出を目的とする。この出力ファイルはプリンターへのデータ送信をインターセプトすることでほとんどのシステムで生成することができる。このアプローチではデータ源のシステムへのAPIをプログラミングする必要がなく、データを得るための迅速かつ単純な手法となる。

脚注

関連項目



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「スクレイピング」の関連用語

スクレイピングのお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



スクレイピングのページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
デジタル大辞泉デジタル大辞泉
(C)Shogakukan Inc.
株式会社 小学館
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアのスクリーンスクレイピング (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。

©2025 GRAS Group, Inc.RSS