BookCorpusとは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > 百科事典 > BookCorpusの意味・解説 

BookCorpus

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2023/10/17 04:57 UTC 版)

BookCorpus(ブック・コーパス)は、Toronto Book Corpus(トロント・ブック・コーパス)としても知られ、インターネットから収集された約11,000冊の未発表書籍のテキストで構成されるデータセットである。このコーパスは、OpenAIによる初期の言語モデルであるGPTの訓練に使用された主要なコーパスであり[1]、GoogleのBERTを含む他の初期の大規模言語モデルの訓練データとしても使われた[2]。このデータセットは約9億8,500万語からなり、ロマンス、SF、ファンタジーなど幅広いジャンルの書籍に及んでいる[2]

このコーパスは、トロント大学マサチューセッツ工科大学の研究者による2015年の論文「Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books」で公開された。著者らはこれを「まだ出版されていない著者による無料の書籍」で構成されていると説明している[3][4]。このデータセットは当初、トロント大学のウェブページから提供された[4]。もとのデータセットの公式バージョンは非公開となり、それに代わるものとしてBookCorpusOpenが作成されている[5]。2015年のオリジナル論文には触れられていないが、このコーパスの書籍を収集したサイトはSmashwords英語版であることが知られている[4][5]

脚注

  1. ^ Improving Language Understanding by Generative Pre-Training”. 2021年1月26日時点のオリジナルよりアーカイブ。2020年6月9日閲覧。
  2. ^ a b Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11 October 2018). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805v2 [cs.CL]。
  3. ^ Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. Proceedings of the IEEE International Conference on Computer Vision (ICCV).
  4. ^ a b c Lea, Richard (2016年9月28日). “Google swallows 11,000 novels to improve AI's conversation”. The Guardian. 2023年3月9日閲覧。
  5. ^ a b Bandy, John; Vincent, Nicholas (2021). "Addressing "Documentation Debt" in Machine Learning: A Retrospective Datasheet for BookCorpus" (PDF). =Proceedings of the Neural Information Processing Systems Track on Datasets and Benchmarks.



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  
  •  BookCorpusのページへのリンク

辞書ショートカット

すべての辞書の索引

「BookCorpus」の関連用語

1
GPT (言語モデル) 百科事典
4% |||||

2
BERT (言語モデル) 百科事典
2% |||||

3
2% |||||

4
AIブーム 百科事典
2% |||||

5
GPT-2 百科事典
2% |||||

6
生成的人工知能 百科事典
0% |||||

BookCorpusのお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



BookCorpusのページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアのBookCorpus (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。

©2025 GRAS Group, Inc.RSS