GPT-2とは？わかりやすく解説

Generative Pre-trained Transformer 2 (GPT-2)
	GPT-2がプロンプトを補完する様子を示すHugging FaceのWrite With Transformerのウェブサイト。Wikipediaのこの記事から得たテキストをプロンプトとして用いた。最初のプロンプトに続くハイライトされたテキストはすべて最初の補完候補から機械的に生成されたもので、それ以外の編集はない。
作者	OpenAI
初版	14 February 2019年 (6年前)
リポジトリ	https://github.com/openai/gpt-2
前身	GPT-1
後継	GPT-3
種別	Transformer 言語モデル
公式サイト	openai.com/blog/gpt-2-1-5b-release/
	テンプレートを表示

Generative Pre-trained Transformer 2（GPT-2）は、2019年2月にOpenAIによって開発されたオープンソースの人工知能ソフトウェアである^[1]^[2]^[3]^[4]。GPT-2は、テキストを翻訳し、質問に答え、文章の要約を行い^[5]、時には人間と見分けがつかないようなテキスト出力を生成するが^[6]、長い文章を生成すると繰り返したり意味不明な表現になることもある^[7]。GPT-2は、多目的学習器であり、特定のタスク（仕事）を行うための特別な訓練を受けてはおらず、これらのタスクを行う能力は、任意の順序で次の項目を正確に合成する一般的な能力の延長線上にある^[8]^[5]。GPT-2は、OpenAIの2018年版GPTモデルの「スケールアップ版」として構築され^[9]、パラメータ数と訓練用データセットがともに10倍に増加した^[4]。

GPTアーキテクチャは、ディープラーニング（深層学習）によるニューラルネットワーク、具体的には「トランスフォーマー（Transformer）モデル」を実装しており^[9]、これまでの回帰型や畳み込み型のアーキテクチャの代わりに「アテンション」を使用している^[10]^[11]。アテンション機構により、モデルは、入力テキストの中から最も関連性が高いと予測される部位に選択的に焦点を当てることができる^[12]^[13]。このモデルでは、並列化を大幅に向上させることができ、RNN／CNN／LSTMに基づくモデルのこれまでのベンチマークよりも優れた性能を発揮している^[9]。

OpenAIは、2019年11月、GPT-2言語モデルの完全版（15億個のパラメータを含む）を公開した^[14]。GPT-2に続いて、1,750億個のパラメータを含むGPT-3^[15]が、2020年に公開される予定だった^[16]（そのソースコードは公開されていない）。GPT-3へのアクセスは、OpenAIとマイクロソフトが提供するアプリケーションプログラミングインタフェース（API）を通じてのみ提供されている^[17]。

背景

コンピュータの黎明期（英語版）から人工知能は研究対象であった。1950年にアラン・チューリングが提唱した「イミテーション・ゲーム（imitation game）」（しばしばチューリング・テストと呼ばれる）は、電子システムや機械的システムの知的行動をとる能力を、評価者がシステムと人間の行動を区別する能力によって判定することを提案するものである^[18]。「機械学習（machine learning）」という用語は、早くも1959年に、IBMの研究者であるアーサー・サミュエルによって、人工知能の可能性を説明する言葉として最初に使われた^[19]。現在、この用語には、統計的学習、データサイエンス、ニューラルネットワークなど、計算問題に対するさまざまな手法（しばしば人工知能の下に置かれる）が包含されている。

計算言語学

コンピュータによる自然言語処理（NLP）は、もともと計算言語学の一分野として考えられていたもので、コンピュータのハードウェアに能力が備わると同時に試みられるようになった。1948年、ロンドンのバークベック・カレッジで開発された辞書ルックアップテーブルが最初の応用例である^[20]。1954年のジョージタウン大学での実験（英語版）では、60文のロシア語の文章を英語に翻訳するという（主にロシア語の単語を英語の同義語に置き換える）完全に自動化された機械翻訳が実演された^[21]^[22]。そのシステムには6つの文法規則と250語の語彙しかなく^[23]、統語構造の解析や翻訳も行われなかったため、翻訳は粗雑なものが多かった^[24]。しかし、この実験によって、コンピュータが自然言語を解釈し処理できることが一般に証明され^[25]、さらなる研究のためにCIAの資金が確保された^[21]。直接置換は、機械翻訳プログラムを評価する際の基準として残存している。

20世紀半ばには、人間とコンピュータの対話（HCI）に自然言語を利用するシステムも登場し始めた。1968年から1970年にかけてMITで開発された「SHRDLU」は、いくつかの物体がある仮想空間で、ユーザーが自然言語による命令を使って対話を行うプログラムである（たとえば「今持っているものより高いブロックを探して、箱の中に入れる」）^[26]^[27]。1966年に開発されたおしゃべりロボットの「ELIZA」は、人間の対話者が入力したテキストからキーワードを解析し、会話に適する返答をした^[28]。多くの被験者が、ELIZAの会話と人間の会話を区別できないと主張したが、これが知性を構成するかどうかという問題については議論となった（もっとも有名な台本は、心理療法士がユーザーの言ったことをほぼそのまま繰り返すというパロディであった）^[29]。

機械翻訳の初期の試みは純粋に計算によるものだったが、1950年代になると、計算言語学の主流がノーム・チョムスキーの普遍文法という概念が重視されるようになった^[20]。当時のNLP研究は、任意の自然言語の文を、言語に依存しない論理構造に還元する試みが中心であった。1970年代には、意味論的なNLPシステムは、構文的なエンコーディング（syntactic encodings）を避け、より一般意味論的なエンコーディング（semantic encodings）を支持するようになった^[30]。しかし、ニューラルネットワークが登場するまでは、ほとんどのシステムが、手作業でプログラムされた大規模な（そしてますます扱いにくくなった）ルールセットに依存し続け、当初の狙いどおりに拡張することはできなかった^[20]。

人工知能の分野は20世紀後半も発展を続けたが、ときおり「AIの冬」と呼ばれる停滞期が訪れた。さまざまな文献で_、「AIの冬」はさまざまな時期に発生したと述べられている。1994年にHoweは、1973年に始まって10年続いたと著し^[31]、2003年のRussell & Norvigは、1988年にすぐ始まったと述べている^[32]。

ニューラルネットワーク

人工知能の初期の概念であるコネクショニズムは、生物学的な脳におけるニューロン（神経細胞）の挙動をシミュレートするように設計された人工ニューラルネットワークによって知的行動を引き起こそうとするものであった。人工ニューラルネットワークの最初の例は、1951年に構築された「SNARC（英語版）」である。「パーセプトロン」（二値分類器の一種）は、1957年に心理学者のフランク・ローゼンブラットによって発表された^[33]。彼の機械は、400個のフォトセル（光電池）を「ニューロン」に接続して画像認識するように設計され、加重値はポテンショメータで決定されていた（訓練過程で電気モーターで調整^[34]）。パーセプトロンは大きな話題となり、ニューヨーク・タイムズ紙の記事で『（海軍が）期待する電子コンピュータの萠芽は、歩き、話し、見て、書き、自己複製し、自分の存在を意識できるようになるだろう』と紹介された^[35]。しかし、マービン・ミンスキーとシーモア・パパートによる1969年の書籍「パーセプトロン：計算機科学への道（英語版）」において^[36]、当時の最先端技術（単層パーセプトロン）の欠点として、排他的論理和（XOR）関数を符号化できないことなどが指摘されて以来、パーセプトロンシステムは数十年間も衰退したままであった。この本は当時、有望な研究分野としてのパーセプトロン（および一般的なニューラルネットワーク）を否定するものと考えられていた^[35]。

ニューラルネットワークは、「訓練（training)」および「学習（learning）」という過程を経て、さまざまな入力を分類することができるようになる（すなわち個別のカテゴリに区分する）。学習は、まずネットワークの重み（各ニューロンの「活性化」が後続層の特定ニューロンの活性化に影響を与える量）をランダム（無作為）に初期化する。この状態では、ネットワークの出力も同様にランダムとなる。そして、ネットワークの出力がどれだけ望ましいできばえに近いかを定量的に測定する損失関数などの目的関数を定義する（たとえば、手書きの数字からなる入力が、その数字に対応する出力ニューロンのみを活性化させる頻度）^[37]。この関数とネットワークのできばえから、重みを調整して性能を改善することができる^[38]。

バックプロパゲーションは、1974年のポール・ワーボス（英語版）の学位論文で初めて機械学習システムに適用した教師ありアルゴリズムであり^[39]、所与の入出力例に対するネットワーク全体の重みの最適調整を記述するベクトル場である「勾配」の計算を効率化した^[38]^[37]。この勾配を使用してニューラルネットワークを訓練する勾配降下法によって、より複雑なシステムを構築することが可能となり、1980年代にはニューラルネットワークの自然言語処理への応用が広まることになった^[40]^[32]。1985年にはD.B. Parkerがワーボスの手法を再発見し^[41]、1986年にはラメルハート、ヒントン、ウイリアムスが「深層学習（ディープラーニング）」ネットワークと呼ばれる隠れ層を持つニューラルネットワークで、入力データの内部表現を生成するためにこの手法を応用し^[42]、この研究はその後の回帰型ニューラルネットワークの基礎を築いた。

従来の順伝播型ニューラルネットワーク（FFNN）は、各層が前の層からの出力を取り入れ、次の層に送り出すことからその名が付けられた。FFNNの構造には、情報が逆流するような「巡回（cycles）」は存在しない。これに対して、回帰型ニューラルネットワーク（RNN）は、活性化の流れの巡回を少なくとも一つ持っている^[37]。RNNネットワークでは、ある項目そのものと、以前の項目を処理したときの出力の両方を使用して一連の項目を処理できるため、順序付いた項目を処理する（および将来の順序項目を予測する）ためによく使用された^[37]。

1979年に福島邦彦が哺乳動物の視覚野における神経構造モデルに基づいて提唱したネオコグニトロン^[43]は、画像処理で広く使われる畳み込みニューラルネットワーク（CNN）の基礎を築いた^[44]。CNNは、大きな入力層に対して小さな層を「重ねて滑らせる」ことで、より少ない計算量でより深い処理を行うことができる。たとえば、100×100の画像には10,000個の画素があり、全結合層で処理するには10,000個の重みが必要だが、画像上をスライドする5×5の「窓」からなる畳み込み層では、わずか25個の学習可能なパラメータでエッジ検出を行うことが可能である。畳み込み層は「プーリング層」によって結合され、「全結合層」（一般的に多層パーセプトロン）によって処理される。

自然言語処理のための機械学習

回帰型ニューラルネットワーク（RNN）は、系列的な情報を処理することができるため、多くの自然言語処理（NLP）アプリケーションで利用されている。RNNは、FFNNとは異なり、同じ項目に対して、順序項目の周囲の状況に応じて異なる重みを符号化する（そして異なる出力を与える）ことができる。ということは、一度に一個の単語を解析するRNNシステムでも、「黒い犬（black dog）」は毛むくじゃらの脚、「アメリカンドッグ（corn dog）」はケチャップ、「幻日（sun dog）」は屈折のように、同じ「dog」から異なる連想ができる。さらに、RNNでは、以前の順序項目の情報を再帰的に呼び出すことができるため、ずっと以前に遡って任意の項目を思い出すようにシステムを設計することができる。たとえば、「トムは黒い犬を見た」「トムはアメリカンドッグを見た」「トムは幻日を見た」という順序項目を、それぞれ「優しく」「飢えて」「間接的に」と続けることができるようになる^[45]^[11]。

しかし、多層型のFFNNとRNNは優れた解を出せる一方で、どちらも勾配消失問題に対して脆弱であることが判明した。勾配は有限精度の数値として符号化され、モデルの全ての層にわたって逆伝播する必要があるため、多数の層を重ねるとゼロに「消滅」、または無限大に「発散」する可能性がある。1995年-1997年にかけて、Sepp HochreiterとJürgen Schmidhuberが初めて提案した長・短期記憶ネットワーク（LSTM）は、「入力」「出力」「忘却」ゲートを持つ複数の個別の「セル」からなる新しいアーキテクチャを導入することによって、この問題を解決しようとした^[46]^[47]^[48]。2009年に、Alex Gravesチームが提出したLSTMに基づくモデルが、手書き文字認識のICDARコンペティションで優勝し^[49]、もう一つのモデルは最も正確なモデル、3番目のモデルは最も高速なモデルであった^[50]。

RNNやLSTMが抱えるもう一つの問題は、以前の順序項目の文脈しか考慮できないことである^[45]^[51]。このため、「トムはバイクに乗って店に行き、キックスタンドを下ろしてエンジンを切った」のように、「バイク（自転車）」が「モーターバイク（オートバイ）」であるという必要な文脈が最後でしか明らかにならない文章を解析するときに問題を引き起こすことがある。このような問題を解決する一つが双方向LSTM（bidirectional LSTM）であり、双方向に同時に進行することで、「過去」と「未来」の両方の入力特徴にアクセスすることを可能にする^[45]。条件付き確率場（CRF）は、タグを使って入力と出力を直接結びつける^[45]。上記のアプローチの組み合わせた、LSTM-CRFネットワークやBI-LSTM-CRFネットワークもある^[45]。その他に、RNNモデルの改良として、ニューラルチューリングマシン（英語版）、適応計算時間（adaptive computation time）、ニューラルプログラマー（neural programmers）、アテンション機構などがあり、最後のものはGPT-2や関連技術の基礎をなしている^[11]。

選択的集中

2010年代初頭まで、ニューラル機械翻訳で最高の性能を発揮したのは、RNNやLSTMによる「エンコーダネットワーク」が原文をベクトルに符号化し、そのベクトルを同様のアーキテクチャの「デコーダネットワーク」が処理して翻訳出力を得るという「エンコーダ・デコーダ」モデルであった^[12]。2014年に、非常に複雑な「アテンション」機構が導入され、これらのモデルの性能は大幅に向上した。アテンション機構は、デコーダネットワークに、テキスト全体を単一ベクトルとして解析するのではなく、原文の特定の側面に適応的に「アテンション（注意）」を集中させる能力を与えた^[12]^[13]。

その後、2017年には、さらに一歩進んでアテンション機構を使用して、RNN/LSTMアーキテクチャを完全に置き換えた「トランスフォーマー（Transformer）」モデルが導入された^[10]^[11]。

アテンション機構

→詳細は「アテンション (機械学習)」を参照

エンコーダ・デコーダモデルの制約の一つに、より大きな文章を符号化して固定長のベクトルに圧縮することの難しさがあり、入力が大きくなるにつれて性能が低下することがよく見られた。2014年、Bahdanauらは^[12]、「整列と翻訳を共同で行う」ことができるエンコーダ・デコーダモデルの拡張を発表した^[13]。Bahdanauモデルのエンコーダ（各方向に1000個の隠れユニットを持つ双方向RNN）は、翻訳された原文の各単語に対して、その文の残り全てを検索して関連する情報の位置を探した。従来のように入力文全体を固定長でベクトル化してデコーダに入力するのではなく、それらの位置と以前に生成したターゲット語を関連付けた「文脈ベクトル」を生成した^[12]。そして、デコーダ（これも1000個の隠れユニットを持つ）は、この文脈ベクトルを使用して、どこに「注意」を向けるかを決定した^[12]^[13]^[11]。

「アテンション」機構の探究は、Luongらによる2015年の論文で継続された^[13]。Bahdanau論文に基づく「グローバル」アプローチと、原語の部分集合のみを一度に「考慮」する「ローカル」アプローチが試みられ、ローカルアプローチは、アーキテクチャ的にはより複雑だが、計算量が少なく、訓練が容易であった^[13]。1秒間に1,000個のターゲット語を翻訳できるように特別に設計された英語-ドイツ語翻訳モデルを完全に訓練するのに7-10日を要した。その精度は、2014年のACL Workshop on Machine Translation（WMT'14）における英語-ドイツ語文ペアのタスクに対するテストで、23.0 BLEUという結果を達成した。これは、以前の試みで達成した最高結果であるBuck et al. 2014によるフレーズベースの言語モデルよりも2.1 BLEU優れていた^[52]^[13]。

Transformers

→詳細は「Transformer (機械学習モデル)」を参照

アテンション機構は、既存の畳み込み型ニューラルネットワークや回帰型ニューラルネットワークのアーキテクチャを改善するために使うことで性能向上に効果的であったが、すぐに、何も基礎を置かずにアテンション機構単独でも高性能なモデルを構築できることがわかった^[10]。

2017年6月、Google Brain（英語版）、Google Research、およびトロント大学の研究者が発表した論文で、Transformerアーキテクチャが初めて紹介された^[10]。Transformerは、畳み込みや回帰を完全に捨て去り、アテンション機構のみに基づいたモデルの一種である。従来のRNNに基づくモデルと異なり、Transformerは、系列的に入力される各項目について順番に計算することなく処理できるため、大規模な並列化が可能であることを意味した^[10]。WMT'14フランス語-英語タスクでは、Transformerアーキテクチャを使用して特別に訓練したフランス語-英語翻訳モデルが、41.8 BLEUという新しい単一モデルのベンチマークを達成することができた^[10]。Transformerは、導入以来、多くの自然言語処理（NLP）アプリケーションで使用されている^[53]。

Generative Pre-trained Transformer

GPTシリーズの比較
	アーキテクチャ	パラメータ数	訓練用データ
GPT-1	12層、12ヘッドのTransformerデコーダ（エンコーダなし）、次いで線形softmax	1.2億	BookCorpus: 4.5 GBのテキスト、さまざまなジャンルの未発表小説7000冊分^[54]
GPT-2	GPT-1 変種	15億^[55]	WebTextコーパス (40 GB)
GPT-3	GPT-2, ただしスケーリングが大きく変更された	1750億	570 GBの平文、4,000億のトークン。主にCommonCrawl、WebText、英語版Wikipedia、2つの書籍コーパス（Books1、Books2）

2018年6月11日、OpenAIは「Improving Language Understanding by Generative Pre-Training」（生成的事前学習による言語理解の向上）と題する論文を発表し、その中で「Generative Pre-trained Transformer（GPT）」と呼ぶNLPモデルを紹介した^[9]。この当時、最高性能を発揮するニューラルNLPモデルでは、主に手作業でラベル付けされた大量のデータを用いて、教師あり学習を採用していた。こうした教師あり学習への依存によって、ラベル付けが十分でないデータセットでの利用は制限を受け、さらに非常に大規模なモデルを訓練するには非常に高価かつ時間もかかっていた^[9]^[56]。スワヒリ語やハイチ・クレオール語などの多くの言語は、コーパス構築のためのテキストが不足しているため、このようなモデルを用いて翻訳や通訳することは困難であった^[56]。これに対して、GPTの「半教師付き」アプローチは、言語モデリングの目的に基づいて初期パラメータを設定する教師なし生成的「事前学習」段階と、これらのパラメータを標的タスクに適応させる教師あり識別的「微調整」段階の2段階に分けて行われた^[9]。

アテンション強化RNNを含む従来の技術とは異なり、Transformerアーキテクチャを用いたGPTには、より構造化された記憶が備わり、それによって「多様なタスクに対応できる頑健な転移性能」が実現された^[9]。

転移時には、トラバース形式の手法から派生したタスク固有の入力適応を利用し、構造化テキストの入力を単一の連続したトークン列として処理する。^[9]

コーパス

教師なし事前学習は、さまざまなジャンルに属する7,000冊以上の未発表小説のデータセット「BooksCorpus」を用いて行われた^[57]。このデータセットが選ばれた理由の一つは、長距離の情報を処理するためのモデルの条件として、連続した長い文章が求められたことにある。利用可能な他のデータセットは、規模は大きくても、このような長範囲的な構造がない（文レベルで「入れ替え」られている）ことを理由に却下された^[9]。BooksCorpusのテキストをクリーニング（句読点や空白の標準化）するためにftfyライブラリが、トークン化ではspaCyが使われた^[9]。

アーキテクチャ

GPTのアーキテクチャ自体は、12層のデコーダのみのTransformerで、それぞれ64次元の状態を持つ12個のマスク付き自己アテンション・ヘッド（合計768個）を使用した。単純な確率的勾配降下法ではなく、Adam最適化アルゴリズムが使用された。学習率は、最初の2,000回の更新では、0から最大2.5×10⁻⁴まで線形に増加し、コサインスケジュールによって0までアニリーングされた^[9]。

512個の連続したトークンからなるランダムにサンプリングした64個のミニバッチの訓練を100エポック行う。レイヤーノルムはモデル全体で広く用われているため、N(0,0.02)の単純な重みの初期化で十分であった。40,000個のバイト対符号化（BPE）語彙のマージと、正則化には残差、埋め込み、アテンションのドロップアウトを比率0.1で行った。また、Loshchilov et al. 2017で提案されたL2正則化の修正版を採用し、すべての非バイアスウェイトやゲインウェイトはw=0.01とした。

　(中略)
原著で提案された正弦波バージョンの代わりに学習された位置埋め込みを使用した。
　(中略)

特に指定がない限り、教師なし事前学習でのハイパーパラメータ設定を再利用する。分類器にはドロップアウトを比率0.1で追加する。ほとんどのタスクでは、学習速度6.25^e-5、バッチサイズ32を使用する。このモデルは高速に微調整され、ほとんどの場合は3エポックの訓練で十分であった。学習率は線形減衰スケジュールを用い、ウォームアップは訓練の0.2%以上とした。λは0.5とした^[9]。

GPTは、微調整の段階で特定のタスクに適応させたが、事前学習の段階はそうしなかった。さまざまなタスクを実行するために、タスクに依存しない基礎となるモデルアーキテクチャに最小限の変更が加えられた^[9]。それにもかかわらず、GPTはいくつかの言語処理タスクにおいて過去のベンチマークを上回り、多くの多様なタスクにおいて、タスク指向のアーキテクチャを持つ識別的に訓練されたモデルより優れていた^[9]。

性能

自然言語推論（テキスト含意推論（英語版）（textual entailment）とも呼ばれる）タスクでは、モデルの評価は、さまざまなデータセットに含まれる文の対を解釈し、それらの関係を「含意」「矛盾」「中立」に分類する能力に基づいて行われる^[9]。たとえば、QNLI（Wikipediaの記事）やMultiNLI（速記、大衆小説、政府報告など）といった情報源に対して^[58]、GPTは従来の最高値からそれぞれ5.8%、1.5%優れていた^[9]。同様に、質問応答や常識推論（英語版）に関連する2つのタスクでも、RACE（中学校と高校の筆記試験の問題と解答の組からなるデータセット）で5.7%^[59]、クローズ・テスト（英語版）で8.9%、従来のモデルをそれぞれ上回った^[60]。

もう一つの意味的類似性（または言い換え検出）のタスクでは、2つの文が互いに言い換えであるかどうかをモデルが予測できるかどうかを評価するもので、Quora Question Pairs（QQP）データセットで、GPTは従来の最高性能モデルよりも4.2%向上した^[9]。また、Corpus of Linguistic Acceptability（CoLA）を用いたテキスト分類タスクでは、従来の最高スコア35.0に対してGPTはスコア45.4を達成した。最後に、マルチタスクテストのGLUEで^[61]、GPTは総合スコア72.8（従来は68.9）を達成した^[9]。

GPT-2

GPT-2はGPTのスケールアップ版として作成され、パラメータ数とデータセットサイズをいずれも10倍にしている^[8]^[9]^[4]。双方とも教師なしのTransformerモデルで、一連のトークンの並びから次の単語を予測してテキストを生成するように訓練された。GPT-2モデルは15億のパラメータを持ち、800万のウェブページのデータセットで訓練が行われた^[8]。GPT-2は、テキストサンプル中の一連の単語を解釈し、最も可能性の高い次の単語を予測するという非常に単純な基準で強化され、追加される単語を予測し続けることで完全な文や段落を生成し、自然言語で完全に理解できる（そして意味論的に意味を持つ）文を生成する^[8]。特に、GPT-2は、ゼロショット設定（英語版）でのタスクに対する性能で評価された。

データセット

GPT-2は新規に開発された WebText コーパスをデータセットとして利用している。

WebTextコーパス

WebText コーパスは約800万のウェブページから抽出された高品質自然言語テキストコーパスである^[62]。

GPT-2はゼロショット推論可能な基盤モデルを意図して開発された。個別タスクを明示的に学習せずゼロショットで推論するには、学習用テキスト内に様々なタスクの具体例が（タスクラベル無しで）含まれている必要があると考えられる^[63]。一方で質の低いテキストはモデルの精度を落とすため^[64]、コモン・クロールのような無作為収集されたコーパスは利用できない^[65]。これらの問題を解決するためにGPT-2論文で開発されたコーパスが WebText コーパスである。

WebText は人間によるキュレーションを品質向上に利用している^[66]。まずRedditで3回以上賛成票を受けたリンク先ウェブページを一定品質のテキストとみなし^[67]、重複文章の除去・Wikipedia記事の削除^[68]・ヒューリスティックによるクリーニングを経て、最終的に約800万のウェブページから抽出された約40GBの自然言語テキストをWebTextとしている^[69]。

モデル

GPT-2のモデルアーキテクチャはGPT-1のマイナーチェンジ版である。アーキテクチャ上の変更点は以下の通り：

残差レイヤーの深度

1/{\sqrt {N}}

[voxxy2-1] Piper, Kelsey (2019年5月15日). “A poetry-writing AI has just been unveiled. It's ... pretty good.”. Vox. 2020年11月7日時点のオリジナルよりアーカイブ。2020年12月19日閲覧。

[vb-2] Johnson, Khari (2019年8月20日). “OpenAI releases curtailed version of GPT-2 language model”. VentureBeat. 2020年12月18日時点のオリジナルよりアーカイブ。2020年12月19日閲覧。

[verge2-3] Vincent, James (2019年11月7日). “OpenAI has published the text-generating AI it said was too dangerous to share”. The Verge. 2020年6月11日時点のオリジナルよりアーカイブ。2020年12月19日閲覧。

[openai-4] “Better Language Models and Their Implications”. OpenAI (2019年2月14日). 2020年12月19日時点のオリジナルよりアーカイブ。2020年12月19日閲覧。

[badpaper-5] Hegde, Chaitra; Patil, Shrikumar (9 June 2020). “Unsupervised Paraphrase Generation using Pre-trained Language Models”. arXiv:2006.05477 [cs.CL].

[tds2-6] Kaiser, Caleb (2020年1月31日). “Too big to deploy: How GPT-2 is breaking servers”. Towards Data Science. 2020年2月15日時点のオリジナルよりアーカイブ。2021年2月27日閲覧。

[guardian-7] ^ ^a ^b ^c ^d ^e ^f Hern, Alex (2019年2月14日). “New AI fake text generator may be too dangerous to release, say creators”. The Guardian. 2019年2月14日時点のオリジナルよりアーカイブ。2020年12月19日閲覧。

[gpt2paper-8] ^ ^a ^b ^c ^d ^e ^f ^g Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilua (14 February 2019). Language models are unsupervised multitask learners. 1. オリジナルの6 February 2021時点におけるアーカイブ。 2020年12月19日閲覧。.

[gpt1paper-9] ^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k ^l ^m ⁿ ^o ^p ^q ^r ^s “Improving Language Understanding by Generative Pre-Training”. OpenAI. pp. 12 (2018年6月11日). 2021年1月26日時点のオリジナルよりアーカイブ。2021年1月23日閲覧。

[attention-10] ^ ^a ^b ^c ^d ^e ^f Polosukhin, Illia; Kaiser, Lukasz; Gomez, Aidan N.; Jones, Llion; Uszkoreit, Jakob; Parmar, Niki; Shazeer, Noam; Vaswani, Ashish (12 June 2017). “Attention Is All You Need”. arXiv:1706.03762 [cs.CL].

[attentionRNNs-11] Olah, Chris; Carter, Shan (8 September 2016). “Attention and Augmented Recurrent Neural Networks”. Distill 1 (9). doi:10.23915/distill.00001. オリジナルの22 December 2020時点におけるアーカイブ。 2021年1月22日閲覧。.

[jointly-12] ^ ^a ^b ^c ^d ^e ^f Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (1 September 2014). “Neural Machine Translation by Jointly Learning to Align and Translate”. arXiv:1409.0473 [cs.CL].

[effective-13] ^ ^a ^b ^c ^d ^e ^f ^g Luong, Minh-Thang; Pham, Hieu; Manning, Christopher D. (17 August 2015). “Effective Approaches to Attention-based Neural Machine Translation”. arXiv:1508.04025 [cs.CL].

[15Brelease-14] “GPT-2: 1.5B Release” (英語). OpenAI (2019年11月5日). 2019年11月14日時点のオリジナルよりアーカイブ。2019年11月14日閲覧。

[gpt3paper-15] Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (22 July 2020). “Language Models are Few-Shot Learners”. arXiv:2005.14165 [cs.CL].

[Arram_20200709-16] Arram (2020年7月9日). “GPT-3: An AI that's eerily good at writing almost anything”. Arram Sabeti. 2020年7月20日時点のオリジナルよりアーカイブ。2020年7月31日閲覧。

[GPT3microsoft-17] Hao, Karen (September 23, 2020). “OpenAI is giving Microsoft exclusive access to its GPT-3 language model” (英語). MIT Technology Review 2020年9月25日閲覧. ""The companies say OpenAI will continue to offer its public-facing API, which allows chosen users to send text to GPT-3 or OpenAI’s other models and receive its output. Only Microsoft, however, will have access to GPT-3’s underlying code, allowing it to embed, repurpose, and modify the model as it pleases.""

[turing-18] Turing, Alan (October 1950), “Computing Machinery and Intelligence”, Mind, LIX (236): 433–460, doi:10.1093/mind/LIX.236.433, ISSN 0026-4423

[Samuel-19] Samuel, Arthur (1959). “Some Studies in Machine Learning Using the Game of Checkers”. IBM Journal of Research and Development 3 (3): 210–229. doi:10.1147/rd.33.0210.

[bham-20] Hancox, P.J. (1996年1月26日). “SEM1A5 – Part 1 – A brief history of NLP”. University of Birmingham. 2021年1月13日時点のオリジナルよりアーカイブ。2021年1月12日閲覧。

[Nye-21] Nye, Mary Jo (2016). “Speaking in Tongues: Science's centuries-long hunt for a common language”. Distillations 2 (1): 40–43. オリジナルの3 August 2020時点におけるアーカイブ。 2018年3月22日閲覧。.

[Babel-22] Gordin, Michael D. (2015). Scientific Babel: How Science Was Done Before and After Global English. Chicago, Illinois: University of Chicago Press. ISBN 9780226000299

[hutchins-23] John Hutchins. The first public demonstration of machine translation: the Georgetown-IBM system, 7th January 1954 (PDF) (Report). S2CID 132677.

[symposium-24] Reifler, Erwin (February 2–5, 1960). “The solution of MT linguistic problems through lexicography.”. Proceedings of the National Symposium on Machine Translation.

[chronology-25] Hutchins, John (1997). “From first conception to first demonstration: the nascent years of machine translation, 1947–1954. A chronology.”. Machine Translation 12, 195–252 12 (3): 195–252. doi:10.1023/A:1007969630568.

[winograd-26] Winograd, Terry (1971-01-01) (英語). Procedures as a Representation for Data in a Computer Program for Understanding Natural Language. hdl:1721.1/7095. オリジナルの2021-01-13時点におけるアーカイブ。 2021年1月12日閲覧。.

[stanford-27] “SHRDLU”. Stanford Human-Computer Interaction (HCI) Group. 2020年8月16日時点のオリジナルよりアーカイブ。2021年1月12日閲覧。

[eliza-28] Weizenbaum, Joseph (January 1966), “ELIZA – A Computer Program For the Study of Natural Language Communication Between Man And Machine”, Communications of the ACM 9 (1): 36–45, doi:10.1145/365153.365168

[rogers-29] Bassett, Caroline (2019). “The computational therapeutic: exploring Weizenbaum's ELIZA as a history of the present”. AI & Society 34 (4): 803–812. doi:10.1007/s00146-018-0825-9.

[bham2-30] Hancox, P.J. (1996年1月26日). “SEM1A5 – Part 1 – The state-of-the-art”. University of Birmingham. 2021年1月16日時点のオリジナルよりアーカイブ。2021年1月12日閲覧。

[howe-31] Howe, J. (1994年11月). “Artificial Intelligence at Edinburgh University : a Perspective”. 2007年8月17日時点のオリジナルよりアーカイブ。2007年8月30日閲覧。 “Lighthill's [1973] report provoked a massive loss of confidence in AI by the academic establishment in the UK (and to a lesser extent in the US). It persisted for a decade ― the so-called 'AI Winter'”

[russell-32] Russell, Stuart J.; Norvig, Peter (2003), Artificial Intelligence: A Modern Approach (2nd ed.), Upper Saddle River, New Jersey: Prentice Hall, p. 24, ISBN 0-13-790395-2, オリジナルの2011-02-28時点におけるアーカイブ。 2021年1月12日閲覧, ""Overall, the AI industry boomed from a few million dollars in 1980 to billions of dollars in 1988. Soon after that came a period called the 'AI Winter'""

[rosenblatt-33] Rosenblatt, Frank (1957). “The Perceptron—a perceiving and recognizing automaton”. Report 85-460-1 (Cornell Aeronautical Laboratory).

[bishop-34] Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning. Springer. ISBN 0-387-31073-8

[Olazaran-35] Olazaran, Mikel (1996). “A Sociological Study of the Official History of the Perceptrons Controversy”. Social Studies of Science 26 (3): 611–659. doi:10.1177/030631296026003005. JSTOR 285702.

[perceptrons-36] Minsky, Marvin; Papert, Seymour (1969), Perceptrons: An Introduction to Computational Geometry, MIT Press, ISBN 0-262-63022-2

[dictionary-37] Wilson, Bill (2012年6月24日). “The Machine Learning Dictionary”. www.cse.unsw.edu.au. 2018年8月26日時点のオリジナルよりアーカイブ。2021年1月19日閲覧。

[backprop-38] Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron (2016). “6.5 Back-Propagation and Other Differentiation Algorithms”. Deep Learning. MIT Press. pp. 200–220. ISBN 9780262035613. オリジナルの2018-01-27時点におけるアーカイブ。 2021年3月14日閲覧。

[werbos1974-39] Werbos, Paul J. (1994). The Roots of Backpropagation : From Ordered Derivatives to Neural Networks and Political Forecasting. New York: John Wiley & Sons. ISBN 0-471-59897-6

[Crevier-40] Crevier, Daniel [英語版] (1993), AI: The Tumultuous Search for Artificial Intelligence, New York, NY: BasicBooks, ISBN 0-465-02997-3

[parker-41] Parker, D.B. (1985). Learning Logic. Cambridge MA: Massachusetts Institute of Technology.

[RHW-42] Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (1986a). “Learning representations by back-propagating errors”. Nature 323 (6088): 533–536. Bibcode: 1986Natur.323..533R. doi:10.1038/323533a0.

[kunihiko-43] Fukushima, Kunihiko「位置ずれに影響されないパターン認識機構の神経回路のモデル --- ネオコグニトロン ---」『Trans. IECE』J62-A第10号、1979年10月、658–665頁、オリジナルの2021年1月28日時点におけるアーカイブ、2021年1月20日閲覧。

[lecundl-44] LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). “Deep learning”. Nature 521 (7553): 436–444. Bibcode: 2015Natur.521..436L. doi:10.1038/nature14539. PMID 26017442.

[rnnnlp-45] Bajpai, Akash (2019年2月23日). “Recurrent Neural Networks: Deep Learning for NLP”. Towards Data Science. 2021年1月19日閲覧。

[q989-46] ゼップ・ホッフライター [英語版]; ユルゲン・シュミットフーバー [英語版] (21 August 1995), Long Short Term Memory (英語), Wikidata Q98967430

[q776-47] ゼップ・ホッフライター [英語版]; Jürgen Schmidhuber [英語版] (1997). “LSTM can Solve Hard Long Time Lag Problems” (PDF). Advances in Neural Information Processing Systems 9. Advances in Neural Information Processing Systems (英語). Wikidata Q77698282.

[lstm1997-48] Sepp Hochreiter; Jürgen Schmidhuber (1997). “Long short-term memory”. Neural Computation 9 (8): 1735–1780. doi:10.1162/neco.1997.9.8.1735. PMID 9377276. オリジナルの2021-01-22時点におけるアーカイブ。 2021年1月20日閲覧。.

[icdar20091-49] Graves, A.; Liwicki, M.; Fernández, S.; Bertolami, R.; Bunke, H.; Schmidhuber, J. (May 2009). “A Novel Connectionist System for Unconstrained Handwriting Recognition”. IEEE Transactions on Pattern Analysis and Machine Intelligence 31 (5): 855–868. doi:10.1109/tpami.2008.137. ISSN 0162-8828. PMID 19299860.

[icdar20092-50] Märgner, Volker; Abed, Haikal El (July 2009). “ICDAR 2009 Arabic Handwriting Recognition Competition”. 2009 10th International Conference on Document Analysis and Recognition: 1383–1387. doi:10.1109/ICDAR.2009.256. ISBN 978-1-4244-4500-4.

[under-lstms-51] Olah, Chris (2015年8月27日). “Understanding LSTM Networks”. 2017年8月1日時点のオリジナルよりアーカイブ。2021年1月22日閲覧。

[buck-52] “N-gram Counts and Language Models from the Common Crawl”. pp. 3579–3584 (2014年5月). 2021年1月28日時点のオリジナルよりアーカイブ。2021年1月22日閲覧。

[wolf2020-53] Wolf, Thomas; Debut, Lysandre; Sanh, Victor; Chaumond, Julien; Delangue, Clement; Moi, Anthony; Cistac, Pierric; Rault, Tim et al. (2020). “Transformers: State-of-the-Art Natural Language Processing”. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. pp. 38–45. doi:10.18653/v1/2020.emnlp-demos.6

[54] Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. pp. 19–27. arXiv:1506.06724.

[:0-55] "Our largest model, GPT-2, is a 1.5B parameter Transformer" Radford. (2019)

[tsvetkov-56] Tsvetkov, Yulia (2017年6月22日). “Opportunities and Challenges in Working with Low-Resource Languages”. Carnegie Mellon University. 2020年3月31日時点のオリジナルよりアーカイブ。2021年1月23日閲覧。

[bookscorpus-57] Zhu, Yukun; Kiros, Ryan; Zemel, Richard; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (22 June 2015). “Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books”. arXiv:1506.06724 [cs.CV]. # of books: 11,038 / # of sentences: 74,004,228 / # of words: 984,846,357 / mean # of words per sentence: 13 / median # of words per sentence: 11

[multinli-58] “A Broad-Coverage Challenge Corpus for Sentence Understanding through Inference”. Association for Computational Linguistics (2018年6月1日). 2020年2月11日時点のオリジナルよりアーカイブ。2021年1月23日閲覧。 “At 433k examples, this resource is one of the largest corpora available for natural language inference (a.k.a. recognizing textual entailment), [...] offering data from ten distinct genres of written and spoken English [...] while supplying an explicit setting for evaluating cross-genre domain adaptation.”

[race-59] Lai, Guokun; Xie, Qizhe; Hanxiao, Liu; Yang, Yiming; Hovy, Eduard (15 April 2017). “RACE: Large-scale ReAding Comprehension Dataset From Examinations”. arXiv:1704.04683 [cs.CL].

[cloze-60] “LSDSem 2017 Shared Task: The Story Cloze Test”. Association for Computational Linguistics (2017年4月3日). 2020年11月22日時点のオリジナルよりアーカイブ。2021年1月23日閲覧。 “The LSDSem’17 shared task is the Story Cloze Test, a new evaluation for story understanding and script learning. This test provides a system with a four-sentence story and two possible endings, and the system must choose the correct ending to the story. Successful narrative understanding (getting closer to human performance of 100%) requires systems to link various levels of semantics to commonsense knowledge.”

[glue-61] Wang, Alex; Singh, Amanpreet; Michael, Julian; Hill, Felix; Levy, Omar; Bowman, Samuel R. (20 April 2018). “GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding”. arXiv:1804.07461 [cs.CL].

[62] "a new dataset of millions of webpages called WebText ... which emphasizes document quality." Radford. (2019). Language Models are Unsupervised Multitask Learners.

[63] "Our approach motivates building as large and diverse a dataset as possible in order to collect natural language demonstrations of tasks in as varied of domains and contexts as possible." Radford. (2019)

[commoncrawl-64] Trinh, Trieu H.; Le, Quoc V. (7 June 2018). “A Simple Method for Commonsense Reasoning”. arXiv:1806.02847 [cs.CL].

[65] "Common Crawl ... they have significant data quality issues ... We observed similar data issues in our initial experiments with Common Crawl." Radford. (2019)

[66] "emphasizes document quality. To do this we only scraped web pages which have been curated/filtered by humans." Radford. (2019)

[67] "we scraped all outbound links from Reddit, a social media platform, which received at least 3 karma." Radford. (2019)

[68] 他の多くのデータセットに含まれているので、過剰適合の原因となる可能性があった

[69] "a preliminary version of WebText ... which ... contains slightly over 8 million documents for a total of 40 GB of text." Radford. (2019)

[70] "Layer normalization ... was moved to the input of each sub-block" Radford. (2019)

[71] "an additional layer normalization was added after the final self-attention block." Radford. (2019)

[72] "A modified initialization which accounts for the accumulation on the residual path with model depth ... scale the weights of residual layers at initialization by a factor of 1/√N where N is the number of residual layers." Radford. (2019)

[73] "The vocabulary is expanded to 50,257." Radford. (2019)

[74] "We also increase the context size from 512 to 1024 tokens" Radford. (2019)

[75] "a larger batchsize of 512 is used." Radford. (2019)

[register-76] Quach, Katyanna (2019年2月14日). “Roses are red, this is sublime: We fed OpenAI's latest chat bot a classic Reg headline”. The Register. 2021年3月9日時点のオリジナルよりアーカイブ。2021年2月27日閲覧。

[staggering-77] “The Staggering Cost of Training SOTA AI Models”. Synced (2019年6月27日). 2020年11月24日時点のオリジナルよりアーカイブ。2021年2月27日閲覧。

[vb2-78] Wiggers, Kyle (2020年3月23日). “Google open-sources framework that reduces AI training costs by up to 80%”. VentureBeat. 2020年11月26日時点のオリジナルよりアーカイブ。2021年2月27日閲覧。

[verge1-79] ^ ^a ^b ^c ^d ^e ^f Vincent, James (2019年2月14日). “OpenAI's new multitalented AI writes, translates, and slanders”. The Verge. 2020年12月18日時点のオリジナルよりアーカイブ。2020年12月19日閲覧。

[voxxy-80] Piper, Kelsey (2019年2月14日). “An AI helped us write this article”. Vox. 2020年11月8日時点のオリジナルよりアーカイブ。2020年12月19日閲覧。

[81] Köbis, Nils; Mossink, Luca D. (1 January 2021). “Artificial intelligence versus Maya Angelou: Experimental evidence that people cannot differentiate AI-generated from human-written poetry”. Computers in Human Behavior 114: 106553. doi:10.1016/j.chb.2020.106553.

[neuralfakesnooze-82] Schwartz, Oscar (2019年7月4日). “Could 'fake text' be the next global political threat?”. The Guardian. オリジナルの2019年7月16日時点におけるアーカイブ。 2019年7月16日閲覧。

[ethics-83] Vincent, James (2019年2月21日). “AI researchers debate the ethics of sharing potentially harmful programs”. The Verge. 2021年2月9日時点のオリジナルよりアーカイブ。2021年2月27日閲覧。

[pls-84] Zhang, Hugh (2019年2月19日). “OpenAI: Please Open Source Your Language Model”. The Gradient. 2021年1月28日時点のオリジナルよりアーカイブ。2021年2月28日閲覧。

[opengpt2-85] “OpenGPT-2: We Replicated GPT-2 Because You Can Too”. Noteworthy (2019年8月22日). 2021年2月27日閲覧。

[reddit-86] Vincent, James (2019年6月6日). “There's a subreddit populated entirely by AI personifications of other subreddits”. The Verge. 2021年2月21日時点のオリジナルよりアーカイブ。2021年2月27日閲覧。

[smartcompose-87] Vincent, James (2019年7月24日). “This AI-powered autocompletion software is Gmail's Smart Compose for coders”. The Verge. 2021年3月9日時点のオリジナルよりアーカイブ。2021年2月27日閲覧。

[aid2-88] Olson, Mathew (2019年12月17日). “AI Dungeon 2, the Text Adventure Where You Can do Nearly Anything, Is Now on Mobile”. 2020年9月20日時点のオリジナルよりアーカイブ。2021年2月27日閲覧。

[aidungeon-89] Nelius, Joanna (2020年8月3日). “This AI-Powered Choose-Your-Own-Adventure Text Game Is Super Fun and Makes No Sense”. Gizmodo. 2021年2月28日時点のオリジナルよりアーカイブ。2021年2月27日閲覧。

[tclat-90] Ha, Anthony (2021年2月4日). “AI Dungeon-maker Latitude raises $3.3M to build games with 'infinite' story possibilities”. TechCrunch. 2021年2月21日時点のオリジナルよりアーカイブ。2021年2月27日閲覧。

[91] “Write With Transformer”. 2019年12月4日閲覧。

[92] “Talk to Transformer”. 2019年12月4日閲覧。

[93] “CreativeEngines”. 2021年6月25日閲覧。

[teens-94] “An AI is training counselors to deal with teens in crisis”. MIT Technology Review (2021年2月26日). 2021年2月27日時点のオリジナルよりアーカイブ。2021年2月27日閲覧。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[71]

[79]

[80]

[81]

[82]

[83]

[84]

[85]

[86]

[76]

[87]

[88]

[89]

[90]

[91]

[92]

[93]

[94]

GPT-2とは？わかりやすく解説

GPT-2

背景

計算言語学

ニューラルネットワーク

自然言語処理のための機械学習

選択的集中

アテンション機構

Transformers

Generative Pre-trained Transformer

コーパス

アーキテクチャ

性能

GPT-2

データセット

WebTextコーパス

モデル

公開

制限と部分公開

774M公開

完全版1.5B公開

限界

実装とその後の研究

脚注

「GPT-2」の関連用語

GPT-2とは？ わかりやすく解説

GPT-2

背景

計算言語学

ニューラルネットワーク

自然言語処理のための機械学習

選択的集中

アテンション機構

Transformers

Generative Pre-trained Transformer

コーパス

アーキテクチャ

性能

GPT-2

データセット

WebTextコーパス

モデル

公開

制限と部分公開

774M公開

完全版1.5B公開

限界

実装とその後の研究

脚注

急上昇のことば

「GPT-2」の関連用語

GPT-2とは？わかりやすく解説