アール‐エヌ‐エヌ【RNN】
読み方:あーるえぬえぬ
《recurrent neural network》⇒リカレントニューラルネットワーク
リカレント‐ニューラルネットワーク【recurrent neural network】
読み方:りかれんとにゅーらるねっとわーく
ディープラーニングなどの機械学習で、多層のニューラルネットワークの一部に再帰的な手続きを導入したもの。時系列データに現れるパターン認識に向き、自然言語処理や機械翻訳、動画の画像認識、株価予測などに用いられる。再帰型ニューラルネットワーク。RNN。
さいきがた‐ニューラルネットワーク【再帰型ニューラルネットワーク】
読み方:さいきがたにゅーらるねっとわーく
《recurrent neural network》⇒リカレントニューラルネットワーク
回帰型ニューラルネットワーク
この項目「回帰型ニューラルネットワーク」は翻訳されたばかりのものです。不自然あるいは曖昧な表現などが含まれる可能性があり、このままでは読みづらいかもしれません。(原文:Recurrent neural network) 修正、加筆に協力し、現在の表現をより自然な表現にして下さる方を求めています。ノートページや履歴も参照してください。(2019年2月) |
機械学習および データマイニング |
---|
![]() |
回帰型ニューラルネットワーク(かいきがたニューラルネットワーク、英: Recurrent neural network; RNN)は内部に循環をもつニューラルネットワークの総称・クラスである[1]。
概要
ニューラルネットワークは入力を線形変換する処理単位からなるネットワークである。このネットワーク内に循環が存在する、すなわちユニットの出力が何らかの経路で自身へ再び入力する場合、これを回帰型ニューラルネットワークという[1]。回帰のないネットワーク(順伝播型ニューラルネットワーク; Feed-Forward Network; FFN)と対比される。
RNNは任意のひと続きの入力を処理するために内部状態(記憶)を使うことができる。これによって、時系列のための時間的な動的振る舞いを示すことが可能となる[2]。これによって、分割化されていない、つながりのある手書き文字認識[3]や音声認識[4][5]といった課題に応用が可能になっている。
「回帰型ニューラルネットワーク」という用語は、類似した一般構造を持つ2つの広いネットワークのクラスを指し示すために見境なく使われる。1つは有限インパルス、もう1つは無限インパルスである。どちらのネットワークのクラスも時間的な動的振る舞いを示す[6]。有限インパルス回帰型ネットワークは厳密な順伝播型ニューラルネットワークに展開でき、置き換えることができる有向非巡回グラフであるのに対して、無限インパルス回帰型ネットワークは展開できない有向巡回グラフである。
有限インパルスと無限インパルス回帰型ネットワークはどちらも追加の保管状態を持つことができ、この保管場所はニューラルネットワークによる直接的な制御下とすることができる。保管場所は他のネットワークやグラフが時間遅延を取り込むか、フィードバックループを持つのであれば、それらで置き換えることもできる。こういった制御された状態はゲート状態またはゲート記憶と呼ばれ、長・短期記憶ネットワーク(LSTMs)およびゲート付き回帰型ユニット(GRUs)の一部である。
和訳
再帰型ニューラルネットまたは循環ニューラルネットと訳されこともある[7]。本項では「Recurrent」ニューラルネットワークの訳語として「回帰型」、「Recursive」ニューラルネットワークの訳語として「再帰型」を用いる[8]。
歴史
回帰型ニューラルネットワークは1986年のデビッド・ラメルハートの研究に基づく[9]。ホップフィールド・ネットワークは1982年にジョン・ホップフィールドによって見出された。1993年、ニューラルヒストリー圧縮システムが、時間に展開されたRNN中で1000以上の層を必要とする「非常に深い学習」問題を解決した[10]。
長・短期記憶(LSTM)は2007年頃から音声認識に革命をもたらし始め、特定の音声認識への応用において伝統的なモデルをしのいだ[11]。2009年、コネクショニスト時系列分類(CTC)で訓練されたLSTMネットワークは、パターン認識大会で優勝した初のRNNとなった。このネットワークはつながった手書き文字認識の複数の大会で優勝した[12][13]。2014年、中国の大手検索サイト百度は、伝統的な音声処理法を用いることなくSwitchboard Hub5'00音声認識ベンチマークを破るためにCTCで訓練されたRNNを用いた[14]。
LSTMはまた、大規模語彙音声認識[4][5]およびテキスト音声合成[15]を改良し、Google Androidにおいて使われた.[12][16]。2015年、GoogleはCTCで訓練されたLSTMによって音声認識の劇的な性能向上が達成された[17]と報告され、この技術はGoogle Voice Searchで使用された。
LSTMは機械翻訳[18]、言語モデリング[19]、多言語処理[20]の記録を破った。畳み込みニューラルネットワーク(CNN)と組み合わされたLSTMは自動画像キャプション(短い説明文)付けを向上させた[21]。
構造
RNNには多くの派生形式がある。
完全回帰型
基本的なRNNは連続する「層」へと編成されたニューロン的ノードのネットワークであり、所定の層中の個々のノードは次の層中の全てのノードと有向(一方向)結合により結合されている[要出典]。個々のノード(ニューロン)は時間変動する実数値の活性化を有する。個々の結合(シナプス)は変更可能な実数値の重みを有する。ノードは(ネットワーク外からデータを受け取る)入力ノード、(結果を得る)出力ノード、(入力から出力への途上でデータを修正する)隠れノードのいずれかである。
離散時間設定における教師あり学習のため、実数値入力ベクトルの配列は入力ノードに到着する(一度に1つのベクトル)。任意の時間ステップにおいて、個々の非入力ユニットはそれに結合した全てのユニットの活性化の加重和の非線形関数としてその現在の活性化(結果)を計算する。ある時間ステップにおける一部の出力ユニットのために教師が与えられた目標活性化を提供することができる。例えば、入力配列が数字音声に対応した音声シグナルであるならば、配列の最後における最終目標出力は数字を分類するラベルとなるだろう。
強化学習のセッティングでは、教師は目標シグナルを与えない。代わりに、適合度関数または報酬関数がRNNの性能を評価するために使われることがある。これは環境に影響を与えるアクチュエータに結合された出力ユニットを通してその入力ストリームに影響する。これは、進行が勝ち取った点数によって測定されるゲームをプレーするために使うことができるかもしれない。
個々の配列は、全ての目標シグナルのネットワークによって計算された対応する活性化からのずれの和として誤差を生じる。膨大な配列のセットを訓練では、全誤差は全ての個別の配列の誤差の和である。
エルマンネットワークとジョーダンネットワーク
エルマンネットワークは、一連の「文脈ユニット」(右図中のu)を追加した3層ネットワーク(右図中でx、y、zとして垂直に配置されている)である。中央(隠れ)層は1の重みに固定されたこれらの文脈ユニットに結合されている[22]。個々の時間ステップにおいて、入力は順伝播され、学習規則が適用される。固定された逆結合は文脈ユニット中の隠れユニットの以前の値のコピーを保存する(これは、それらが学習規則が適用する前に結合を通じて伝播されるためである)。したがって、ネットワークは一種の状態を維持することができ、これによって標準的な多層パーセプトロンの能力を超える時系列予測といった課題を実行することが可能となる。
ジョーダンネットワークはエルマンネットワークと似ている。文脈ユニットは隠れ層の代わりに出力層から入力を得る。ジョーダンネットワーク中の文脈ユニットは状態層とも呼ばれる。それらはそれら自身への回帰的結合を持つ[22]。
エルマンネットワークとジョーダンネットワークは「単純回帰型ネットワーク(SRN)」としても知られている。
- エルマンネットワーク[23]
長・短期記憶(LSTM)は勾配消失問題を回避するディープラーニング(深層学習)システムである。LSTMは通常、「忘却」ゲートと呼ばれる回帰型ゲートによって拡張されている[41]。LSTMは勾配の消失または爆発からの逆伝播誤差を防ぐ[38]。代わりに、誤差は空間方向に展開された無制限の数のバーチャル層を通して逆向きに流れる。すなわち、LSTMは、数千または数百万離れた時間段階前に起こった事象の記憶を必要とする課題を学習できる[12]。問題特化型のLSTM的トポロジーを発展させることができる。[42]。LSTMは重要な事象間に長い遅延が与えられても機能し、低周波数と高周波数成分を混合した信号を扱うことができる。
多くの応用がLSTM RNNのスタックを用いており[43]、訓練セット中のラベル配列の確率を最大化するRNN重み行列を見付けるためにそれらをコネクショニスト時系列分類(CTC)[44]によって訓練している。CTCはアラインメントと認識の両方を達成する。
LSTMは隠れマルコフモデル(HMM)や類似の概念に基づく以前のモデルとは異なり、文脈依存言語を認識することを学習することができる[45]。
ゲート付き回帰型ユニット
ゲート付き回帰型ユニット(GRUs)は2014年に発表された回帰型ニューラルネットワークにおけるゲート機構である。完全な形式やいくつかの単純化された方式で使われている[46][47]。多声音楽モデリングおよび音声信号モデリングにおけるそれらの性能は長・短期記憶の性能と似ていることが明らかにされた[48]。これらは出力ゲートを持っていないため、LSTMよりもパラメータが少ない[49]。
双方向性
双方向性(bi-directional)RNNsは要素の過去および未来の文脈に基づいて配列の個々の要素を予測あるいはラベル付けするために有限配列を用いる。これは、2つのRNNの出力を統合することによってなされる。一方のRNNは配列を左から右へ、もう一方は右から左へと処理する。統合された出力は教師が与えられた対象シグナルの予測である。この技法はLSTM RNNsを組み合わせた時に特に有用であることが証明されている[50][51]。
連続時間
連続時間(continuous time)回帰型ニューラルネットワーク(CTRNN)は、入ってくるスパイクの一連の流れのニューロンへの影響をモデル化するために常微分方程式の系を用いる。