デジタルゲームのための自然言語処理　第２回　ディープラーニングと NLP

2023年5月29日 23:00

・ディープラーニングと自然言語処理

　2023年現在では、一般的に「AI」という言葉を使うとき、専ら「深層学習（ディープラーニング、Deep Learning, DL）」を使った技術のことを指しているかと思います。DL は、多数の層を持つ（深い）ニューラルネットワークに、大量の学習データを与え、データの持つパターン性を自動的に学ばせる技術です。音声信号処理や画像認識、そして自然言語処理など、多くの分野において従来手法を大きく上回る性能を実現しました。

　第１回で述べたように、AIの一分野であるNLP は、この10年間で大きく進化を遂げました。これはディープラーニング技術に依るところが大きく、下の図においては「NLP」と「DL」が重なっている部分にあたります。

・2010年代：ディープラーニングを用いた自然言語処理の幕開け

　10年前に登場したWord2vec [1-3] は、今日の NLP に至る大きなブレークスルーの一つです。ニューラルネットワークを用いたこの手法で、「単語の意味」を効率的に学習できると示されたことは、DLを用いたNLPの進展において重要な意味を持ちました。機械翻訳を中心に研究が進められ、2014年にSequence-to-sequence [4]、そして2017年にはTransformer [5] などの有名な研究成果が発表されています。このTransformerをベースとした、BERT [6] や GPT-2 [7] などの「大規模事前学習済みモデル」の登場が、大きな転換点となりました。大量のテキストデータで「事前学習」したモデルを、様々なタスクに合わせて「ファインチューニング」することで、高い性能を達成できることが示されたのです。

　それまでは、解きたいタスク、例えば翻訳や要約などのそれぞれに対して、専用のモデルを一から学習させるのが一般的でした（注１）。しかしこれが、「ひとつ大きなモデルを作れば、それを様々な異なるタスクに生かせる」というように、大きく変わったのです。「より大規模なモデルを作れば、汎用性が高まり、様々なタスクでより良い性能を出せるのではないか」という期待が高まり、様々な研究組織が競い合うようにして、モデルの大規模化を進めていきました。

　今回の冒頭で、 DL によって各分野で大きな性能向上が実現されてきたと述べましたが、DLに注目が集まった理由はこれだけではありません。従来の機械学習手法では、コンピュータが注目すべき「特徴」を人間が設計していたのに対し、DLでは、この特徴設計をコンピュータに任せられるようになりました。これによって参入の敷居が大きく下がったのも DL の魅力であり、DL を使ったAIの研究開発に多くの人々が取り組むようになった理由と言えます。

　2010年代には、DL の NLP への導入をはじめ、Transformer の登場や、その発展など、「2010年代」と括ってしまうのは乱暴ではないかと躊躇ってしまうほどの大きな変化が起きました。そして、この潮流は、いま私たちが生きている2020年代でも留まることなく続いています。

・2020年代：「真打ち」の登場

　2010年代後半の、Transformerベースの事前学習済みモデルの大規模化の流れを受けて、2020年にはGPT-3 [8] が登場します。現在のいわゆる「大規模言語モデル（Large Language Model, LLM）」の源流とされることもある GPT-3 は、前世代の GPT-2 と比べて飛躍的な性能向上を果たしており、もはやファインチューニングすら必要とせずに様々なタスクに対応できるようになっていたことで、大きな驚きとともに受け止められました。モデルの大きさ（パラメータ数）も GPT-2 と比較して100倍以上になっていますが（注２）、それだけではこの「創発」的な性能向上は説明できないということで、多くの研究者がこの現象に興味を寄せています。そして、2022年にはChatGPT [9]が発表され、連日のように話題となっているのは、皆さんご存じの通りです。

　2010年代に急速に進化した DL、そして NLP は、2023年現在、更に急速に変化し続けています。Transformerの登場以降、「Transformer 以前」に使われていた Recurrent Neural Network (RNN) は風前の灯火となっていましたが、今年に入って、RNN を用いた大規模言語モデル RWKV が登場し、大きな話題になりました。現時点では、Transformer ベースの大規模言語モデルが「真打ち」だと言える状況ですが、僅か数か月前の研究や技術が「古い」ものとなってしまう状況において、数か月後、あるいは、この記事を執筆してから公開されるまでの間に、劇的な変化がないとも限りません。そして、その変化の源は、現在は「古い」技術として、多くの人々から見過ごされているものかもしれないのです。

・「DL さえあればいい」は正しいか？

　ここで、改めて冒頭の図を振り返ってみたいと思います。DL を用いた技術は、AI や NLP の一部でしかなく、DL を用いない技術もあります。第二次AIブームの時期に注目されていたのは、人間が用意した大量のルールによって作られた、ルールベースのAIでした。
　DL は高い性能を誇る一方で、大規模なネットワークによる計算の過程がブラックボックス化してしまい、「なぜそのような結果になるのか」が分かりにくいという課題があります（注３）。「なぜそのような結果になるのか」が重要なとき、たとえばデジタルゲームにおいては、シナリオのフラグ管理をゲームデザイナーの意図通りにコントロールする必要があるときなどは、処理過程が分かりやすいルールベースの手法を使うほうが望ましいケースもあります。

　第２回では、ディープラーニングを用いた自然言語処理について概観しました。
　次回は、Word2vec をはじめとする「意味ベクトル」の技術がどれだけのインパクトを持って受け止められ、発展してきたかについて、お話ししていきたいと思います。

注１）学習済みの単語ベクトルを援用するなどの工夫は行われていましたので、厳密には、「【ほぼ】一から」と書くべきかもしれません。ちなみに、画像認識などの分野では、VGGNet や ResNet などのモデルを「事前学習済み」モデルとして扱ったファインチューニングは、その時点で既に一般的なものとして行われていました。

注２）GPT シリーズは同じ世代のものの中でも、複数のサイズがあります。ここでは、一般的に GPT-2, GPT-3 とそれぞれ呼ぶときに意図される、GPT-2 の 1.5B パラメータのモデルと、GPT-3 の175B パラメータのモデルとを意識しています。

注３）DL の計算過程がブラックボックスになっているという課題に対して、「説明可能AI（Explainable AI）」という、DL の処理の過程を説明可能にしようといった研究分野もあります。特に NLP においては、Transformer アーキテクチャを用いた BERT というモデルが大きな話題となった時期に、「BERT の中で、いったいどのようなことが起きているのかを明らかにしよう」という "BERTology" が提唱されたこともありました。和訳すると、「BERT 学」となるでしょうか。このように、高性能化と同時に複雑化するAIの処理過程を理解し、安全な活用に繋げようとする試みは、重要な研究分野の一つとして関心を集めています。

References
[1] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. "Efficient Estimation of Word Representations in Vector Space." In Proceedings of Workshop at ICLR, 2013.
[2] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean. "Distributed Representations of Words and Phrases and their Compositionality." In Proceedings of NIPS, 2013.
[3] Tomas Mikolov, Wen-tau Yih, and Geoffrey Zweig. "Linguistic Regularities in Continuous Space Word Representations." In Proceedings of NAACL HLT, 2013.
[4] Ilya Sutskever, Oriol Vinyals, and Quoc V. Le. "Sequence to Sequence Learning with Neural Networks." In Proceedings of NIPS, 2014.
[5] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, and Illia Polosukhin. "Attention Is All You Need." In Proceedings of NIPS, 2017.
[6] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding." In Proceedings of NAACL-HLT, 2019
[7] Radford, Alec, Jeff Wu, Rewon Child, David Luan, Dario Amodei and Ilya Sutskever. "Language Models are Unsupervised Multitask Learners." (2019).
[8] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. "Language Models are Few-Shot Learners." In Proceedings of NeurIPS, 2020.
[9] OpenAI, "Introducing ChatGPT." (Blog), 2022.

AI Blog Staff

前の記事へ

次の記事へ

デジタルゲームのための自然言語処理 第２回 ディープラーニングと NLP

関連する記事

デジタルゲームのための自然言語処理　第２回　ディープラーニングと NLP