岡野原大輔、大規模言語モデルは新たな知能か ChatGPTが変えた世界。岩波科学ライブラリー319、2023年6月。
2022年11月に登場したChatGPT(Generative Pre-trained Transformer)は、大規模言語モデルを使ったサービスです。言語モデルとは「文に対して確率を割り当てることのできるモデル」(本書 54P)です。意味の通る文に高い確率を与えることで、文章を生成します。
この基礎となっているのが1948年に発表されたシャノンの情報理論で、情報量という概念を導入して文章の意味ではなく、その事象がおこるであろう確率のみで情報量を定義しました。
脳の神経回路を参考にしてつくられたニューラルネットワークを利用して文章の次の単語を予測しています。その特徴は、簡単な計算を実行する部品をたくさん組み合わせて複雑な計算を実現していることです。
セコメントをする