Chat-GPTの開発元であるOpenAIが手がける人工知能システムの最新バージョンであるGPT-4は、化学分野の課題に取り組むうえで非常に高い有用性を示している。
GPT-4は、Generative Pre-trained Transformer 4の略称であり、大規模言語モデルとして知られる人工知能システムのカテゴリーに属する。GPT-4は、ユーザーが設定した課題に対し、膨大な量の情報を収集し分析することで解決策を探る。
GPT-4の進歩のひとつとして、テキストだけでなく画像形式での情報利用が挙げられる。だが、大規模言語モデルの可能性と限界があり、GPT-4にはまだ大きな弱点がある。
こうした中、化学研究におけるGPT-4の可能性を探索する東京工業大学の畠山歓氏は、「GPT-4の化学に対する理解度は注目すべきであり、人間の思考プロセスに近い形で実験結果を予測し、その予測に基づき、先の実験を提案することができる」と指摘する。畠山氏らは、化学研究におけるGPT-4の可能性の探索について、学術誌『Science and Technology of Advanced Materials:Methods』で論じている。
GPT-4の学習に使用された具体的なデータセットは開発者による公表はなされていないが、GPT-4がかなりの量の詳細な化学的知識を学習したことは明らかである。
その能力を分析するため、畠山氏らの研究グループは、有機化学(炭素化合物の化学)に焦点を当てた一連の化学タスクをシステムに設定した。これらは、基礎的な化学理論、分子データの取り扱い、化学物質の特性予測、化学プロセスによる生成物、新しい化学工程の提案などをカバーしていた。
調査の結果は多岐にわたり、長所と明確な限界の両方が明らかになった。GPT-4は有機化学の一般的な教科書レベルの知識はよく理解していた。だが、専門的な内容や特定の有機化合物を作る固有の方法を扱う課題についての能力は低かった。
また、化学構造を解釈して標準的な表記法に変換する課題では、高効率の作業性は全体の一部のみにとどまった。ひとつ興味深いのは、特に学習していない化合物の特性を正確に予測できたケースである。全体的には、既存のいくつかの計算アルゴリズムを凌ぐことはできたが、他のアルゴリズムには及ばなかった。
この結果について畠山氏は、「GPT-4が化学分野の研究において、教科書レベルの知識から、未知の問題への対処や複数の変数の最適化まで、幅広いタスクに取り組むことができることを示す」と説明する。さらに、「GPT-4の性能が学習データの質と量に大きく依存することは必然であり、推論能力には大いに改善の余地がある」と指摘する。
このように研究者たちは、今回の研究はあくまで予備的な調査であり、今後は試験範囲を広げ、より多様な研究のシナリオにおいてGPT-4の性能を深く掘り下げるべきだと意気込む。
また、化学に特化した独自の大規模言語モデルを開発し、既存の技術との統合を模索したいと考えている。
「そのためにも、研究者はGPT-4を化学的な課題に適用することを、場合によっては、既存の特殊技術を含むハイブリッドな方法を用いる課題に適用することも検討すべきである」と畠山氏は話す。