電子カルテデータからの薬物治療効果抽出モデルでさらに迅速なエビデンス提供
ファイザーは、宮崎大学、NTTデータと複数医療機関の電子カルテデータに適用可能な、肺がん患者の薬物治療効果を判定するAIモデルを構築した。同モデルは、電子カルテの非構造化データを自然言語処理し、薬物治療効果を抽出するもの。
今回の研究では、宮崎大学の電子カルテデータをベースに、大規模言語モデルBERT1を用いてモデルを構築したうえで、6つの医療機関の電子カルテデータへの適用可能性と実用性を検証した。
その結果、複数医療機関の電子カルテデータに適用可能で、同モデルで抽出した薬物治療効果から算出した臨床研究の評価項目は、人が抽出した結果と同様の傾向を示すことが確認された。
今回の研究結果の一部は、第62回日本呼吸器学会学術講演会、第89回日本呼吸器学会九州支部秋季学術講演会、第42回医療情報学連合大会、第91回日本呼吸器学会九州支部秋季学術講演会で発表された。また、ジャーナルAdvances in Therapy、Health and Technology、医療情報学にそれぞれ掲載された。
電子カルテデータは、薬剤の治療効果や安全性などの臨床アウトカム取得の可能性があるものとして、活用が期待されている。一方で、臨床アウトカムに関わる多くのデータは、経過記録や画像検査レポート等のテキストに含まれており、これらの非構造化データを構造化しなければ解析は困難である。
こうした課題から、三者は非構造化データを用いた臨床アウトカムの評価手法の確立に向けて、2020年から共同研究2を進めてきた。その研究では、宮崎大学の電子カルテデータを用いて、肺がん患者を対象に薬物治療効果等のアウトカムを医師が評価した。
さらに、その結果を自然言語処理したところ、治療効果の評価において、文章の肯定形・否定形や、文脈の情報が重要であることが判明した。
今回の研究では、文脈情報が考慮可能な大規模言語モデルBERTを用いて薬物治療効果を判定するモデルを構築し、対象を単独医療機関から6つの医療機関に広げ、次世代医療基盤法に基づく認定匿名加工医療情報作成事業者であるライフデータイニシアティブ(LDI)が保有する多施設電子カルテデータベースに適用させることで、迅速かつ大規模データに基づくリアルワールドエビデンスの創出を目指した。研究概要および研究結果、今後の展望は次の通り。
【研究概要】
◆研究目的
・宮崎大学の電子カルテデータと、LDIで有する複数の医療機関の電子カルテデータベースをそれぞれ利用して、肺がん患者を対象に薬物治療効果を判定するモデルを構築し、非構造化データからの臨床アウトカム抽出方法を検討する。
・抽出した薬物治療効果から、臨床研究で用いられる評価項目である疾患進行までの時間(TTP、Time-to-Progression disease)を治療ラインごとに評価し、同手法の実用性を検討する。
◆研究方法
1、宮崎大学医学部附属病院に通院または入院した肺がん患者31例の電子カルテデータを対象に医師が評価した学習データを作成し、BERTを用いた薬物治療効果判定モデルの構築手法を検討する。ドメイン特化BERT構築フレームワークを適用して事前学習を行い、がん治療ドメインに特化したモデルを構築したうえでファインチューニングを行う。
2、1で構築したモデルについて、次世代医療基盤法に基づき得られた6つの医療機関の肺がん患者713例の電子カルテデータに対して適用し、複数医療機関の電子カルテデータへの適用可能性を検証する。
3、抽出した薬物治療効果から、臨床研究で用いられる評価項目であるTTPを評価。人が抽出した結果とモデルが推定した結果を比較評価し、同手法の実用性を確認する。
◆研究期間:2021年9月~2022年3月
◆各者の役割
△宮崎大学
・研究計画の立案
・宮崎大学医学部附属病院に蓄積されたデータのうち、研究対象者として選択基準を満たす患者について匿名化された電子カルテデータを提供
・医療および医療情報学分野の専門家としての評価および助言
△ファイザー
・研究計画の立案、研究に利用するデータの特定
・データ解析結果の評価
△NTTデータ
・研究計画の立案、LDIの次世代医療基盤法に基づくリアルワールドデータから、研究対象者として選択基準を満たす患者についての電子カルテデータの抽出
・宮崎大学から受領した匿名化された電子カルテデータ、LDIの電子カルテデータの解析
【研究結果】
1、ドメイン特化BERT構築フレームワークを適用して事前学習を行い、がん治療ドメインに特化したモデルを構築した。さらに、宮崎大学の電子カルテデータでファインチューニングすることで薬物治療効果判定モデルを構築し、精度検証した(感度 0.63、陽性的中率 0.42、F1スコア 0.50)。
2、1で構築したモデルを複数医療機関の電子カルテデータに対して適用した。顕著な精度の低下はみられなかった(感度 0.54、陽性的中率 0.40、F1スコア 0.45)。
3、モデルで推定した薬物治療効果と薬物処方等の構造化データを組み合わせて、TTPを治療ラインごとに推定した。人が抽出した結果とモデルが推定した結果を比較評価したところ、同様の傾向を示した(図)。
これらの結果から、構築した薬物治療効果判定モデルは複数医療機関の電子カルテデータに適用可能であり、また臨床研究で用いられる評価項目を評価可能であると確認した。今後、学習データ量を増やす等により、さらなる精度向上が見込まれる。
【今後の展望】
今回の研究により、複数医療機関の電子カルテデータに適用可能な薬物治療効果判定AIモデルを構築できることを確認した。今後、治療効果の薬剤間の比較や肺がん以外の疾患の薬物治療効果判定等に、非構造化データの活用が広がる可能性が見込まれる。
多施設の大規模電子カルテデータベースから医療に関する臨床アウトカムの情報を効率的に収集して活用することができれば、さらなる個別化医療の進展や、適切な医薬品への早期のアクセス等、さまざまなベネフィットが期待される。
今後も、リアルワールドデータ利活用の有用性を高める取り組みにより、医薬品をより適切な患者に届け、医薬品の価値を最大化し、医療に貢献することを目指していく。