• 医療・健康系

医療レセプトデータの創薬 AI開発の最前線における適用の可能性

目次

著者:佐藤能臣a,b,坂本唯史a,市原泰介b
所属:a(株)データフォーシーズ AI Lab
b日本システム技術(株)ライフイノベーション LAB

 概要:データサイエンティストにとって、市場調査で得られた情報を含むデータの事実確認は、とりわけ、重要です1。本稿では、国内外の創薬AI市場に注目し、特に、国内の創薬AI開発の現状について収集した情報を報告します。そして、ビッグデータ分析時代のマーケティングにおけるデータマイニング手法の1つだった「アソシエーション分析」の創薬AIへの応用事例を紹介しながら、医療レセプトデータもデータサイエンスパイプライン2,3,4の詳細な組み立て方次第で、新規AI技術を生みだし、創薬の加速の一助に繋がる可能性を提言します。

導入

予測:創薬AI市場の成長

 2021年3月時点のThe Business Research Companyの市場調査レポートでは、COVID-19の影響から回復しながら、年平均成長率(CAGR)30.6%で,2020年の3億6000万米ドルから2021年には4億7000万米ドルに成長し、2025年までに、38%のCAGRで16億9000万ドルに達すると予測しました5

 一方、同じ2021年3月時点のReport Oceanのレポートでは、創薬市場における人工知能(AI)は、COVID-19の影響にも関わらず、2020年から2026年にかけCAGRが30.0%となり、25.7億ドルに達すると予測し6、そして、2021年7月の最新調査(レポート「創薬における人工知能市場 – 治療領域別(腫瘍、神経変性疾患、心血管疾患、代謝疾患、感染症、その他)、アプリケーション別、地域別、セグメント予測 – 2028年」)から、世界の創薬AIの市場規模は、2028年までに41.3億米ドルに達するという将来の成長予測を報告しました7

一般に、1つの薬がベンチマークから市場に出回るまで、約10年の歳月と25億ドル以上の資本投資が必要であると推定されています。そして、その約3分の1は、創薬段階で発生しますが、実際、臨床試験に使える製品候補になるのはごく一部で、90%近くが臨床試験の段階に到達しません8。例え、臨床試験の段階に入ったとしても、phase IIで薬効を実証できなかった(動物実験で得られた知見がヒトでは有効でない)ことで開発中止を余儀なくされます。このため、患者から直接取得された臨床情報を収集し、利活用することができれば、開発中止を効果的に抑えることができると期待されています9、10。 開発中止を効果的に抑制し、市場の持続可能な成長の実現には、卓越したデータサイエンススキルを持った人材不足の解消が課題の1つです。ライフサイエンスの研究開発のイノベーションを推奨する非営利団体The Pistoia Allianceの2019年の報告によると、創薬AI開発の採用にあたり、最大障壁となっているのがスキル不足であると回答した企業が44%に上ったそうです11

創薬AI開発の最前線

 国内における創薬AI開発を発展させるには、国内製薬会社の、昔ながらの創薬手法である低分子化合物に関する豊富なデータやノウハウの蓄積を利活用し12、価値あるデータを生み出していくかが鍵を握ります。そして、卓越したデータサイエンススキルを持った人材に求められる資質の1つが、データの量は関係なく、価値あるデータを生み出していく力です

 そして、価値あるデータを生み出し、新薬の創出を加速させる創薬AI開発には、次のスキルが求められます9

  • 臨床情報の収集と整備とそのデータウェアハウスの構築
  • 整備された臨床情報の利活用を可能とするAIの開発

 特に、第2項目については、整備された臨床情報の利活用を可能にするだけでなく、研究開発の戦略や方向性に関する人の意志決定の支援に役立てられるよう、論文や臨床情報など大規模医療データを分析し、薬の候補やデザインを絞り込む機能を開発できる能力を有する人材が求められると思われます。

 それはなぜかというと、AIの予測機能は、マルチオミクス情報を含む臨床情報などの大規模な医療ビッグデータの処理と分析に基づいており、データベースなどの構造化されたデータと臨床情報などの非構造化データとを相互に参照し、ターゲットとなる生体分子を探索したりすることで新薬としての実用的なインサイトを生み出す機能だからです8。そして、医療ビッグデータと連携したAIの利活用により、研究開発全体の生産性を向上させるだけでなく、製品開発の初期段階で医薬品候補の安全性や有効性を正確に予測し、臨床上の失敗を減らすことができるようになるからです8

 国内、特に、内閣府が打ち出した官民研究開発投資拡大プログラム「PRISM」の枠組みに基づき「新薬創出を加速する人工知能(AI)の開発」を目指した省庁連携研究プロジェクトでは、病因不明の致死疾患「特発性肺線維症(IPF)」の新規治療法の開発を目的として、新規AIによりオミックスデータと診療情報とを紐づけることによって、創薬ターゲット候補を見いだすことに成功しました8,9。 この大きな成功には、通常、医療機関が治療目的として電子カルテ等の形で蓄積されてはいるもののAIに学習させることを想定したフォーマットになっていない医療データを、医師の入力誤差を少なくした診療情報収集システムの構築と実装などにより構造化させる取り組みがあります8,9

感染症分野における創薬AIの現状

 創薬AIの感染症分野では、COVID-19のパンデミックの影響により、有利な成長率を示すことが予想されています。

 その理由の1つは、例えば、AIを基盤にもつExistencia社は、COVID-19の抗ウイルス療法を開発するためScoripps Research社と提携したり7、GoogleのDeepmind社も自社AIプラットフォーム「AlphaFold」「AlphaFold2」を用い、SARSやCOVID-19の診断に関わるタンパク質の構造に関する情報を発表したりするように13,14、マルチオミックス解析や、そのほかの医療ビッグデータを利活用し、感染パターンを特定できるAIプラットフォームの構築や導入が進んでいるからです。

 加えて、英スタートアップ企業「BenevolentAI」が、自社の強みである臨床試験(治験)や学術情報、疾病や遺伝子、薬などに関する独自のデータベースからターゲットとなる病気の新薬候補を探索するAI技術を駆使し、わずか数日で、既存薬の中からCOVID-19の治療薬候補を見つけてしまった(これを「ドラッグリポジショニング」と言います)ことで、従来10年規模の開発期間と膨大なコストを大幅に減らす可能性があることを示しました15

 BenevolentAI社は、既存薬から探索したため、従来の新薬開発なら、候補の探索や動物での安全性試験などに費やしていた期間の大幅な圧縮を実現し、9ヶ月という異例の速さで承認されました。このBenevolentAI社の取り組みに触発されたかもしれませんが、他の疾患分野での創薬AIの取り組みも国内外で、その広がりが加速されつつあります15。 本稿では、マーケティング分野ではよく利用される「アソシエーション分析」とその創薬AIへの応用事例16,17を紹介しつつ、日本システム技術(株)が保有する国内最大規模の医療レセプト(診療報酬明細書)データベース18の創薬AIへの応用の可能性について模索します。

アソシエーション分析

 アソシエーション分析は、1994年に発表された「Fast algorithms for mining association rules」19が始まりと言われ、バスケット分析とも呼ばれ、ビッグデータのデータマイニングにおける、大規模データの中から意味のある関連性を見つけ出す手法です。さまざまな事例に適用することができ、主に購買データから人々の購買行動における関連性を見つけ出す際に使われます20。概論として、まず購買データからどのように購買行動の関連性が分かるのかを説明し、次に、アソシエーション分析の創薬AIへの応用例を簡単に紹介します。

概論

 ある購買履歴データから、ある商品の売れた個数の集計から「売れ筋商品」を把握できるかもしれませんが、さらに「アソシエーションルール」を適用することで、「商品Aと商品Bが一緒に購入される可能性が高い」関連性までを評価できます21,22

 「商品Aを購入する人は、商品Bも購入する」を「商品A→商品B」(商品Aを条件部、商品Bを結論部)とします。このような関連性を評価判断するための指標として、「支持度」・「信頼度」・「リフト値」があります。

支持度(support):全体データの中で、商品Aと商品Bが同時に購入される確率を表します:

「支持度」が高くなると、商品Aを購入すると商品Bを購入する人が多くなり、低くなると、商品Aを購入して商品Bを購入する人の数が少なくなります。

信頼度(confidence):「商品A→商品B」とすると、商品Aが買われた中で、商品Bが買われた確率で、次のように表されます:

 「支持度」が低くても、「信頼度」が高いと、商品Aを購入すると、ほぼ商品Bを購入することを表します。

 逆に、商品Bを購入する人の数が多い場合は、「信頼度」も「支持度」も上がりますので、商品Aと商品Bも買うことになり、拡販戦略の立案は必要なくなります。また、商品Bを購入する人の数が小さい場合は、「信頼度」が低下しますので、商品Aとの併売のプロモーションの戦略の立案の可能性が出てき、関連性を調べる重要な指標となります。リフト値(lift):商品Aと一緒に商品Bも購入した人の割合(信頼度「商品A→商品B」)は、全てのデータの中で商品Bを購入した人の割合よりどれだけ多いかを倍率として表され、計算方法は、次の通りです:

 リフト値が低ければ、商品Bは単独で売れていることを意味し、商品Aとの関連性よりも商品B特有の理由で売れているという示唆が得られ、商品Aと商品Bとの信頼度が高かったとしても、その関連性はあまり意味がないという解釈が得られます。

創薬AIへの応用

 「PRISM」の枠組みに基づく「新薬創出を加速する人工知能の開発」を目指した省庁連携研究プロジェクトで、上述のアソシエーション分析の手法を応用した患者層別化AIが開発され、創薬標的探索に利用されていました16,17

 具体的には、分析対象を創薬ターゲット探索対象となっているIPF患者とし、その患者の診療情報(医師の入力誤差が小さくなるように整地されたもの)やオミックスデータ(ここでは、エクソソーム中に含まれるタンパク質の量を網羅的に測定したデータ)から、オミックスデータの共通する性質(例えば、分子Aで相対的に値が高く、分子Bで相対的に値が低い。数値データはAIによって解析に利用可能なスコアへと自動的に変換される)と、診療データにおける共通項目(項目xが相対的に値が低く、項目yが相対的に値が高い。あるいは、項目xが当てはまらず、項目yが当てはまる。その混合など)が同時に共起する分子と項目を、上記の支持度とリフト値(を改良したスコア)から自動に抽出しました。

 この自動抽出法により、オミックス情報と診療情報の両データで共通項がある患者群を作り、診療情報中でIPF特有の項目と紐づいているタンパク質グループが抽出されていますので、それらが創薬ターゲットとなる分子(タンパク質)を探索する上で有力な情報となると考えられます。

医療レセプトデータの利活用の可能性

 上述までを踏まえて、なぜ、創薬AI開発がなかなか進まなかったのか、そのわけを、その当時流行った「ビッグデータ」の分析の前提に基づいて説明し、どのように医療レセプトデータを利活用すれば、創薬AI開発に貢献できそうかを考えてみます。

 R。 Schutt、C。 O’Neil(著)瀬戸山雅人等(訳)「データサイエンス講義」(O’REILYオライリー・ジャパン)23の「ビッグデータの大きな仮定」の中で、次の3つの仮定について触れています:

  • 少量の標本ではなく、多量のデータを収集して使用すること。
  • データの乱雑さを許容すること。
  • 因果関係を知ることを諦めること。

 これらの仮定は、「N=ALL」(標本は母集団に等しく、手にしているデータが全てであるとする)という考え方に基づいており、この「N=ALL」の基本的な考え方が、知らない間にデータにさまざまな影響を与え、次のステップでのAIへの応用でも、欲しい適切な出力が得られないデータセットを作ってしまうことにつながります。

 特に、レセプトデータは、「N=ALL」仮説が満たされず、診療情報データの中でも非常にノイジーなデータベースであると言われています。例えば、都道府県別でデータ形式やフォーマットが異なっていたり、「保険病名」と呼ばれる、診断される病名とは異なる、保険請求上記載した病名が記載されたりしています24。そのようなノイズを取り除き、医師による入力誤差を小さくする「データクレンジング」処理をしながら、データ整形を行います。次に、構造化された診療情報とエクソソーム解析に基づくタンパク質データを入力値とした患者層別化AIによるクラスタリングした患者のレセプトデータと紐づけることで、創薬ターゲットだけでなく、層別毎にレセプトデータ上の「属性」「調剤」「診療行為」「既往歴」「医療費」の傾向を分析できるようになるかもしれません。

 加えて、IPF患者のレセプトデータセットも、アソシエーション分析に合わせたデータセットに加工し(すなわち、患者を行、病名等を列とし、セル内には列名の有無(1/0)が値として格納されるようにデータ整形します)、その加工されたデータセットを用いアソシエーション分析を行います。つまり、前章の「商品Aを購入する人は、商品Bも購入する」「商品A→商品B」をそれぞれ、「IPFを罹患した患者は、同時に疾患Bも罹患する」「IPF→疾患B」とし、「支持度」・「信頼度」・「リフト値」の指標の定義も次のように変わります。

支持度(support):レセプトデータ全体の中で、IPFと疾患Bを併発する確率となり、「支持度」が高くなると、IPFと疾患Bを併発している被保険者の数が多く、低いと併発している被保険者の数も低くなります。

信頼度(confidence):IPFを患っている中で、疾患Bを罹患する確率となり、「支持度」が低くても、「信頼度」が高いと、IPFを罹患すると、疾患Bもほぼ罹患していることを表します。

リフト値(lift):IPFと疾患Bを同時に罹患した被保険者の割合が、全ての医療レセプトデータの中で疾病Bを罹患した被保険者の割合よりどれだけ多いかを表します。リフト値が低ければ、IPFとの併発より、疾患Bのみ罹患している可能性が高いことという示唆と、IPFと疾患Bの併発に関する信頼度が高かったとしても、その併発はあまり意味がないという解釈が得られます。 このように医療レセプトデータのデータ加工次第で一般的なアソシエーション分析にも適用できると考えられます。一方、上述の患者層別AIは、データ加工にあまり工夫のないデザインとなっており議論の余地を残すものの、例えば、医療レセプトデータも入力値として加えることによる患者層別化AIの精度の改善の可能性だけでなく、レセプト上の情報と分子レベルの情報との相関性も見いだすことができるようになるかもしれません。

結論

 「PRISM」の枠組みに基づく「新薬創出を加速する人工知能の開発」を目指した省庁連携研究プロジェクト内でも本質的に用いられ、ビッグデータ分析時代のマーケティングにおける、データマイニング手法の1つだった「アソシエーション分析」や、医療レセプトデータも、「データ収集」「データインサイト」等に基づくデータサイエンスパイプラインの詳細な設計次第で、新規AI技術を生みだし、創薬の加速の一助に繋がる可能性を示唆しました。

謝辞

 本記事の内容の一部は、日本システム技術(株)ライフイノベーションラボとの共同研究開発契約「医療レセプトデータを利用したAIサービス事業化」のもとで行われた。また、国内の創薬AI開発について貴重な議論や意見を頂いた国立研究開発法人医薬基盤・健康・栄養研究所の夏目やよい氏、伊藤眞里氏に心から感謝致します。

参考

[1] J. Kazil, K. Jarmul(著)長尾高弘(訳)嶋田健志(技術監修):「Pythonではじめるデータラングリング データの入手、準備、分析、プレゼンテーション」O’REILLYオライリー・ジャパン(2017年4月20日初版第1刷発行).
[2] J. P. Mueller, Luca Massaron: “Python for Data Science for dummies, 2nd Edition.” (Jonh Wiley & Sons, Inc., New York, United States, 2019).
[3] Snowflake workload guides「DATA SCIENCE PIPELINE in DATA SCIENCE」https://www.snowflake.com/guides/data-science
[4] 佐藤能臣,坂本唯史,市原泰介:「医療レセプトデータから『インサイト』を生み出すデータサイエンスパイプライン」
[5] The Business Research Company:「Artificial Intelligence (AI) In Drug Discovery Global Market Report 2021: COVID-19 Growth And Change To 2030」(https://www.thebusinessresearchcompany.com/report/artificial-intelligence-ai-in-drug-discovery-global-market-report-2020-30-covid-19-growth-and-change,2021年3月発行).
[6] Report Ocean Co. Ltd.:「創薬市場における世界の人工知能(AI)は30.3%のCAGRになります」プレスリリース(https://prtimes.jp/main/html/rd/p/000001096.000067400.html,2021年3月1日).
[7] Report Ocean Co. Ltd.:「創薬における人工知能(AI)の市場規模は2028年までに41.3億米ドルに達する見込み」NEWSCAST(https://newscast.jp/news/6243121,2021年7月6日).
[8] 株式会社グローバルインフォーメーション:「AIベースの創薬市場、2030年まで堅調に成長見込み」プレスリリース(https://www.value-press.com/pressrelease/270827,2021年5月12日)BtoBプラットフォーム 業界チャネル(https://b2b-ch.infomart.co.jp/news/detail.page?IMNEWS5=2559867,2021年5月12日).
[9] 夏目やよい:「PRISM創薬AIの全体像と特発性肺線維症の概要」令和2年度成果報告会抄録集『新薬創出を加速する人工知能の開発』(令和3年7月20日).
[10] 伊藤眞理、黒田正孝、鎌田英世、夏目やよい、水口賢治、武田理宏、松村泰史、武田吉人、熊ノ郷淳「新薬創出を加速する人工知能の開発」第3回日本メディカルAI学会学術集会(2021年6月11日〜12日).
[11] Pistoia Alliance:「AI IN LIFE SCIENCES STILL BEING HELD BACK BY DATA ISSUES AND SKILLS SHORTAGE」Recent Press Release(https://www.pistoiaalliance.org/news/ai_life_sciences_held_back_may2019/,2019年5月15日).
[12] 高城裕太:「創薬AI、欧米勢が先行 市場規模、24年5倍も」日本経済新聞(https://www.nikkei.com/article/DGKKZO63554130X00C20A9TJ2000/,2020年9月8日).
[13] DeepMind:「Computational predictions of protein structures associated with COVID-19」(https://deepmind.com/research/open-source/computational-predictions-of-protein-structures-associated-with-COVID-19,2020年8月4日).
[14] Wikipedia:「AlphaFold」(https://en.wikipedia.org/wiki/AlphaFold).
[15] 日本経済新聞:「AI創薬、コロナでも活躍 薬候補特定、数年が数日で 開発期間の大幅減に道」(https://www.nikkei.com/article/DGKKZO73907720V10C21A7TEC000/,2021年7月16日).
[16] 上田修功:「患者層別化AIの開発と実臨床情報の解析」令和2年度成果報告会抄録集『新薬創出を加速する人工知能の開発』(令和3年7月20日).
[17] Yayoi Natsume-Kitatani, Kenji Mizuguchi, Naonori Ueda:「Subset-binding: A novel algorithm to detect paired itemsets from heterogeneous data including biological datasets」(https://www.researchsquare.com/article/rs-405195/v1
[18] 日本システム技術株式会社「保険者向けトータルサービス『JMICS』」(https://www.jast.jp/service/medical/).
[19] R. Agrawal, R. Srikant:「Fast algorithm for mining association rules」The 20th Int. Conf. VLDB, Santiago, Chile, 1994.
[20] WOWOW COMMUNICATIONS コミュニティマーケティング専門ブログ:「アソシエーション分析とは何か?基本情報のおさらいをしよう」(https://www.wowcom.co.jp/blog/1529/,2019年11月13日).
[21] ビッグデータ活用講座「第7回アソシエーション分析1 アソシエーション分析とは」Zetta Technology データ活用塾(https://www.zetta.co.jp/bigdata/l_07.shtml).
[22] 解説「第2回:アソシエーション分析~「使ってみたくなる統計」シリーズ ~」Big Data Maganize(https://bdm.change-jp.com/?p=1341,2014年3月28日).
[23] R. Schutt,C. O’Neil(著)瀬戸山雅人等(訳)「データサイエンス講義」O’REILLYオライリー・ジャパン(2014年10月28日初版第1刷発行).
[24] 在宅医療コラム:「レセプト病名、疑い病名の転帰はいつしますか」一般社団法人在宅医療事務協会(https://hcmaa.com/blog/%E3%83%AC%E3%82%BB%E3%83%97%E3%83%88%E7%97%85%E5%90%8D%E3%80%81%E7%96%91%E3%81%84%E7%97%85%E5%90%8D%E3%81%AE%E8%BB%A2%E5%B8%B0%E3%81%AF%E3%81%84%E3%81%A4%E3%81%97%E3%81%BE%E3%81%99%E3%81%8B%EF%BC%9F/).