コロナ禍で注目：データサイエンスが医療・健康分野に起こす変革とは

　データサイエンスという言葉自体が、いつ頃から使われているのかは不明ですが、1960年代に一度注目を集めことがあったようです。そして、2012年にハーバードビジネスレビューで「21世紀で最もカッコいい仕事」と取り上げられたことで、一気に人気が高まったと見る向きもあるようです。
　さて、データサイエンスの認知度や、仕事としての人気度はさておき。今日では、コンピューターの性能が飛躍的に向上したこと、およびインターネットの普及によりビッグデータの活用環境が整備されつつあることなどを背景に、データサイエンスは様々な領域で活用されるようになってきています。もろちん、医療・健康領域も例外ではなく、バイオインフォマティクス、ゲノム医療、画像診断、ウェアラブルデバイス等々、注目ワードが目白押しです。
本稿では、医療・健康分野において、どのようなデータサイエンス活用が進められているのか、その一端を紹介することといたします。

医療におけるデータサイエンス活用の歴史

　医療分野におけるデータサイエンス活用の方向性は、大きく2つに分けられると考えています。
　1つは、「少統計の場合の統計学の適用」という方向性です。特に人を対象とする場合に、化学や物理と違い条件を揃えて十分統計が貯まるまで実験するわけにはいかないということを背景とした活用の方向性といえます。
もう1つは、「大容量のデータをコンピューターパワーで処理」できるようになったことで可能になるデータサイエンス活用という方向性です。

　前者の「少統計の場合の統計学の適用」という方向性についていえば、その起源を厳密にたどることは難しく、“どこまで近代的になったら医療と呼べるのか”、“どこからがデータサイエンスなのか”次第で、いつが起源なのかは変わってくると言わざるを得ません。統計を用いて医療効果を評価しようという発想の萌芽は中世にもあったといわれますし、強弁すれば紀元前まで遡ることも可能でしょう。
　しかし本稿では、とりあえず近代的治験の要件が定まったと言われるヘルシンキ宣言(1964年6月 https://www.wma.net/policies-post/wma-declaration-of-helsinki-ethical-principles-for-medical-research-involving-human-subjects/)をもって、医療において、「少統計の場合の統計学の適用」という方向性でのデータサイエンスの起源と看做したいと思います。

　もう一方の活用の方向性である「大容量のデータをコンピューターパワーで処理」というデータサイエンス活用については、その大きなブレイクスルーはヒトゲノムプロジェクト(1990－2003 https://www.genome.gov/human-genome-project/Completion-FAQ)にあったといえるでしょう。特に、ヒトのゲノムを対象とするヒトゲノムプロジェクトでは、ヒトのゲノムの全塩基配列を解析することが求められます。そのため、それを成し遂げるには、配列解析技術の進歩と、コンピューター関連技術の進化（特に、大容量データを処理し得る計算能力の向上）が不可欠でした。そうした解析技術の進歩と、コンピューターの進化があったからこそ、ゲノムプロジェクトは一定の成果をおさめるに至ったといえるでしょう。
　また、このことは医療側のニーズに、データサイエンスのテクノロジーなどが追いついた形だといえます。もともと医療側にやりたいことがあって、テクノロジーが進化したことで、 “データサイエンスを活用すれば、やれる”状況になったということです。

　しかし、その状況が転換したのが、2012年のILSVRC（ImageNetの大規模画像認識コンペ。2010年から2017年まで毎年開催されていた）でしょう。この年のコンペで、NN（ニューラルネットワーク）の活用による画像認識(http://www.image-net.org/challenges/LSVRC/2012/)の精度が飛躍的に高まったことが明らかになりました。また同年に、アメリカのGoogle社が“ディープラーニングで構成された人工知能にYouTubeの画像を見せ続け学習させた結果、これが猫という教師データを与えなくても猫の画像を猫と認識できるようになった”と発表したことも、大きな話題となりました。
　以降、画像認識や音声認識、そして文字認識などにディープラーニングが応用されるようになり、そうした動きの中で、医療側でも画像認識や文字認識などのテクノロジーを活用しようという機運が高まっていったようです。このことによって、大容量データの活用による医療分野のデータサイエンスの適用が、新たな局面を迎えたといえるでしょう。
　いずれにしろ、医療・健康分野においては、こうした2つの方向性で、データサイエンスの活用が進んでいるわけですが、そのうちのいくつかの活用事例を、次項以降で取り上げることにします。
　医療・健康分野におけるデータサイエンス活用の多様性の一端を確認していだけることでしょう。

医療・健康データサイエンス①：バイオインフォマティクス

　近年、バイオインフォマティクスが急速に発展し、注目を集めるようになってきています。バイオインフォマティクスとは、文字通り、バイオ（生物学）とインフォマティクス（情報学）という2つの学問分野を融合した、新たな学問分野といえます。もっと平たく言えば、「研究対象（解決すべき課題）が生命現象などで、その解決方法（手段）が情報学であるものが、バイオインフォマティクスである」と表現されることもあるようです。
　バイオインフォマティクスが対象とする旧来の学問分野を挙げれば、生物学や情報工学、数学、統計学、コンピューターサイエンスなども含まれるとされ、これはもう、ある程度高性能のコンピューターを活用して行われている生物・医療研究はすべてバイオインフォマティクスだといって良い状況です。

参考：バイオインフォ技術者試験出題範囲https://www.jsbi.org/nintei/shutsudai/

　そして当然のことながら、バイオインフォマティクスとデータサイエンスは密接に関連していて、医療・健康分野においてバイオインフォマティクスが注目され、活用される状況下にあっては、データサイエンスが寄与し得る範囲も大きくなっていくといえます。
さて、バイオインフォマティクスにおいて、データサイエンスが活用されている事例として、新型コロナウイルスの変異に関する系統樹解析をご紹介しましょう。

参考 : 慶応義塾大学の事例https://cmg.med.keio.ac.jp/covid-19-info/20210520-2414/

　多くの感染者からコロナウイルスの検体を採取し、その遺伝子情報を読み取ることで、例えば、ある変異株がどの段階で変異したのかといった、ウイルス変異の過程を推測することができます。この過程に、当該のコロナ変異株などが、どこで発見されたのかという地理的データを重ね合わせることで、ウイルスの発生起源を推測できたり、あるいは、ある治療薬やワクチンなどが、どの変異から効かなくなるかといったことがわかるようになります。
　もちろん、系統樹分析などを通じてわかることは、“そうらしい”という推測であって、実際には違う可能性もありますが、ある程度の推測を可能にすることも、極めて貴重な情報だといえるでしょう。

医療・健康データサイエンス②：ゲノム医療への応用

　ゲノム医療もバイオインフォマティクス同様に、かなり広い領域ですが、ここでは日本人の死因のかなりを占めるがんの診断を取り上げます。

　人間は多くの細胞でできていますが、ある細胞が増えたり減ったり、分裂したり脱落したりする仕組みは、遺伝子によって制御されています。ところが、この遺伝子の一部が壊れる（変異する）ことで、本来なら脱落するはずの悪い細胞が、脱落せずに増殖し続け、人間の体に害をもたらす悪性腫瘍になってしまうことがあるのです。これががんです。そもそもがんは遺伝子の一部が壊れる（変異する）ことで発生するということです。
　今日、ゲノム研究が進んだことで、どの遺伝子が変異するとがんに結びつくのかということがある程度わかってきています。これら、がんの原因となり得る遺伝子を「がん関連遺伝子」と呼びます。

　また、ある変異は大腸がんの発生確率を上げるとか、ある種の突然変異があると、当該の突然変異をもたない一般の人に比べて、特定のがんを誘発する可能性が高くなる、といった予測もできるようになっています。
　このように、データサイエンスの活用によって、発症以前にがんの可能性を診断し、早期に対応することも可能になっているのです。

参考：
https://www.jfcr.or.jp/genome/department/next_generation/index.html
https://www.jfcr.or.jp/hospital/cancer/heredity/relationship.html

医療・健康データサイエンス③：画像による診断

　冒頭でも触れたように、コンピューターによる画像認識が現実のものになったことで、これまでは、医師が肉眼で確認するしかなかった各種検査画像のチェックを、コンピューターに任せようという動きが出てきました。
　AIなどを活用して画像診断を行おうという場合の究極の目標は、“医師の判断を超える、正確な画像診断”ということになるでしょうが、まだまだ現実にはそんなレベルには到達していません。
　今日的な活用の実態としては、大量に撮影されるCTスキャン画像などの中から、病変の可能性が疑われる部分が撮影されている画像だけをコンピューターが選別して残し、その残された画像だけを医師が自分の目で診る、というものです。

参考：少なくとも医師が見る価値があるかどうかスクリーニング出来ないかという需要が生まれました
https://www.jstage.jst.go.jp/article/mit/25/2/25_84/_pdf

参考：COVID19についてもAIを用いCT画像から診断を行う研究などがあります
https://www.amed.go.jp/news/release_20200929-02.html

医療・健康データサイエンス④：文字認識

　医療・健康分野のデータサイエンス活用においては、後述する「レセプトデータ分析」が、この分野のビッグデータとして、利活用が期待されています。「レセプト」とは、医療機関を受診した際に、とのような診療を受けたのかを点数化して診療報酬がいくらになるかを計算する明細書で、健康保険組合などでは、それらのレセプトデータを保有しています。そのレセプトデータと同様に利活用への期待が高まっているのが、カルテです。近年では、多くのレセプトデータや、一部の電子カルテなどは、そのまま分析対象のデータとして活用することも可能です。しかし、従来蓄積されたカルテの多くは基本的に手書きであり、そのまま分析対象のデータとして活用することはできず、データ入力作業などの手間が必要だったり、またデータ入力するにしても、当然に専門用語も多いために、単純作業ではデータ化に困難を伴うといった問題がありました。

　しかし、前述の画像認識同様に、文字認識の精度が高まったために、人的に入力作業をしてデータ化するのではなく、文字認識装置などを活用してデータ化し、活用しようということが現実的になりつつあります。

医療・健康データサイエンス⑤：治験における統計的判断

　本稿の冒頭でも触れたように、治験と統計は密接に関係しており、治験について考察するにあたっては、統計を切り離して考えることはできません。新薬の開発にあたっては、ある段階で治験が不可欠であることはいうまでもありません。そして、その治験の結果を統計解析などによって、薬として有効かどうかを判断することになります。
　今日、もっとも注目度の高い話題である、コロナワクチンの治験でも、当然に統計が使われています。
　ファイザー製の新型コロナワクチンについては、極めて有効性が高く、統計的判定など不要と思えるほどの結果が出ています。

参考：ファイザー製新型コロナワクチンに関する安全性と有効性についてhttps://www.nejm.org/doi/full/10.1056/NEJMoa2034577

※グラフから10日ほどたつと劇的に感染しなくなることが見て取れます。

医療・健康データサイエンス⑥：パブリックデータの活用

　人の健康に関するデータというものは、個々人で振れ幅が大きいために、1人の経年データだけを見ても何らかの傾向を発見することは難しいものです。しかし、大勢のデータをまとめて分析すれば、何らかの傾向を発見できて、それが、人々のQOLを向上させるような医療施策につながるということもあり得るのです。その意味からいえば、パブリックデータをデータサイエンスで分析することには、大きな可能性があるといえます。
　もちろん行政側も、その可能性について大きな期待を寄せています。近年、国や地方公共団体などの公的機関が保有する様々なデータ、いわゆるパブリックデータをオープンにして、民間企業などの新サービス・新ビジネスの創出に役立てようという取組みが始まっています。
　内閣官房では、公的機関が保有するデータを、“民間が編集・加工しやすい形で”、インターネットで公開することを想定しています。

　しかし、各公的機関などが保有するデータの中には、きちんと読み取れるデータ形式になっていないものも多く、まずはデータの整備からスタートしようというレベルです。それでも、大きな進歩だといえるでしょう。実際にデータを利活用して、なんらかの新サービスや新事業を創出できるようになるまでには、まだまだ時間を要するかもしれませんが、国が主導する形で、そうした取組みが始まっていること自体は、データサイエンスがさらなる発展をしていく上で、評価に値することだといえるでしょう。

参考：オープンデータに関する政府の動向と地⽅公共団体への普及取組
https://www.soumu.go.jp/main_content/000325515.pdf

参考：電子行政オープンデータ戦略
https://www.kantei.go.jp/jp/singi/it2/pdf/120704_siryou2.pdf

参考：医療ビッグデータの利活用と問題点
https://www.soumu.go.jp/main_content/000518774.pdf

医療・健康データサイエンス⑦：レセプト分析

　前述の「パブリックデータの活用」の中でも、とりわけレセプト分析は医療・健康分野のデータサイエンスにとっては重要です。
　レセプトデータは、いってみれば医療サービスを受けた際のレシートのようなもので、いつ、どこで、どんな治療を受けた、どんな投薬を受けたということがわかります。こうした膨大なレセプトデータをデータサイエンスで分析することで、“Aの病気で治療を受けた人は、次にBの病気になる傾向が高い”といったことがわかることもあるでしょう。

　さらに、その個人の健康診断データと併せて分析することができれば、「この指標の数値が、このレベルを超えると、今後、糖尿病になる可能性が高くなる」といったことも推測できるようになります。日本では、医療費に占める糖尿病治療費の割合は高いのですが、ある種の糖尿病は、食生活や運動習慣を改善するなど、その人の生活習慣を変えさせることで、予防することも可能です。現に、いわゆるメタボ健診では、健康診断で特定の数値を指標として、メタボリックシンドローム（内臓脂肪症候群）の予備群を抽出し、その受診者に対して『特定保健指導』という生活習慣改善の支援を行うことで、糖尿病などの生活習慣病を予防しようとしています。
　このように、レセプトデータをデータサイエンスで解析することは、とても有益なのです。

　厚生労働省では、「高齢者の医療の確保に関する法律」に基づいて「レセプト情報・特定健診等情報データベース（NDB）」の整備を進めていますが、今後こうしたデータベースの利活用が進めば、医療・健康分野のデータサイエンスは飛躍的に発展することが期待されます。
　しかし一方で、もともとレセプトデータは医療費計算を目的としたデータであり、解析に供することを目的としたデータではないため、ストレートには活用しにくい面があるのも事実です。

　たとえば、レセプトはあくまで医療費のレシートなので、「Aの薬を投与した」ことはわかっても、何のために、Aの薬を投与したのかは書かれていません。特に高齢者などの場合、複数の持病をもっているような方は、どの病気に対して、どの治療・投薬がされたのかが明示されているわけではありません。しかし、だからこそ、データサイエンスの活躍の余地が大きいのだということもいえるのです。

医療・健康データサイエンス⑧：コロナ感染者統計

　2020年1月以来、日本は新型コロナウイルスに翻弄され続けたといっても過言ではありません。もちろん日本だけの問題ではなく、世界中が戦慄するほどのパンデミックです。現時点（2021年6月時点）でも、収束の兆しが見えないコロナ禍の中にあって、データサイエンスは日々、コロナの感染実態をつまびらかにしています。まさに今、毎日発表されるコロナの感染者統計が、国の政策をも左右しています。
　さて、コロナ禍の今後の趨勢については、予断を許さないところがありますが、この状況の中で、意識するとしないとに関わらず、データサイエンスあるいは統計解析により、日本における感染状況が適切に把握されていることは間違いありません。

　一例として、東京都が日々更新している「都内の最新感染動向」を見てみましょう。

参考：都内の最新感染動向
https://stopcovid19.metro.tokyo.lg.jp/

　新規陽性者数のグラフを見ると、月曜日には陽性者の数が少なくなるなどの曜日依存性があり、一日ごとの陽性者数の増減を見て一喜一憂することにはあまり意味がないことが見て取れます。そこで、「7日間移動平均」の折れ線グラフを示すことで、全体的な傾向を把握できるように工夫されています。データサイエンスの基本的な技法が、私たちの日常に有用であることを示す事例といえるでしょう。

医療・健康データサイエンス⑨：ウェアラブルデバイスからのデータ活用

　データサイエンスの技法をいくら駆使しても、データそのものの質を超えて、何らかの付加価値を創出することはできません。特に、医療・健康分野のデータサイエンスにおいては、データの質は重要ですし、かつ継続的に測定できるデータであれば、さらに有効な活用が可能になります。たとえば、1年に1回、健康診断の時だけの血圧測定データよりも、毎日継続して血圧測定して、そのデータを分析できるのなら、特定の血圧の変化を、ある種の疾病の予兆と推測するような活用の仕方もできるでしょう。

　そこで注目されているのがウェアラブルデバイスによる健康チェックです。使用するウエラバルデバイスによっては、心拍数や血中酸素濃度、体温や血圧、運動量などをリアルタイムでチェックすることが可能です。こうしたデータが十分に蓄積されていけば、脳卒中が起こる前に警告を出すことなども可能になることでしょう。

参考：ウェアラブルデバイスとモーションレコーディング
http://www.meiji-u.ac.jp/md-medinfo/wearabledivices

　ウェアラブルデバイスについては、多様な製品開発がなされており、さらに今後の進化も注目に値します。より機能的で高精度なヘルスデータ測定が、日常的に、かつ常時できるようになれば、人々の健康維持増進や、予防医療の発展にも寄与できるでしょう。

　もちろん、そうしたヘルスデータを膨大に収集するだけでは結果には至りません。そこでは、データサイエンスによる高度な解析が必要になることはいうまでもありません。