2021年03月24日

医療・健康系

日本における医療ビッグデータの利活用：その期待と課題

本記事では日本における医療ビッグデータの利活用について記載しております。

現在、日本に存在する医療ビッグデータの１つに、レセプトデータというものがあります。

個人情報保護法とデータのガラパゴス化がさらなるデータ利活用の足かせになっています。

政府は国をあげて課題を打開して医療ビッグデータ利活用を促進するような仕組みを作っていく方針を打ち立てています。

データ解析実務の効率化、様々な領域において新しい価値の創出を果たせそうで医療ビッグデータを整備する恩恵は非常に大きいです。

医療ビッグデータ解析の実務者目線から見て、一筋縄には行かなそうな問題もあるので、医療ビッグデータを利活用していくためには、政府主導の変革を考慮に入れつつも、少しずつ適応していく準備が必要となります。

医療・保健分野におけるビッグデータ活用の現状

総務省の資料(https://www.mhlw.go.jp/content/10601000/000406831.pdf)によると、現在、日本政府が医療ビッグデータ（医療・健康に関する大量のデータ）の利活用というテーマで最も力を入れているのは、レセプトデータの利活用になります。レセプトデータとは、いわば医療費のレシート・明細データのことで、「〇〇という治療を施しました」ということがわかるデータです。コンビニエンスストアでレシートをもらうと、いつ、どこで、何を購入して、いくらお金を支払ったのかがわかるのと似ています。まさにレセプトは、医療費におけるレシートなのです。

現在、レセプトは年間17億件ほど収集されています。レセプトは、まさに医療ビッグデータのメインストリームをなしているというわけです。
レセプト以外の医療ビッグデータに特定健康診断（40歳〜74歳までの国民健康保険等の公的医療保険加入者全員を対象とした健康診断）の受診結果データというものもあります。

特定健診データは年間2,500万件ほど収集されていると言われており、レセプトデータと比べると少ないものの無視できない医療ビッグデータとなっています。

このような医療ビッグデータを利活用する事で、今よりも進んだ医療の提供、既存業務の効率化などが進むと大いに期待されています。しかしながら、後述するような法律やガラパゴス化されたデータ蓄積の仕組みの影響で、実は現在は質の高いデータが入手できていないという実態があるのです。次の章では、医療ビッグデータの利活用に立ちふさがるハードルについてご説明します。

医療ビッグデータ活用のための課題

個人情報保護法によるデータ利用制限

医療ビッグデータ活用を進めていく上では、個人情報保護法という法律が足かせの一つになっています。

医療ビッグデータとして集められる情報は、人の病歴・受診歴・身体的な特徴に関わるデータであり、重大な個人情報となっております。個人情報保護法は大切な個人情報が悪用されない様、人々を守るためにつくられた法律ですが、医療ビッグデータを扱うときには、少なからず関わってきます。個人情報保護法についての詳細は、個人情報保護委員会（内閣府の外局として、内閣総理大臣の所轄に属する行政委員会です）により作成された「個人情報保護法ガイドブック」に詳しいので、こちらをご参照ください。
https://www.ppc.go.jp/files/pdf/kojinjouhou_handbook.pdf

ハンドブックを参照していくと個人情報データ（医療ビッグデータもこれに該当します）を扱っていく上では、例えば以下の事を守らないといけません。

データを加工して、「匿名加工情報」 (簡単に言えば個人情報を本人が特定できないように加工したもの)にしなければならない。
利用目的を極力特定したうえでデータを取得しなくてはいけない。

医療ビッグデータ利活用の便益だけを念頭に置いたときに、最も厄介になるのが「第三者提供ができない」という点になります。例えば、健康保険組合Aが患者のデータを民間会社X社に秘密保持契約など結んだとしても、データを渡して解析や集計を依頼することができないのです。（秘密保持契約＝英語にすると Non-disclosure agreement 、略してNDAなどと呼ばれており、情報を渡した際に「秘密を第三者に漏らさない」という事を約束するための契約になります。）

至極まっとうなルールですが、データ解析実務という側面からみると、収集された情報は取得者である医療機関や健康保険組合に高度な分析ができる人が潤沢に存在しない限り、データ解析が進まないという足かせになります。現実問題として、医療機関や健康保険組合にデータ解析技術者が潤沢に所属しているというケースは極めて稀なので、医療ビッグデータの分析を行い、利活用をするという事が推進しにくい原因の一つになっているのは間違いないのです。

個人情報保護法によるハードルの解決策

日本政府は以下2つの施策で、個人情報保護法を維持しつつ、医療ビッグデータの利活用を推進するための改善を試みるようです。

「第三者提供ができない」という最大のボトルネックを解消すべく、認定匿名加工医療情報作成事業者なるものを設置して、その事業者だけには個人情報の提供を認める事とする。
データ取得時にインフォームド・コンセント（説明を受け、納得したうえでの同意）を確実、かつ、簡易に遂行できる仕組みを整える。

1.に関しては平たく言うとこの「認定匿名加工医療情報作成事業者」にデータを渡してデータの加工、集計その他の作業を依頼することは第三者提供に当たらないようにしてしまうということになります。これができれば、データ解析技術者不在の健康保険組合に集まったデータもデータ利活用の対象とする事ができます。

2.についてですが、法改正で病歴等が「要配慮個人情報」に位置づけられ、いわゆるオプトアウトによる第三者提供が禁止になりました。オプトインとは「利用について承諾を得られれば、データを使う事ができる」という方式になります。一方、オプトアウトとは「情報利用について拒否しない限りは、データを使う事ができる」という方式です。

メルマガなどを例としてみましょう。個人情報（この場合はメールアドレス）を取得する段階で「メルマガを購読する」などのチェックボックスを設置して、配信許可をとる方式がオプトインです。一方、ユーザーが何も言わない限りは、個人情報（メールアドレス）を取得したらメルマガを配信し、ユーザーから「メルマガ購読を止める」という申請がきたら配信を中止するのがオプトアウトです。

オプトアウト方式を採用するためには、個人情報保護委員会への届け出をすれば良かったのですが、それすら禁止になりました。医療ビッグデータの利活用に向けては、オプトイン形式を遵守しつつ、何とかハードルを下げて、データを集めないといけないという事になります。

データ蓄積方式の結果として生まれたデータのガラパゴス化

レセプトデータの収集者である日本の健康保険組合の特徴として、以下の事が挙げられます。

健康保険組合は民間が中心に運営されていること
健康保険組合によって保険制度もバラバラになっていること

こうした特徴に結果、データがガラパゴス化している（「医療ビッグデータ」という１つのデータにならず、データがバラバラに存在している）という問題があります。そうした事情からある１人の患者でも、記録形式の異なる施設・地域・健康保険組合を利用してしまうと、データ上はそれぞれ別の患者として認識されてしまい、連携ができないということが課題になっているのです。

この問題はもちろん改善すべきなのですが、そのためにはデータの形式統一に多大なコストと時間を要することが見込まれてしまいます。実はこのような、いわば「データ蓄積」の在り方が、先の個人情報保護法の足かせと変わらないくらい厄介なのです。

データのガラパゴス化に対する解決策

日本政府はガラパゴス化したデータを繋ぎ合わせるために、マイナンバーによる紐づけを行う方針を検討しています。後述しますが、マイナンバーで紐づくのはデータ解析実務者としては非常にありがたいものなのです。マイナンバー利活用の推進自体がまだまだ進んでおらずハードルは低くはないものの、「いつもと異なる医療機関で診断を受けた」「転職で健康保険組合が変わった」といったケースでも、マイナンバーで結びつけることができれば、ガラパゴス化は解消していきます。これは大いに期待できると考えています。

さらにデータの設置場所自体もクラウド化を検討しているそうです。クラウドを利用できれば、データへのアクセスも、増え続けるデータに対する対応も容易となります。ガラパゴス化した状態を解消するためには、こうした技術利用も大切になってくるのでしょう。

2つの課題を解決してできるようになること

「個人情報保護法によるハードル回避」「データのガラパゴス化解消」を達成すれば、医療機関にかかったときに発生する以下の記録が全て一元管理可能になります（今はそれぞれ別に管理されてしまっているのです）。

受付	検査
問診	治療・リハビリ
診察	予後

一元管理ができる事で、具体的には以下をいつでも確認できることになります。

患者の基本情報
受診医療機関名診療科処方医師名、薬局
診断された疾病名
その月の入院日数
外来受診回数
実施した診療内容
その月の請求点数

それができる事で、以下のような分野で医療ビッグデータの利活用が進んでいきます。

新薬開発
重複投薬回避
未知の副作用の発見
治療選択肢間の評価・比較
CT画像等と実際の診断結果などを学習データとした診療支援ソフト開発
副作用発生頻度の比較と把握などによる安全性の向上

例えば、大量の実診療データを参照し複数ある治療方法の効果の計測することで、それらの比較を行い、医療ビッグデータ解析の観点から「最適な治療方法はどれか？」という問いに答える事も可能になります。まさに最適医療の提供が実現できるわけです。

また、医療機関や健康保険組合を跨いでデータを得られますので、一見関係がないと思われたの病気同士の関連が見つかる可能性もあるわけです。あくまでも例ですが、医療ビッグデータ解析により歯医者と内科の診療履歴を一元的に分析した結果、『虫歯を直すと肺炎の症状が和らぐ』のような因果関係が判明したりするかもしれないということです。今までは、歯科医は歯科医の範囲内で、内科医は内科医の範囲内でしか診断ができなかったわけですが、この分断を医療ビッグデータが結び付けてくれる可能性があるのです。

さらに未来の話をします。ゆくゆく、ゲノム医療が発展した際は、レセプト中心の現在の医療ビッグデータに対して、患者の情報にゲノム情報も追加されるかもしれません。それができると、遺伝情報まで含めた治療の意思決定などに役立てることも見込めます。まさに、１人１人にあわせた医療行為のカスタマイズ＝パーソナル・ヘルスケアが実現されるわけです。（ゲノム医療とは、遺伝子情報を基にした医療行為のことを指します。

遺伝情報を解析することで、例えば、「今は問題ないが将来的に〇〇病にかかりやすい」とか、「△△薬で副作用が出やすい」などが把握できることが期待されており、それが実現した場合、効率的かつ効果的な診断や治療を行っていくことが可能となります。

医療ビッグデータ解析技術者目線での恩恵

先に紹介してきた日本における医療ビッグデータ利活用の計画が達成されると大きな恩恵が得られることは間違いありません。新たな価値が創出されるのはもちろんですが、技術者目線でみたとき、作業効率upも大いにあり得るので、ぜひとも期待したいと個人的には思っていました。

私が一連の指針を読んだ際に真っ先に連想したのは、「集計結果の信頼性が高まるのでは?」ということです。データ解析実務においては通常、患者数を算出する際、重複のない「ID」の数を数えます。要はこの「ID」をどうするかが集計のポイントなのです。現在、医療ビッグデータ内で共通に利用できる「ID」が存在しないため、たいてい「名前＋住所」や「性別+生年月日+(何かの番号)」「氏名＋生年月日＋(何かの番号)」などを「ID」の代わりとみなし、様々な集計を行っています。(ここでいう何かの番号とは、健康保険組合から発行される保険証の番号などが該当します。)

では、本当に「名前＋住所」や「氏名+生年月日+(何かの番号)」をキー「ID」として使い、正確な患者数をカウントしたり、あるいは、その他の集計をしたりできるのでしょうか？　実はソレは「怪しい」のです。

例えば以下のような事例において、上述の「IDの代わり」は、「ID」として機能しません。

転職の影響で異なる健康保険から保険証番号が発行された。（「名前＋生年月日＋保険証番号」を「ID」とみなしていたら、２人の人として認識される。）
引っ越しで住所が変わってしまう（「氏名＋住所」を「ID」とみなしていたら、２人の人として認識される。）
表記揺れでそもそも「ID」として機能しない。（タナカタロウと田中太郎は２人の人間として認識される。）

マイナンバーを個人特定キーとしてしまえば、(データの入力に不備が無い限り)上記の問題は発生しなくなるので、より精緻な集計が出来るようになります。これはデータ解析技術者にとっては、品質の高いアウトプットを産むために、非常に好ましいのです。

医療ビッグデータ解析者が考える今後発生するであろう課題

入力データの精緻化：例えば電子カルテと表記ブレについて

入力データの質をいかに高められるか？というのは医療ビッグデータに限らず、データ解析の中でもとても大事な問題になってきます。例えば、現在はレセプト中心の医療ビッグデータが次に取り込むべき情報の１つが、恐らく、電子カルテ（Electronic Health Record：EHR）でしょう。

クラウドに集め、データを共有・共通化するわけですが、その際登録される情報は世界標準の医療辞典である医薬規制用語集（Medical Dictionary for Regulatory Activities：MedDRA）に従って記録する事になります。医師の書くカルテは、医師個人の書き方に委ねられています。したがって、医師の書いたカルテをMedDRAに合うように書きなおす必要があります。この書き直しの作業をメディカルコーディングといいます。

現状、メディカルコーディングはメディカルコーダーと呼ばれる専門的な知識をもった人間による手作業で行われております。以下にあげるような、様々な「表記ブレ」があり、それを目視によって「書き直す」作業は、大きな時間とコストがかかっており、とても厄介なシロモノです。

スペルミス
数字の表記差(アラビア数字とローマ数字など)
異なる単語が使われているが同じ意味
前置詞や単語の抜けや漏れ
単語の順序違い

新たな治療法や新薬開発の際に参照しようとするならば、集計値を確かなものとするためには、少なくとも現在においては「大きなコストをかけながらメディカルコーディングを推進させる」か「医師による入力内容をMedDRAに従ったものに統一化する」かの二者択一しかないわけです。

ただし、近年のデータサイエンス技術の発展により、もう１つの手段が産まれつつあります。それは人工知能（AI）によるメディカルコーディングの自動化です。弊社でも従来の自然言語処理と、ディープラーニングによる自然言語処理を組み合わせたアルゴリズム開発を行ったことがあります。正直に申し上げますと、やはりまだ一筋縄ではいかない状態で、完全自動化には至っておりませんが、医療ビッグデータの世界を発展させるためにも、引き続き、開発に励みたいと考えております。

データ基盤となるプラットフォームについて

「データの置き場所＝プラットフォームはどうなるのか？」ということも実務者として気になりました。諸計画の概要を見ると、ビッグデータ処理の技術者としては、まず先にAWS(amazon web service)やGCP(Google Cloud Platform)などの導入を想起しますがデータの特質上、少し躊躇します。いくら匿名化を施すとはいえ他国の企業に大事なデータを置いてしまっても良いのだろうか？という葛藤が浮かんでくるのです。私個人的には物理的にも政治的にもデータは国内で持った方が良いのではないかと考えます。

真偽のほどはどうあれアメリカでは「TikTokのデータが中国共産党に流れる可能性がある」としてアメリカ国内事業の売却や合衆国での利用禁止などが話題に上ったことがありました。その際、「ByteDance社がデータを渡していなくても政府がByteDance社にクラッキングを仕掛けてデータを取得し得る」というリスクが挙がっていました。

これはアメリカから見た中国の話ですが、日本から見ればアメリカの企業でも同じようにカントリーリスクを孕んでいる事は把握しておかなくてはならないと考えるのです。（もちろんアメリカも、中国も、一緒に世界をつくりあげていく仲間であるとも思っています。しかし、お互いのために、お互いに依存し過ぎない事が大事なのではと考えます。）

とはいえ日本には三大クラウドサービス（AWS、GCP、Microsoft Azure）ほど、エンタープライズ向けに洗練されたクラウドコンピューティングサービスがなく、現状では元も子もないので、クラウドリソースを使うことになったらAWS等を使っていくように感じます。
「政府が出資して国内にクラウドサービスを作ればいいじゃない」ということを考えるかもしれませんが、AWSの年間設備投資額は$130億(約1.4兆円)と言われています。日本の国防予算が5兆円程度ですから、その投資額の大きさには驚くばかりですし、おいそれと手を出せるものでもないとも感じます。

人的リソースについて

医療系のデータ解析業務、特に治験に関わる領域ではSASという言語が使われます。集計・分析を行う際、SASで処理をした結果は、SASがプログラムによる統計値の正しさについて検証・保証をしっかりやってくれているので、そこには疑いがかけられないという嬉しさがあるためです。（アメリカでは、米食品医薬品局（FDA）などへの申請を行う際、SASがデファクトスタンダードになっています。）　

尚、自分で統計値を計算するプログラムを書いてしまうと、テーマである分析の品質の前に「そもそも、そのプログラムは正しい計算ができていますか？」という部分について監査を受ける事となり、それを保証する手続きを行うのが大変なのです。

そういった制約がない場合、RやPythonが使われる事もあります。RやPythonはいくらか学習コストがかかることから、SQLやExcelのみで作業しているケースも存在しています。古くから使われ続けるExcel VBAで作業効率化をしているというようなケースもあるかもしれませんが、RやPythonで同じような処理をするのと比べるとVBAは重たくて遅いという特徴があります。私の感覚では、列数にもよりますが10万行超えるとExcelでの集計や加工は厳しく、（医療データに限らず）データ解析実務の現場でExcelのみで完結できる処理というのはさほどないように感じます。すなわち、医療ビッグデータ実務の現場では、SQL+αでなにがしかの言語を使えることが求められるため、それができるスキルをもつメンバーを集めなくてはなりません。これが結構、ハードルが高いのです。

データ基盤を整えるのは、今の日本政府の方針を進めていく事で何とかなるかもしれませんが、整ったデータ基盤を十分に活かして知見を見出す医療ビッグデータ技術者を増やす努力をしなければ、革新の恩恵を受けきれないのではないか?という懸念も感じました。プログラミングが出来る人間がいればばよいかと言われるとそうでなくて、業務知識（ドメインナレッジ）も必要になりますので、その学習コストも加味しなくてはなりません。いずれにせよ、人的リソースの確保も容易ではないということなのです。

まとめ

医療業界のAI技術・ビッグデータの利活用について、要点を再掲すると以下のようになります。

現在は、日本に存在する医療ビッグデータの１つに、主にレセプトデータというものがあります。
個人情報保護法とデータのガラパゴス化がさらなるデータ活用の足かせになっています。
政府は国をあげて課題を打開して医療ビッグデータ利活用を促進するような仕組みを作っていく方針を打ち立てています。
データ解析実務の効率化、様々な領域において新しい価値の創出を果たせそうで医療ビッグデータを整備する恩恵は非常に大きいです。
現在の医療ビッグデータ解析の実務者目線現場から見て、医療ビッグデータを利活用していくためには、政府主導の変革を考慮に入れつつも、少しずつ適応していく準備が必要となります。