セミナー「健康・医療・介護問題を可視化するビッグデータ解析」

主催:情報通信政策フォーラム(ICPF
日時:1128日水曜日1830分から2030
場所:ワイム貸会議室四谷三丁目 会議室B
東京メトロ四谷三丁目駅前、スーパー丸正6
講師:鴨川 威(株式会社フェニックス サービス開発研究所)
司会:山田 肇(ICPF 

冒頭、鴨川氏が資料に沿って以下の通り講演した。鴨川氏の講演資料はこちらにあります

  •  株式会社フェニックスという企業を経営しているが、特に「こころの健康」に興味を持っている。認知症が典型的な例であるが予防にどうつなげていくか研究している。
  • 横浜市では、「健康21プロジェクト」において約16800人の大規模調査を平成25年に実施し、平成28年にも再調査している。この結果は横浜市から公開されており、横浜市衛生研究所のデータ分析結果もでている。この区民健康意識調査と高齢化・介護系統計は別の部局で行っており、横浜市ではこれら二つを統合しての分析はしていない。そこで民間の立場で二つのデータを統合して分析する研究を行った。
  • データはPDFで提供されたり、Excelで提供されていてもフォーマットが異なっていたりで、分析にそのまま利用できなかった。そこで、フォーマットをすべて変え、場合によっては手で打ち直して分析用のデータを作成した。Linked Open DataLOD)は作成したデータ間の関連性を調べるものであり、コンテスト「LOD Challenge 2018」が開催されている。本日は同コンテストで「地域課題分析賞を」いただいた内容を発表する。
  • 横浜市「区別健康意識調査」をベースに、要介護率・高齢化率の地域差と健康度の相関分析をおこなった。このような関係を分析するのに都道府県レベルでのデータではあまり意味がなく、せめて区レベルでの分析が必要である。小学校区レベル(「地域包括ケアセンター」レベル)で高齢者サービスを考えるのであれば、さらに細分化したデータが必要になる。
  • H25H28年度を比較してソーシャルキャピタルが劣化していることが読み取れた。これも大きな問題と捉えられる。区民健康意識調査と高齢化・要介護率をひとつのテーブルにまとめることも実施した。その際、データ名称に対して、メタレベル、メタメタレベルの呼称をつけていくことで、データが示す意味が読み取れ、比較ができるようになった。青葉区、都筑区など東京に近い地域は高齢化の指標は低くでる。しかし、都筑区は高齢化率が低いのに要介護率がやや高いという不思議な結果が出た。健康でないと自覚している人の割合を高い順から並べると、高齢化率や要介護率と必ずしも相関していないこともわかった。湾岸部(神奈川区、西区、中区)は、要介護度が高く、生活習慣や経済状況がその背景にある。自分の住む区の問題点が、このような分析から明らかになってくる。その地域で必要となるサービスが見えてくるはずである。
  • 経済格差が健康度に影響を与えているが、「経済格差=健康格差」という認識にならないように慎重に取り扱う必要がある。地域の「稼ぐ力」も健康度に関連があることが推論できる。生産性が低ければ所得配分が下がり、労働環境も劣化し不健康につながると理解できる。
  • オープンデータで提供されるデータは単位が不揃いであったり、テーブル数値に%が組まれていたりと、そのままでは多次元分析作業ができないことが多く、直接xViewには渡せない。分析前に膨大なデータクリーニングが必要なことがオープンデータ利用の障害となっている。xViewのようなツールを使うことで、データ解析の生産性が飛躍的に向上する。
  • 元データをそのまま使うと特徴がわかりにくい場合も、偏差値で表現するとわかりやすくなる。要介護・高齢化率などのレーダーチャートを偏差値表示すれば特徴がとらえやすくなる。高齢化率が高いが要介護度が低い栄区は「地域の人が助けてくれる」などコミュニティを示す指標が高くでており、毎日三食食べるという生活行動習慣も高い。こういったことを踏まえて、高齢者サービスを検討しなくてはいけない。
  • 地域分析は非常に重要で、生のデータを使って作業することで、実感として課題が明らかになる。課題を他人事でなく自分事にすることが大事である。

講演の後、次のようなテーマで質疑があった。

地域力分析について
Q(質問):区単位での分析は意味があるのか。健康度には生活習慣と遺伝子の問題がある。生活習慣にも関連するが健康度は職種に大きく依存しているのではないか。肉体労働をしていた人か事務職かでは全く違い、頭脳労働者で定年後うつになる人は多い。地域ではなく、元職で分析したほうがいいのではないか。
A(回答):職業別で認知症の発症率をみたデータがあったが、警察官や学校の先生が認知症なるケースが高い。学校の先生は、定年になると誰とも話さなくなり、世界も狭いらしい。職業というより、コミュニティとのつながりがあるかが重要なのではないか。栄養の問題もコミュニティとの関連が高い。地域が豊かになれば健康につながる。
C(コメント):東京大学の老年学の研究所に勤めている友人に柏市が協力して中学校区単位での分析を進めた。元は農村地帯であったが住宅地になったような地域は、農業に従事してきた人と勤め人が混在しており健康度が大きく違う。オープンデータでもこの程度まで粒度を細かくデータを出してもらえれば分析できる。ぜひ、公開してもらいたいものだ。
C:町丁目レベルのデータは公開していない市町村が多い。人数が減るのでプライバシー保護の面から公開を躊躇するらしい。しかし、半径500mのデータは重要で、もっといろいろなものが見えてくる。実証を重ねて、自治体のオープンデータに対する意識を変えていくことが重要である。
C:情報銀行の流れで自分のデータを社会貢献のために提供しようという話がある。そこでもプライバシーが問題になった。完全匿名か個人情報をある程度出すか、技術的にも試行錯誤を進められている。
C:前々回のNECの講演でも話になったが、医療データでは完全匿名化してしまうと意味がなくなってしまうケースがあるが、マスキングやカテゴリーの統合などで対処ができるという話であった。情報技術の発展で工夫ができる。
C:区単位では粒度は荒すぎるというのは感じるが、高齢者のことは地域で対応するので、やはり小さな地域での分析が必要になるのではないか。 

オープンデータのあり方について
Q:オープンデータで公開されているデータの信頼性を疑問に感じることがあるが、いかがか。
A:介護保険関係のデータは非常に精度が高い。
C:勤労者は企業健保や企業健保に加入することがあるので、国民健康保険だけではは住民を表さない。一方、介護保険は自治体サービスなので悉皆データになる。
Q:分析に使った市民意識調査の信頼性はいかがか。
A:市民意識調査は、インターネット調査がメインで、アンケートは無作為抽出の1300サンプルぐらいである。サンプル数も多く回答率が非常に高い調査なので信頼性はある。市民にとってもメリットを感じることができれば回答率が上がる。
C:国勢調査のデータは信頼性が高いということであったが、本当にそうなのか。集計データをみると性別不明といったデータもある。最近の調査事情で、調査員に調査票が渡せないということもある。国勢調査もそうだが統計データの信頼性は意識しておくべきと考える。
Q:中小企業の数が中小企業庁統計と総務省統計で違っている。マイナンバーができたので、これを使えば、省庁によってデータが異なるということがなくなると思う。これがオープンデータの価値につながるのではないか。
A:おっしゃるとおりである。行政によってばらつきがあってはいけない。同じような健康調査を川崎市も実施しているが、データ項目が違うので横浜市と直接比較できない。国で統一フォーマットを決め、マイルストーンを決めてフォーマットを統一していくべきである。
Q:東大の奥村先生がベルギー政府の良例を話していたが、日本は自治体がバラバラのソフトウェアを使っていて、マイナンバーも最近できたばかり、技術者も育っていないということで世界から遅れてしまっている。大国になるとなかなか統一的な取り組みができない。ベルギーのような小国は、システムをベンダーにまかせず、内製化してきている。国や行政機関の発注者がベンダーまかせではいけないという感覚がでてきている。
A:個人的な意見だが情報省のようなものが必要かと考える。行政機関側に仕様書が書けて、ベンダーコントロールできる人をつくらないといけない。メタデータの標準化も目的をもってやる必要がある。民間企業で実務を行って現実がわかっている人が行政サイドに入らないとできないと思う。
C:内閣官房の行政事業レビューが公開されているが、総務省の統計調査が対象となった。全国消費実態調査は5年に一度で、協力世帯に3カ月間家計簿をつけてもらうことになる。ほとんど手書きなので、3カ月やりきる世帯はかなりバイアスがあるのではないかと言われている。来年はオンライン化率を上げることになったが、目標値が10%ということで評価者からは批判がでた。家計簿ソフトのデータを抽出させてもらえれば調査できてしまうので、そのようなこと考えないかと聞いたら、政府専用アプリを作ったと自慢していた。
C:高齢者関係の統計は変わってきている。千葉大学の近藤先生が中心に行っているJAGES調査では非常に大規模なデータベースができてきている。JSTAR(くらしと健康の調査)はパネルなので追跡できる。これらの知見を活かして、これからを検討すればよいのではないか。
Q:横浜市の年度比較は調査対象者が変わっているので、パネルの方が精度が高いデータが取れるのではないか。
A:時系列の変化は非常に重要で健康寿命のランキングもどんどん変わる。その背景を見極めないといけない。 

老化と介護の関係について
Q:老化が進み介護までに行きつく説明資料3ページのフローチャートは、鴨川氏が作られた仮説なのか。
A:因子の関係を示したものだが、自分で作成したものである。
Q:相関の強さなどを統計的に検証できるのか。
A:高齢化と要介護度の間に何があるかを頭の中から引っ張り出したもので、厳密なものではない。しかし今回の調査データ分析からあたらずとも遠からじである。今後制度を高めて行きたい。
CWHOICFなど標準化進めている。これの流れに乗れれば用語の統一もできるので、他の人も使いやすくなる。
Q:フローチャートはわかりやすいが、60歳になった人を何人か集めて定点観測するといいのではないか。
C:東大の老年学の秋山先生が3000名のパネルをやっている。200人亡くなったら、200人を新しく追加している。男性の20%60~70歳の間で急激に健康度が劣化して死亡するなどを明らかにしている。1000/1日で医療費がどれくらい削減できるか、医療経済学で研究されている。このようなことを積み上げると、仮説ではなく、リアルな関係線が書けるようになる。医療経済の側面でどう考えるか。
A:横浜市の区では要介護率が最大と最小で5%違う。だから、2%下げることは不可能ではない。健康でないという状態を健康状態に持っていき2%減らせば、要介護の費用も下がる。そのための健康投資が重要である。
C:マイナンバーがインフラとして整備されつつあるが、個人の健康情報は、自治体、学校、企業などデータの管理者がバラバラである。医療データは個人のものであるという意識改革が必要である。
A:ライフタイムログが取れる社会ということかと思う。
C:ライフタイムログは情報銀行などやっと動き始めている。
C:ブロックチェーン技術が入れば、すべてデータが把握できる。一方で匿名化も問題で、これも技術が急速に進んでいる。
C:eインボイス制度ができると企業データが把握できるようになる。しかし、法人番号は1法人に1個で、事業者番号は任意なのが問題である。