2012年4月30日月曜日

省庁が発表する統計データで何ができるか(データジャーナリズムの実験)【後編】

前回に引き続き、省庁が発表する統計データで何ができるのか考えます。

対象とする統計データは、厚生労働省が1965年以降5年に1度、国税調査にあわせて調査している「都道府県別年齢調整死亡率」(年齢調整された都道府県別・死因別の死亡率)で、今回はこれをGoogleが提供するデータ分析サービス「Google Public Data Explorer」を使って分析してみます。Google Public Data Explorerについては過去のポストをご参照ください。


Google Public Data Explorerは、「用意されているデータを使った分析」とは別に、「自分で用意したデータの分析」にも利用できます。「都道府県別年齢調整死亡率」のデータは厚生労働省のウェブサイトで公開されていますので、今回はこれをGoogle Public Data Explorerに適用したうえで分析することを考えます。分析までのステップは以下の通りとなります。

  • ステップ1:統計データを取得する
  • ステップ2:統計データをGoogle Public Data Explorer形式に整形する
  • ステップ3:統計データをGoogle Public Data Explorerに適用する
  • ステップ4:統計データをGoogle Public Data Explorerで分析する

厚生労働省も含め、各省庁が実施している調査の結果は、調査レポートとセットで生データが公開されています。今回の分析対象となるデータ「都道府県別年齢調整死亡率」も厚生労働省のサイトにExcel形式で公開されているので、これをダウンロードすればステップ1は完了です。


続いてステップ2。実はここで時間がかかり、前回ポストから間が空いてしまいました。Google Public Data Explorerに独自データを導入するには、これをDSPLという専用フォーマット(DSPLファイルとCSVファイル群)に整形する必要があります。仕様の把握はさほど難しくはないのですが、どのような分析をするかによって整形方針が異なり、始めのうちは多少施行錯誤することになると思います。


DSPLへの整形方法については、後日別の形式でまとめてみたいと思いますが、参考までに今回整形したデータを公開しておきます。過去データ(2010年より前のデータ)と直近データ(2010年のデータ)とでは、項目と値の範囲に大きな差異があるため、2種類のデータセットとして登録しました。


ステップ3は、ステップ2で作成したDSPLファイルとCSVデータ群を格納したディレクトリをZIP形式で圧縮し、Google Public Data Explorerにアップロードすれば完了です。アップロード時に共有範囲の設定ができますので、ここを「パブリック」としておけばブログなどに張り付けて不特定多数の人に見てもらえるようになります。なお、アップロードは、Googleアカウントにログインした状態で以下のページより行えます。


無事にアップロードされ、実際にGoogle Public Data Explorerで使える状態になると結構感動します。そしてデータが視覚化されることで、実に多くの事が見えてきます(ステップ4)。例えばこれ。



各県の自殺による年齢調整死亡率をバブルチャートで表したものですが、三重県は男女ともに低く、福井県は女性、徳島県は男性が、それぞれ突出して低い一方、岩手県、秋田県、青森県は男女ともに高いことがわかります。

ここで自殺を不慮の事故に変えると、今度は違った景色が見えてきます。



不慮の事故による死亡率は、東京や京都では男女ともに低く、高知県や石川県では高いことがわかります。

最も幸せな死に方、老衰も見てみましょう。



こうしたデータをもとにして可視化された「事実」は一体何を表しているのでしょうか(右上で隠れている県は三重県です)。さらに調査・分析を進めるきっかけとしては面白い素材になるのではないでしょうか。前編でご紹介した記事がとても薄っぺらく見えてくるかもしれません。

最後に、男女の死因を比較しておきます。





男性、女性とも、がんによる死亡が圧倒的に多いですね。

今回私がアップロードしたデータは以下のページよりご利用いただけます。


存分に分析されてみてください。不明な点などあればコメントください。