2013年6月10日月曜日

官公庁の統計データ、調査と発表のタイムラグは「あり過ぎ」なのか―ブラウザとエクセルで試す『次世代統計利用システム』

6月10日、統計データを提供するウェブサービス『次世代統計利用システム』の試験運用がはじまりました。私は常々「官公庁の統計データについて、調査と発表のタイムラグがあり過ぎる」と思っていたのですが、早速検証してみたいと思います。システムのつくりにやや問題はありそうですが、とりあえずやってみましょう。用意するのはブラウザとエクセルで十分です。


現時点で利用可能なデータセットは総務省が発表している一部統計データに限られています。

今回の試行運用で利用可能な統計データは、国勢調査、労働力調査、消費者物価指数、家計調査など総務省統計局所管統計の約3万2千表のデータです。

また、利用可能なAPIの種類も制限されています。

API名 状況 概要
通常API 使える 統計データをXML、JSON(P)で提供する機能
SDMX API まだ使えない 統計データをSDMX(Statistical Data and Metadata eXchange)で提供する機能
LOD API まだ使えない 市区町村コード情報をLOD(Linked Open Data)で提供する機能

とは言え、データの中身を確認するぐらいであればこれでも十分。

それでは早速。事前準備は、利用登録し、アプリケーションID(appId)を取得するだけでOKです。あとは仕様書に従ってURL文字列を作り、ブラウザで開けばその場でデータを取得できます。このお手軽感は嬉しい。通常APIで使える機能は5つありますが、今回利用するのは、サービスに登録されている統計表の一覧を取得する「統計表情報取得」機能です。

機能名 機能PATH 概要
統計表情報取得 getStatsList サービスに登録されている統計表の一覧を取得する機能。【API解説】次世代統計利用システムで提供している統計表の情報を取得します。リクエストパラメータの指定により条件を絞った情報の取得も可能です。
メタ情報取得 getMetaInfo 統計表の情報(メタ情報)を確認する機能。【API解説】指定した統計表IDに対応するメタ情報(表章事項、分類事項、地域事項等)を取得します。
統計データ取得 getStatsData 統計表を取得する機能。【API解説】指定した統計表ID又はデータセットIDに対応する統計データ(数値データ)を取得します。
データセット登録 postDataset 【API解説】統計データを取得する際の取得条件を登録します。統計データの取得における絞り込み条件を「データセット」として指定することで、取得条件を省略することができます。
データセット参照 refDataset 【API解説】登録されているデータセットの絞り込み条件等を参照します。データセットIDが指定されていない場合は、利用者が使用できるデータセットの一覧が参照可能です。

全ての統計表を対象にすると大変な量のデータとなってしまいますし(約3万2千件)、官公庁も最近頑張っているようなので、昨年(2012年)1年間に公開された統計表について調べてみることにしました。URLは以下の通り。${APP_ID}には自分のアプリケーションIDを代入します。
 
http://statdb.nstac.go.jp/api/1.0b/app/getStatsList?appId=${APP_ID}&lang=J&openYears=2012

結果はXMLで取得できます。Chromeを使うとこのような感じ。


2012年に発表された統計表は1260個ありました。あとは取得したXML形式の一覧データをエクセルに展開し、各統計データの「調査日(SURVEY_DATE)」と「公開日(OPEN_DATE)」を比較し、分析すれば結果は出るはずです。エクセルの変換機能は素晴らしいですね。


全ての統計表は、特定のデータセットに含まれており、多くの場合データセットごとにまとめて公開されることから、ここではデータセット別に発表日とタイムラグをみてみます。複数回にわけて発表されたものについては発表日は「複数」となります。結果は以下の通りとなりました。

データセット名 発表日 タイムラグ
国勢調査(2010年) 2012/04/24 [第1弾]
2012/01/31 [第2弾]
2012/07/31 [第3弾]
2012/06/26 [第4弾]
2012/11/16 [第5弾]
2012/04/26 [第6弾]
2012/01/30 [第7弾]
1年超
住民基本台帳人口移動報告(2012年3月現在) 2012/04/26 1カ月以内
人口推計(2011年10月1日現在) 2012/04/17 1年以内
労働力調査(2010年) 2012/01/31 [第1弾]
2012/03/30 [第2弾]
2012/04/27 [第3弾]
1年超
社会生活基本調査(2011年) 2012/12/21 1年以内
個人企業経済調査(2011年) 2012/07/10 1年以内
科学技術研究調査(2010年) 2012/10/12 1年超
科学技術研究調査(2012年) 2012/12/14 1カ月以内
サービス産業動向調査(2011年度) 2012/11/29 1年以内
事業所・企業統計調査(2006年) 2012/03/19 1年超
経済センサス-基礎調査(2009年) 2012/11/08 1年超
消費者物価指数(2011年) 2012/01/27 1カ月以内

1カ月以内3つ、1年以内4つ、1年超5つ。頑張っていると言えなくもなく、まだまだ頑張れると言えるようであもる…微妙です。検証結果は「微妙」です。さらに多くのデータセットが登録されることを待ちましょう。公開が進めば省庁別に公開速度を評価してみても面白いですね。評価がプレッシャーとなり、公開速度がどんどん速くなるかもしれません。