2013年6月10日月曜日

官公庁の統計データ、調査と発表のタイムラグは「あり過ぎ」なのか―ブラウザとエクセルで試す『次世代統計利用システム』

6月10日、統計データを提供するウェブサービス『次世代統計利用システム』の試験運用がはじまりました。私は常々「官公庁の統計データについて、調査と発表のタイムラグがあり過ぎる」と思っていたのですが、早速検証してみたいと思います。システムのつくりにやや問題はありそうですが、とりあえずやってみましょう。用意するのはブラウザとエクセルで十分です。


現時点で利用可能なデータセットは総務省が発表している一部統計データに限られています。

今回の試行運用で利用可能な統計データは、国勢調査、労働力調査、消費者物価指数、家計調査など総務省統計局所管統計の約3万2千表のデータです。

また、利用可能なAPIの種類も制限されています。

API名 状況 概要
通常API 使える 統計データをXML、JSON(P)で提供する機能
SDMX API まだ使えない 統計データをSDMX(Statistical Data and Metadata eXchange)で提供する機能
LOD API まだ使えない 市区町村コード情報をLOD(Linked Open Data)で提供する機能

とは言え、データの中身を確認するぐらいであればこれでも十分。

それでは早速。事前準備は、利用登録し、アプリケーションID(appId)を取得するだけでOKです。あとは仕様書に従ってURL文字列を作り、ブラウザで開けばその場でデータを取得できます。このお手軽感は嬉しい。通常APIで使える機能は5つありますが、今回利用するのは、サービスに登録されている統計表の一覧を取得する「統計表情報取得」機能です。

機能名 機能PATH 概要
統計表情報取得 getStatsList サービスに登録されている統計表の一覧を取得する機能。【API解説】次世代統計利用システムで提供している統計表の情報を取得します。リクエストパラメータの指定により条件を絞った情報の取得も可能です。
メタ情報取得 getMetaInfo 統計表の情報(メタ情報)を確認する機能。【API解説】指定した統計表IDに対応するメタ情報(表章事項、分類事項、地域事項等)を取得します。
統計データ取得 getStatsData 統計表を取得する機能。【API解説】指定した統計表ID又はデータセットIDに対応する統計データ(数値データ)を取得します。
データセット登録 postDataset 【API解説】統計データを取得する際の取得条件を登録します。統計データの取得における絞り込み条件を「データセット」として指定することで、取得条件を省略することができます。
データセット参照 refDataset 【API解説】登録されているデータセットの絞り込み条件等を参照します。データセットIDが指定されていない場合は、利用者が使用できるデータセットの一覧が参照可能です。

全ての統計表を対象にすると大変な量のデータとなってしまいますし(約3万2千件)、官公庁も最近頑張っているようなので、昨年(2012年)1年間に公開された統計表について調べてみることにしました。URLは以下の通り。${APP_ID}には自分のアプリケーションIDを代入します。
 
http://statdb.nstac.go.jp/api/1.0b/app/getStatsList?appId=${APP_ID}&lang=J&openYears=2012

結果はXMLで取得できます。Chromeを使うとこのような感じ。


2012年に発表された統計表は1260個ありました。あとは取得したXML形式の一覧データをエクセルに展開し、各統計データの「調査日(SURVEY_DATE)」と「公開日(OPEN_DATE)」を比較し、分析すれば結果は出るはずです。エクセルの変換機能は素晴らしいですね。


全ての統計表は、特定のデータセットに含まれており、多くの場合データセットごとにまとめて公開されることから、ここではデータセット別に発表日とタイムラグをみてみます。複数回にわけて発表されたものについては発表日は「複数」となります。結果は以下の通りとなりました。

データセット名 発表日 タイムラグ
国勢調査(2010年) 2012/04/24 [第1弾]
2012/01/31 [第2弾]
2012/07/31 [第3弾]
2012/06/26 [第4弾]
2012/11/16 [第5弾]
2012/04/26 [第6弾]
2012/01/30 [第7弾]
1年超
住民基本台帳人口移動報告(2012年3月現在) 2012/04/26 1カ月以内
人口推計(2011年10月1日現在) 2012/04/17 1年以内
労働力調査(2010年) 2012/01/31 [第1弾]
2012/03/30 [第2弾]
2012/04/27 [第3弾]
1年超
社会生活基本調査(2011年) 2012/12/21 1年以内
個人企業経済調査(2011年) 2012/07/10 1年以内
科学技術研究調査(2010年) 2012/10/12 1年超
科学技術研究調査(2012年) 2012/12/14 1カ月以内
サービス産業動向調査(2011年度) 2012/11/29 1年以内
事業所・企業統計調査(2006年) 2012/03/19 1年超
経済センサス-基礎調査(2009年) 2012/11/08 1年超
消費者物価指数(2011年) 2012/01/27 1カ月以内

1カ月以内3つ、1年以内4つ、1年超5つ。頑張っていると言えなくもなく、まだまだ頑張れると言えるようであもる…微妙です。検証結果は「微妙」です。さらに多くのデータセットが登録されることを待ちましょう。公開が進めば省庁別に公開速度を評価してみても面白いですね。評価がプレッシャーとなり、公開速度がどんどん速くなるかもしれません。

2012年12月5日水曜日

熱意とビジョン、そして適切なスキルさえあれば、データジャーナリズムは実践できる

プロジェクトメンバー2人、制作期間24時間、掛かった経費500ドル未満、しかしその効果は絶大―。ケニアのオープンデータを活用した実に小さな規模のデータジャーナリズム・プロジェクト「GoToVote!」が非常に大きな成果を挙げた、として、国際的なジャーナリストサポート団体 International Journalists Network (IJNet)のサイトで紹介されています。


「GoToVote!(選挙へいこう!)」はケニアで来年実施される大統領選に向けてケニア国内の有権者登録できる場所を検索するためのサービスで、アフリカにおけるジャーナリズムの発展を推進する団体African Media Initiativeと世界銀行が共催する「Code4Kenyaプロジェクト」が構築しました。サービス公開後数時間で約2500人が利用し、そのまま有権者登録をしに行った(=成果を出した)、とのことです。


「2人、24時間、500ドル未満」で作られたGoToVote!は、そのコストに見合い、機能も仕組も非常にシンプルなサービスです(構成は「Twitter Bootstrap」+「オリジナルのJavaScriptプログラム」+「JSON化した有権者登録場所のデータ」。ソースコードはGithubで公開されています)。何の新規性もなく、技術的にも何も学ぶものはありません。また、「オープンデータを活用」といっても、PDFファイルとして公開されていたドキュメントから投票所のデータを取り出した程度のことです。


にもかかわらず注目されているのは、「データジャーナリズムはカネと時間がかかる」「データジャーナリズムには超絶スキルが必要だ」といった風潮(アメリカ大統領選で大手メディアが展開したデータジャーナリズムプロジェクトはどれもリッチなものでした)に一石を投じ、「熱意とビジョン、そして適切なスキルさえあれば、良質なデータジャーナリズムは実践できる」ことを証明したからにほかなりません。

ケニアでは有権者登録されていないと選挙で投票できないため「事前の有権者登録」はとても重要、にもかかわらず政府からの公布が分かり難くくこのままでは投票率があがらないのではないか、との問題意識が発端となり、GoToVote!は構築されました。つまり、まず目的(投票率を上げる)があって、その手段として「データジャーナリズム」がつかわれたにすぎません。そしてここが重要なポイントです。

手段が目的化してしまうと、「誰のためのデータジャーナリズムか」が曖昧になり、単なるサービス開発競争に陥ることになりかねない、ということは、これからも忘れないようにしておきたいところです。

ちなみに「Code4Kenyaプロジェクト」には「データを活用してジャーナリストに変革をもたらす」という設立理念があるようで、こうした下地があったからこそGoToVote!のようなサービスが生まれたのかもしれません。

最後に、冒頭でご紹介した記事に記載されている、GoToVote!から得られたオープンデータを活用したデータジャーナリズムプロジェクトに関する教訓をまとめておきます。

  • オープンデータを活用したプロジェクトは、高価である必要は必ずしもない
  • オープンデータを活用したプロジェクトは、大きな規模である必要は必ずしもない
  • オープンデータを活用したプロジェクトは、時間を掛ける必要は必ずしもない
  • オープンデータの活用はさほど複雑なことではなく、アイディア次第でシンプルかつ強力なサービスを提供できる
  • オープンデータは必ずしも「利用し易い形態で」提供されているわけではない
  • オープンデータは市民の役に立ってこそ、最大の価値がある

2012年9月4日火曜日

データジャーナリズム・ワークショップ

去る7月28日にJCEJGLOCOMの共催でデータジャーナリズム・ワークショップ「データジャーナリズム実践 データから社会問題を発見する」を実施しました。開催から少し間があいてしまいましたが、ワークショップのポイントを簡単にまとめておきます。ワークショップ当日の様子については、JCEJのブログにアップされている運営報告をご参照ください。


JCEJが主催するデータジャーナリズムのワークショップは今回で3回目となりますが、いずれの回も満員御礼となったことから、この分野に対する関心の高さが感じられます。国内ではあまり認知されておらず、学ぶ機会が少ない一方で、世界のジャーナリズムの現場ではスタンダードとなりつつある、という差し迫った事情もあるのかもしれません。

さて、座学中心の第1回データジャーナリズムを実践する際に利用するツールを学んだ第2回に続き、第3回の今回はより実践に即したスタイルを目指しました。データジャーナリズムに関する日本語の参考資料が少ないことから、午前の部と午後の部の2部構成とし、午前の部でまずデータジャーナリズムに関する講義を行い、続けて午後の部で実践的なデータジャーナリズムに取り組む、という流れとしました。

午前の部では、データジャーナリズムに欠かすことができないオープンデータの国内最新事情についての講義をGLOCOMの庄司昌彦さんが、そしてデータジャーナリズムの最新動向についての講義を私が、それぞれ担当しました。講義の詳細については、ご参加いただいた山口亮さんによるTogetterが大いに参考となります。


なお、データジャーナリズムの最新動向については、私が使用した資料をSlideShareに、資料を作成する際に参考としたサイトをNAVERまとめに、それぞれアップしておきましたので、併せてご活用ください。




資料中でも触れていますが、データジャーナリズムは「チームで取り組む」こと、「読者目線」、そして「とにかくやってみる」ことが重要です。

データジャーナリズムは「データを活用して発見した事実を分かり易い形式で読者に届ける手段」であるため、データの収集、分析、可視化などのシーンでは、アナリストやエンジニアのスキルが要求されます。そのため、データジャーナリズムの現場ではジャーナリスト、アナリスト、エンジニアがチームを組むのが一般的となっています。また、データジャーナリズムでは、単にデータを可視化しただけの独りよがりはNGで、「読者にとって分かり易いか」「読者が洞察を得る手助けができたか」など読者目線が大きなポイントとなります。

ということで午後の部では、「ジャーナリスト」「アナリスト」「エンジニア」で構成される5名程度の「チーム」を即席で結成してもらい、各チームで「読者目線」のデータジャーナリズム・プロジェクトを、約3時間で企画してもらう、というワークに取り組んでいただきました。各チームでの取り組みについては、GLOCOMのオープンガバメント研究会のブログ、およびJCEJブログに掲載されている記事をご参照ください。全6チーム、6プロジェクトが企画されましたが、いずれも興味深いものばかりでした。


補足ですが、現在、データジャーナリズムの現場では、「テクノロジーの取り込み」と「読者の巻き込み」が進んでいますので、これからデータジャーナリズムに取り組む場合は、これらを考慮すると良いかもしれません。

<テクノロジーの取り込み>
ガーディアンやBBC、NYタイムズ、ProPublicaなど、データジャーナリズムに率先して取り組んでいるメディアは、優秀なエンジニアの採用を加速しています。Googleはデータジャーナリズムに必要なツールを開発したり、データジャーナリズム関連のプロジェクトに出資するなど、データジャーナリズムを強力にバックアップするようになりました。また、米国のジャーナリズムスクールではテクノロジーを学ぶ、あるいはテクノロジーを活用してイノベーションを起こすためのプログラムが導入されはじめました。

<読者の巻き込み>
ユーザの理解を促進する「インタラクションの実装」、「(読者からの)リアクション(コメントなど)の取り込み」、「N次創作(利用したデータを公開し、ユーザに別の視点から調査してもらう)の促進」など、読者を巻き込むことに主眼が置かれるようになってきています。

第4回のワークショップを9月1日に実施したのですが、これについては後日改めてまとめてみたいと思います。