2013年7月8日月曜日

池上無双の嵐、参院選でも吹き荒れるのか?

第23回参院選が公示され、日本は選挙モードとなりました。今回の国政選挙からネットを利用した選挙活動が解禁となったこともあり、全国各地で各党党首の第一声が響く中、ツイッターやフェイスブックには立候補者のメッセージも乱舞しました。

気になるのが、選挙報道です。報道各社は、新聞やテレビだけでなく、最近ではネット選挙報道にも力を入れており、選挙そのものとは別に、これらを吟味するのも結構楽しかったりします。

昨年の衆院選では、天下無双の質問力でなみいる政治家を一網打尽、栄えあるギャラクシー賞を受賞した池上彰氏による選挙特番が、民報選挙特番の視聴率No.1を獲得しただけでなく、Yahooが実施したオンラインアンケートでも1位を記録するなど、「池上無双」としてネット上でも話題となりました。

Googleトレンドによると、衆院選のあった2012年12月、「選挙 池上」の検索頻度(49ポイント)は、自社サイトでボートマッチアプリを展開した「選挙 毎日」(毎日新聞、16ポイント)、ビリオメディアを展開した「選挙 朝日」(朝日新聞、24ポイント)を軽く上回り、ネット選挙報道の雄「選挙 Yahoo」(51ポイント)に肉薄、ネット上でも注目されていたことがわかります。「テレビの影響力は大きい」のはわかりますが、「選挙 古館」や「選挙 TBS」が圏外にあったことから、「選挙 池上」のネット上での強さは一歩抜けていた、と言い切っても良いのではないでしょうか。


※Googleトレンドのオリジナルページはこちら


先月の都議選時に放映されたMXテレビでの無双ぶりをまとめた記事は、放映範囲が限定されていた渇望感からか、昨年の衆院選時の無双ぶりをまとめた記事を超えるアクセス数をたたき出すなど、その勢いはいまだ衰えていません。


※PV数は公示日の翌日(7月5日)の午後6時に確認


今回の参院選、池上特番はどこまで話題をさらうのか。


一方、これを迎え撃つ報道各社は、ネット選挙報道に力を入れてきています。前回の衆院選、新聞社対決を制したのは朝日新聞、2位は毎日新聞でした。


※Googleトレンドのオリジナルページはこちら


その両社、今回の参院選では、朝日新聞は東大の谷口研究室と、毎日新聞は立命館大学の西田亮介氏と、それぞれタッグを組み、特設サイトを設置してツイッター分析やボートマッチアプリを展開、いままさに熱い選挙報道を繰り広げています。


ネット選挙報道の本命NHK。じりじりと選挙報道でもプレゼンスを高めるYahoo。ツートップに割り込まんとする池上特番。朝日新聞と毎日新聞はどこまで食い込めるか――。選挙報道における仁義なきオンラインアテンション争奪戦の結果はいかに。

各特設サイトトップページのシェア数について、公示日(7月4日)の段階では、Facebookの1位が池上特番、Twitterの1位が朝日新聞、そしてはてブの1位が毎日新聞、となっていました。が、ほとんど差はなく、がっぷり四つといったところでしょうか。


※シェア数は公示日(7月4日)の午後6時にGoogleChromeのプラグインで確認
※[*]NHKとYahooは選挙共通サイトの(今回の参院選で新たにつくられたわけではない)ため、参考値


投票日となる7月21日は、粛々と投票を済ませ、選挙特番のはじまる夜8時を待ちたいと思います。

2013年6月10日月曜日

官公庁の統計データ、調査と発表のタイムラグは「あり過ぎ」なのか―ブラウザとエクセルで試す『次世代統計利用システム』

6月10日、統計データを提供するウェブサービス『次世代統計利用システム』の試験運用がはじまりました。私は常々「官公庁の統計データについて、調査と発表のタイムラグがあり過ぎる」と思っていたのですが、早速検証してみたいと思います。システムのつくりにやや問題はありそうですが、とりあえずやってみましょう。用意するのはブラウザとエクセルで十分です。


現時点で利用可能なデータセットは総務省が発表している一部統計データに限られています。

今回の試行運用で利用可能な統計データは、国勢調査、労働力調査、消費者物価指数、家計調査など総務省統計局所管統計の約3万2千表のデータです。

また、利用可能なAPIの種類も制限されています。

API名 状況 概要
通常API 使える 統計データをXML、JSON(P)で提供する機能
SDMX API まだ使えない 統計データをSDMX(Statistical Data and Metadata eXchange)で提供する機能
LOD API まだ使えない 市区町村コード情報をLOD(Linked Open Data)で提供する機能

とは言え、データの中身を確認するぐらいであればこれでも十分。

それでは早速。事前準備は、利用登録し、アプリケーションID(appId)を取得するだけでOKです。あとは仕様書に従ってURL文字列を作り、ブラウザで開けばその場でデータを取得できます。このお手軽感は嬉しい。通常APIで使える機能は5つありますが、今回利用するのは、サービスに登録されている統計表の一覧を取得する「統計表情報取得」機能です。

機能名 機能PATH 概要
統計表情報取得 getStatsList サービスに登録されている統計表の一覧を取得する機能。【API解説】次世代統計利用システムで提供している統計表の情報を取得します。リクエストパラメータの指定により条件を絞った情報の取得も可能です。
メタ情報取得 getMetaInfo 統計表の情報(メタ情報)を確認する機能。【API解説】指定した統計表IDに対応するメタ情報(表章事項、分類事項、地域事項等)を取得します。
統計データ取得 getStatsData 統計表を取得する機能。【API解説】指定した統計表ID又はデータセットIDに対応する統計データ(数値データ)を取得します。
データセット登録 postDataset 【API解説】統計データを取得する際の取得条件を登録します。統計データの取得における絞り込み条件を「データセット」として指定することで、取得条件を省略することができます。
データセット参照 refDataset 【API解説】登録されているデータセットの絞り込み条件等を参照します。データセットIDが指定されていない場合は、利用者が使用できるデータセットの一覧が参照可能です。

全ての統計表を対象にすると大変な量のデータとなってしまいますし(約3万2千件)、官公庁も最近頑張っているようなので、昨年(2012年)1年間に公開された統計表について調べてみることにしました。URLは以下の通り。${APP_ID}には自分のアプリケーションIDを代入します。
 
http://statdb.nstac.go.jp/api/1.0b/app/getStatsList?appId=${APP_ID}&lang=J&openYears=2012

結果はXMLで取得できます。Chromeを使うとこのような感じ。


2012年に発表された統計表は1260個ありました。あとは取得したXML形式の一覧データをエクセルに展開し、各統計データの「調査日(SURVEY_DATE)」と「公開日(OPEN_DATE)」を比較し、分析すれば結果は出るはずです。エクセルの変換機能は素晴らしいですね。


全ての統計表は、特定のデータセットに含まれており、多くの場合データセットごとにまとめて公開されることから、ここではデータセット別に発表日とタイムラグをみてみます。複数回にわけて発表されたものについては発表日は「複数」となります。結果は以下の通りとなりました。

データセット名 発表日 タイムラグ
国勢調査(2010年) 2012/04/24 [第1弾]
2012/01/31 [第2弾]
2012/07/31 [第3弾]
2012/06/26 [第4弾]
2012/11/16 [第5弾]
2012/04/26 [第6弾]
2012/01/30 [第7弾]
1年超
住民基本台帳人口移動報告(2012年3月現在) 2012/04/26 1カ月以内
人口推計(2011年10月1日現在) 2012/04/17 1年以内
労働力調査(2010年) 2012/01/31 [第1弾]
2012/03/30 [第2弾]
2012/04/27 [第3弾]
1年超
社会生活基本調査(2011年) 2012/12/21 1年以内
個人企業経済調査(2011年) 2012/07/10 1年以内
科学技術研究調査(2010年) 2012/10/12 1年超
科学技術研究調査(2012年) 2012/12/14 1カ月以内
サービス産業動向調査(2011年度) 2012/11/29 1年以内
事業所・企業統計調査(2006年) 2012/03/19 1年超
経済センサス-基礎調査(2009年) 2012/11/08 1年超
消費者物価指数(2011年) 2012/01/27 1カ月以内

1カ月以内3つ、1年以内4つ、1年超5つ。頑張っていると言えなくもなく、まだまだ頑張れると言えるようであもる…微妙です。検証結果は「微妙」です。さらに多くのデータセットが登録されることを待ちましょう。公開が進めば省庁別に公開速度を評価してみても面白いですね。評価がプレッシャーとなり、公開速度がどんどん速くなるかもしれません。

2012年12月5日水曜日

熱意とビジョン、そして適切なスキルさえあれば、データジャーナリズムは実践できる

プロジェクトメンバー2人、制作期間24時間、掛かった経費500ドル未満、しかしその効果は絶大―。ケニアのオープンデータを活用した実に小さな規模のデータジャーナリズム・プロジェクト「GoToVote!」が非常に大きな成果を挙げた、として、国際的なジャーナリストサポート団体 International Journalists Network (IJNet)のサイトで紹介されています。


「GoToVote!(選挙へいこう!)」はケニアで来年実施される大統領選に向けてケニア国内の有権者登録できる場所を検索するためのサービスで、アフリカにおけるジャーナリズムの発展を推進する団体African Media Initiativeと世界銀行が共催する「Code4Kenyaプロジェクト」が構築しました。サービス公開後数時間で約2500人が利用し、そのまま有権者登録をしに行った(=成果を出した)、とのことです。


「2人、24時間、500ドル未満」で作られたGoToVote!は、そのコストに見合い、機能も仕組も非常にシンプルなサービスです(構成は「Twitter Bootstrap」+「オリジナルのJavaScriptプログラム」+「JSON化した有権者登録場所のデータ」。ソースコードはGithubで公開されています)。何の新規性もなく、技術的にも何も学ぶものはありません。また、「オープンデータを活用」といっても、PDFファイルとして公開されていたドキュメントから投票所のデータを取り出した程度のことです。


にもかかわらず注目されているのは、「データジャーナリズムはカネと時間がかかる」「データジャーナリズムには超絶スキルが必要だ」といった風潮(アメリカ大統領選で大手メディアが展開したデータジャーナリズムプロジェクトはどれもリッチなものでした)に一石を投じ、「熱意とビジョン、そして適切なスキルさえあれば、良質なデータジャーナリズムは実践できる」ことを証明したからにほかなりません。

ケニアでは有権者登録されていないと選挙で投票できないため「事前の有権者登録」はとても重要、にもかかわらず政府からの公布が分かり難くくこのままでは投票率があがらないのではないか、との問題意識が発端となり、GoToVote!は構築されました。つまり、まず目的(投票率を上げる)があって、その手段として「データジャーナリズム」がつかわれたにすぎません。そしてここが重要なポイントです。

手段が目的化してしまうと、「誰のためのデータジャーナリズムか」が曖昧になり、単なるサービス開発競争に陥ることになりかねない、ということは、これからも忘れないようにしておきたいところです。

ちなみに「Code4Kenyaプロジェクト」には「データを活用してジャーナリストに変革をもたらす」という設立理念があるようで、こうした下地があったからこそGoToVote!のようなサービスが生まれたのかもしれません。

最後に、冒頭でご紹介した記事に記載されている、GoToVote!から得られたオープンデータを活用したデータジャーナリズムプロジェクトに関する教訓をまとめておきます。

  • オープンデータを活用したプロジェクトは、高価である必要は必ずしもない
  • オープンデータを活用したプロジェクトは、大きな規模である必要は必ずしもない
  • オープンデータを活用したプロジェクトは、時間を掛ける必要は必ずしもない
  • オープンデータの活用はさほど複雑なことではなく、アイディア次第でシンプルかつ強力なサービスを提供できる
  • オープンデータは必ずしも「利用し易い形態で」提供されているわけではない
  • オープンデータは市民の役に立ってこそ、最大の価値がある