震災データからの情報抽出プロジェクト

プロジェクト背景とお願い

本プロジェクトは東日本大震災ビッグデータワークショップの一部として行われるツール開発プロジェクトです。 プロジェクトの背景として、震災の時にWebなどで様々な情報が溢れているところにあります。 その中で有用な情報もあり、給水場、充電場、行方不明者、安否が確認された方のリストなどを作ることができます。 ただ、溢れている情報の中でこの情報を正確に特定するのがなかなか難しくて、労力がかかります。

提案したいプロジェクトは、コンピュータの力を借りて有用と有用でない情報を分別し、1人でも簡単に情報の一覧を作れるシステムの開発です。 実は、このようなプロジェクトは安否情報を対象に前回の東日本大震災の時にも行われました: ANPI_NLPプロジェクト。 ただ、その時は全ての開発が震災が起こってから始まったので、多くの専門家が集まって60人のボランティアの力を借りて初めて成立しました。 この時の教訓に基づいて予め誰にでも使えるツールを作れば、次の震災の時にすぐに粒度の高い情報(「○○市の避難場の現状」)を効率良く見つけることができます。

プロジェクトの第一歩として、情報分別と有用そうな情報の格納を行うサーバを開発し始めました。以下のgithubページで公開しています: webigator。 まだまだ直す部分は多いですが、とりあえず最低限使えるものになっているので、プロジェクトを提案しようと思いました。 (プログラムの使い方などはサイトのREADMEに書いてあり、技術的な詳細はこの論文をご参照下さい: 能動学習による効率的な情報フィルタリング

そこで、リーダのグラムはサーバの言語処理アルゴリズムを書くことはできますが、使いやすいインタフェースを作ることは正直得意ではないです。 もしWebやDesktopでUIを作る経験のある人に手伝っていただければ、非常に助かります。 また、未完成でありながらこのようなツールを試して、アドバイスをしていただくユーザがいれば、UIがある程度完成してからぜひお願いしたいと思っています。 誰かこのようなプロジェクトに参加したいという方はいらっしゃいますか?

情報抽出作業の流れ

本プロジェクトで開発するツールの基本的な作業の流れは以下の通りです:

この作業が進むのに連れて、c)のテキスト提示の精度が良くなって行き、ほとんど一覧作成に役に立つものしか見なくても良くなり、時間を節約する効果があるのではないかと思っています。 また、今回のシステムは特にサーバ型になっているので、複数のユーザが同時にこの作業を行うことができることを考えています。

TODOリスト

プロジェクトへの参加方法は以下のようなものがあります:

…などがあります。これ以外にもたくさんあるはずなので、アイデアをぜひ教えて下さい。

参加情報

ご興味がある方はぜひ参加して下さい! neubig at gmail dot com もしくは shinsaidata at googlegroups dot com (メーリングリスト)まで連絡をお願いします。