by Graham Neubig (2011年11月25日)
日本語の形態素解析を新しい分野に適応する時に、その分野の単語を辞書に追加することが多い。 このページは辞書の単語を登録するだけでいいのか、それとも新しい分野のコーパスを作成する必要があるのかについて調査する。
一般分野からWeb(Yahoo!知恵袋)テキストへの分野適応を実験の対象とする。コーパスの諸元は以下の通りである:
コーパス | ||
種類 | 単語数 | |
---|---|---|
一般 | 784k | |
一般+Web | 898k | |
Webテスト | 13.0k | |
辞書 | ||
種類 | 単語数 | カバレージ (単語+品詞一致) |
一般 | 29.7k | 96.3% |
一般+Web | 32.5k | 97.9% |
形態素解析器としてMeCab(ラティス上の系列予測)とKyTea(点予測)を利用する(モデルはチューニングしていないので、チューニングをしたら両方とも少し精度があがる)。この二つの形態素解析器で以下のような分野適応戦略を比較する:
実験は以下のような結果になった。
単語分割精度(F値) | ||
MeCab | KyTea | |
適応無し | 95.20% | 95.54% |
辞書追加(再学習なし) | 96.59% | - |
辞書追加(再学習あり) | 96.55% | 96.75% |
コーパス追加 | 96.85% | 97.15% |
また、具体的に辞書追加よりコーパス追加で改善された箇所は以下の通りである(2回以上の改善に限る):
出力 | 正解 | 改善回数 | 理由 |
---|---|---|---|
な ん | なん | 4 | 「何」の代わりの「なん」は書籍や新聞では珍しく、「そう_な_ん_だ」と誤られてしまう |
^ ^ | ^^ | 3 | 絵文字は一般分野コーパスに珍しいため、コーパスを追加しないと学習できなかった |
感 じ | 感じ | 2 | 名詞としての「感じ」は口語的で一般分野コーパスに現れなかったため分割する動詞としての「感 じ る」に誤られてしまった |
実験結果から見ると、辞書を追加することで、MeCabとKyTeaで精度がそれぞれ1.35%、1.21%上がった。 さらにコーパスを追加すると、0.30%と0.40%上がったことも分かる。 つまり、分野適応で実現可能な精度の向上の約75〜80%は辞書追加により実現可能で、残りの20〜25%はコーパスに入っているコンテキストを利用しないと実現可能ではなかった。
ほかに、KyTeaもMeCabも辞書を入れることで同じぐらいの精度向上が見られたのは少し予想外の結果となった(実験する前は直感的にMeCabの方が辞書を強く利用しているためより大きな改善となると思った)。 また、MeCabは新しい辞書でもう一度CRFのパラメータを推定するとむしろ精度が下がったため、コーパスを追加しない限り辞書追加後の再学習は必要ではないようである。
このページで述べられている実験はフルアノテーションで、比較的小規模のコーパスを利用している。 部分的アノテーションとの関係や、大規模コーパスを利用した場合も調査する興味深い結果が出るかもしれない。