KyTeaのモデル

日本語用モデル
中国語用モデル
人名・地名モデル

このページでKyTeaと一緒に使うためのモデルがダウンロードできます。モデルの全種類において、4通りのモデルはあります。

高性能SVMモデル：このモデルは最も高い精度を実現するが、サイズも比較的大きいです。train-kyteaで「-solver 1」を設定して学習を行います。
圧縮SVMモデル：サイズは比較的小さく、読み込み時間が短縮できるが、精度は高性能SVMモデルより少し落ちます(-solver 5)。
圧縮ロジスティック回帰(LR)モデル：圧縮SVMモデルと同程度のサイズで、確率付き出力が可能です(-solver 6)。精度は圧縮SVMより少し低いです。

kyteaの実行時に-modelで指定するか、環境変数KYTEA_MODELを設定することで利用できます。

日本語用モデル

以下のモデルは日本語の解析に用いることができます。現代日本語均衡コーパスやUniDicなどの言語資源を用いて構築されています。研究及び商用利用は許可されていますが、事前に許可を得ない限り再配布は禁じられています。

すべてのモデルには単語分割・読み推定・品詞推定の機能があります。モデルの単語分割基準では、基本単位は形態素となっており、活用語尾は語幹と別の単語となっています。

モデル名	高性能SVM	圧縮SVM	圧縮LR
サイズ	31M	11M	12M
分割・品詞・読み精度	97.66%	97.75%	97.54%
ダウンロード	UTF8	UTF8	UTF8

これらのモデルはver. 0.4.0以降のKyTeaで利用できるものです。古いバージョンのKyTeaで利用可能なモデルはここからダウンロードできます。

中国語用モデル

単語分割・読み推定

以下のモデルは Lancaster Corpus of Mandarin ChineseとCC-CEDICT辞書を用いて構築しています。 UTF-8形式・簡字体を利用しており、単語分割と読み推定の機能がついています。ただし、読み推定の機能は主に各語の最も頻度の高い読みを付与するものだけであり、「了」など読みが曖昧な語に正しく対応できていません。参考程度で利用いただければ幸いです。研究または商用利用は許可されています。

	高性能SVM	圧縮SVM	圧縮ロジスティック回帰
LCMCモデル（簡字体）単語F値	Download (13M) 96.9%	Download (5M) 97.0%	Download (4M) 96.2%

また、このモデルの構築に利用したCEDICT辞書とサブワード辞書を提供しています。これらはCreative Commons Attribution-Share Alike 3.0 Licenseに基づいて配布しています。

単語分割のみ

下記のモデルはPenn Chinese Treebankで推定されたモデルで、Treebankのアノテーション基準にしたがって分割します。

	高性能SVM	圧縮SVM	圧縮ロジスティック回帰
CTBモデル (簡体字) 単語F値	Download (25M) 95.7%	Download (5.8M) 95.2%	Download (5.0M) 95.0%

これらのモデルはSecond International Chinese Word Segmentation Bakeoffで利用されたMSRとASコーパスを利用しています。単語分割精度やBakeoffにおける順位を参考のために載せています。営利を目的としない利用は許可されています。

	高性能SVM	圧縮SVM	圧縮ロジスティック回帰
MSRモデル（簡体字）単語F値、MSRタスクの順位	Download (28M) 96.5%, 1/30	Download (8M) 96.5%, 1/30	Download (4M) 95.9%, 5/30
ASモデル（繁体字）単語F値、ASタスクの順位	Download (42M) 95.0%, 2/11	Download (14M) 94.6%, 4/11	Download (6M) 94.4%, 5/11

人名・地名モデル

v. 1.3: 能動学習を行い、単語分割精度を上げました（97.33%→97.82%）（3月20日、21:00）：KyTeaの人名・地名モデル v. 1.3
v. 1.2: さらに、東北地方の地名や独特な名前の扱いを改善し、「人名・性→人名・姓」と誤植を直しました（3月14日、17:30）：KyTeaの人名・地名モデル v. 1.2
v. 1.1: 地名の対応を改善させて、単語分割を少しロバストにしました（3月14日、15:00）：KyTeaの人名・地名モデル v. 1.1
v. 1.0: 東北大地震を受けて、人名・地名モデルを作りました。今は人名にある程度強いですが、地名はまだあまり出来ていません。続けて作業します（3月14日、14:00）：KyTeaの人名・地名モデル v. 1.0

解析結果

モデルを使って固有表現っぽいものを抽出してみました：結果 (3月16日 09:30)

安否ツイートデータをダウンロード
ファイルを解凍し、１〜２列目を消す。
以上ののモデルv. 1.2で解析する。
# kytea -model kytea-names-1.2.mod < tweets.1645c.txt > tweets.1645c.wordpart
固有表現らしいものを抽出
# combinetweets.pl tweets.1645c.tsv tweets.1645c.wordpart > tweets.1645c.kyextract.tsv

ツイート分類

ツイートを公式ページに載っている分類基準に従って自動分類するスクリプトを作りました。単純に素性を決めて、分類器にかけるだけです。分類器の素性はbag-of-文字-ngramsと各固有表現タグが何回文に現れただけです。(3月16日 18:30)

学習

以下の手順で学習できます。

入力として、アノテーターが作っているTSVファイルを利用します(input.tsv。
スクリプトを利用し、素性を作成：
# tweetfeatures.pl featurenames.txt < input.tsv > trainingdata.txt
それぞれのファイルについて、featurenames.txtは素性の名前とIDの関係を格納し、trainingdata.txtは訓練事例のファイルです。
分類器を学習します。素性はLIBSVM形式なので、LIBSVM、LIBLINEAR、Classiasなどの分類器を利用できます。僕はLIBLINEARの「train」を利用しました。
# train trainingdata.txt model.txt

モデルの性能を計るために、LIBLINEARの-v 10オプションを付けて10-fold cross-validationを行うことができます。その結果、現時点であるデータを全て利用すれば、モデルの性能は各n-gram長で以下のとおりです（スクリプトのデフォルトは3-gramです）：

1-gram: 83.42%
2-gram: 85.49%
3-gram: 86.13%

解析

ラベルなしのデータを解析するために以下の処理を行います：

入力として、タグなしのTSVファイルを利用します(test.tsv。
スクリプトを利用し、素性を作成：
# tweetfeatures.pl featurenames.txt < test.tsv > testdata.txt
ここでは、featurenames.txtはモデル学習時と同じファイルです。
LIBLINEARのpredictを利用し、ラベルを作成します。
# predict testdata.txt model.txt testlabels.txt
最後に、推定結果を利用してtest.tsvにラベルを付ける。
# replacelabels.pl testlabels.txt test.tsv > test-out.tsv

注

素性は単純です。より豊かな素性を利用すると精度は上がります（単語分割など？)。
今複数のラベルを持ったものに対応していません。対応はできますが、少し面倒です。複数のラベルが振ってあるところは最初のラベルだけを真のラベルにしています。
能動学習等のために確率が必要な場合に、LIBLINEARのtrainで-s 0を指定し、SVMではなくロジスティック回帰を学習に利用し、predictの段階で-bを指定する事で、確率を出力できます。

KyTeaに戻る
Last Modified: 2012-01-27 by neubig