このページでKyTeaと一緒に使うためのモデルがダウンロードできます。 モデルの全種類において、4通りのモデルはあります。
kyteaの実行時に-modelで指定するか、環境変数KYTEA_MODELを設定することで利用できます。
以下のモデルは日本語の解析に用いることができます。 現代日本語均衡コーパスやUniDicなどの言語資源を用いて構築されています。 研究及び商用利用は許可されていますが、事前に許可を得ない限り再配布は禁じられています。
すべてのモデルには単語分割・読み推定・品詞推定の機能があります。 モデルの単語分割基準では、基本単位は形態素となっており、活用語尾は語幹と別の単語となっています。
モデル名 | 高性能SVM | 圧縮SVM | 圧縮LR |
---|---|---|---|
サイズ | 31M | 11M | 12M |
分割・品詞・読み精度 | 97.66% | 97.75% | 97.54% |
ダウンロード | UTF8 | UTF8 | UTF8 |
これらのモデルはver. 0.4.0以降のKyTeaで利用できるものです。古いバージョンのKyTeaで利用可能なモデルはここからダウンロードできます。
以下のモデルはLancaster Corpus of Mandarin ChineseとCC-CEDICT辞書を用いて構築しています。 UTF-8形式・簡字体を利用しており、単語分割と読み推定の機能がついています。 ただし、読み推定の機能は主に各語の最も頻度の高い読みを付与するものだけであり、「了」など読みが曖昧な語に正しく対応できていません。 参考程度で利用いただければ幸いです。 研究または商用利用は許可されています。
高性能SVM | 圧縮SVM | 圧縮ロジスティック回帰 | |
---|---|---|---|
LCMCモデル(簡字体) 単語F値 |
Download (13M) 96.9% |
Download (5M) 97.0% |
Download (4M) 96.2% |
また、このモデルの構築に利用したCEDICT辞書とサブワード辞書を提供しています。 これらはCreative Commons Attribution-Share Alike 3.0 Licenseに基づいて配布しています。
下記のモデルはPenn Chinese Treebankで推定されたモデルで、Treebankのアノテーション基準にしたがって分割します。
高性能SVM | 圧縮SVM | 圧縮ロジスティック回帰 | |
---|---|---|---|
CTBモデル (簡体字) 単語F値 |
Download (25M) 95.7% |
Download (5.8M) 95.2% |
Download (5.0M) 95.0% |
これらのモデルはSecond International Chinese Word Segmentation Bakeoffで利用されたMSRとASコーパスを利用しています。 単語分割精度やBakeoffにおける順位を参考のために載せています。 営利を目的としない利用は許可されています。
高性能SVM | 圧縮SVM | 圧縮ロジスティック回帰 | |
---|---|---|---|
MSRモデル(簡体字) 単語F値、MSRタスクの順位 |
Download (28M) 96.5%, 1/30 |
Download (8M) 96.5%, 1/30 |
Download (4M) 95.9%, 5/30 |
ASモデル(繁体字) 単語F値、ASタスクの順位 |
Download (42M) 95.0%, 2/11 |
Download (14M) 94.6%, 4/11 |
Download (6M) 94.4%, 5/11 |
モデルを使って固有表現っぽいものを抽出してみました:結果 (3月16日 09:30)
ツイートを公式ページに載っている分類基準に従って自動分類するスクリプトを作りました。 単純に素性を決めて、分類器にかけるだけです。 分類器の素性はbag-of-文字-ngramsと各固有表現タグが何回文に現れただけです。(3月16日 18:30)
モデルの性能を計るために、LIBLINEARの-v 10オプションを付けて10-fold cross-validationを行うことができます。その結果、現時点であるデータを全て利用すれば、モデルの性能は各n-gram長で以下のとおりです(スクリプトのデフォルトは3-gramです):
ラベルなしのデータを解析するために以下の処理を行います:
KyTeaに戻る
Last Modified: 2012-01-27 by neubig