KyTeaの入力・出力

KyTeaには4つの入力・出力フォーマットがあります。学習時、解析時にフォーマットを指定できます。

フルアノテーション

従来の単語分割と同じように、単語境界を空白で示します。読み推定を行う時に、単語の読みを「/」の後に付与します。

コーパス/こーぱす の/の 文/ぶん で/で す/す 。/。

ここでは、単語は空白で区切られ、タグは「/」で区切られているが、それぞれは「-wordbound」と「-tagbound」のオプションで変更可能です。また、出力では、読みの付けなかった単語に"/UNK"が付きます。これは「-deftag」オプションで変更可能です。さらに、読みのあり・なしに関わらず、辞書に入っていない単語にタグを付ける「-unktag」オプションもあります（KyTeaは未知語モデルを使って未知語の読みを生成することができるため、読みの付いている未知語もあります）。

学習時指定: -full corpus.txt
解析時指定: -out full または -in full

部分的アノテーション

部分的アノテーションでは、「単語境界あり(-hasbound)」を表す「|」、「単語境界なし(-nobound)」を表す「-」、「単語境界の有無が未知(-unkbound)」を表す「」（空白）の３通りのタグがあります。読み推定を行う時に、単語の読みを「/」の後に付与します。

コ-ー-パ-ス/こーぱす|の/の|文/ぶん|で/で|す/す|。/。
境-界|未 知 の 文|で す 。

また、難しいタグの付与の先送りを可能にするために「付与先送りタグ(-skipbound)」を利用することもできます。-skipboundと-unkboundで指定された文字は同等の扱いになっている。

学習時指定: -part corpus.txt
解析時指定: -out part または -in part

単語分割されたデータ

単語分割されたデータはタグ無しのフルアノテーションと一緒の形式です。

コーパス の 文 で す 。

学習時指定: -tok corpus.txt
解析時指定: -out tok または -in tok

アノテーションなし

解析時の入力として、一般的にアノテーションなしの生のテキストを利用します。

コーパスの文です。

解析時指定: -in raw

信頼度付きアノテーション

KyTeaは信頼度を出力することができます。 SVMを用いたモデルでは、信頼度はSVM平面からのマージンを表します。ロジスティック回帰を用いたモデルでは、信頼度は答えの確率を表します。 SVMでもロジスティック回帰でも、未知語の読みの信頼度は確率になっています。信頼度付き出力は入力1行につき4行を出力します。

第1行:フルアノテーションとほぼ同じフォーマットになっています。読みが複数存在する単語はすべての読みを「項境界文字(-elembound)」の「&」でつなげて出力します。
第2行:単語分割の信頼度。 i項目は文字iと文字i+1の間の単語境界の有無に対する判断の信頼度です。例えば、以下の例では、最初の信頼度「3.18908」は「コ」と「ー」の間の単語境界に対する信頼度です。
第3行:読み推定の信頼度。複数の読みが存在する単語では、各読みの信頼度を「&」でつなげて出力します。
第4行:空の行。バージョン0.1.2から。

コーパス/こーぱす の/の 文/ぶん&もん&ふみ で/で す/す 。/。
3.18908 1.7448 3.91682 2.57838 2.23258 1.28151 2.6298 1.98738
100 100 0.309393&-1.36203e-17&-0.348795 100 100 100

解析時指定: -out conf

KyTeaホームに戻る
Last Modified: 2010-5-11 by neubig