KyTeaには4つの入力・出力フォーマットがあります。 学習時、解析時にフォーマットを指定できます。
従来の単語分割と同じように、単語境界を空白で示します。 読み推定を行う時に、単語の読みを「/」の後に付与します。
コーパス/こーぱす の/の 文/ぶん で/で す/す 。/。
ここでは、単語は空白で区切られ、タグは「/」で区切られているが、それぞれは「-wordbound」と「-tagbound」のオプションで変更可能です。 また、出力では、読みの付けなかった単語に"/UNK"が付きます。これは「-deftag」オプションで変更可能です。さらに、読みのあり・なしに関わらず、辞書に入っていない単語にタグを付ける「-unktag」オプションもあります(KyTeaは未知語モデルを使って未知語の読みを生成することができるため、読みの付いている未知語もあります)。
部分的アノテーションでは、「単語境界あり(-hasbound)」を表す「|」、「単語境界なし(-nobound)」を表す「-」、「単語境界の有無が未知(-unkbound)」を表す「 」(空白)の3通りのタグがあります。 読み推定を行う時に、単語の読みを「/」の後に付与します。
コ-ー-パ-ス/こーぱす|の/の|文/ぶん|で/で|す/す|。/。 境-界|未 知 の 文|で す 。
また、難しいタグの付与の先送りを可能にするために「付与先送りタグ(-skipbound)」を利用することもできます。-skipboundと-unkboundで指定された文字は同等の扱いになっている。
単語分割されたデータはタグ無しのフルアノテーションと一緒の形式です。
コーパス の 文 で す 。
解析時の入力として、一般的にアノテーションなしの生のテキストを利用します。
コーパスの文です。
KyTeaは信頼度を出力することができます。 SVMを用いたモデルでは、信頼度はSVM平面からのマージンを表します。 ロジスティック回帰を用いたモデルでは、信頼度は答えの確率を表します。 SVMでもロジスティック回帰でも、未知語の読みの信頼度は確率になっています。 信頼度付き出力は入力1行につき4行を出力します。
コーパス/こーぱす の/の 文/ぶん&もん&ふみ で/で す/す 。/。 3.18908 1.7448 3.91682 2.57838 2.23258 1.28151 2.6298 1.98738 100 100 0.309393&-1.36203e-17&-0.348795 100 100 100
KyTeaホームに戻る
Last Modified: 2010-5-11 by neubig