KyTeaバージョン歴
English
改良予定
- EUCの3バイト文字の正しい取扱い(現在では正しく動作しません)。
- 半角ローマ字やカタカナの扱いの改良。現在の最新版では読み推定の前に半角文字を全角文字に変換すると正しく読み推定ができます。
Version 0.4.7 (2014年10月18日)
- モデル更新による様々な分野(特許、ツイッターなど)での性能向上
- コンパイル時のエラーへの対処
Version 0.4.6 (2013年5月28日)
- 半角文字を学習に利用する場合の大きなバグを修正
- 単語を出力しない出力形式として「tags」を追加
Version 0.4.5 (2013年4月8日)
- コンパイルエラーを修正(特にclangにおけるエラー)
Version 0.4.4 (2013年2月25日)
- 大きなリファクトリングでコードが読みやすくなり、コンパイル時間が少し短縮された
- -out edaというオプションでEDA係り受け解析器と直接つなげることが可能になった
Version 0.4.3 (2013年2月4日)
- 分割をしたくない文字種を指定可能にする「-wsconst」オプションの追加(例えば「-wsconst D」で数字を分割しない)
Version 0.4.2 (2012年5月30日)
- 半角文字の正規化
- モデル更新による精度向上
- タグ無し、単語分割ありの入力に対応する入出力形式tokの追加(-nowsの場合はデフォルト
- その他のバグ修正
Version 0.4.1 (2012年3月31日)
- バグ修正
- Windows版を追加(Windows用コードを貢献したknzmに感謝します)
Version 0.4.0 (2012年1月27日)
- 解析速度の改善(約2倍、-notagsを用いた場合は5倍)。
- 単体テストの追加、バグの修正。
- モデル更新(頑健性向上)。
Version 0.3.2 (2011年8月9日)
- 素性ファイルを使った学習を可能にした(学習ページを参照)。
- "-nounk"オプションのバグ修正。
Version 0.3.1 (2011年6月17日)
Version 0.3.0 (2011年4月26日)
- 複数のタグを同時に推定する機能(品詞+読み)。
- ACL 2011の論文で提案した全体タグ付与モデルを実装。
- 確率モデルでも信頼度が100になる問題を修正。
Version 0.2.1 (2011年1月21日)
- 学習があるパラメータ設定やデータセットで不安定になっていたバグを修正。
- -deftagオプションのバグ修正。
- エスケープ(\)の扱いの改善。
Version 0.2.0 (2011年1月6日)
- プログラムからのアクセスを容易にするAPIを追加。
- LIBLINEARのバージョンを1.7に更新し、より精度の高いロジスティック回帰(-solver 7)を可能にした。モデルページのモデルも更新。
- 単語やタグなどの境界を表す文字を指定可能にした(詳細はこちら)。
- タグ候補がない時に出力されるタグを指定するオプション(-deftag)を追加(デフォルトで「/UNK」になっている。
- SVMやロジスティック回帰の学習に利用するコストを調整するオプションを追加(-cost)。
- KyTeaの結果を分析しやすくするために-debugのオプションを追加。
- テキスト形式のモデルが読みやすくなった(素性の重みは素性の名前の直後に書いてある)。
- 素性の重みをshortとして格納すると、ある場合学習された値がゼロになり、精度にばらつきが出たため、デフォルトでdoubleとして格納されるようになった。
Version 0.1.3 (2010年10月01日)
- コンパイル時の警告を修正。
- Mac OS Xでコンパイルができないバグを修正。
- モデルのページに品詞推定(形態素解析)のモデルを追加。
Version 0.1.2 (2010年08月18日)
- 未知語の読み推定を全探索からビーム探索に変えて、-unkbeamのオプションを追加。これにより長い未知語によるクラッシュの問題を解消。
- 「-solver 6」で学習されたモデルを使った場合、「-out conf」で確率ではなく対数確率が出力されるバグを修正。
- train-kyteaの-nopeオプションを指定した場合のバグを修正。
- 信頼度付き出力で、各文に対する出力の後に空の1行を出力することにした(その後の処理を容易にするために)。
- 発音の付いていない辞書が正しく読み込まれないバグを修正。
- -modtextオプションを使ったモデルが読み込めなかったバグを修正。
Version 0.1.1 (2010年5月11日)
- サブワードに基づく未知語の読み推定。
- モデルの辞書と学習データの拡張。
Version 0.1.0 (2010年3月5日)
- 複数の辞書を利用する場合、それぞれの辞書の単語は個別の素性として扱われる(以前のバージョンでどの単語はどの辞書に入っていたのかは素性に入れていなかった)
- モデルファイルの形式変更、サイズ圧縮
- 部分的アノテーションのファイルでは、タグが付与されていない箇所に対して、' '以外にも'?'を利用することができる(' 'は未アノテーション箇所、'?'は作業者が分割すれば良いか判断できない箇所
- 連続している空白は1つの空白として扱われる
- ロジスティック回帰の信頼度は確率を表す
- KyTea付属のモデルがパッケージに入ったため、学習データを持っていなくても使える
- 複数の読み候補を出力する機能。
Version 0.0.3 (2009年11月30日)
- 速度の改善(0.0.1の2倍程度)
- -nows指定時に現れるバグの修正
Version 0.0.2 (2009年11月16日)
- Shift-JISのサポート。
- メークシステムをAutotoolsに変えた。
Version 0.0.1 (2009年11月05日)