京都フリー翻訳タスク (KFTT)

by Graham NEUBIG (苗字 at gmail.com)

English

京都フリー翻訳タスク(KFTT)は、日英機械翻訳システムのための評価タスクです。タスクはフリー、簡単、再現性のある、進化型の機械翻訳タスクを目指して設立されました。

基本概念

京都フリー翻訳タスクは4つの概念に基づいて設立しました。 具体的には「フリー」、「簡単」、「再現性」、「進化」というキーワードを重視しました。

データの詳細

京都関連文書対訳コーパス

京都フリー翻訳タスクは京都関連のWikipedia記事を対象とした翻訳タスクです。情報通信研究機構(NICT)により製作された「Wikipedia日英京都関連文書対訳コーパス」を利用させていただいています。データの特徴として以下のものがあります:

データ加工

このデータを機械翻訳に利用しやすくするために、いくつかの加工を行いました。

  1. 機械翻訳システムが利用できる形式への抽出
  2. 機械翻訳システムMosesのスクリプトを用いた英語のトークン化KyTeaを用いた日本語の単語分割。KyTeaのモデルは京都文書に軽く分野適応されており、データと一緒に配布されています。
  3. データを学習(train)・重み学習(tune)・開発テスト(dev)・本番テスト(test)の4セットの作成。基本的には学習データはモデルのパラメータの学習に利用し、重み学習でパラメータのチューニングを行い、開発テストを開発時の評価に利用し、本番テストを最終的なスコアを報告するために利用します。
  4. さらに、学習データから0単語の文や非常に長い(40単語以上)の文を除き、整理済みの学習データを作成しました。

データの整理が終わってから、データのサイズは以下の通りです(ver. 1.0):

記事数文数単語数(日)単語数(英)
学習 14126440k12.0M11.5M
学習(整理済み) 14126330k6.09M5.91M
重み学習 15 123534.4k30.8k
開発テスト 15 116626.8k24.3k
本テスト 15 116028.5k26.7k

入手・使用法

データ+ベースラインシステム

京都フリー翻訳タスクで機械翻訳のベースラインシステムを作るために、3つのステップを行わなければなりません。まず、データをダウンロードしてから、ソフトウェアをインストールし、スクリプトを動かしてデータとベースラインシステムの作成を行います。データとスクリプトは以下のリンクで入手可能です:

現在のベースラインはKFTT Moses Baseline, v. 1.4KFTT lader, v. 1.0です。前者は通常のMosesによるフレーズベース翻訳、後者は前並べ替え器laderを導入したものです。laderを使った方が高い精度が実現できるが、計算量を要します。

過去のバージョン:Baseline v. 1.3 Baseline v. 1.2, Baseline v. 1.1, Baseline v. 1.0

このデータはCreative Commons Attribution-Share-Alike License 3.0に基づいて再配布可能です。次は、ベースラインシステムの作成に利用するソフトをインストールします。

さらに、2つの環境変数を設定します:

以上のソフトがインストールし終わったら、KFTTの.tar.gzファイルを解凍し、process.shを実行します。また、以上のソフトを普段と違う場所にインストールしていれば、process.shの先頭にある変数を変更し、ソフトの場所を指定する必要があるかもしれません。データの抽出とベースラインシステムの学習は計算時間とメモリを多く費やします(それぞれ約20時間と数GB)ので、ご注意ください。

$ tar -xzf kfft-XXX.tar.gz
$ cd kfft-XXX
$ nohup ./process.sh &> process.log &

スクリプトの処理が終わったら、process.logの最後にベースラインシステムのBLEUスコアが表示され、本ページに載っているスコアに合っていることを確認してください。スクリプトの実行がうまくいかない場合はご連絡ください。

データのみ

京都フリー翻訳タスクで研究を行う際はなるべくベースラインシステムを構築することをおすすめしますが、データのみを以下のリンクからダウンロードすることもできます:

Kyoto Free Translation Task (Data Only v. 1.0)

単語アライメントデータ

単語アライメントの精度評価や教師ありアライメント法の学習に利用可能な単語アライメントデータです。全てのアライメントは2名の作業者によって作成され、最後に一貫性チェックされたものです。データ自体は重み学習データの1235文となっています。

Kyoto Free Translation Task - 日英単語アライメントデータ

トラック(順位表)

このタスクの目的はシステムの容易な開発・比較による、日英翻訳の精度向上です。このため、参加者が切磋琢磨し、実験結果を競い合う形を取ります。スコアは2つのトラックに分かれています:

現在では、BLEUスコアを評価尺度とします。v. 1.3から日英・英日ともに、小文字化とトークン化されたテキストで評価しています。(以前のバージョン英語を大文字あり、トークン化されていないテキストで評価していたので、これらのスコアはグレーで書いています)

オープン

日英
日付システム投稿者所属dev BLEUtest BLEU内容
2012-9-2KyTea/GIZA++/Moses/Lader 1.0Graham NeubigNAIST16.9319.35KyTea/GIZA++/Mosesとladerを使った前並べ替え
2012-4-9KyTea/GIZA++/Moses 1.3/1.4Graham NeubigNAIST15.4117.68単語分割はKyTea v. 0.4.1、アライメントはGIZA++、翻訳はMoses。
2012-2-4KyTea/GIZA++/Moses 1.2Graham Neubig京都大学9.4010.53初期のベースラインシステム。単語分割はKyTea v. 0.4.0、アライメントはGIZA++、翻訳はMoses。
2011-5-16KyTea/GIZA++/Moses 1.1Graham Neubig京都大学8.9810.58初期のベースラインシステム。単語分割はKyTea v. 0.3.0、アライメントはGIZA++、翻訳はMoses。

英日
日付システム投稿者所属dev BLEUtest BLEU内容
2012-9-2KyTea/GIZA++/Moses/Lader 1.0Graham NeubigNAIST21.0823.15KyTea/GIZA++/Mosesとladerを使った前並べ替え
2012-2-4KyTea/GIZA++/Moses 1.3/1.4Graham NeubigNAIST19.2421.03単語分割はKyTea v. 0.4.1、アライメントはGIZA++、翻訳はMoses。
2012-2-4KyTea/GIZA++/Moses 1.2Graham Neubig京都大学19.0020.85単語分割はKyTea v. 0.4.0、アライメントはGIZA++、翻訳はMoses。
2011-5-16KyTea/GIZA++/Moses 1.1Graham Neubig京都大学18.7020.30初期のベースラインシステム。単語分割はKyTea v. 0.3.0、アライメントはGIZA++、翻訳はMoses。

クローズ

日英
日付システム投稿者所属dev BLEUtest BLEU内容
2011-2-18Google翻訳Graham Neubig京都大学5.255.272011年2月18日のGoogle翻訳を利用した結果。
2011-2-18Excite翻訳Graham Neubig京都大学3.834.312011年2月18日のExcite翻訳を利用した結果。

英日
日付システム投稿者所属dev BLEUtest BLEU内容
2011-2-18Google翻訳Graham Neubig京都大学11.4311.532011年2月18日のGoogle翻訳を利用した結果。翻訳結果の再分割はKyTeaで。
2011-2-18Excite翻訳Graham Neubig京都大学6.407.252011年2月18日のExcite翻訳を利用した結果。翻訳結果の再分割はKyTeaで。

参考文献・引用

ここには、このタスクについての文献、このタスクを利用した研究成果の文献を発表します。

タスク

このタスクを論文で引用したい場合は以下の通りにしてください。

@misc{neubig11kftt,
	author = {Graham Neubig},
	title = {The {Kyoto} Free Translation Task},
	howpublished = {http://www.phontron.com/kftt},
	year = {2011}
}

研究

このタスクで研究を発表する場合、ご連絡ください。サイトに発表文献を掲載します。

バージョン歴

Mosesベースライン バージョン 1.4 (2013-5-11)

XMLから抽出される学習データに長さゼロの文を除外するパッチ。(パッチを送ってくださった木曽鉄男氏に感謝します)

KFTT lader バージョン 1.0 (2012-9-2)

laderで実装されたNeubig et al. (2012)の並べ替え手法を導入したシステム。

Mosesベースライン バージョン 1.3 (2012-4-9)

日英翻訳のBLEUスコアは以前、大文字小文字の区別あり、トークン化されていないテキストを利用していたが、これによりスコアが低すぎて句読点の僅かな変更に対して頑健ではないというフィードバックをいただきました。ですので、今は日英ともに、トークン化と小文字化されたテキストで評価することにしました。

Mosesベースライン バージョン 1.2 (2012-2-4)

KyTea 0.4.0以降との互換性を保つために更新しました。

Mosesベースライン バージョン 1.1 (2011-5-16)

Mosesベースラインのv. 1.0はKyTea 0.3.0以降で動かなかったのでモデルを更新しました(ご指摘いただいた藤田篤氏に感謝します)。

バージョン 1.0 (2011-2-18)

タスクの初期リリース。