by Graham NEUBIG (苗字 at gmail.com)
京都フリー翻訳タスク(KFTT)は、日英機械翻訳システムのための評価タスクです。タスクはフリー、簡単、再現性のある、進化型の機械翻訳タスクを目指して設立されました。
京都フリー翻訳タスクは4つの概念に基づいて設立しました。 具体的には「フリー」、「簡単」、「再現性」、「進化」というキーワードを重視しました。
京都フリー翻訳タスクは京都関連のWikipedia記事を対象とした翻訳タスクです。情報通信研究機構(NICT)により製作された「Wikipedia日英京都関連文書対訳コーパス」を利用させていただいています。データの特徴として以下のものがあります:
このデータを機械翻訳に利用しやすくするために、いくつかの加工を行いました。
データの整理が終わってから、データのサイズは以下の通りです(ver. 1.0):
記事数 | 文数 | 単語数(日) | 単語数(英) | |
学習 | 14126 | 440k | 12.0M | 11.5M |
学習(整理済み) | 14126 | 330k | 6.09M | 5.91M |
重み学習 | 15 | 1235 | 34.4k | 30.8k |
開発テスト | 15 | 1166 | 26.8k | 24.3k |
本テスト | 15 | 1160 | 28.5k | 26.7k |
京都フリー翻訳タスクで機械翻訳のベースラインシステムを作るために、3つのステップを行わなければなりません。まず、データをダウンロードしてから、ソフトウェアをインストールし、スクリプトを動かしてデータとベースラインシステムの作成を行います。データとスクリプトは以下のリンクで入手可能です:
現在のベースラインはKFTT Moses Baseline, v. 1.4とKFTT lader, v. 1.0です。前者は通常のMosesによるフレーズベース翻訳、後者は前並べ替え器laderを導入したものです。laderを使った方が高い精度が実現できるが、計算量を要します。
過去のバージョン:Baseline v. 1.3 Baseline v. 1.2, Baseline v. 1.1, Baseline v. 1.0
このデータはCreative Commons Attribution-Share-Alike License 3.0に基づいて再配布可能です。次は、ベースラインシステムの作成に利用するソフトをインストールします。
さらに、2つの環境変数を設定します:
以上のソフトがインストールし終わったら、KFTTの.tar.gzファイルを解凍し、process.shを実行します。また、以上のソフトを普段と違う場所にインストールしていれば、process.shの先頭にある変数を変更し、ソフトの場所を指定する必要があるかもしれません。データの抽出とベースラインシステムの学習は計算時間とメモリを多く費やします(それぞれ約20時間と数GB)ので、ご注意ください。
$ tar -xzf kfft-XXX.tar.gz $ cd kfft-XXX $ nohup ./process.sh &> process.log &
スクリプトの処理が終わったら、process.logの最後にベースラインシステムのBLEUスコアが表示され、本ページに載っているスコアに合っていることを確認してください。スクリプトの実行がうまくいかない場合はご連絡ください。
京都フリー翻訳タスクで研究を行う際はなるべくベースラインシステムを構築することをおすすめしますが、データのみを以下のリンクからダウンロードすることもできます:
Kyoto Free Translation Task (Data Only v. 1.0)
単語アライメントの精度評価や教師ありアライメント法の学習に利用可能な単語アライメントデータです。全てのアライメントは2名の作業者によって作成され、最後に一貫性チェックされたものです。データ自体は重み学習データの1235文となっています。
Kyoto Free Translation Task - 日英単語アライメントデータ
このタスクの目的はシステムの容易な開発・比較による、日英翻訳の精度向上です。このため、参加者が切磋琢磨し、実験結果を競い合う形を取ります。スコアは2つのトラックに分かれています:
現在では、BLEUスコアを評価尺度とします。v. 1.3から日英・英日ともに、小文字化とトークン化されたテキストで評価しています。(以前のバージョン英語を大文字あり、トークン化されていないテキストで評価していたので、これらのスコアはグレーで書いています)
日英 | ||||||
---|---|---|---|---|---|---|
日付 | システム | 投稿者 | 所属 | dev BLEU | test BLEU | 内容 |
2012-9-2 | KyTea/GIZA++/Moses/Lader 1.0 | Graham Neubig | NAIST | 16.93 | 19.35 | KyTea/GIZA++/Mosesとladerを使った前並べ替え |
2012-4-9 | KyTea/GIZA++/Moses 1.3/1.4 | Graham Neubig | NAIST | 15.41 | 17.68 | 単語分割はKyTea v. 0.4.1、アライメントはGIZA++、翻訳はMoses。 |
2012-2-4 | KyTea/GIZA++/Moses 1.2 | Graham Neubig | 京都大学 | 9.40 | 10.53 | 初期のベースラインシステム。単語分割はKyTea v. 0.4.0、アライメントはGIZA++、翻訳はMoses。 |
2011-5-16 | KyTea/GIZA++/Moses 1.1 | Graham Neubig | 京都大学 | 8.98 | 10.58 | 初期のベースラインシステム。単語分割はKyTea v. 0.3.0、アライメントはGIZA++、翻訳はMoses。 |
英日 | ||||||
---|---|---|---|---|---|---|
日付 | システム | 投稿者 | 所属 | dev BLEU | test BLEU | 内容 |
2012-9-2 | KyTea/GIZA++/Moses/Lader 1.0 | Graham Neubig | NAIST | 21.08 | 23.15 | KyTea/GIZA++/Mosesとladerを使った前並べ替え |
2012-2-4 | KyTea/GIZA++/Moses 1.3/1.4 | Graham Neubig | NAIST | 19.24 | 21.03 | 単語分割はKyTea v. 0.4.1、アライメントはGIZA++、翻訳はMoses。 |
2012-2-4 | KyTea/GIZA++/Moses 1.2 | Graham Neubig | 京都大学 | 19.00 | 20.85 | 単語分割はKyTea v. 0.4.0、アライメントはGIZA++、翻訳はMoses。 |
2011-5-16 | KyTea/GIZA++/Moses 1.1 | Graham Neubig | 京都大学 | 18.70 | 20.30 | 初期のベースラインシステム。単語分割はKyTea v. 0.3.0、アライメントはGIZA++、翻訳はMoses。 |
日英 | ||||||
---|---|---|---|---|---|---|
日付 | システム | 投稿者 | 所属 | dev BLEU | test BLEU | 内容 |
2011-2-18 | Google翻訳 | Graham Neubig | 京都大学 | 5.25 | 5.27 | 2011年2月18日のGoogle翻訳を利用した結果。 |
2011-2-18 | Excite翻訳 | Graham Neubig | 京都大学 | 3.83 | 4.31 | 2011年2月18日のExcite翻訳を利用した結果。 |
英日 | ||||||
---|---|---|---|---|---|---|
日付 | システム | 投稿者 | 所属 | dev BLEU | test BLEU | 内容 |
2011-2-18 | Google翻訳 | Graham Neubig | 京都大学 | 11.43 | 11.53 | 2011年2月18日のGoogle翻訳を利用した結果。翻訳結果の再分割はKyTeaで。 |
2011-2-18 | Excite翻訳 | Graham Neubig | 京都大学 | 6.40 | 7.25 | 2011年2月18日のExcite翻訳を利用した結果。翻訳結果の再分割はKyTeaで。 |
ここには、このタスクについての文献、このタスクを利用した研究成果の文献を発表します。
このタスクを論文で引用したい場合は以下の通りにしてください。
@misc{neubig11kftt, author = {Graham Neubig}, title = {The {Kyoto} Free Translation Task}, howpublished = {http://www.phontron.com/kftt}, year = {2011} }
このタスクで研究を発表する場合、ご連絡ください。サイトに発表文献を掲載します。
XMLから抽出される学習データに長さゼロの文を除外するパッチ。(パッチを送ってくださった木曽鉄男氏に感謝します)
laderで実装されたNeubig et al. (2012)の並べ替え手法を導入したシステム。
日英翻訳のBLEUスコアは以前、大文字小文字の区別あり、トークン化されていないテキストを利用していたが、これによりスコアが低すぎて句読点の僅かな変更に対して頑健ではないというフィードバックをいただきました。ですので、今は日英ともに、トークン化と小文字化されたテキストで評価することにしました。
KyTea 0.4.0以降との互換性を保つために更新しました。
Mosesベースラインのv. 1.0はKyTea 0.3.0以降で動かなかったのでモデルを更新しました(ご指摘いただいた藤田篤氏に感謝します)。
タスクの初期リリース。