日本語対訳データ

これは、日本語を対象とする機械翻訳システムの構築に利用できる言語資源のリストです。主に日英翻訳の資源を取り上げていますが、最後の方に多言語に対応したコーパスもいくつか取り上げています。もしこのリストに載っていないものがあれば、遠慮なく教えてください！また、日本語を含まない言語対のリストはほかのサイトでたくさんあります： 1 2 3。

日英

対訳コーパス

以下の資源は、対訳文からなるコーパスで、統計的機械翻訳システムの学習に利用できます。各項目は名前、リンク、文数、説明、研究・商用利用の可能性とおおよその金額などが入っています。主に10万文以上からなるコーパスを中心にリストアップしていますが、小さいものも一部載せています。

名前	文数	研究用	商用	説明
TAUS翻訳メモリ	~9.0M	見積もり		企業の翻訳メモリを元に作成されたデータ。コンピュータソフト・ハードのマニュアルが多い。
JParaCrawl	8.7M	無償	要相談	ウェブから収集された大規模コーパス。
Japanese-English Subtitle Corpus	3.2M	無償	可？	日本語と英語の字幕
NTCIR特許翻訳	3.0M	無償（条件あり）	不可	日本語と英語で書かれた特許から抽出された文。
ASPEC	3.0M	無償（条件あり）	不可	科学論文のAbstractから取った対訳データ。
BTEC	700k	不可		旅行対話関連の文。コーパスは過去にワークショップで使用されたことがあるが、現在は研究・商用ともに利用不可。
Kyoto Wiki (KFTT)	443k	無償	無償？	京都に関するWikipedia記事を人出で翻訳したデータ。
英辞郎例文	~420k	〜2000円/人	見積もり	英辞郎辞書に付いてくる例文。分野の特定があまりなく、幅広い分野で利用できると考えられる。
オープンソース	402k	無償	無償?	オープンソースソフトのマニュアルからなる対訳データ。
日英法令コーパス	260k	無償	無償?	日本の法律の英訳からなるコーパス。
JENAAD	150k	無償（要契約）	不可	新聞から自動的に獲得された日英対訳文（多少のノイズあり）。
田中コーパス	150k	無償		日本人の大学生が授業の一貫として集めた対訳文（多少のノイズあり）。
小説	107k	無償	無償	Project Gutenburgと青空文庫の小説の対訳を取ったデータ。
TED講演	100k	無償	問い合わせ	TED講演の字幕対訳データ。
ロイター	57k	無償	不可	ロイターニュースからの対訳文。
Japanese SemCor (データ)	15k	無償		WordNetの意味クラスが付与されたコーパス。SemCorと合わせて対訳データとして利用できます。
日英中基本文データ	5k	無償		日本語でよくある言い回しを英語と中国語に翻訳したデータ。

対訳辞書

単語やフレーズの対訳を格納した対訳辞書です。

名前	項目数	研究用	商用	説明
英辞郎	2.0M	〜2000円/人	見積もり	非常に多くの用語をカバーする英日対訳辞書。
Wikipediaリンク	~400k	無償	無償？	Wikipediaのページを結ぶリンクを元に、対訳辞書は構築可能。
EDICT	150k	無償		様々な分野をカバーする日英対訳辞書。ある分野に焦点を絞った辞書もいくつかある。

人手による単語対応付け

人出による単語対応付けは単語対応付けソフトの学習や評価に利用できます。

名前	文数	研究用	商用	説明
KFTT	1.2k	無償		京都に関するWikipedia記事の対応付けデータ。

日英以外

以下の資源は日本語と、英語以外の言語で利用できます。

対訳コーパス

名前	文数	研究用	商用	説明
ASPEC	672k	無償（条件あり）	不可	科学論文のAbstractから取った日中対訳データ。
TED講演	100k	無償	問い合わせ	TED講演の字幕対訳データ。33言語に対応。

対訳辞書

名前	項目数	研究用	商用	説明
Wikipediaリンク	~400k	無償	無償？	Wikipediaのページを結ぶリンクを元に、対訳辞書は構築可能。
JaLexBD	16k	無償		普通名詞を中心とする日仏翻訳辞書。