日本語対訳データ

これは、日本語を対象とする機械翻訳システムの構築に利用できる言語資源のリストです。主に日英翻訳の資源を取り上げていますが、最後の方に多言語に対応したコーパスもいくつか取り上げています。もしこのリストに載っていないものがあれば、遠慮なく教えてください!また、日本語を含まない言語対のリストはほかのサイトでたくさんあります: 1 2 3

日英

対訳コーパス

以下の資源は、対訳文からなるコーパスで、統計的機械翻訳システムの学習に利用できます。各項目は名前、リンク、文数、説明、研究・商用利用の可能性とおおよその金額などが入っています。主に10万文以上からなるコーパスを中心にリストアップしていますが、小さいものも一部載せています。

名前文数研究用商用説明
TAUS翻訳メモリ ~9.0M見積もり 企業の翻訳メモリを元に作成されたデータ。コンピュータソフト・ハードのマニュアルが多い。
JParaCrawl 8.7M無償要相談 ウェブから収集された大規模コーパス。
Japanese-English Subtitle Corpus 3.2M無償可? 日本語と英語の字幕
NTCIR特許翻訳 3.0M無償(条件あり)不可 日本語と英語で書かれた特許から抽出された文。
ASPEC 3.0M無償(条件あり)不可 科学論文のAbstractから取った対訳データ。
BTEC 700k不可 旅行対話関連の文。コーパスは過去にワークショップで使用されたことがあるが、現在は研究・商用ともに利用不可。
Kyoto Wiki (KFTT) 443k無償無償? 京都に関するWikipedia記事を人出で翻訳したデータ。
英辞郎例文 ~420k〜2000円/人見積もり 英辞郎辞書に付いてくる例文。分野の特定があまりなく、幅広い分野で利用できると考えられる。
オープンソース 402k無償無償? オープンソースソフトのマニュアルからなる対訳データ。
日英法令コーパス 260k無償無償? 日本の法律の英訳からなるコーパス。
JENAAD 150k無償(要契約)不可 新聞から自動的に獲得された日英対訳文(多少のノイズあり)。
田中コーパス 150k無償 日本人の大学生が授業の一貫として集めた対訳文(多少のノイズあり)。
小説 107k無償無償 Project Gutenburgと青空文庫の小説の対訳を取ったデータ。
TED講演 100k無償問い合わせ TED講演の字幕対訳データ。
ロイター 57k無償不可 ロイターニュースからの対訳文。
Japanese SemCor (データ) 15k無償 WordNetの意味クラスが付与されたコーパス。SemCorと合わせて対訳データとして利用できます。
日英中基本文データ 5k無償 日本語でよくある言い回しを英語と中国語に翻訳したデータ。

対訳辞書

単語やフレーズの対訳を格納した対訳辞書です。

名前項目数研究用商用説明
英辞郎 2.0M〜2000円/人見積もり 非常に多くの用語をカバーする英日対訳辞書。
Wikipediaリンク ~400k無償無償? Wikipediaのページを結ぶリンクを元に、対訳辞書は構築可能。
EDICT 150k無償 様々な分野をカバーする日英対訳辞書。ある分野に焦点を絞った辞書もいくつかある。

人手による単語対応付け

人出による単語対応付けは単語対応付けソフトの学習や評価に利用できます。

名前文数研究用商用説明
KFTT 1.2k無償 京都に関するWikipedia記事の対応付けデータ。

日英以外

以下の資源は日本語と、英語以外の言語で利用できます。

対訳コーパス

名前文数研究用商用説明
ASPEC 672k無償(条件あり)不可 科学論文のAbstractから取った日中対訳データ。
TED講演 100k無償問い合わせ TED講演の字幕対訳データ。33言語に対応。

対訳辞書

名前項目数研究用商用説明
Wikipediaリンク ~400k無償無償? Wikipediaのページを結ぶリンクを元に、対訳辞書は構築可能。
JaLexBD 16k無償 普通名詞を中心とする日仏翻訳辞書。