Graham Neubig - チュートリアル資料

学校での講義

Fall 2025: Inference Algorithms for Language Modeling (CS11-663/763 @ CMU)
Spring 2025: Large Language Models and Applications (CS11-967 @ CMU)
Fall 2024: Advanced NLP (CS11-711 @ CMU)
Spring 2024: Advanced NLP (CS11-711 @ CMU)
Fall 2022: Advanced NLP (CS11-711 @ CMU)
Spring 2022: Multilingual NLP (CS11-737 @ CMU)
Fall 2021: Advanced NLP (CS11-711 @ CMU)
Spring 2021: Neural Networks for NLP (CS11-747 @ CMU)
Fall 2020: Multilingual NLP (CS11-737 @ CMU)
Spring 2020: Neural Networks for NLP (CS11-747 @ CMU)
Fall 2019: Machine Translation and Sequence-to-sequence Models (CS11-731 @ CMU)
Spring 2019: Neural Networks for NLP (CS11-747 @ CMU)
Fall 2018: Machine Translation and Sequence-to-sequence Models (CS11-731 @ CMU)
Spring 2018: Neural Networks for NLP (CS11-747 @ CMU)
Fall 2017: Neural Networks for NLP (CS11-747 @ CMU)
Spring 2017: Machine Translation and Sequence-to-sequence Models (CS11-731 @ CMU)
2015: Sequential Data Modeling (@NAIST; 2回)
2014: Sequential Data Modeling (@NAIST; 2回)
2014: 音声情報処理 (@関西大学; 2回)
2013: Advanced Research Seminar: Machine Translation
2013: 系列データモデリング (@NAIST; Structured Perceptron, Conditional Random Fields)
2013: 音声情報処理 (@関西大学; 2回)
2012: Intelligent System Design (@NAIST; Machine Translation)

教科書

執筆に関わった教科書はいろいろあります：


機械翻訳コロナ社、2014年	自然言語処理の基本と技術翔泳社、2016年	岩波データサイエンス(統計的自然言語処理ーことばを扱う機械) 岩波書店、2016年

自然言語処理のためのニューラルネット入門：理論からコードへ

EMNLP 2016でChris Dyer氏とYoav Goldberg氏と一緒に行ったチュートリアルです。自然言語処理に関するアイデアを実際のコードでどう書き下すかに関する説明を、DyNetツールキットを例に説明しています。

NLPプログラミングチュートリアル

このチュートリアル資料は毎年NAISTの自然言語処理プログラミング勉強会で発表するものです。これを一通り実装すれば、言語処理の基本的なアルゴリズムがある程度分かるようになります。ほとんどプログラミング経験を前提としていませんが、全てのチュートリアルは前のチュートリアルを終わらせたことが前提になっているので、順番に実装していくことをお勧めします。 githubから資料と演習データを一括ダウンロードできます。

チュートリアル0: プログラミングの基礎
チュートリアル1: 1-gram言語モデル
チュートリアル2: n-gram言語モデル
チュートリアル3: 単語分割
チュートリアル4: 隠れマルコフモデルを使った品詞推定
チュートリアル5: パーセプトロンアルゴリズムと文書分類
チュートリアル6: 識別学習の発展版
チュートリアル7: ニューラルネット
チュートリアル8: リカレントニューラルネット
チュートリアル9: トピックモデル
チュートリアル10: 句構造解析
チュートリアル11: 係り受け解析
チュートリアル12: 構造化パーセプトロン
チュートリアル13: 探索アルゴリズム
ボーナス1: 日本語入力のためのかな漢字変換

機械翻訳に関する資料

ニューラルネットに基づく機械翻訳

ニューラルネットに基づく機械翻訳に関するチュートリアル（英語）で、精度の良いシステムを構築するのに必要な各要素について説明しています。ほとんどの内容は2016年7月に書きましたが、これからも更新する予定なので、「フォロー」してみてください。

機械翻訳（@ALAGINセミナー)

2つ日間の ALAGINセミナーで使った資料です。基本から最先端の技術まで紹介します。ややアルゴリズムよりの説明になっています。

スライド： [PDF] [ODP]
実装課題： [ZIP] (注意！約300MBあります)

フレーズベース統計的機械翻訳システムの構築法

このチュートリアルは(Kevin Duh氏と共著)はフレーズベース統計的機械翻訳システムの構築に必要なステップを説明する。特に、オープンソース機械翻訳ソフトであるMosesで利用される手法に着目します。各ステップに関して、どの処理が行われているか、どのオープンソースツールで実現できるか、最近の研究などを紹介しています。

Slides: [PDF] [ODP]

ニューラルネットに基づく機械翻訳

ニューラルネットという機械学習法に基づいて翻訳を行う手法について、京都大学のメディアセンターセミナーで行った講演のスライドです：

Slides: [PDF]

論文執筆

国際会議論文の読み方・書き方：言語処理学会2015のチュートリアル資料
論文執筆スタイルガイド：論文（特に英語論文）を書き始める時によく間違えられる書き方

ノンパラメトリックベイズ入門

実装に着目したノンパラメトリックベイズ法を２部構成で紹介します。主に自然言語処理をやっている人を対象に、ベイズ法の知識を前提にしていないです。

第１部：ベイジアンHMM

第１部は最尤推定、MAP推定、ベイズ法の違いを紹介し、ノンパラメトリックベイズ法の基本である確率過程、ギブスサンプリング、基底測度などを紹介します。隠れマルコフモデル（HMM）を利用した品詞推定とベイジアンHMMのサンプリングを用いた実装を紹介します。

スライド： [PDF] [ODP]
実装課題： [.tar.gz] 品詞推定のデータと評価用スクリプトが入っています。READMEに詳細が書いています。

第２部：無限HMMと単語分割

第１部はパラメトリックモデルだったので、第２部はノンパラメトリックモデルを紹介します。ノンパラメトリックベイズを用いた、品詞数が決まっていない品詞推定や教師なし単語分割などの実装方法について述べます。

スライド： [PDF] [ODP]
実装課題： [.tar.gz] 単語分割のデータと評価用スクリプトが入っています。READMEに詳細が書いています。

その他

Lattice and Hypergraph MERT:誤り率最小化学習(MERT)をラティスや超グラフで利用できるように拡張した手法の紹介（英語）。
識別トリガーモデルでかな漢字変換の曖昧性を解消してみた