学校での講義
教科書
執筆に関わった教科書はいろいろあります:
機械翻訳 コロナ社、2014年 |
自然言語処理の基本と技術 翔泳社、2016年 |
岩波データサイエンス(統計的自然言語処理 ー ことばを扱う機械) 岩波書店、2016年 |
自然言語処理のためのニューラルネット入門:理論からコードへ
EMNLP 2016でChris Dyer氏とYoav Goldberg氏と一緒に行ったチュートリアルです。自然言語処理に関するアイデアを実際のコードでどう書き下すかに関する説明を、DyNetツールキットを例に説明しています。
- Part 1: ニューラルネット、リカレントネットなど
- Part 2: より複雑な構造を使ったRNN、木構造のニューラルネット、構造化学習
NLPプログラミングチュートリアル
このチュートリアル資料は毎年NAISTの自然言語処理プログラミング勉強会で発表するものです。 これを一通り実装すれば、言語処理の基本的なアルゴリズムがある程度分かるようになります。 ほとんどプログラミング経験を前提としていませんが、全てのチュートリアルは前のチュートリアルを終わらせたことが前提になっているので、順番に実装していくことをお勧めします。 githubから資料と演習データを一括ダウンロードできます。
- チュートリアル0: プログラミングの基礎
- チュートリアル1: 1-gram言語モデル
- チュートリアル2: n-gram言語モデル
- チュートリアル3: 単語分割
- チュートリアル4: 隠れマルコフモデルを使った品詞推定
- チュートリアル5: パーセプトロンアルゴリズムと文書分類
- チュートリアル6: 識別学習の発展版
- チュートリアル7: ニューラルネット
- チュートリアル8: リカレントニューラルネット
- チュートリアル9: トピックモデル
- チュートリアル10: 句構造解析
- チュートリアル11: 係り受け解析
- チュートリアル12: 構造化パーセプトロン
- チュートリアル13: 探索アルゴリズム
- ボーナス1: 日本語入力のためのかな漢字変換
機械翻訳に関する資料
ニューラルネットに基づく機械翻訳
ニューラルネットに基づく機械翻訳に関するチュートリアル(英語)で、精度の良いシステムを構築するのに必要な各要素について説明しています。 ほとんどの内容は2016年7月に書きましたが、これからも更新する予定なので、「フォロー」してみてください。
機械翻訳(@ALAGINセミナー)
2つ日間のALAGINセミナーで使った資料です。基本から最先端の技術まで紹介します。ややアルゴリズムよりの説明になっています。
スライド: [PDF] [ODP]
実装課題: [ZIP] (注意!約300MBあります)
フレーズベース統計的機械翻訳システムの構築法
このチュートリアルは(Kevin Duh氏と共著)はフレーズベース統計的機械翻訳システムの構築に必要なステップを説明する。特に、オープンソース機械翻訳ソフトであるMosesで利用される手法に着目します。各ステップに関して、どの処理が行われているか、どのオープンソースツールで実現できるか、最近の研究などを紹介しています。
ニューラルネットに基づく機械翻訳
ニューラルネットという機械学習法に基づいて翻訳を行う手法について、京都大学のメディアセンターセミナーで行った講演のスライドです:
Slides: [PDF]
論文執筆
- 国際会議論文の読み方・書き方:言語処理学会2015のチュートリアル資料
- 論文執筆スタイルガイド:論文(特に英語論文)を書き始める時によく間違えられる書き方
ノンパラメトリックベイズ入門
実装に着目したノンパラメトリックベイズ法を2部構成で紹介します。 主に自然言語処理をやっている人を対象に、ベイズ法の知識を前提にしていないです。
第1部:ベイジアンHMM
第1部は最尤推定、MAP推定、ベイズ法の違いを紹介し、ノンパラメトリックベイズ法の基本である確率過程、ギブスサンプリング、基底測度などを紹介します。 隠れマルコフモデル(HMM)を利用した品詞推定とベイジアンHMMのサンプリングを用いた実装を紹介します。
スライド: [PDF] [ODP]
実装課題: [.tar.gz] 品詞推定のデータと評価用スクリプトが入っています。READMEに詳細が書いています。
第2部:無限HMMと単語分割
第1部はパラメトリックモデルだったので、第2部はノンパラメトリックモデルを紹介します。 ノンパラメトリックベイズを用いた、品詞数が決まっていない品詞推定や教師なし単語分割などの実装方法について述べます。
スライド: [PDF] [ODP]
実装課題: [.tar.gz] 単語分割のデータと評価用スクリプトが入っています。READMEに詳細が書いています。
その他
- Lattice and Hypergraph MERT:誤り率最小化学習(MERT)をラティスや超グラフで利用できるように拡張した手法の紹介(英語)。
- 識別トリガーモデルでかな漢字変換の曖昧性を解消してみた