インプレスグループで理工学分野の専門書出版事業を手掛ける株式会社近代科学社は、2018年10月4日に、『形態素解析の理論と実装』(著者:工藤 拓)を発行いたしました。
第1章 形態素解析の概要
1.1 形態素解析
1.2 実践MeCab: インストールと実行
1.3 主な形態素解析・単語分割システム
1.3.1 JUMAN
1.3.2 ChaSen
1.3.3 MeCab
1.3.4 KyTea
1.3.5 Sudachi
1.3.6 ウェブサービスとしての形態素解析
1.3.7 ブラウザ上で動く単語分割
1.3.8 SentencePiece
1.4 まとめ
第2章 言語資源
2.1 辞書
2.1.1 自然言語処理システムにおける辞書
2.1.2 辞書を使うか使わないか
2.1.3 品詞
2.1.4 可能性に基づく品詞体系
2.1.5 活用
2.1.6 動的活用展開と静的活用展開
2.1.7 超短単位
2.2 コーパス
2.2.1 生コーパス
2.2.2 注釈付きコーパス
2.3 形態素解析のための辞書
2.3.1 JUMAN 辞書
2.3.2 ipadic
2.3.3 NAIST-jdic
2.3.4 UniDic
2.3.5 NEologd
2.4 形態素解析のための注釈付きコーパス
2.4.1 京都大学テキストコーパス・KNB/KWDLC コーパス
2.4.2 RWC コーパス
2.4.3 現代日本語書き言葉均衡コーパス (BCCWJ)
2.4.4 日本語話し言葉コーパス (CSJ)
2.5 辞書の選び方
2.5.1 最適な辞書は応用ごとに変わる
2.5.2 単語長
2.5.3 何の曖昧性を解消しようとしているのか?
2.6 まとめ
第3章 テキスト処理の基礎
3.1 文字コード
3.2 Unicode とUTF-8
3.3 UCS 正規化とCSI
3.4 UTF-8 によるUCS 正規化
3.5 文字種の判定
3.6 文字の正規化
3.7 波ダッシュ,全角チルダ問題
3.8 まとめ
第4章 辞書引きアルゴリズム
4.1 辞書引きの難しさ
4.2 擬似トライ
4.3 共通接頭辞検索とトライ
4.4 ダブル配列
4.4.1 ダブル配列による共通接頭辞検索
4.4.2 ダブル配列の圧縮
4.4.3 ダブル配列の構築
4.4.4 Darts‐clone を用いた辞書引きの具体例
4.5 メモリマップトファイル
4.6 辞書のみを用いた単語分割法: 最長一致法
4.7 まとめ
第5章 最小コスト法
5.1 ラティス
5.2 生起コストと連接コスト
5.3 ビタビアルゴリズム
5.4 最小コスト法の例: MeCab
5.5 コスト推定法
5.5.1 人手によるコスト設定.
5.5.2 隠れマルコフモデル
5.5.3 拡張隠れマルコフモデル
5.5.4 構造学習
5.5.5 構造学習の例: MeCab
5.5.6 パーセプトロンによる学習.
5.5.7 目的関数と最適化
5.5.8 構造化サポートベクトルマシン
5.5.9 条件付き確率場
5.5.10 パーセプトロンと条件付き確率場の関係
5.5.11 事前計算による高速化
5.5.12 正則化
5.6 選択的トライグラム
5.7 連語登録
5.8 高速化のための工夫
5.8.1 ゼロコピー
5.8.2 メモリプールによるノードの管理
5.8.3 連接表の実装
5.9 まとめ
第6章 点予測
6.1 点予測による単語分割
6.2 点予測による品詞推定
6.3 点予測の特徴
6.3.1 実装の容易さと頑健性
6.3.2 不完全な入力からの解析
6.3.3 言語資源の有効活用
6.3.4 単語長による影響
6.3.5 辞書の役割
6.3.6 分割の一貫性
6.4 構造学習による点予測の学習
6.5 まとめ
第7章 未知語処理
7.1 未知語.
7.2 解析時未知語処理
7.2.1 最小コスト法における解析時未知語処理
7.2.2 解析時未知語処理の例: MeCab
7.2.3 既知語から派生した未知語の自動認識
7.2.4 点予測における解析時未知語処理
7.2.5 未知語処理の学習
7.3 辞書拡充
7.4 新語のコスト推定
7.5 まとめ
第8章 評価
8.1 分割正解率
8.2 精度・再現率・F 値
8.3 品詞出力の評価
8.4 分割の一貫性
8.5 回帰評価
8.6 mecab‐system‐eval を用いた評価
8.7 まとめ
第9章 高度な解析
9.1 n‐best 解析
9.1.1 n‐best 解析の例: MeCab
9.1.2 最小コスト法におけるn‐best 解析
9.1.3 点予測法におけるn‐best 解析
9.2 ソフト分かち書き
9.2.1 ソフト分かち書きの例: MeCab
9.2.2 最小コスト法におけるソフト分かち書き
9.2.3 点予測法におけるソフト分かち書き
9.3 制約付き解析
9.3.1 制約付き解析の例: MeCab
9.3.2 最小コスト法における制約付き解析
9.3.3 点予測法における制約付き解析
9.4 部分注釈付きコーパスからの学習.
9.4.1 最小コスト法における部分注釈からの学習
9.4.2 点予測法における部分注釈からの学習
9.5 まとめ
付録
A.1 条件付き確率場の勾配の導出方法
A.2 logsumexp
コラム
コラム: 語 = 形態素
コラム: NKFC を文字列置換で実装できるか?
コラム: 言語非依存システム
コラム: オンライン学習とバッチ学習
コラム: 最大エントロピー法
コラム: 一貫性の重要性