情報
実践・自然言語処理シリーズ 第2巻
形態素解析の理論と実装
あの工藤 拓が具体的に解説 !!
本書は,汎用形態素解析システムMeCabを開発した著者が、言語において意味を成す最小の要素である「形態素」の解析方法について,技術者向けにその理論や実装方法を網羅的,体系的に解説する.実装や高速化なども扱う点がユニークであるが、辞書やコーパスなどの言語資源の構築・利用といった形態素解析では外せないテーマもきちんと解説している.
本書を読めば,解析ツールを「ブラックボックス」として使っている人も中身を理解したうえで拡張・改良できる道筋ができ,ひいては独自の辞書の作成を目指せるようになる.C++11を使った具体的な実装方法も掲載.AI・自然言語処理関係の技術者,研究者には必携の書である.
電子書籍¥3,850 小売希望価格(税込)
紙の書籍¥3,850定価(税込)
基本情報
発売日 | 2018年10月4日 |
---|---|
本体価格 | 3,500円 |
ページ数 | 204 ページ ※印刷物 |
サイズ | B5 変形 |
ISBN | 9784764905771 |
ジャンル | 情報 |
タグ | 自然言語処理 |
電子書籍形式 | 固定型 |
主要目次
まえがき
第1章 形態素解析の概要
1.1 形態素解析
1.2 実践 MeCab: インストールと実行
1.3 主な形態素解析・単語分割システム
1.4 まとめ
第2章 言語資源
2.1 辞書
2.2 コーパス
2.3 形態素解析のための辞書
2.4 形態素解析のための注釈付きコーパス
2.5 辞書の選び方
2.6 まとめ
第3章 テキスト処理の基礎
3.1 文字コード
3.2 Unicode と UTF-8
3.3 UCS 正規化とCSI
3.4 UTF-8による UCS 正規化
3.5 文字種の判定
3.6 文字の正規化
3.7 波ダッシュ、全角チルダ問題
3.8 まとめ
第4章 辞書引きアルゴリズム
4.1 辞書引きの難しさ
4.2 擬似トライ
4.3 共通接頭辞検索とトライ
4.4 ダブル配列
4.5 メモリマップトファイル
4.6 辞書のみを用いた単語分割法:最長一致法
4.7 まとめ
第5章 最小コスト法
5.1 ラティス
5.2 生起コストと連接コスト
5.3 ビタビアルゴリズム
5.4 最小コスト法の例: MeCab
5.5 コスト推定法5.6 選択的トライグラム
5.7 連語登録
5.8 高速化のための工夫
5.9 まとめ
第6章 点予測
6.1 点予測による単語分割
6.2 点予測による品詞推定
6.3 点予測の特徴
6.4 構造学習による点予測の学習
6.5 まとめ
第7章 未知語処理
7.1 未知語
7.2 解析時未知語処理
7.3 辞書拡充
7.4 新語のコスト推定
7.5 まとめ
第8章 評価
8.1 分割正解率
8.2 精度・再現率・F値
8.3 品詞出力の評価
8.4 分割の一貫性
8.5 回帰評価
8.6 mecab-system-eval を用いた評価
8.7 まとめ
第9章 高度な解析
9.1 n-best 解析
9.2 ソフト分かち書き
9.3 制約付き解析
9.4 部分注釈付きコーパスからの学習
9.5 まとめ
付録
A.1 条件付き確率場の勾配の導出方法
A.2 logsumexp
参考文献
索引
第1章 形態素解析の概要
1.1 形態素解析
1.2 実践 MeCab: インストールと実行
1.3 主な形態素解析・単語分割システム
1.4 まとめ
第2章 言語資源
2.1 辞書
2.2 コーパス
2.3 形態素解析のための辞書
2.4 形態素解析のための注釈付きコーパス
2.5 辞書の選び方
2.6 まとめ
第3章 テキスト処理の基礎
3.1 文字コード
3.2 Unicode と UTF-8
3.3 UCS 正規化とCSI
3.4 UTF-8による UCS 正規化
3.5 文字種の判定
3.6 文字の正規化
3.7 波ダッシュ、全角チルダ問題
3.8 まとめ
第4章 辞書引きアルゴリズム
4.1 辞書引きの難しさ
4.2 擬似トライ
4.3 共通接頭辞検索とトライ
4.4 ダブル配列
4.5 メモリマップトファイル
4.6 辞書のみを用いた単語分割法:最長一致法
4.7 まとめ
第5章 最小コスト法
5.1 ラティス
5.2 生起コストと連接コスト
5.3 ビタビアルゴリズム
5.4 最小コスト法の例: MeCab
5.5 コスト推定法5.6 選択的トライグラム
5.7 連語登録
5.8 高速化のための工夫
5.9 まとめ
第6章 点予測
6.1 点予測による単語分割
6.2 点予測による品詞推定
6.3 点予測の特徴
6.4 構造学習による点予測の学習
6.5 まとめ
第7章 未知語処理
7.1 未知語
7.2 解析時未知語処理
7.3 辞書拡充
7.4 新語のコスト推定
7.5 まとめ
第8章 評価
8.1 分割正解率
8.2 精度・再現率・F値
8.3 品詞出力の評価
8.4 分割の一貫性
8.5 回帰評価
8.6 mecab-system-eval を用いた評価
8.7 まとめ
第9章 高度な解析
9.1 n-best 解析
9.2 ソフト分かち書き
9.3 制約付き解析
9.4 部分注釈付きコーパスからの学習
9.5 まとめ
付録
A.1 条件付き確率場の勾配の導出方法
A.2 logsumexp
参考文献
索引