情報
実践・自然言語処理シリーズ 第3巻
テキスト処理の要素技術
高性能のテキスト処理を行うヒントが満載!
実践・自然言語処理シリーズの第3巻。本書は自然言語処理におけるテキスト処理の様々な要素技術を、実用的な手法に厳選してまとめている。前処理、類似度、重要度、検索、要約、フィルタリング処理といった基礎的な処理方法が網羅され、自然言語処理の各種ツールの使い方も丁寧に解説している。教科書だけでは不十分な、実践に足る情報をこの一冊を通して得ることができる。
電子書籍¥3,740 小売希望価格(税込)
紙の書籍¥3,740定価(税込)
基本情報
| 発売日 | 2021年3月10日 |
|---|---|
| 本体価格 | 3,400円 |
| ページ数 | 192 ページ ※印刷物 |
| サイズ | B5 変形 |
| ISBN | 9784764906297 |
| ジャンル | 情報 |
| タグ | 自然言語処理 |
| 電子書籍形式 | 固定型 |
主要目次
第1章 基礎知識
1.1 集合の類似度
1.2 形態素解析器
1.2.1 MeCab
1.2.2 新語への対応
1.2.3 JUMAN++
1.2.4 Sudachi
1.2.5 形態素解析器はどれを使うべきか?
1.3 日本語の品詞
1.3.1 内容語と機能語
1.3.2 活用
1.4 コーパスと単語統計
1.5 n-gram
1.5.1 文頭と文末の n-gram
1.5.2 活用と n-gram
1.5.3 活用形態素
1.6 本章のまとめ
第2章 システム例:類似文書の提示システム
2.1 システム1:TF-IDFを用いたシステム
2.2 システム1の実行例
2.3 システム2:Doc2Vecを用いたシステム
2.4 システム2の出力例
2.5 本章のまとめ
第3章 前処理を行う
3.1 整形とクリーニング
3.1.1 文字コードや改行コードの統一
3.1.2 タグの除去
3.1.3 文分割
3.1.4 フォーマットの変換
3.2 単語分割
3.3 文字種の統一
3.4 表記ゆれ
3.5 前処理ツール
3.6 本章のまとめ
第4章 似た単語を探す
4.1 表記の類似度
4.1.1 多重集合の類似度
4.2 編集距離
4.3 シソーラス
4.3.1 日本語WordNet
4.3.2 分類語彙表
4.3.3 日本語語彙大系
4.4 単語間の意味距離
4.5 コーパスを用いた単語の類似度計算
4.6 単語分散表現
4.6.1 単語分散表現の注意点
4.7 本章のまとめ
4.7.1 ジップの法則
第5章 単語の重要度を計算する
5.1 はじめに
5.2 TF-IDF値
5.2.1 TF値
5.2.2 IDF値
5.2.3 TF-IDF値
5.3 TF-IDFを使う上での注意点
5.3.1 文書数が少ない/単一の状況
5.3.2 文書長が短い状況
5.3.3 TF-IDFはあくまでも近似である
5.4 TF-IDFの改良
5.5 自然言語処理的な改良
5.5.1 単語の分割単位を変える
5.5.2 表記ゆれ吸収・同義語の同一化
5.5.3 品詞によって選別する
第6章 似た文を探す
6.1 文中の単語の一致による文類似度
6.1.1 単語を不均一に取り扱う
6.2 単語 n-gram の一致
6.3 BLEU
6.4 ROUGE
6.5 構文的な一致
6.6 似たテキストを探し出すには?
6.6.1 TF-IDFによる類似テキスト検索
6.6.2 Doc2Vecによる類似テキスト検索
6.6.3 その他の手法
6.7 本章のまとめ
第7章 テキストを短くする
7.1 自動要約の分類
7.1.1 要約対象
7.1.2 要約の用途
7.1.3 要約手法
7.2 重要文抽出
7.2.1 文の重要度
7.2.2 位置情報を利用する
7.2.3 手がかり語を利用する
7.3 文と文の関係性
7.4 文圧縮
7.4.1 略称
7.4.2 敬体→常体
7.4.3 新幹線要約
7.4.4 修飾語の削除
7.5 本章のまとめ
第8章 テキストを検索する
8.1 転置インデックス
8.2 不要語
8.3 クエリ拡張
8.3.1 問題点
8.4 単語分割の長さと検索結果
8.5 単語 n-gram検索
8.5.1 弱点と対策
8.6 文字 n-gram検索
8.7 検索逃れ
8.8 検索結果の順位付け
8.8.1 検索結果テキストを用いる
8.8.2 手法の違いによる順位付け
8.8.3 外部情報を用いる
8.9 本章のまとめ
第9章 テキストをフィルタリングする
9.1 キーワードによるフィルタリング
9.1.1 キーワード収集
9.1.2 意図しない抽出
9.2 ナイーブベイズ分類器
9.2.1 アンダーフロー
9.2.2 ゼロ頻度問題とスムージング
9.2.3 ナイーブベイズ分類器の特性
9.3 k近傍法
9.4 サポートベクトルマシン
9.5 本章のまとめ
第10章 システムを評価する
10.1 クローズドテストとオープンテスト
10.1.1 クローズドテストは必要か?
10.1.2 オープンテストの注意点
10.2 交差検証
10.2.1 分割数とジャックナイフ法
10.2.2 注意点
10.2.3 過学習と交差検証
10.3 適合率と再現率
10.3.1 F値と正解率
10.4 どの評価尺度を用いるべきか
10.5 マイクロ平均とマクロ平均
第11章 より高度な処理を行う
11.1 構文解析
11.1.1 構文解析器
11.1.2 構文片
11.2 意味解析
11.2.1 意味解析は難しい
11.2.2 語義曖昧性解消ツール
11.2.3 簡易語義曖昧性解消手法 (1)
11.2.4 簡易語義曖昧性解消手法 (2)
11.3 本章のまとめ
第12章 さらに勉強したい方は
12.1 書籍を読む
12.2 論文を読む
12.3 学会に参加
12.4 大学の研究室に入る
12.5 自然言語処理の勉強をしよう
1.1 集合の類似度
1.2 形態素解析器
1.2.1 MeCab
1.2.2 新語への対応
1.2.3 JUMAN++
1.2.4 Sudachi
1.2.5 形態素解析器はどれを使うべきか?
1.3 日本語の品詞
1.3.1 内容語と機能語
1.3.2 活用
1.4 コーパスと単語統計
1.5 n-gram
1.5.1 文頭と文末の n-gram
1.5.2 活用と n-gram
1.5.3 活用形態素
1.6 本章のまとめ
第2章 システム例:類似文書の提示システム
2.1 システム1:TF-IDFを用いたシステム
2.2 システム1の実行例
2.3 システム2:Doc2Vecを用いたシステム
2.4 システム2の出力例
2.5 本章のまとめ
第3章 前処理を行う
3.1 整形とクリーニング
3.1.1 文字コードや改行コードの統一
3.1.2 タグの除去
3.1.3 文分割
3.1.4 フォーマットの変換
3.2 単語分割
3.3 文字種の統一
3.4 表記ゆれ
3.5 前処理ツール
3.6 本章のまとめ
第4章 似た単語を探す
4.1 表記の類似度
4.1.1 多重集合の類似度
4.2 編集距離
4.3 シソーラス
4.3.1 日本語WordNet
4.3.2 分類語彙表
4.3.3 日本語語彙大系
4.4 単語間の意味距離
4.5 コーパスを用いた単語の類似度計算
4.6 単語分散表現
4.6.1 単語分散表現の注意点
4.7 本章のまとめ
4.7.1 ジップの法則
第5章 単語の重要度を計算する
5.1 はじめに
5.2 TF-IDF値
5.2.1 TF値
5.2.2 IDF値
5.2.3 TF-IDF値
5.3 TF-IDFを使う上での注意点
5.3.1 文書数が少ない/単一の状況
5.3.2 文書長が短い状況
5.3.3 TF-IDFはあくまでも近似である
5.4 TF-IDFの改良
5.5 自然言語処理的な改良
5.5.1 単語の分割単位を変える
5.5.2 表記ゆれ吸収・同義語の同一化
5.5.3 品詞によって選別する
第6章 似た文を探す
6.1 文中の単語の一致による文類似度
6.1.1 単語を不均一に取り扱う
6.2 単語 n-gram の一致
6.3 BLEU
6.4 ROUGE
6.5 構文的な一致
6.6 似たテキストを探し出すには?
6.6.1 TF-IDFによる類似テキスト検索
6.6.2 Doc2Vecによる類似テキスト検索
6.6.3 その他の手法
6.7 本章のまとめ
第7章 テキストを短くする
7.1 自動要約の分類
7.1.1 要約対象
7.1.2 要約の用途
7.1.3 要約手法
7.2 重要文抽出
7.2.1 文の重要度
7.2.2 位置情報を利用する
7.2.3 手がかり語を利用する
7.3 文と文の関係性
7.4 文圧縮
7.4.1 略称
7.4.2 敬体→常体
7.4.3 新幹線要約
7.4.4 修飾語の削除
7.5 本章のまとめ
第8章 テキストを検索する
8.1 転置インデックス
8.2 不要語
8.3 クエリ拡張
8.3.1 問題点
8.4 単語分割の長さと検索結果
8.5 単語 n-gram検索
8.5.1 弱点と対策
8.6 文字 n-gram検索
8.7 検索逃れ
8.8 検索結果の順位付け
8.8.1 検索結果テキストを用いる
8.8.2 手法の違いによる順位付け
8.8.3 外部情報を用いる
8.9 本章のまとめ
第9章 テキストをフィルタリングする
9.1 キーワードによるフィルタリング
9.1.1 キーワード収集
9.1.2 意図しない抽出
9.2 ナイーブベイズ分類器
9.2.1 アンダーフロー
9.2.2 ゼロ頻度問題とスムージング
9.2.3 ナイーブベイズ分類器の特性
9.3 k近傍法
9.4 サポートベクトルマシン
9.5 本章のまとめ
第10章 システムを評価する
10.1 クローズドテストとオープンテスト
10.1.1 クローズドテストは必要か?
10.1.2 オープンテストの注意点
10.2 交差検証
10.2.1 分割数とジャックナイフ法
10.2.2 注意点
10.2.3 過学習と交差検証
10.3 適合率と再現率
10.3.1 F値と正解率
10.4 どの評価尺度を用いるべきか
10.5 マイクロ平均とマクロ平均
第11章 より高度な処理を行う
11.1 構文解析
11.1.1 構文解析器
11.1.2 構文片
11.2 意味解析
11.2.1 意味解析は難しい
11.2.2 語義曖昧性解消ツール
11.2.3 簡易語義曖昧性解消手法 (1)
11.2.4 簡易語義曖昧性解消手法 (2)
11.3 本章のまとめ
第12章 さらに勉強したい方は
12.1 書籍を読む
12.2 論文を読む
12.3 学会に参加
12.4 大学の研究室に入る
12.5 自然言語処理の勉強をしよう