近代科学社

書籍検索
ジャンル選択

情報

実践・自然言語処理シリーズ 第3巻

テキスト処理の要素技術

著者 山本 和英

著者紹介

高性能のテキスト処理を行うヒントが満載!

実践・自然言語処理シリーズの第3巻。本書は自然言語処理におけるテキスト処理の様々な要素技術を、実用的な手法に厳選してまとめている。前処理、類似度、重要度、検索、要約、フィルタリング処理といった基礎的な処理方法が網羅され、自然言語処理の各種ツールの使い方も丁寧に解説している。教科書だけでは不十分な、実践に足る情報をこの一冊を通して得ることができる。

電子書籍¥3,740 小売希望価格(税込)

紙の書籍¥3,740定価(税込)

基本情報

発売日 2021年3月10日
本体価格 3,400円
ページ数 192 ページ ※印刷物
サイズ B5 変形
ISBN 9784764906297
ジャンル 情報
タグ 自然言語処理
電子書籍形式 固定型

主要目次

第1章 基礎知識

1.1 集合の類似度
1.2 形態素解析器
 1.2.1 MeCab
 1.2.2 新語への対応
 1.2.3 JUMAN++
 1.2.4 Sudachi
 1.2.5 形態素解析器はどれを使うべきか?
1.3 日本語の品詞
 1.3.1 内容語と機能語
 1.3.2 活用
1.4 コーパスと単語統計
1.5 n-gram
 1.5.1 文頭と文末の n-gram
 1.5.2 活用と n-gram
 1.5.3 活用形態素
1.6 本章のまとめ

第2章 システム例:類似文書の提示システム

2.1 システム1:TF-IDFを用いたシステム
2.2 システム1の実行例
2.3 システム2:Doc2Vecを用いたシステム
2.4 システム2の出力例
2.5 本章のまとめ

第3章 前処理を行う

3.1 整形とクリーニング
 3.1.1 文字コードや改行コードの統一
 3.1.2 タグの除去
 3.1.3 文分割
 3.1.4 フォーマットの変換
3.2 単語分割
3.3 文字種の統一
3.4 表記ゆれ
3.5 前処理ツール
3.6 本章のまとめ

第4章 似た単語を探す

4.1 表記の類似度
 4.1.1 多重集合の類似度
4.2 編集距離
4.3 シソーラス
 4.3.1 日本語WordNet
 4.3.2 分類語彙表
 4.3.3 日本語語彙大系
4.4 単語間の意味距離
4.5 コーパスを用いた単語の類似度計算
4.6 単語分散表現
 4.6.1 単語分散表現の注意点
4.7 本章のまとめ
 4.7.1 ジップの法則

第5章 単語の重要度を計算する

5.1 はじめに
5.2 TF-IDF値
 5.2.1 TF値
 5.2.2 IDF値
 5.2.3 TF-IDF値
5.3 TF-IDFを使う上での注意点
 5.3.1 文書数が少ない/単一の状況
 5.3.2 文書長が短い状況
 5.3.3 TF-IDFはあくまでも近似である
5.4 TF-IDFの改良
5.5 自然言語処理的な改良
 5.5.1 単語の分割単位を変える
 5.5.2 表記ゆれ吸収・同義語の同一化
 5.5.3 品詞によって選別する

第6章 似た文を探す

6.1 文中の単語の一致による文類似度
 6.1.1 単語を不均一に取り扱う
6.2 単語 n-gram の一致
6.3 BLEU
6.4 ROUGE
6.5 構文的な一致
6.6 似たテキストを探し出すには?
 6.6.1 TF-IDFによる類似テキスト検索
 6.6.2 Doc2Vecによる類似テキスト検索
 6.6.3 その他の手法
6.7 本章のまとめ

第7章 テキストを短くする

7.1 自動要約の分類
 7.1.1 要約対象
 7.1.2 要約の用途
 7.1.3 要約手法
7.2 重要文抽出
 7.2.1 文の重要度
 7.2.2 位置情報を利用する
 7.2.3 手がかり語を利用する
7.3 文と文の関係性
7.4 文圧縮
 7.4.1 略称
 7.4.2 敬体→常体
 7.4.3 新幹線要約
 7.4.4 修飾語の削除
7.5 本章のまとめ

第8章 テキストを検索する

8.1 転置インデックス
8.2 不要語
8.3 クエリ拡張
 8.3.1 問題点
8.4 単語分割の長さと検索結果
8.5 単語 n-gram検索
 8.5.1 弱点と対策
8.6 文字 n-gram検索
8.7 検索逃れ
8.8 検索結果の順位付け
 8.8.1 検索結果テキストを用いる
 8.8.2 手法の違いによる順位付け
 8.8.3 外部情報を用いる
8.9 本章のまとめ

第9章 テキストをフィルタリングする

9.1 キーワードによるフィルタリング
 9.1.1 キーワード収集
 9.1.2 意図しない抽出
9.2 ナイーブベイズ分類器
 9.2.1 アンダーフロー
 9.2.2 ゼロ頻度問題とスムージング
 9.2.3 ナイーブベイズ分類器の特性
9.3 k近傍法
9.4 サポートベクトルマシン
9.5 本章のまとめ

第10章 システムを評価する

10.1 クローズドテストとオープンテスト
 10.1.1 クローズドテストは必要か?
 10.1.2 オープンテストの注意点
10.2 交差検証
 10.2.1 分割数とジャックナイフ法
 10.2.2 注意点
 10.2.3 過学習と交差検証
10.3 適合率と再現率
 10.3.1 F値と正解率
10.4 どの評価尺度を用いるべきか
10.5 マイクロ平均とマクロ平均

第11章 より高度な処理を行う

11.1 構文解析
 11.1.1 構文解析器
 11.1.2 構文片
11.2 意味解析
 11.2.1 意味解析は難しい
 11.2.2 語義曖昧性解消ツール
 11.2.3 簡易語義曖昧性解消手法 (1)
 11.2.4 簡易語義曖昧性解消手法 (2)
11.3 本章のまとめ

第12章 さらに勉強したい方は

12.1 書籍を読む
12.2 論文を読む
12.3 学会に参加
12.4 大学の研究室に入る
12.5 自然言語処理の勉強をしよう

目次をさらに表示する

著者紹介

山本和英(やまもと かずひで)
1989 年 長岡工業高等専門学校機械工学科卒業
1991 年 豊橋技術科学大学知識情報工学課程卒業
1996 年 豊橋技術科学大学大学院工学研究科博士後期課程システム情報工学専攻修了.博士(工学)
1996 年 株式会社エイ・ティ・アール音声翻訳通信研究所客員研究員
2000 年 株式会社エイ・ティ・アール音声言語通信研究所客員研究員
2001 年 株式会社国際電気通信基礎技術研究所音声言語コミュニケーション研究所客員研究員
2002 年 長岡技術科学大学電気電子情報工学専攻講師
2005 年 長岡技術科学大学電気電子情報工学専攻助教授
2007 年 長岡技術科学大学電気電子情報工学専攻准教授
2020 年 言語商会代表
2020 年 現在に至る
主要著書
『「日本語学」特集テーマ別ファイル(6)IT 関連』(共著,明治書院,2005 年)
『国会会議録を使った日本語研究』(共著,ひつじ書房,2008 年)
『挑戦こそが成功の鍵』(共著,近代科学社,2010 年)
『「やさしい日本語」は何を目指すか~多文化共生社会を実現するために~』(共著、ココ出版,2013 年)

著者紹介をさらに表示する