情報
実践・自然言語処理シリーズ 第4巻
情報抽出・固有表現抽出のための基礎知識
AI等を駆使し、価値ある自然言語テキストを適切に抽出・活用する方法を詳しく解説
本シリーズ第4巻に位置付けられる書。社会の中で日々蓄積されていく電子データの多くは自然言語で書かれたテキストであり、情報社会の伝達手段や知識源として使われている。
これらの情報をデータベースとして整理・構造化し、活用するには、拡散した情報を適切に抽出し関係づける必要がある。このプロセスを(半)自動化する技術が「情報抽出」である。
その際、各分野固有の自然言語表現をいかに的確にとらえて関係づけるかが重要となる。
本書では、固有表現抽出技術と,固有表現間の関係を抽出する関係抽出技術に焦点を当て、機械学習などを駆使して「情報抽出器」を作るための解説を行う。
電子書籍¥3,300 小売希望価格(税込)
紙の書籍¥3,300定価(税込)
基本情報
| 発売日 | 2020年3月31日 |
|---|---|
| 本体価格 | 3,000円 |
| ページ数 | 144 ページ ※印刷物 |
| サイズ | B5 変形 |
| ISBN | 9784764906105 |
| ジャンル | 情報 |
| タグ | 自然言語処理 |
| 電子書籍形式 | 固定型 |
主要目次
第1章 情報抽出
第2章 情報抽出のためのコーパス作成
2.1 固有表現と関係の定義
2.2 アノテーションの実施
2.3 アノテーションの誤り・漏れの影響
2.4 アノテーションの品質改善
2.5 アノテーション実施時の注意点
第3章 固有表現抽出
3.1 辞書による固有表現抽出
3.2 ルールベースによる固有表現抽出
3.3 機械学習による固有表現抽出のための準備
3.3.1 クラスラベル定義
3.3.2 教師データからラベル付き単語列への変換
3.4 機械学習による単語分類による固有表現抽出
3.4.1 素性ベクトルの生成
3.4.2 分類器の学習
3.4.3 抽出
3.5 線形構造学習による固有表現抽出
3.5.1 学習事例の定義
3.5.2 素性ベクトルの生成
3.5.3 抽出・学習
3.6 セミマルコフモデルによる固有表現抽出
3.6.1 学習事例の定義
3.6.2 素性ベクトルへの変換
3.6.3 抽出・学習
3.7 リカレントニューラルネットワーク(RNN)による固有表現抽出
3.7.1 単語分散表現
3.7.2 LSTM
3.7.3 LSTMによる入力生成
3.7.4 LSTMによるエンコード
3.7.5 出力層の計算
3.7.6 学習
第4章 関係抽出
4.1 ルールベースによる関係抽出
4.2 関係クラスラベルの定義(機械学習用)
4.3 機械学習を用いた分類による関係抽出
4.3.1 素性ベクトルへの変換
4.3.2 学習
4.3.3 抽出
4.3.4 利点・欠点
4.4 構造学習による関係抽出
4.4.1 学習事例の定義
4.4.2 素性ベクトルへの変換
4.4.3 抽出・学習
4.5 RNN(単語列入力)による関係抽出
4.5.1 入力生成
4.5.2 LSTMによるエンコード
4.5.3 注意機構
4.5.4 出力層の計算
4.5.5 学習
4.6 RNN(最短依存構造パス)による関係抽出
4.6.1 入力生成
4.6.2 LSTMによるエンコード
4.6.3 出力層の計算
4.6.4 学習
第5章 評価方法
5.1 評価データ準備
5.2 固有表現抽出の評価方法
5.3 関係抽出の評価
付録
A.1 固有表現抽出・関係抽出のコーパス
A.1.1 固有表現抽出コーパス
A.1.2 関係抽出コーパス
A.2 固有表現抽出の補足
A.2.1 チャンク表現方法
A.2.2 ラベル列の逐次決定方法
A.2.3 タグ付きテキストからの変換
A.2.4 単語と境界が一致しない場合
A.2.5 単語の一部だけが固有表現となる場合
A.2.6 その他の方法
A.3 関係抽出の付録
A.3.1 固有表現制約の利用
A.3.2 その他の手法
A.4 複数タスクの学習
A.4.1 同時学習
A.4.2 マルチタスク学習
A.5 ラベルなしテキストの利用
A.5.1 半教師あり学習(固有表現)
A.5.2 半教師あり学習(関係抽出)
A.5.3 Distant Supervision
A.5.4 事前学習
A.6 固有表現抽出の実装に向けて
A.6.1 パーセプトロン学習の動作例
A.6.2 線形構造化パーセプトロンの実装例
A.6.3 セミマルコフパーセプトロンの実装例
第2章 情報抽出のためのコーパス作成
2.1 固有表現と関係の定義
2.2 アノテーションの実施
2.3 アノテーションの誤り・漏れの影響
2.4 アノテーションの品質改善
2.5 アノテーション実施時の注意点
第3章 固有表現抽出
3.1 辞書による固有表現抽出
3.2 ルールベースによる固有表現抽出
3.3 機械学習による固有表現抽出のための準備
3.3.1 クラスラベル定義
3.3.2 教師データからラベル付き単語列への変換
3.4 機械学習による単語分類による固有表現抽出
3.4.1 素性ベクトルの生成
3.4.2 分類器の学習
3.4.3 抽出
3.5 線形構造学習による固有表現抽出
3.5.1 学習事例の定義
3.5.2 素性ベクトルの生成
3.5.3 抽出・学習
3.6 セミマルコフモデルによる固有表現抽出
3.6.1 学習事例の定義
3.6.2 素性ベクトルへの変換
3.6.3 抽出・学習
3.7 リカレントニューラルネットワーク(RNN)による固有表現抽出
3.7.1 単語分散表現
3.7.2 LSTM
3.7.3 LSTMによる入力生成
3.7.4 LSTMによるエンコード
3.7.5 出力層の計算
3.7.6 学習
第4章 関係抽出
4.1 ルールベースによる関係抽出
4.2 関係クラスラベルの定義(機械学習用)
4.3 機械学習を用いた分類による関係抽出
4.3.1 素性ベクトルへの変換
4.3.2 学習
4.3.3 抽出
4.3.4 利点・欠点
4.4 構造学習による関係抽出
4.4.1 学習事例の定義
4.4.2 素性ベクトルへの変換
4.4.3 抽出・学習
4.5 RNN(単語列入力)による関係抽出
4.5.1 入力生成
4.5.2 LSTMによるエンコード
4.5.3 注意機構
4.5.4 出力層の計算
4.5.5 学習
4.6 RNN(最短依存構造パス)による関係抽出
4.6.1 入力生成
4.6.2 LSTMによるエンコード
4.6.3 出力層の計算
4.6.4 学習
第5章 評価方法
5.1 評価データ準備
5.2 固有表現抽出の評価方法
5.3 関係抽出の評価
付録
A.1 固有表現抽出・関係抽出のコーパス
A.1.1 固有表現抽出コーパス
A.1.2 関係抽出コーパス
A.2 固有表現抽出の補足
A.2.1 チャンク表現方法
A.2.2 ラベル列の逐次決定方法
A.2.3 タグ付きテキストからの変換
A.2.4 単語と境界が一致しない場合
A.2.5 単語の一部だけが固有表現となる場合
A.2.6 その他の方法
A.3 関係抽出の付録
A.3.1 固有表現制約の利用
A.3.2 その他の手法
A.4 複数タスクの学習
A.4.1 同時学習
A.4.2 マルチタスク学習
A.5 ラベルなしテキストの利用
A.5.1 半教師あり学習(固有表現)
A.5.2 半教師あり学習(関係抽出)
A.5.3 Distant Supervision
A.5.4 事前学習
A.6 固有表現抽出の実装に向けて
A.6.1 パーセプトロン学習の動作例
A.6.2 線形構造化パーセプトロンの実装例
A.6.3 セミマルコフパーセプトロンの実装例