情報抽出・固有表現抽出のための基礎知識

自然言語処理

AI等を駆使し、価値ある自然言語テキストを適切に抽出・活用する方法を詳しく解説

本シリーズ第4巻に位置付けられる書。社会の中で日々蓄積されていく電子データの多くは自然言語で書かれたテキストであり、情報社会の伝達手段や知識源として使われている。
これらの情報をデータベースとして整理・構造化し、活用するには、拡散した情報を適切に抽出し関係づける必要がある。このプロセスを（半）自動化する技術が「情報抽出」である。
その際、各分野固有の自然言語表現をいかに的確にとらえて関係づけるかが重要となる。
本書では、固有表現抽出技術と，固有表現間の関係を抽出する関係抽出技術に焦点を当て、機械学習などを駆使して「情報抽出器」を作るための解説を行う。

電子書籍¥3,300 小売希望価格（税込）

紙の書籍¥3,300定価（税込）

基本情報

発売日	2020年3月31日
本体価格	3,000円
ページ数	144 ページ　※印刷物
サイズ	B5 変形
ISBN	9784764906105
ジャンル	情報
タグ	自然言語処理
電子書籍形式	固定型

主要目次

第1章　情報抽出

第2章　情報抽出のためのコーパス作成
2.1 固有表現と関係の定義
2.2 アノテーションの実施
2.3 アノテーションの誤り・漏れの影響
2.4 アノテーションの品質改善
2.5 アノテーション実施時の注意点

第3章　固有表現抽出
3.1 辞書による固有表現抽出
3.2 ルールベースによる固有表現抽出
3.3 機械学習による固有表現抽出のための準備
3.3.1 クラスラベル定義
3.3.2 教師データからラベル付き単語列への変換
3.4 機械学習による単語分類による固有表現抽出
3.4.1 素性ベクトルの生成
3.4.2 分類器の学習
3.4.3 抽出
3.5 線形構造学習による固有表現抽出
3.5.1 学習事例の定義
3.5.2 素性ベクトルの生成
3.5.3 抽出・学習
3.6 セミマルコフモデルによる固有表現抽出
3.6.1 学習事例の定義
3.6.2 素性ベクトルへの変換
3.6.3 抽出・学習
3.7 リカレントニューラルネットワーク（RNN）による固有表現抽出
3.7.1 単語分散表現
3.7.2 LSTM
3.7.3 LSTMによる入力生成
3.7.4 LSTMによるエンコード
3.7.5 出力層の計算
3.7.6 学習

第4章　関係抽出
4.1 ルールベースによる関係抽出
4.2 関係クラスラベルの定義（機械学習用）
4.3 機械学習を用いた分類による関係抽出
4.3.1 素性ベクトルへの変換
4.3.2 学習
4.3.3 抽出
4.3.4 利点・欠点
4.4 構造学習による関係抽出
4.4.1 学習事例の定義
4.4.2 素性ベクトルへの変換
4.4.3 抽出・学習
4.5 RNN（単語列入力）による関係抽出
4.5.1 入力生成
4.5.2 LSTMによるエンコード
4.5.3 注意機構
4.5.4 出力層の計算
4.5.5 学習
4.6 RNN（最短依存構造パス）による関係抽出
4.6.1 入力生成
4.6.2 LSTMによるエンコード
4.6.3 出力層の計算
4.6.4 学習

第5章　評価方法
5.1 評価データ準備
5.2 固有表現抽出の評価方法
5.3 関係抽出の評価

付録
A.1 固有表現抽出・関係抽出のコーパス
A.1.1 固有表現抽出コーパス
A.1.2 関係抽出コーパス
A.2 固有表現抽出の補足
A.2.1 チャンク表現方法
A.2.2 ラベル列の逐次決定方法
A.2.3 タグ付きテキストからの変換
A.2.4 単語と境界が一致しない場合
A.2.5 単語の一部だけが固有表現となる場合
A.2.6 その他の方法
A.3 関係抽出の付録
A.3.1 固有表現制約の利用
A.3.2 その他の手法
A.4 複数タスクの学習
A.4.1 同時学習
A.4.2 マルチタスク学習
A.5 ラベルなしテキストの利用
A.5.1 半教師あり学習（固有表現）
A.5.2 半教師あり学習（関係抽出）
A.5.3 Distant Supervision
A.5.4 事前学習
A.6 固有表現抽出の実装に向けて
A.6.1 パーセプトロン学習の動作例
A.6.2 線形構造化パーセプトロンの実装例
A.6.3 セミマルコフパーセプトロンの実装例

目次をさらに表示する

著者紹介

岩倉友哉（いわくらともや）
2003 年　株式会社富士通研究所
2011 年　東京工業大学大学院総合理工学研究科物理情報システム専攻博士課程修了　博士（工学）
2015 年－株式会社富士通研究所主任研究員
2018 年－理化学研究所革新知能統合研究センター　ユニットリーダー

関根聡（せきねさとし）
1992 年　英国マンチェスター大学計算言語学部修士号
1998 年　ニューヨーク大学コンピューターサイエンス学部博士号
1998－2007 年ニューヨーク大学研究助教授
2000 年－ランゲージクラフト設立
2007 年－ニューヨーク大学研究准教授
2010－2014 年　楽天技術研究所ニューヨーク所長
2017 年－理化学研究所革新知能統合研究センター　チームリーダー
その他，松下電業産業株式会社（現パナソニック），ソニー CSL，マイクロソフト研究所などでの研究職を歴任．
技術顧問企業多数．

著者紹介をさらに表示する

読者サポート

『実践・自然言語処理シリーズ第4巻　情報抽出・固有表現抽出のための基礎知識』初版第1刷　正誤表PDF

2023.2.7 ダウンロード

近代科学社

書籍検索

ジャンル選択

数学のタグ一覧

情報のタグ一覧

工学のタグ一覧

その他のタグ一覧

実践・自然言語処理シリーズ第4巻

情報抽出・固有表現抽出のための基礎知識

電子書籍¥3,300 小売希望価格（税込）

紙の書籍¥3,300定価（税込）

基本情報

主要目次

著者紹介

読者サポート

実践・自然言語処理シリーズ 第4巻

情報抽出・固有表現抽出のための基礎知識

電子書籍¥3,300 小売希望価格（税込）

紙の書籍¥3,300定価（税込）

基本情報

主要目次

著者紹介

読者サポート

実践・自然言語処理シリーズ第4巻