IPランドスケープを行い特許分析を行おうとしたときに、最近はテキストマイニング(自然言語解析)をしてビジュアライゼーションする例が増えてきています
その際には自然言語解析の理解が必要となってきますが、本書はPythonの基礎から自然言語解析の基礎をカバーしています。
単語同士の類似度の調べ方や、最近よく見るワードクラウドの実装などのカバーしているようです。
自然言語処理を理解していると、最近のAIでよく聞くトランスフォーマーといった最新技術の理解にもつながるので良いかと思います。
【目次】
第1章 ことはじめ
1.1 Python豆知識
1.2 Google Colaboratoryを開いてみる
1.3 インポートする:さまざまな機能はモジュールとして用意されている
1.4 ノートブックということ
1.5 インタプリタによるプログラムの実行
第2章 文法:基礎編
2.1 四則演算、変数、代入文、式、関数呼び出し、コメント
2.2 モジュール、import、モジュールにある関数の呼び出し
2.3 文字列
2.4 基本的な入出力
2.5 リストと配列、array、ndarray
2.6 条件式と判断分岐
2.7 for文による回数指定の繰り返し
2.8 while文による条件を満たす間の繰り返し
2.9 繰り返しを制御するbreak、continue、elseと多重ループ
2.10 関数を定義する
2.11 辞書型
2.12 リスト内包表記
2.13 Eval/Exec:切れ味鋭い万能関数
第3章 Google Colabに親しむ
3.1 Colabノートブックの利用
3.2 Colabでのコマンディング
第4章 モジュールに親しむ
4.1 NumPy
4.2 Pandas
4.3 グラフ表示にmatplotlibのpyplotを使う
4.4 Gensim
4.5 データセットの入手とNLTK
4.6 Scikit-learn
第5章 データファイルの読み書き
5.1 文字コードと日本語テキストデータの扱い
5.2 ファイルの読み込み
5.3 ファイルの書き込み
第6章 自然言語処理(NLP)する
6.1 NLPに便利なPythonの構文
6.2 spaCyでテキスト解析
6.3 GiNZAで、日本語テキストの形態素解析
6.4 spaCyでコサイン類似度を調べる
6.5 GiNZAで「幸福の王子」テキストの分かち書き化
第7章 WordCloudで直観を可視化
7.1 WordCloudの準備
7.2 WordCloudを実行し、画像を生成する
7.3 WordCloudに任意形を与える
第8章 トピックモデリング
8.1 LDAに取り組む
8.2 日本語テキストに対するLDAモデリング
8.3 ロイターデータセットの入門的トピックモデリング
8.4 Word2vecでトピック分析
8.5 この先の課題から
|