書評: 最近よんだテキストマイニング書籍(IPランドスケープ向上へ)

巷でIPランドスケープが騒がれていて、テキストマイニングの技術はつけておきたいところ。

従来技術では既存の特許分類でソートするだけでもかなり有益な分析はできるのですが、変化の激しいAIなどはそもそも「欲しい特許分類がなーい」ということも多々あり、テキストマイニングの技術が欲しくなるところでもあります。

ワードクラウドくらいならオンライン上でできたりしますが、機密性の観点や、もっと他のこともしてみたいとなると、自分でも原理を理解していく必要が出てきます。

そこで、テキストマイニング力向上のため、最近いくつか読んだのでメモ。

まず一冊目はこちら。

(1)Python・Colab・NLP入門　PythonとGoogle Colaboratoryではじめる自然言語処理

最近の日本語解析は、spaCy + GiNZAが多いようなのですが、ビギナー用だとMeCabで止まっていることも多いのが実情です。

細かいところに触れることなく、とりあえずspaCy + GiNZAの主要な機能のコードをザーッと流し、word2vecや、ワードクラウドやトピックモデリングまでサクッと流せるので、こんなものかという感覚をつかむにはいい本な気がしました。

2冊目はこちらです。

(2)実践Data Scienceシリーズ Pythonではじめるテキストアナリティクス入門

(1)で感触つかめたので、もう少し本腰でspaCy + GiNZAの日本語解析をしてみたい場合はこちらが良い気がしました。

最後の方で少しですが、Googleが検索エンジンに使っているといわれているBERTというアルゴリズムまでカバーしています。

3冊目はこちらです。

(3)実践自然言語処理 ―実世界NLPアプリケーション開発のベストプラクティス

もう少し詳しくいきたい場合は、オライリーに手を出すことになりそうです。

数式なく色んな使い方を広く浅く俯瞰できます。

英語での分析もしたいときはこちらも見ておくとよいかもです。

気になった特許の話題 -Patent Topics Explorer-