巷でIPランドスケープが騒がれていて、テキストマイニングの技術はつけておきたいところ。
従来技術では既存の特許分類でソートするだけでもかなり有益な分析はできるのですが、変化の激しいAIなどはそもそも「欲しい特許分類がなーい」ということも多々あり、テキストマイニングの技術が欲しくなるところでもあります。
ワードクラウドくらいならオンライン上でできたりしますが、機密性の観点や、もっと他のこともしてみたいとなると、自分でも原理を理解していく必要が出てきます。
そこで、テキストマイニング力向上のため、最近いくつか読んだのでメモ。
まず一冊目はこちら。
(1)Python・Colab・NLP入門 PythonとGoogle Colaboratoryではじめる自然言語処理
最近の日本語解析は、spaCy + GiNZAが多いようなのですが、ビギナー用だとMeCabで止まっていることも多いのが実情です。
細かいところに触れることなく、とりあえずspaCy + GiNZAの主要な機能のコードをザーッと流し、word2vecや、ワードクラウドやトピックモデリングまでサクッと流せるので、こんなものかという感覚をつかむにはいい本な気がしました。
2冊目はこちらです。
(2)実践Data Scienceシリーズ Pythonではじめるテキストアナリティクス入門
(1)で感触つかめたので、もう少し本腰でspaCy + GiNZAの日本語解析をしてみたい場合はこちらが良い気がしました。
最後の方で少しですが、Googleが検索エンジンに使っているといわれているBERTというアルゴリズムまでカバーしています。
3冊目はこちらです。
(3)実践 自然言語処理 ―実世界NLPアプリケーション開発のベストプラクティス
もう少し詳しくいきたい場合は、オライリーに手を出すことになりそうです。
数式なく色んな使い方を広く浅く俯瞰できます。
英語での分析もしたいときはこちらも見ておくとよいかもです。