気になった特許の話題 -Patent Topics Explorer-

気になった特許等の知的財産の話題やニュースをピックアップしていくブログです! This blog is picking up intriguing IP topics including patents, trade secrets etc. !

 

 

書評: 最近よんだテキストマイニング書籍(IPランドスケープ向上へ)

 

巷でIPランドスケープが騒がれていて、テキストマイニングの技術はつけておきたいところ。

 

従来技術では既存の特許分類でソートするだけでもかなり有益な分析はできるのですが、変化の激しいAIなどはそもそも「欲しい特許分類がなーい」ということも多々あり、テキストマイニングの技術が欲しくなるところでもあります。

 

 

 

ワードクラウドくらいならオンライン上でできたりしますが、機密性の観点や、もっと他のこともしてみたいとなると、自分でも原理を理解していく必要が出てきます。

 

textmining.userlocal.jp

 

 

そこで、テキストマイニング力向上のため、最近いくつか読んだのでメモ。

 

 

 

 

まず一冊目はこちら。

 

(1)Python・Colab・NLP入門 PythonGoogle Colaboratoryではじめる自然言語処理

 

 

最近の日本語解析は、spaCy + GiNZAが多いようなのですが、ビギナー用だとMeCabで止まっていることも多いのが実情です。

 

細かいところに触れることなく、とりあえずspaCy + GiNZAの主要な機能のコードをザーッと流し、word2vecや、ワードクラウドやトピックモデリングまでサクッと流せるので、こんなものかという感覚をつかむにはいい本な気がしました。

 

 

 

 

2冊目はこちらです。

 

(2)実践Data Scienceシリーズ Pythonではじめるテキストアナリティクス入門

 

 

(1)で感触つかめたので、もう少し本腰でspaCy + GiNZAの日本語解析をしてみたい場合はこちらが良い気がしました。

 

最後の方で少しですが、Google検索エンジンに使っているといわれているBERTというアルゴリズムまでカバーしています。

 

 

 

 

3冊目はこちらです。

 

(3)実践 自然言語処理 ―実世界NLPアプリケーション開発のベストプラクティス

 

 

もう少し詳しくいきたい場合は、オライリーに手を出すことになりそうです。

数式なく色んな使い方を広く浅く俯瞰できます。

英語での分析もしたいときはこちらも見ておくとよいかもです。