topic modeling packages in R and Python

文本的主题模型分析是文本语义分析中十分重要的内容,一般而言,主题模型有无先验主题不分层(如基础的LDA),有先验主题不分层(如结构化主题模型),无先验主题分层(如HLA),有先验主题分层等四类。

根据研究情境与研究对象,选择相应的主题模型开展研究,通常可以用R和Python中的算法包来实现,具体而言,R 里常用的 LDA、STM、Topicmodel 等包; Python 里常用的 gensim、pystm等。

pystm 实际是对 R 中的 stm 包的python版封装(2018年5月发布0.1版),见 https://pypi.org/project/pystm/,缺详细说明,不推荐使用。

gensim 是 python 里最强大的主题模型包,见 https://radimrehurek.com/gensim/

利用 gensim 中的 word2vec 模型来实现文本的分布式表征,见 <>

Avatar
Wu, Jun
Associate professor
Next
Previous