phrase discovery package usage

用 python 开发的中文专业术语/短语识别程序已完毕,放在笔记本电脑 d:\website\phrasediscovery 目录下,要对文本进行术语/短语识别时,请按以下步骤操作:

  • 步骤1:用 Rstudio 打开目录下的 run.py 程序,修改:(1)第60行要分析的文件对象名称与地址,(2)第66行分析输出的文件对象名称与地址,保存退出;
  • 步骤2:在 anaconda 环境下执行命令 python d:\website\phrasediscovery\run.py,等程序运行完毕即可:(1)在 cmd 直接看到输出结果;(2)打开输出文件,也能看到结果。

修改后的程序运行效率不错,blockchainnews.txt 文件23.7M,程序运行输出耗时 147.5秒,合2.46分钟。不过内存耗用较大,约7个G左右。

Avatar
Wu, Jun
Associate professor
Next
Previous