用 python 开发的中文专业术语/短语识别程序已完毕,放在笔记本电脑 d:\website\phrasediscovery
目录下,要对文本进行术语/短语识别时,请按以下步骤操作:
- 步骤1:用
Rstudio
打开目录下的run.py
程序,修改:(1)第60行要分析的文件对象名称与地址,(2)第66行分析输出的文件对象名称与地址,保存退出; - 步骤2:在
anaconda
环境下执行命令python d:\website\phrasediscovery\run.py
,等程序运行完毕即可:(1)在cmd
直接看到输出结果;(2)打开输出文件,也能看到结果。
修改后的程序运行效率不错,blockchainnews.txt
文件23.7M,程序运行输出耗时 147.5秒,合2.46分钟。不过内存耗用较大,约7个G左右。