R codes for user defined word library

在 R 语言环境下做中文文本分析,首先面临的是对中文文本分词,考虑到领域和语境的不同,为了确保文本分析的有效性和准确性,在分词前构建专业领域或特定语境下的专业词库十分必要。目前我们采取的方法和步骤在之前的博文中有叙述,用 python 编写的新词发现程序识别出潜在新词,并经人工校阅复核后,可以添加到用户自定义词库(即专业词库) user.txt 文件中。为了确保加入的词语不重复,最好在 R 语言中运行下列代码完成去重和最终词库文件的生成。

# 设置工作目录
setwd("D:/bookdown/DS-report/knyj")
# 推荐用 data.table 包读入文本文件
user.txt<-data.table::fread("user.txt")
# 读入的文件字符去重
user.txt<-unique(usser.txt)
# 另存到 user.txt 文件中
write.csv(user.txt,'user.txt', fileEncoding = "utf-8",row.names = FALSE,quote = FALSE)
# 完工后,清内存
rm(list=ls())

Avatar
Wu, Jun
Associate professor
Next
Previous