R codes for user defined word library

2019-01-01 1 min read

在 R 语言环境下做中文文本分析，首先面临的是对中文文本分词，考虑到领域和语境的不同，为了确保文本分析的有效性和准确性，在分词前构建专业领域或特定语境下的专业词库十分必要。目前我们采取的方法和步骤在之前的博文中有叙述，用 python 编写的新词发现程序识别出潜在新词，并经人工校阅复核后，可以添加到用户自定义词库（即专业词库） user.txt 文件中。为了确保加入的词语不重复，最好在 R 语言中运行下列代码完成去重和最终词库文件的生成。

# 设置工作目录
setwd("D:/bookdown/DS-report/knyj")
# 推荐用 data.table 包读入文本文件
user.txt<-data.table::fread("user.txt")
# 读入的文件字符去重
user.txt<-unique(usser.txt)
# 另存到 user.txt 文件中
write.csv(user.txt,'user.txt', fileEncoding = "utf-8",row.names = FALSE,quote = FALSE)
# 完工后，清内存
rm(list=ls())

R codes for user defined word library

Wu, Jun

Associate professor