Hi,大家好,我是编程小6,很荣幸遇见你,我把这些年在开发过程中遇到的问题或想法写出来,今天说一说中科院分词系统 java_如何使用中科院分词系统(java版),希望能够帮助你!!!。
做数据挖掘,分词是很重要、很基础的一个环节。单独实现一个分词系统并不是一件简单的事情,特别是对于中文而言。好在中科院已经有一套开源的分词系统NLPIR,我们可以直接拿来使用,很方便。下面我就记录一下基于java怎么使用这套系统。
首先看一下关于分词系统的简介
NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。
下载第一个“NLPIR/ICTCLAS2015分词系统下载包”即可,如下图
下载之后,解压缩。
进入子目录下的sample文件夹,你会看到有各种示例,我们要用的是java的示例,即“JnaTest_NLPIR”,如下图:
打开eclipse,import这个工程,过程就不再赘述了。
import之后,这时候你去跑,是会报错的。
其实,我们需要改几个地方。
1.回到刚才解压的下载包,进入目录下的lib文件夹,选择你机器对应的版本,比如我是win32的,我就复制win32这个文件夹,粘贴到eclipse工程和src同级目录下,此时工作目录应是如图所示:
今天的分享到此就结束了,感谢您的阅读,如果确实帮到您,您可以动动手指转发给其他人。
下一篇
已是最新文章