中科院分词系统 java_如何使用中科院分词系统(java版)

Java (1) 2024-05-14 17:23

Hi,大家好,我是编程小6,很荣幸遇见你,我把这些年在开发过程中遇到的问题或想法写出来,今天说一说中科院分词系统 java_如何使用中科院分词系统(java版),希望能够帮助你!!!。

做数据挖掘,分词是很重要、很基础的一个环节。单独实现一个分词系统并不是一件简单的事情,特别是对于中文而言。好在中科院已经有一套开源的分词系统NLPIR,我们可以直接拿来使用,很方便。下面我就记录一下基于java怎么使用这套系统。

首先看一下关于分词系统的简介

NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。

下载第一个“NLPIR/ICTCLAS2015分词系统下载包”即可,如下图

中科院分词系统 java_如何使用中科院分词系统(java版)_https://bianchenghao6.com/blog_Java_第1张

下载之后,解压缩。

进入子目录下的sample文件夹,你会看到有各种示例,我们要用的是java的示例,即“JnaTest_NLPIR”,如下图:

中科院分词系统 java_如何使用中科院分词系统(java版)_https://bianchenghao6.com/blog_Java_第2张

打开eclipse,import这个工程,过程就不再赘述了。

import之后,这时候你去跑,是会报错的。

中科院分词系统 java_如何使用中科院分词系统(java版)_https://bianchenghao6.com/blog_Java_第3张

其实,我们需要改几个地方。

1.回到刚才解压的下载包,进入目录下的lib文件夹,选择你机器对应的版本,比如我是win32的,我就复制win32这个文件夹,粘贴到eclipse工程和src同级目录下,此时工作目录应是如图所示:

今天的分享到此就结束了,感谢您的阅读,如果确实帮到您,您可以动动手指转发给其他人。

下一篇

已是最新文章

发表回复