Hi,大家好,我是编程小6,很荣幸遇见你,我把这些年在开发过程中遇到的问题或想法写出来,今天说一说知识图谱构建_知识图谱生成工具,希望能够帮助你!!!。
知识图谱的定义
知识图谱最先由Google提出,是用于增强其搜索引擎功能的知识库。本质上, 知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。现在的知识图谱已被用来泛指各种大规模的知识库。知识图谱中包含三种节点:
知识图谱的架构
知识图谱从逻辑上可以划分为2个层次:数据层和模式层。
在知识图谱的数据层,知识以事实(fact)为单位存储在图数据库。图数据中有“实体-关系-实体”或者“实体-属性-属性值”两种三元组,所有数据构成庞大的实体关系网络。
模式层在数据层之上,是知识图谱的核心。模式层存储的是经过提炼的知识,通常采用本体库来管理知识图谱的模式层。
知识图谱的构建
知识图谱的构建包含三个阶段,分别是:信息抽取、知识融合以及知识加工。
信息抽取的关键问题是如何从异构数据源中自动抽取信息得到候选知识单元。关键技术包括:实体抽取、关系抽取和属性抽取。
知识图谱有自顶向下和自底向上2种构建方法。
自顶向下是从百科类网站等高质量数据源中提取本体和模式信息,加入到知识库中。
自底向上是从公开采集的数据中提取出资源模式,选择其中置信度较高的新模式,经人工审核后,加入到知识库中。
获取数据
非结构化数据的获取:
本次数据使用了巨潮资讯网上上市公司的深圳主板上的上市公司的公告信息。从巨潮网上查看控制台中的network发现巨潮资讯网在公告信息这一模块是通过post请求加参数来发送request,因此只要构建一个和巨潮网相同的请求的参数列表即可。然后将返回的url链接存入csv文件,通过csv文件保存的pdf文件的链接地址,通过python的pdfminer库将pdf文件下载存储为一个txt文件。
结构化数据的获取:
巨潮资讯网中有结构化的公司的高管人员信息和公司概况信息。经过分析发现高管信息和公司概况信息网页是动态加载的,里面的内容都是通过js来控制iframe进行展现的,因此通过scrapy的response.body获取的网页的返回结果没有完美所需要的数据, 所以采用python的beautifulsoup库进行信息的爬取。从巨潮公司的上市公司的公司列表页面中获取公司的股票代码,然后通过公司的股票代码从公司信息页面中获取公司的高管信息和共公司概况。
今天的分享到此就结束了,感谢您的阅读,如果确实帮到您,您可以动动手指转发给其他人。
上一篇
已是最后文章
下一篇
已是最新文章