【知识图谱学习笔记】B站课程-p1-p4环境和设计基础

B站地址:https://www.bilibili.com/video/av70702610
侵权请联系删除

一、开发环境部署

1.1 软件包

【知识图谱学习笔记】B站课程-p1-p4环境和设计基础
Py2neo是基于python对neo4j开发的第三方框架。
Java:图数据库开发以来的开发环境
Thlac/corenlp:清华大学自然语言处理工具包
【知识图谱学习笔记】B站课程-p1-p4环境和设计基础

1.2 图数据库的配置

后续课程逐渐完成

1.3程序的运行:

【知识图谱学习笔记】B站课程-p1-p4环境和设计基础
老师:既可以直接运行,也把命令做成了bat的脚本,可以直接运行程序。
成功后:会提示http:…

二、项目业务需求分析:

先考虑应用场景-再去开发。
行业分析:整体趋势:搜索的量级、细分by地域。
品牌分析:搜什么品牌,是否持续搜索
车系分析、话题分析、用户画像
【知识图谱学习笔记】B站课程-p1-p4环境和设计基础
市场份额:
【知识图谱学习笔记】B站课程-p1-p4环境和设计基础
黏性分析:
【知识图谱学习笔记】B站课程-p1-p4环境和设计基础
用户兴趣洞察:
【知识图谱学习笔记】B站课程-p1-p4环境和设计基础
用户画像:
【知识图谱学习笔记】B站课程-p1-p4环境和设计基础

三、总体架构设计:体系结构和关键技术

3.1 总体设计

【知识图谱学习笔记】B站课程-p1-p4环境和设计基础

3.1.1 应用层

智能搜索、智能问答、商品推荐

3.1.2 业务层

1、上层接口:Django web服务接口
2、中间包含:实体识别、节点查询、关系查询、路径计算
3、下层接口:Py2neo开发框架

3.1.3 数据层

1、上层接口:Neo4j-Driver
2、中间包含:语义类型、语义关系、节点对象、关系对象
3、下层接口:Neo4j-IMport、Neo4j-web控制台

3.1.4 ETL:基于爬虫框架输出结构化数据(节点、关系)

具体包括:项目目录管理、页面元素解析、动态页面渲染、页面内容解析、数据清洗转换、批量任务调度。

3.1.5 数据源

汽车资讯、汽车电商、百科问答汽车频道、汽车投诉平台

3.2 关于数据源:优先级

【知识图谱学习笔记】B站课程-p1-p4环境和设计基础
结构化:数据中的数据
半结构化:web已有的班结构化数据,需要爬虫

3.3关键技术:爬虫

【知识图谱学习笔记】B站课程-p1-p4环境和设计基础
Download:与web站点交互
Schedule:启动处理引擎
ScrapyEngine:居中调度,把对应的请求发给download
ItemPipeline:结果处理
Spiders:发起最初的请求
【知识图谱学习笔记】B站课程-p1-p4环境和设计基础
1、发起爬虫请求
2、调度程序被触发
3、请求发给处理引擎
4、5:与Internet交互
5、通过调度引擎把结果交给爬虫

3.4 关键技术:图数据库

选择依据:排名、文档、社区活跃度、团队

3.5数据可视化

3.6模型设计流程

语义类型设计-语义关系设计-实体对象设计-实体属性设计-实体对象抽取
对应Neo4j:Label-Relation-Node-Node.Attribute.scheme-Node.instance