设计阶段
唐诗可视化分析是将唐诗数据从页面中获取,对数据进行处理分析等,将数据以图形化的方式呈现出来,使用户能更加快速的去了解数据。
1,获取数据
使用唐诗三百首网页的url:https://www.gushiwen.org/gushi/tangshi.aspx 来获取页面中唐诗数据。
使用WebClient模拟浏览器构建Http请求获取Html页面数据。将页面数据保存在HtmlPage中。
2,分析数据
观察HtmlPage中的数据,获取每首诗的url,保存至List中。
3,整理数据提取有用数据。
将list中保存的每首诗的url,使用WebClient获取每首的页面数据,将页面中诗的作者,标题,朝代,正文等提取出来保存至数据库中。
4,设计数据库表,存放整理好的数据。
数据库表中用于存放每首诗的属性,
id:为每首诗均生成一个自增键。
sha256:为每首诗生成一个唯一标识符,该列不可重复用于保证数据库中的数据没有重复。
title:保存诗的题目。
dynasty:保存诗的朝代。
author:保存诗的作者。
content:保存诗的正文。
words:将诗的题目和正文进行分词,用于图形显示的数据。
5,在echarts官网,选择合适的图形界面。
1,选取柱状图,用来展示每个诗人的创作数量。
2,选取饼状图,用来展示每个诗人创作数量占总数量的比例
3,选取词云图,用于对诗词进行分词将词的出现频率进行展示。
6,使用echarts将数据以图形化方式呈现。
1,柱状图
2,饼状图
3,词云图