设计阶段

       唐诗可视化分析是将唐诗数据从页面中获取,对数据进行处理分析等,将数据以图形化的方式呈现出来,使用户能更加快速的去了解数据。

1,获取数据

      使用唐诗三百首网页的url:https://www.gushiwen.org/gushi/tangshi.aspx 来获取页面中唐诗数据。

     使用WebClient模拟浏览器构建Http请求获取Html页面数据。将页面数据保存在HtmlPage中。

2,分析数据

      观察HtmlPage中的数据,获取每首诗的url,保存至List中。

3,整理数据提取有用数据。

     将list中保存的每首诗的url,使用WebClient获取每首的页面数据,将页面中诗的作者,标题,朝代,正文等提取出来保存至数据库中。

4,设计数据库表,存放整理好的数据。

     数据库表中用于存放每首诗的属性,

    id:为每首诗均生成一个自增键。

    sha256:为每首诗生成一个唯一标识符,该列不可重复用于保证数据库中的数据没有重复。

    title:保存诗的题目。

    dynasty:保存诗的朝代。

    author:保存诗的作者。

    content:保存诗的正文。

    words:将诗的题目和正文进行分词,用于图形显示的数据。

5,在echarts官网,选择合适的图形界面。

     1,选取柱状图,用来展示每个诗人的创作数量。

     2,选取饼状图,用来展示每个诗人创作数量占总数量的比例

     3,选取词云图,用于对诗词进行分词将词的出现频率进行展示。

6,使用echarts将数据以图形化方式呈现。

        1,柱状图

    设计阶段

   2,饼状图

设计阶段

3,词云图