*大数据平台需要有一个强大的数据接入工具

建设*大数据平台,一个深刻体会是数据汇聚的难度,为了摸清委办局的数据家底,先期会花费大量的精力梳理资源目录,依据三定职责,梳理职责目录、系统目录和库表目录。从资源目录中就会发现,除了各类数据库之外,还有很多的数据是以文件形式存在,包括公文、公告、台账等,若不能将这些数据有效利用,则数据价值就会大打折扣。因此,大数据平台要有一个灵活可配、功能丰富的数据接入系统,既能将各类库表数据采集入库,也能将种类繁多的非结构化、半结构化数据解析入库。以下是初步构想的一个接入框架(暂不考虑图片、视频、音频等):
*大数据平台需要有一个强大的数据接入工具
在上述框架中,重点是将word和excel文件的数据解析为结构化数据:

  • word文档,对于表单格式的文档,支持解析为key-value形式的数据;对于表格格式的文档,支持解析为二维表的数据。此外,对于有目录结构的数据文档,可以将目录结构提取出来,并提取关键字段的数值。
  • excel文档,除了可以支持常规的二维表格式,还需要考虑到固定表单格式的数据,能将其解析成key-value的数据。