文档汇总助手,已开放源码

一、概述

1.1背景介绍

对象从事的工作是资产评估,一次偶然发现她在进行月度工作汇总。需要将当月出具的评估单信息汇总至一张excel报表中,经观察后发现基本都是复制粘贴的工作。是可忍熟不可忍,本人极其厌恶重复性乏味的工作,不仅效率低,而且没有价值。故做了这样的小程序来替代重复性劳动。

1.2系统介绍

系统的主要功能是根据用户自定义的抓取规则对指定目录下的所有文件进行检索,筛选出需要的文档,对文档中的内容进行关键信息的提取并汇总至excel报表中。

1.3系统组成

汇总助手系统由:主界面、配置界面、配置界面包含抓取规则配置和固定信息配置。
1.主界面:
选择报告所在目录以及需要的规则模板进行汇总操作,查看汇总结果。
2.抓取规则界面:
对文档要抓取的关键信息进行配置,生成并保存抓取规则。
3.固定信息界面:
对个人的固定信息进行配置。
4.请作者喝茶界面:
欢迎打赏~

1.4运行环境

CPU :Intel 双核2.0 GHz或以上
内存:500MB内存或以上
硬盘:100GB硬盘空间大小或以上
系统:Win10
运行环境:NETFramework,Version=v4.6及以上

二、具体操作

2.1固定信息配置

文档汇总助手,已开放源码

2.2抓取信息配置

文档汇总助手,已开放源码
步骤1:选择列表中的模板可以对已有的模板进行编辑。
步骤2:如果没有模板,请在±按钮中的模板名称输入框输入模板名称后进行编辑。点击+号按钮可以生成填写模板。
步骤3:填写后点击增加或更新抓取规则即可保存配置信息,下次打开自动读取。也可以将配置好的抓取规则进行分享提供其他人使用。

2.3抓取规则模板分享

文档汇总助手,已开放源码
步骤1:找到软件目录下的RegexRule.ini文件发送给他人。
步骤2:别人将他人的传送的配置文件RegexRule.ini覆盖到软件目录下即可。
步骤3:在配置界面-抓取规则下查看别人制作的抓取模板是否符合自己需求。

2.4抓取规则配置说明

格式:前缀__{n,m}__后缀

说明:只能修改‘前缀’,‘后缀’,‘n’,’m’;

前缀:抓取语句的开头部分;
后缀:抓取语句的结尾部分;
n:阿拉伯数字,表示中间内容的最小字符数量长度;
m:阿拉伯数字,表示中间内容的最大字符数量长度;

配置样例:“受贵方的委托,对__{2,12}__所属位于”
文档样例:“受贵方的委托,对张三所属位于”
表示抓取开头部分为“受贵方的委托,对”中间字符长度在2~12之间且结尾部分为“所属位于”的内容。抓取的结果为“张三”;

配置常见问题:
Q:n和m的作用是什么?
A:用于提高抓取的准确性,如“受贵方的委托,对张三所属位于…所属位于”,以上“…”表示在较长篇幅的文档中可能存在多出相同的后缀结尾,通过限制抓取结果的长度就可以提高抓取的准确性。
Q:n可以与m相等吗?
A:n必须小于等于m才可以,当n=m时表示抓取结果的固定长度=n=m;

三、汇总步骤

3.1选择文档所在的目录(文件夹)

文档汇总助手,已开放源码

3.2选择抓取规则模板

文档汇总助手,已开放源码

3.3选择excel报表保存目录

文档汇总助手,已开放源码

3.4立即打开报表查看

文档汇总助手,已开放源码

3.5查看提示信息与报表核验是否生成成功

文档汇总助手,已开放源码

四、链接

4.1程序下载链接:

链接:https://pan.baidu.com/s/1FFejRNMoZXf_aMe1KXBw3g
提取码:jno6
复制这段内容后打开百度网盘手机App,操作更方便哦

4.2源码仓库地址:

https://github.com/julianboom/SummaryTable
想到哪写到哪,所以代码结构稍微混乱,欢迎提出宝贵修改意见~

五、注意事项

时间比较仓促,程序可能存在不可预知的bug,请务必进行核验确保数据准确性.