文本标注工具MarkTool——功能介绍篇

目录

一、功能简述

二、关键功能及其效果展示

1.大规模实体标注

2.关系标注

3.事件标注

4.实体可嵌套标注

5.文本可迭代标注

6.正则匹配自动标注

7.字典匹配自动标注

8.实体标准名标注

9.标注规范自定义

10.审核环节

11.部署使用

三、版权声明

四、镜像获取与交流讨论


一、功能简述

MarkTool是一款基于web的通用文本标注工具,支持大规模实体标注、关系标注、事件标注、文本分类、基于字典匹配和正则匹配的自动标注以及用于实现归一化的标准名标注,同时也支持文本的迭代标注和实体的嵌套标注。标注规范可自定义且同类型任务中可“一次创建多次复用”。通过分级实体集合扩大了实体类型的规模,并设计了全新高效的标注方式,提升了用户体验和标注效率。此外,MarkTool增加了审核环节,可对多人的标注结果进行一致性检验和调整,提高了标注语料的准确率和可靠性。MarkTool在满足标注功能的前提下,尽可能优化标注体验,减少用户的工作量和成本消耗,同时保证标注结果的准确性。此外,MarkTool还满足在主流操作系统Windows、Linux和Mac上无需联网即可运行。

二、关键功能及其效果展示

1.大规模实体标注

实时可视化显示实体标注的结果,用户能够在文本上看到每个实体的颜色、类型(及其标准名),并且在实体统计区域显示每种实体类型的已标注数量。

文本标注工具MarkTool——功能介绍篇

为了能够满足大规模实体类型的标注任务需求,该工具设计了一种分级实体选择方式。通过二级实体选择框,只需要浏览2*n种即可选择n*n种实体类型。此外,在每次的实体标注中,用户不需要多次点击鼠标和大范围移动,在数千上万数量级的标注工作中极大地提升了用户的标注效率。

文本标注工具MarkTool——功能介绍篇

2.关系标注

关系标注的核心是在已标注的实体集上进行一一映射,因此该工具在关注标注模块中设计为第一步选择前实体,第二步选择后实体、第三步确定这二者之间的关系名。

文本标注工具MarkTool——功能介绍篇

3.事件标注

事件在本质上可以看作是多个相关实体的集合。因此该工具在事件标注任务中,需要先建立相应的事件标注规范,定义事件组类型以及每个事件组的实体构成;在标注时选择添加某个事件组类型并进行该事件组内相关实体的标注。在事件统计列表中,可以看到每个已标注事件的具体标注情况,包括每个实体的内容和类型,并且可以通过点击“查看标注”按钮切换不同事件进行增删改查。

文本标注工具MarkTool——功能介绍篇

4.实体可嵌套标注

嵌套实体标注支持用户在相同文本中标注不同细粒度的实体。

文本标注工具MarkTool——功能介绍篇

5.文本可迭代标注

文本可迭代标注是指本系统已标注且导出的结果文件可以创建新任务导入该结果文件进行迭代标注,保留并识别之前的标注内容。避免用户从零开始,减少了大量的重复工作消耗成本。

6.正则匹配自动标注

基于正则规则匹配的实体自动标注。

文本标注工具MarkTool——功能介绍篇

7.字典匹配自动标注

基于字典规则匹配的实体自动标注。

文本标注工具MarkTool——功能介绍篇

8.实体标准名标注

文本标注工具MarkTool——功能介绍篇

9.标注规范自定义

MarkTool允许标注规范可自定义且高度复用,在同类型标注任务中实现“一次建立多次复用”的目标,减少了用户对标注规范的反复创建所消耗的时间成本。

文本标注工具MarkTool——功能介绍篇

10.审核环节

MarkTool还设计了审核环节用以保证标注结果的准确率与可靠性。审核环节中会对标注者的标注结果进行一致性检验,对于通过检验的文本会对标注结果进行合并,并显示合并结果来源,同时还支持切换查看不同角色的标注结果,帮助审核者快速分析与调整。

文本标注工具MarkTool——功能介绍篇

11.部署使用

MarkTool目前支持docker镜像进行部署,只需系统上有docker环境即可一键导入MarkTool的镜像,无需复杂的配置步骤和系统操作,对操作系统类型没有限制,即使在不联网的环境也能正常使用。导入镜像并在工作目录下执行命令docker-compose up启动本地服务即可访问浏览器地址开始标注。

三、版权声明

MarkTool已于2020年获得软件著作权,证书号:软著登字第5885316号。

四、镜像获取与交流讨论

1.源码地址:https://github.com/FXLP/MarkTool

2.交流群:1054082857 (MarkTool in NLP),加群即可获得镜像压缩包下载渠道,快来体验船新版本的文本标注工具吧~