ACE 2005数据集-中文实体类型定义

  1. ACE 2005标注了每个mention所在的字符串的最大范围,并定义了每种类型的mention的head应该是什么,比较疑惑的是,这个head有什么用途?每一个【】里的内容都属于整个mention,但是会用下划线标注出head成分
    【xxx head】或【head xxxx】或【xx head xx】
  2. ACE 2005数据集-中文实体类型定义
  3. ACE 2005数据集-中文实体类型定义
  4. ACE 2005数据集-中文实体类型定义ACE 2005数据集-中文实体类型定义ACE 2005数据集-中文实体类型定义ACE 2005数据集-中文实体类型定义
  5. ACE 2005数据集-中文实体类型定义

这里的mention就是整个【】里的内容,但是NAM、APP、NOM代表不同类型的mention的head,在这里我不清晰为什么 张三和李四 不能作为一个单独的mention,但是 江西和湖南省 就可以作为一个单独的mention

相似类型的mention经常通过连接、析取、列举等方式一起使用,整个表达式在一个句子中出现一个句法短语。在中文数据中可以观察到以下模式:
(1)张三和李四:应该单独标记,标记为[张三]和[李四]
(2)张三和李四的书:应该单独标记,标记为[张三]和[李四]的书,即使此时张三和李四是作为一个修饰语出现的
(3)该公司的张三和李四:因为张三和李四前有一个共同的修饰词该公司,所以这是一个整体,[该公司的张三和李四]
(4)类似标记如下:
[俄罗斯的总统和官员]
[报名参展的 国家和地区]
[[上海]NAM、[江苏]NAM、[广西]NAM等省市自治区]
[江西和湖南省]
[[中国]NAM的神舟三、四号飞船]
[[俄罗斯]NAM的明斯克和库尔斯克号潜艇]
[[钱其琛]NAM和[温家宝]NAM副总理]NOM
[国务院]NAM副总理]NOM 兼[[卫生部] NAM部长] NOM[吴仪] NAM]APP
[正在柬埔寨访问的[[国家主席] NOM
[江泽民] NAM]APP]EAP
[获得诺贝尔奖的[[中国作家]NOM[高行健]NAM]APP]EAP
[[人口调查局发言人] NOM
[安格拉.布里提鄂姆] NAM] APP

  1. 不清楚ACE如何解决嵌套实体
    8