信息资讯
当前位置:首页 > 信息资讯> 地名信息

地名文摘 | 中文地名地址标注方法研究

网址: 日期:2021-07-27

龙成.jpg

中文分词、词性标注和句法分析是中文自然语言处理的3大基础任务,词性标注作为中间环节,应用十分广泛。但目前的标注体系均是针对自然语言,地名地址作为重要的组成部分,结构复杂,没有明显的分隔符号,随意性大,存在很多问题。所以本文通过分析大量中文地名地址,研究地址成分间的关系,用观测序列决定标注序列,从地址要素角色的角度进行标注。这种方式可以界定词语的左右边界,计算概率,还能确定地址要素中的核心成分,便于成分识别,为地址的相似性度量提供理论基础,提高地名地址匹配率。


1.标注理论基础

标注就是为每个词的类别加上合适的注记,分析他们之间的规律,使得语料库的使用更加多元化。词性标注就是根据句子的上下文信息给句子中的每一个词一个正确的词性标记。标注集是对词的类别进行划分的集合。实现高效率的语料库应用必须依赖高准确率的标注集。目前英语标注集发展较成熟,以Brown语料库使用的标注集为代表。国内的标注集主要有:北京大学的《现代汉语语法信息词典》,清华大学treebank词性标记集,中国科学院计算技术研究所ICTCLAS词性标记集,北京大学对《人民日报》语料库的标注加工规范等。

2.中文地址构成要素解析

地址是某个地理实体所在位置文字化的表示形式,地址要素是指在某一个或者多个特定区域范围的字段,即地址描述的最小语义单元。从组成结构划分,地址要素包括通名和区别名两部分。通名定类,具有稳定性;区别名是用来限定通名性质的成分,包括姓氏、行业领域、专名等。其中,专名用来指称独一无二的地物和机构,具有唯一性。从功能角度划分,地址要素包括主要地址要素与地址参照要素。主要地址要素是组成地名地址的基本要素,具体内容如下:

1)行政区划。行政区划是地址中不可缺少的成分,主要包括国名、省、市、区、县、乡、镇等。由于行政区划一般是“专名+通名”的结构方式,并且在使用过程中名称比较规范,所以通常将行政区划名称纳入词典管理,无需进行结构拆分。

2)道路。邱益鸿将街道构成分为专名、通名和性状成分3种,又依据自然和人文等因素对专名分类,但专名的具体类别对研究地址成分间的关系并无帮助,所以本文中将其结构划分成通名、专名、数词和方位词4类。

3)居民区。居民区名称主要包括专名和通名两部分,除了“园、区、苑、村、城、厦、府、邸、湾、小区、新村、花园、公寓、社区、人家”等通名外,还包括许多专名,如“春江花苑”中的“春江”,“迎凤小区”中的“迎凤”等。

4)村庄。在村名结构研究中,一般将其划分为专名、通名和区别性成分3类。根据区别性成分不同又可以分为地形地貌类、姓氏类、气候类、情感观念类村名等。但这些类别对于要素角色的划分并没有意义,所以本文将其分为通名、姓氏、方位、数词、限定词、形容词和一般名词。限定词如“宋家岭”中的“家”,一般名词如“五福庄”中的“福”。学校。现有的机构识别相关文献将学校的组成成分划分为对象、学科领域、办学层次、现成词、专造词等几类。本文所做研究并不需要分类过多,但应具备基本区分条件,所以主要有通名、行政区划、方位、数词、企业名、人名、对象、专名、行业领域和修饰性成分。

6)企业机构。企业名中将学校名称结构中的对象和行业领域结合起来统称为行业领域,避免出现界限不清晰不容易划分的情况。主要包括通名、行政区划、数词、专名、行业领域和组织形式。组织形式是指“青岛西海岸旅游有限公司”中的“有限公司”等类似成分。

7)行政机构。机构名称是一个或多个特征词加上机构名通名组成的,长度比较灵活,名词短语紧凑固定,短语型修饰语也很少。主要成分包括通名、行政区划、行业领域、关系词和修饰性成分。其中关系词主要出现于“湖北省人民政府驻北京办事处”这类地名中。

8)医疗机构。医疗机构在所属领域以及针对对象方面比较多样,主要包括通名、行政区划、数词、企业名、人名、高校名、对象、专名和行业领域。

9)门/楼址。门/楼址包括数字、字母、量词、符号等多种要素,十分复杂。如果将门/楼址单纯划分为这些类别会失去它表示的意义,所以按照层次分为门牌号、楼/层号、单元号和户号。

10)兴趣点。兴趣点是具体到某一标志性建筑或小商铺的地名地址。一般由专名或一般名词和通名构成,其通名主要包括楼、场、大厦、桥、水库、商店、公交站、收费站、河、山、海等。除了这些主要地址要素外,还有7类地址参照要素,它们能够辅助主要要素并对地址加以限定。具体类别如下:

1)方位。方位词的主要形式为:①东、西、南、北、中、头、里、内、外;②上、下、左、右;③斜对过、交叉口、附近等。

2)数词。数词中包括基数词和序数词两类,但数词一般不单独存在,往往与其他词组合出现。

3)关系词。地址中包括许多要素之间的关系、等级描述,例如“与”“和”“驻”“附属”等。

4)符号。括号、破折号、点号等这些符号在地址描述中可以起到补充说明或辅助构词的作用。

5)量词。量词的加入使数词变得有意义,如“100米”“60步”等就可以表示距离。

6)字母。包括A、B、C等大小写英文字母。

7)序号。门牌号后加上“甲乙丙丁”依旧是指门牌号,是因为在原订编号之后又新开了门,为了避免重复,所以又加了甲乙丙丁区分,称为序号。

通过分析大量地址,对语素之间组成结构进行分析总结,从要素角色的角度出发,建立起了一套全新的中文地名地址标注集。该标注集不仅可以标记常用地址要素,还便于在原来的基础上进行扩充与拓展,以适应多方面的需求。为进一步提高标注的正确率,在本文研究的基础上还应完善以下工作:标注集中对于门/楼址的分类过于片面,应寻求更优方案将这些字母、数字、文字的不同组合标注出来;中文地址中对于距离的表示如“在某一路口与另一路口交叉处”、“旁边、附近”等,大多语句更接近自然语言中的地址描述,应对这种空间方位描述进行深入探讨。因地名地域性差异造成的无法标记的词,可以暂时标注为未登录词,未来应选择合理方式标注。

     该文章为转载,并不用于任何商业目的,如有侵权请联系删除。转载于公众号——地名世界


★ 相关内容