信息资讯
当前位置:首页 > 信息资讯> 地名信息

地名文摘 | 地名中的统计

网址: 日期:2021-08-02

龙成.jpg

中国幅员辽阔、历史悠久,很多人都会对中国的地名津津乐道,一方面人们感慨于中文的神奇,另一方面也乐于回味各种有趣的历史故事。很多地名都有其历史地理起源上的独特性,我们不进行深究,在这里纯粹从地名中的汉字进行统计,来发现一些有趣的规律。我们使用中华人民共和国民政部(简称民政部)官网提供的最新的行政区划编码“2020年11月份县以上行政区划代码”,其中台湾省、香港特别行政区和澳门特别行政区暂缺地市和区县信息,除此之外,一共包含了4个直辖市、333个地级行政区和30个省直辖县级行政区,这也是我们俗称的“城市”的概念,因此我们首先研究这367座城市的名称。


首先进行数据清洗,在民政部提供的数据中,各行政区划都包含了其区划单位,比如“北京市”,在分析的时候应该剔除“市”字,只保留其本名。通过查看这367座城市的全名,我们发现其中包含了316个市、30个自治州、7个地区、6个自治县、4个县、3个盟、1个林区。由于自治州县的全名中也包含了相应的民族名称,我们也予以剔除。

在处理后的结果中,367个城市的本名里一共包含了388个不同的汉字,我们根据频数绘制词云图,如右图所示。其中尺寸越大的字说明出现的频率越高,很明显,“州”字遥遥领先,此外描述方位的“阳”“南”、描述地理特征的“山”“海”、描述美好愿望的“安”“昌”也比较多。

从频数排名第一的“州”字来看,在所有城市中出现了43次,其中在华东出现了21次,占了几乎一半,例如苏州、杭州、扬州等,也占华东所有城市中的27.2%。频数第二的“阳”出现了23次,在华中的城市中出现了10次,也接近一半,例如安阳、洛阳、襄阳等,占华中所有城市中的20.4%。频数第三的是“南”和“山”,都出现了18次,排第四的是“安”,出现了15次,除了西南地区的“山”字比较多以外,其他的字在不同区域并没有明显的不同。由此可见,一些和地貌方位、历史传承相关的汉字,在不同区域确实有区别,但很多常用字并没有明显的不同。

进一步说,我们使用县级行政区的名称进行分析,在当前的数据中,一共包含2727个区县旗等行政机构,如果加上30个省直辖县级行政区和86个直辖市的区县,就有2843个“区县”,其中包含1314个县、117个自治县、965个区、388个市、49个旗、3个自治旗、5个矿区、1个林区、1个特区。我们用同样的方式剔除这些行政单位的后缀,只保留其标识性的本名。在县一级的行政区中,开始出现重名的现象,例如鼓楼区出现了4次,南京、福州、开封、徐州都有鼓楼区,此外在济南、内江、乐山都有市中区,北京和长春都有朝阳区,朝阳市下还有朝阳县。

在这2843个区县中,不重复的汉字一共用了1167个,由于新华字典中的汉字也只有11200个,而日常生活中常用的汉字只有3500个左右,这些地名中就出现了1000多个汉字,涉及面还是很广的。从频数来看,出现频率最高的字是“山”,一共出现了152次,然后是“城”的146次,“江”的109次,“阳”的108次,“安”的104次,这5个汉字都超过了100次,我们发现,在367个城市名中,这些汉字的频率也很高,可见人们在地名的使用中还是存在共性的,和行政区划的大小无关。在这5个高频字中,“山”“城”“安”在七大地理分区中出现的比例都比较接近,“阳”在华中的比例非常高,在其他区域也比较相似,“江”在华南和西南出现的比例很高,在华北和西北出现得比例非常少,说明一些地名和当地的自然情况还是关系比较大的。

东北的地名中最具特色的是河、东、铁等字,和东北河流丰富、工业发达的映象是相符的。华北地名中最常出现的是县(单字的县名保留了“县”字,可见华北的单字县名比较多)、尔、特等字。西北最常出现的是克、玛等字,民族特色都比较明显。西南最具代表性的是江、川等字,确实是很多大江大川的源头。华南最常见的是南、平,海,也符合当地的特色。华中最常见的是阳、陵,也和当地遍布山水丘陵的地貌相关。华东最常出现的是湖、溪等字,同样符合人们对这些地方的印象。

地名在我们的日常生活中随处可见,当我们游历祖国的大好河山时,地名通常也是我们对陌生城市的第一印象,通过以上一些简单的统计和分析,可以帮助我们更加清晰地了解全国地名中的一些常见现象和不同区域的差别。以此为引,如果能够进一步地探究其中的深层含义和历史文化,将会是一件非常有趣的事情。

  

       该文章为转载,并不用于任何商业目的,如有侵权请联系删除。转载于公众号——地名世界


★ 相关内容