欢迎光临112期刊网!
网站首页 > 论文范文 > 计算机论文 > 通讯论文 > 通讯地址查询邮政编码系统设计

通讯地址查询邮政编码系统设计

日期:2023-01-24 阅读量:0 所属栏目:通讯论文


  随着电子商务的突飞猛进和物流行业的信息化,使得人们在足不出户的情况下完成购物和邮寄物品,大大节约了时间和金钱成本。电子商务和物流行业都离不开通信地址(又称为通讯地址,简称为地址)和邮编,本文关注怎样识别一个地址,并找到该地址对应的邮政编码。

 

  1 现状分析

 

  随着电子商务的突飞猛进和物流行业的信息化,使得人们在足不出户的情况下完成购物和邮寄物品,大大节约了时间和金钱成本。电子商务和物流行业都离不开通信地址(又称为通讯地址,简称为地址)和邮编,这些数据都需要用户提供,当前一些电子商务网站和物流行业的主要的做法如下:

 

  (1)让用户手工输入完整的地址和地址对应的邮编。

 

  (2)通过下拉列表提供省,省下面地级市和地级市下面的区县,这些比较固定的地址让用户选择,余下的地址和邮编由用户手工输入。

 

  (3)保留用户输入的地址和邮编,方便下次再次使用,即如果本次输入的地址和邮编之前已经有了一份,直接选中,就避免了让用户重复输入。

 

  这些做法主要存在的问题如下:

 

  (1)很多情况下用户未必知道自己输入的地址对应的邮编。

 

  (2)由于基于拼音的输入法和汉语本身存在的缺陷(汉字存在多音字,多个汉字拥有相同的读音,多数基于拼音的输入法都是基于统计的语言模型),再加上地址中存在的一些生僻字的原因会导致输入的地址存在错别字。

 

  (3)由于地名存在别名现象,即同一个地名有多种叫法,例如广东省的别名有广东,因此他们识别不了对同一个地名的不同描述。

 

  (4)有些情况下用户无法输入完整的地址,当输入的时候一脸茫然和无助。

 

  (5)由于地址存在变更和搜集不完全的问题,这些网站的数据往往得不到更新。

 

  当前一些其他的网站能够解决第一个问题,即帮助用户得到地址对应的邮编。但是他们往往采用数据库技术来实现的系统,对于低于区县级别的地址,往往采用字串模糊查询(like %XXX%)的方式参与检索,由于性能的原因此种方式对于大数据量的查询效率很差。另外基于数据库实现的查询使得用户的输入格式和内容受到了很大的限制,比如:

 

  用户首先选择省级行政区(包括省、特别行政区、自治区和直辖市)的名字,其次是选择地级行政区(包括地级市、自治州、地区和盟)级别的名字,然后再县级行政区(包括市辖区、县、旗、特区、林区、自治县和自治旗等)级别的名字,最后用户输入乡镇级别及村庄道路等。查询的输入过程非常机械。

 

  另外基于数据库的查询模式,要求地址格式全部满足四级,即省级,地级市级,区县级,然后是其他具体地址。但是并不是所有的地址都满足此种情况,例如直辖市下和省与直辖县或省直辖县级市之间就没有地级市级,一些特殊的地级市没有区县级,如广东省中山市、广东省东莞市、海南省三亚市、海南省三沙市、甘肃省嘉峪关市;他们的解决办法,起个其他的名字代替,例如直辖区县市辖区省直辖县等,但是查询的结果中一般也包含这些非真正地址的数据。

 

  本方法尝试解决如下问题:

 

  (1)帮助用户输入,即提供输入提示功能(类似Google Suggestion)

 

  (2)采用基于搜索引擎技术使得用户输入的查询格式更加自由,并且通过一个比较短的地址片段就可以找到完整的地址。

 

  (3)基于命名实体识别技术能够识别出用户输入地址元数据的级别,从而实现地址的逐级查询(例如已知一个地级市,给出该地级市下所有县级行政区的名字和对应的邮编;已知一个省的名字,给出该省下所有地级行政区的名字和对应的邮编等)

 

  (4)自动从互联网上抓取地址数据,完成参考数据的更新。

 

  (5)对不用来源的参考数据进行校验,识别出有问题的参考数据,使得参考数据更加准确。

 

  (6)有时候由于参考数据在乡镇级行政区级别及以下级别上收录得不是很全,本方法可以通过地址补全方式完善查询结果。

 

  (7)实现查询结果地址的切分和级别标注,方便用户灵活使用结果。

 

  (8)将地址和对应的邮编加密到二维码中,方便用户通过二维码扫描软件直接获取完整的地址和邮编。

 

  (9)将用户的检索结果链接到知名的地图厂商(百度,谷歌,搜狗地图等)获取相关地址的经纬度数据。

 通讯地址查询邮政编码系统设计

  2 系统设计

 

  2.1 总体架构设计

 

  本系统的总体架构如图1所示。

 

  从图1邮编查询系统的总体架构图可以看出,该系统需要三种数据:

 

  (1)用于通过通信地址查询邮政编码的通信地址和邮政编码对应关系的数据。

 

  (2)用于输入地址提示的标准化的通信地址数据。

 

  (3)用于地址切分,地址标注,命名实体识别和Query语句生成的地址元数据字典数据。

 

  第一种数据:通信地址和邮政编码的对应关系,可以从一些数据比较新而且数据比较标准和完整的邮编查询网站上,利用基于种子的网络爬虫和信息抽取技术抓取相关数据。

 

  第二种数据:标准化的通信地址数据,一种来源是第一种数据去掉邮政编码后的通信地址数据,第二种来源,从维基百科和国家统计局网站上,最新的有关中国行政区划上的网页上利用爬虫技术和信息抽取技术抽取得来。

 

  第三种数据:地址元数据字典数据,源自维基百科和国家统计局有关中国行政区划的地址元数据,以及通过地址切分和识别技术从完整的通信地址中获得。

 

  地址元数据包含的数据主要有:省级行政区名(包括省、自治区、直辖市和特别行政区)、地级行政区名(地级市、自治州、地区、盟)、县级行政区名(包含市辖区、县级市、县、自治县、旗、自治旗、特区和林区)、乡级行政区名(包括乡、镇、街道、苏木、区公所),其他地址数据(包括道路名、村庄名、小区名、建筑物名和广场名)等。

 

  2.2 地址查询编码过程设计

 

  地址查询邮编索引结构如图2所示。

 

  其中地址的最低等级域(Level Field)包含的数据值如下:

 

  (1)省级行政区级(包括省、自治区、直辖市和特别行政区),用province表示。

 

  (2)地级行政区级(包括地级市、自治州、地区、盟、直辖市辖区),用city表示。

 

  (3)县级行政区级(包括市辖区、县、旗、特区、林区、自治县和自治旗等),用district表示。

 

  (4)乡级行政区级(包括乡、镇、街道、苏木、区公所),用town表示。

 

  (5)低于乡级行政区级,用all表示。

 

  一个地址文本,其对应的最低地址等级域的值计算如下:

 

  (1)首先对地址文本做预处理,预处理包括删除多余的空格,全角字符转换成半角字符。

 

  (2)其次是地址切分和地址标注。

 

  (3)接着是地址命名实体识别,获取最终的地名实体标注序列。

 

  (4)然后根据规则计算出此地址文本的最低地址等级的值。

 

  (5)将最低地址等级映射到最低地址等级域的值:1→province;2→city;3→district;4→town;0→all

 

  2.3 地址解析过程

 

  本系统是基于开源的全文搜索引擎工具包Lucene实现的系统,中文分词模型采用的是二元模型(bigram)。为了提高搜索的精度和排序的质量,需要对输入的文本进行解析,解析的结果是生成相关的Query语句。因此整个流程为首先对用户输入的文本进行预处理,切分,标注和地名实体识别,识别出不同级别的地名,然后对不同级别的地名分别用半角的双引号“””括起来生成PhraseQuery查询语句,并赋以不同的权值,权值的设定应遵循如下原则,已被收录到字典里的地名(即确定被识别的地名)其对应的权值要大于未知的地名。举例如图3所示。

 

  图3“29是不能识别的地址,因此其对应的权值W5设置的值要比其他的权值小。通常情况下W5的值一般设置成1.0,其他确定已被识别的地址对应的权值的值一般大于1.0

 

  接着用地址的标注等级序列获得地址的最低标注等级,为了能够支持地址的分级查询(仅限四级以上的地址),即:搜索的结果首先是当前地址的标准形式,其次是当前地址等级下的直属行政等级(即子等级)的所有地址,然后才是更下一级的地址。例如:当输入深圳市时,排在第一个的应该是广东省深圳市,其次是深圳市下的直辖区县,然后是区县下的乡镇街道,最后是道路,小区,村庄等。系统在最低标注等级映射到最低等级域上要做分级查询处理,具体做法是:获得当前最低等级及下属的等级域的值,然后按照逐级递减的方向赋上递减的加权值。规则如下:

 

  (1)1→province city;

 

  (2)2→city district town;

 

  (3)3→district town

 

  当用户提交查询请求后,系统会返回查询的结果,并把与用户输入的地址文本最相似的地址排在第一位。由于参考数据搜集的不是太全,加上每年都有新增的建筑,道路,小区等,还有一些行政区划的变更等等,使得排在第一位置上的地址中区县位置之后的地址和用户输入的地址有出入,本系统采用地址补全技术,对最相似的返回结果进行改造,使得更接近用户的要求。

 

  2.4 地址补全

 

  地址补全是根据用户的输入来完善查询结果的技术,使得结果更贴近用户的需求。地址补全主要用在某一级别的地址很难搜集全,而且新增量比较大,主要集中在四级和五级地址上。地址补全的条件时用户输入的地址文本其地址级别的顺序是正常的,即不存在一二三级地址出现在四级或者五级地址之后。识别出用户输入的地址级别中四级地址及以后的部分,拼接到搜索结果最相似的那条地址中三级地址之后。

 

  3 总结

 

  本文设计的系统是用来实现地址查询编码这一功能的。在分析了现有系统情况之后,使用了地址解析、补全、查询等技术,来满足实际生产的需要。实际使用情况显示本文提出的诸多解决方案能够很好地满足需求。

 

  作者:边旭 沈树雄 王明兴 黎俊茂 来源:电子技术与软件工程 20166

本文链接:http://www.qk112.com/lwfw/jsjlw/txlw/261027.html

论文中心更多

发表指导
期刊知识
职称指导
论文百科
写作指导
论文指导
论文格式 论文题目 论文开题 参考文献 论文致谢 论文前言
教育论文
美术教育 小学教育 学前教育 高等教育 职业教育 体育教育 英语教育 数学教育 初等教育 音乐教育 幼儿园教育 中教教育 教育理论 教育管理 中等教育 教育教学 成人教育 艺术教育 影视教育 特殊教育 心理学教育 师范教育 语文教育 研究生论文 化学教育 图书馆论文 文教资料 其他教育
医学论文
医学护理 医学检验 药学论文 畜牧兽医 中医学 临床医学 外科学 内科学 生物制药 基础医学 预防卫生 肿瘤论文 儿科学论文 妇产科 遗传学 其他医学
经济论文
国际贸易 市场营销 财政金融 农业经济 工业经济 财务审计 产业经济 交通运输 房地产经济 微观经济学 政治经济学 宏观经济学 西方经济学 其他经济 发展战略论文 国际经济 行业经济 证券投资论文 保险经济论文
法学论文
民法 国际法 刑法 行政法 经济法 宪法 司法制度 法学理论 其他法学
计算机论文
计算机网络 软件技术 计算机应用 信息安全 信息管理 智能科技 应用电子技术 通讯论文
会计论文
预算会计 财务会计 成本会计 会计电算化 管理会计 国际会计 会计理论 会计控制 审计会计
文学论文
中国哲学 艺术理论 心理学 伦理学 新闻 美学 逻辑学 音乐舞蹈 喜剧表演 广告学 电视电影 哲学理论 世界哲学 文史论文 美术论文
管理论文
行政管理论文 工商管理论文 市场营销论文 企业管理论文 成本管理论文 人力资源论文 项目管理论文 旅游管理论文 电子商务管理论文 公共管理论文 质量管理论文 物流管理论文 经济管理论文 财务管理论文 管理学论文 秘书文秘 档案管理
社科论文
三农问题 环境保护 伦理道德 城镇建设 人口生育 资本主义 科技论文 社会论文 工程论文 环境科学