欢迎光临112期刊网!
网站首页 > 论文范文 > 管理论文 > 档案管理 > 浅析汉字识别技术在档案管理工作中的应用

浅析汉字识别技术在档案管理工作中的应用

日期:2023-01-12 阅读量:0 所属栏目:档案管理


汉字识别技术(简称OCR)可以理解为是让计算机认字的技术。它通过光电信号转换,即文本数据。

? 一、汉字识别技术的应用价值? 汉字识别技术的应用价值主要体现在两个方面:

? 一方面,把纸质档案上的固定信息变成可以被检索利用的活信息,为文本数据管理技术提供 丰富的数据源。

? 首先,从库存档案的情况来看,近几十年来形成的大量印刷汉字档案记载了我们党和国家的 重要历史,对我国现代化事业的发展,对精神文明和物质文明的建设都有着非常重要的利用 价值。但这部分档案的内容都没有文本数据,或者说都只是固定在纸质载体上的死信息。既 使通过扫描以图像方式存储于计算机中,检索利用也有不便之处,难于满足现代社会对档案 信息的多种利用需求。其次,从办公自动化的发展情况来看,每年接收的档案中仍然会有相 当数量的档案没有文本文件,或为外单位来文,或为丢失损坏等。汉字识别技术的应用价值 就是使这两大部分纸质档案上的固定信息变成可以被检索利用的活信息,为全文检索提供数 据,使深层次的开发利用成为可能,更好地为现代化建设事业服务。

? 另一方面,提供了一种新的档 案目录数据的录入方式。

? 应用计算机以来,汉字录入只有一种方式,即健盘录入。虽然目前汉字键盘录入的方法有许 多种,而且日趋简便快捷,已是年轻人必备的职业技能,但是它毕竟属于一种技能,不仅需 要反应灵敏,手指灵活,而且要熟记录入的原则、方法和要领。这对于在档案部门占有相当 比例的中老年同志来说,掌握起来确有难度。因此,键盘录入方式仍然是影响一些档案部门 建立档案目录信息数据库的因素之一。OCR软件为我们提供了一条新的途径。它通过“拖拉 ”的方式,将屏幕上文件的目录项如标题、文号、责任者等直接移植到档案目录数据库的相 应字段中去,简单易学,一看就会。遗憾的是手工“拖拉”速度较慢,而且需要即时扫描或 调用图像数据,所以单一利用这种方式录入档案目录,速度不及熟练录入员的键入速度。但它毕竟是一种新的录入方式,为建立档案目录信息数据库提供了一条前所未有的途径。而且 ,如果利用OCR软件同时建立新型的综合档案信息数据库,例如包括档案的文件目录、图像 和文本等,效果就此较理想了。

? 二、汉字识别后生成的文本数据的属性问题。

? 原始性是档案的基本属性。汉字识别后生成的文本数据是根据档案的本源信息,即固定在纸 质载体上的汉字信息进行加工处理:扫描、识别、校对、修改等工序后形成的复制加工品, 因此不具有档案的原始性。

? 知识性是档案的又一个属性。汉字识别后生成的文本数据如果不计算人工校对后仍然可能存 在的微小误差,应该说具有与档案原件同等的内容,因此具有档案的知识性。

? 汉字识别后生成的文本数据是将档案的内容以特殊的物理方式重新记录在特殊的载体之上, 比以文字的方式记录在纸质载体之上更具有便于传递、接收、存储、利用以及不磨损、不丢 失等属性。因此具有更强的信息性。

? 汉字识别后生成的文本数据应该说,它是一种新型的档案一次信息的复制品或编研开发成果 。但作为一种新型的复制品或编研开发成果,因其生成的目的不同,又具有两种不同的属性 :当以提供利用为目的通过汉字识别建立文本数据库时,其文本数据具有类似于汇编类档案 编研成果的属性;当以编辑出版纸质的档案编研材料如大事记、组织机构沿革、文件汇编等 为目的进行汉字识别时,其文本数据不仅具有类似于档案编研成果的属性,而且具有档案原 始性的基本属性,因为它们是印刷品或出版物的本源信息。

? 由此可见,汉字识别后生成的文本数据是一种不同于传统档案属性的新型档案信息。

? 三、汉字识别技术的应用方式

? 汉字识别技术在档案管理工作中的应用,根据其目前的技术水平主要适用于近几十年来印刷 汉字档案内容的识别,图像、文本数据的形成、存储和目录数据的录入等项工作。主要的应 用方式有:

? (一)利用者阅读纸质档案的内容之后,对其所需要的内容进行扫描和汉字识别,或打印出统 一格式的利用摘录,或直接提供文本拷贝。

这种利用方式的优点主要有:

1?方便用户,可减少信息利用过程中的重复劳动;

2?不给档 案人员增加建库的工作负担;

3?节省建库所需的经费开支。其缺点主要有:

1?不能为全文 检索提供数据,实现深层次开发档案信息资源的目的;

2?存在对同一档案内容重复进行扫 描和汉字识别的可能性。

? (二)输入档案目录。这是加快档案目录信息数据库建设的一条新路,能够使更多的人员从事输入工作,但输入速度不甚理想,而且成本费用相对较高。

? (三)扫描、保存图像并提供利用,只针对利用者需要的图像内容进行汉字识别等利用服务。

? 这种方式必须在已有文件目录的前提下使用。其优点主要有:1?具有提供原件和提高信息 利用效率的双重优势;2?档案人员不承担汉字识别后生成的文本数据的维护工作。其缺点 主要有:1?同第一种利用方式的缺点。2?汉字识别技术要求图像的光学分辨率较高,一般为3000dpi,而一般图像的分辨率仅为150dpi,因此所需的存储空间较大,约是一般图像的2 、3倍,那么,所需的存储成本也要高得多。这种高代价的图像存储仅用来满足用户利用识 别的需要似乎有点得不偿失。因此低分辨率的图像也能进行汉字识别,只是识别率相对较低 而已。我们也曾做过对比实验,同一页印刷质量良好的B5纸型文件约500字,以300dpi进行扫描,识别率为100%;以150dpi进行扫描,识别率为99.4%(误识3字)。这对于一般用户而言无所谓的。

? (四)建立文本数据库。这种方式也应在已有文件目录的条件下使用。其优点主要有:

1?节省存储空间和存储成本。仍以一页B5型纸约500汉字的文件为例,以文本方式存储约需1000字节;以图像方式存储约需25000字节。因此,同量汉字的文本方式存储比图像方式存储成本低得多。

2?为全文检索提供数据,能够实现深层次开发利用档案信息资源的目的。

其缺点主要有:

1?建立文本数据库的工作量较大。

2?不能满足用户阅读档案原件的需求。

3? 由于没有图像随时提供依据,不便于对文本数据的准确性进行核实。

? (五)输入目录并保存图像。

? (六)输入目录、建立文本数据库。

? (七)保存图像、建立文本件数据。

? (八)输入目录、保存图像并建立文本数据库。

? 这是充分发挥OCR软件功能,深层次开发利用档案信息资源的应用方式。但工程量较大,人力、资金需求较多,建库周期较长。

? 随着汉字识别技术水平的提高和应用的普及,可能还会产生新的应

用方式,但无论使用哪一 种方式,都必须符合本单位档案管理工作的实际,统筹考虑档案状况、人员配备、经费能力、办公自动化水平、档案现代化建设发展规划等方面的因素,以切实提高档案信息资源开发利用能力为目的,这样才能收到事半功倍的效果。


本文链接:http://www.qk112.com/lwfw/guanlilunwen/danganguanli/147062.html

上一篇:石景山区档案馆保护工作调查

下一篇:没有了

论文中心更多

发表指导
期刊知识
职称指导
论文百科
写作指导
论文指导
论文格式 论文题目 论文开题 参考文献 论文致谢 论文前言
教育论文
美术教育 小学教育 学前教育 高等教育 职业教育 体育教育 英语教育 数学教育 初等教育 音乐教育 幼儿园教育 中教教育 教育理论 教育管理 中等教育 教育教学 成人教育 艺术教育 影视教育 特殊教育 心理学教育 师范教育 语文教育 研究生论文 化学教育 图书馆论文 文教资料 其他教育
医学论文
医学护理 医学检验 药学论文 畜牧兽医 中医学 临床医学 外科学 内科学 生物制药 基础医学 预防卫生 肿瘤论文 儿科学论文 妇产科 遗传学 其他医学
经济论文
国际贸易 市场营销 财政金融 农业经济 工业经济 财务审计 产业经济 交通运输 房地产经济 微观经济学 政治经济学 宏观经济学 西方经济学 其他经济 发展战略论文 国际经济 行业经济 证券投资论文 保险经济论文
法学论文
民法 国际法 刑法 行政法 经济法 宪法 司法制度 法学理论 其他法学
计算机论文
计算机网络 软件技术 计算机应用 信息安全 信息管理 智能科技 应用电子技术 通讯论文
会计论文
预算会计 财务会计 成本会计 会计电算化 管理会计 国际会计 会计理论 会计控制 审计会计
文学论文
中国哲学 艺术理论 心理学 伦理学 新闻 美学 逻辑学 音乐舞蹈 喜剧表演 广告学 电视电影 哲学理论 世界哲学 文史论文 美术论文
管理论文
行政管理论文 工商管理论文 市场营销论文 企业管理论文 成本管理论文 人力资源论文 项目管理论文 旅游管理论文 电子商务管理论文 公共管理论文 质量管理论文 物流管理论文 经济管理论文 财务管理论文 管理学论文 秘书文秘 档案管理
社科论文
三农问题 环境保护 伦理道德 城镇建设 人口生育 资本主义 科技论文 社会论文 工程论文 环境科学