关于网络标注的主要方法概述

日期：2023-01-24 阅读量：0次所属栏目：计算机网络

作者：张瑜　孟宪学　苏晓路　李景　

　　[论文关键词]大众标注　语义标注　本体
　　[论文摘要]认为标注对于检索至关重要，网络标注在网络资源海量的今天更是如此。介绍网络中标注的方法：元数据标注、聚类标注和分类标注，并对大众标注和语义标注进行详细介绍。最后对这些标法方法进行比较分析及评价。

　　
　　在网络信息爆炸的今天，让用户检索到需要的信息至关重要，因而网络环境中标注显得尤为重要。目前对于标注的定义大家没有统一的说法，但是本质上都是一致的。概括来说即通过对文献进行主题分析，识别其重要特征，赋予确切的检索标识(类号、标题词、叙词、关键词、人名、地名等)，用以反映该文献内容的过程。标注的质量，对文献的检索效果有直接的决定性影响。标注的类型从不同的角度划分有无数据标注，聚类标注，传统网络的分类，web2.0中的大众标注，语义标注等。
　　
　　1　几种主要网络标注方法
　　
　　1.1　一些传统网络标注方法
　　1.1.1　元数据标注传统上元数据的创建有两种方法专业人员创建和作者创建。第一种是指在图书馆和其他组织中最初创建的元数据，大多为编目记录或由精心挑选的复杂、详细的规则集和词汇；第二种方法是指作者创建的元数据，表现为作者标注的文档可由sgml、万维网，都柏林核心集表现出束。
　　1.1.2　聚类分析聚类分析是将事物按其某些属性的相似程度归至各个群体。传统的文献聚类方法主要有单遍聚类法、逆中心聚类法，密度测试法、图论法等。这些方法大都通过计算文献的相似度，生成待进行聚类分析的文献集的关系矩阵，然后通过分析此矩阵获得文献集的分类。web文档聚类技术可以缩减搜索引擎的搜索空间，加快检索速度，提高查询精度，因而受到人们的广泛关注㈣。
　　1.1.3　传统网络分类法传统网络分类法表现为两种形式：一种是对现有文献分类法实行网络化。目前一些大型万维网站点或搜索引擎均采用现有的文献分类法组织internet信息资源。如加拿大国家图书馆利用《杜威十进分类法》编制综合性网络目录canadtan information by subject，英国bublsub，ject tree利用《国际十进分类法》编制了覆盖国内综合性网上资源的目录等；另一种是采用网络自编分类法的形式。网络自编分类法是20世纪90年代新兴的专门网络资源分类工具，以yahoo、搜狐、美国的excite等为代表的分类系统重视以事物对象为中心设置类目，以超文本的方式反映相关类目，现已发展成为许多门户网站普遍使用的一种模式。
　　随着internet的出现，海量的网络资源使得利用受控语言进行标注的可操作性变得越来越差，而利用自然语言进行全文检索以其方便、成本低、效率高等优点获得了全面发展，并很快成为因特网资源检索的主流技术。在专业人员创建元数据、作者创建元数据表现出种种问题情况下又出现了第三种方法；用户创建的元数据，其应用体现在web2.0中。
　　
　　1.2　大众标注
　　web2.0的出现为用户带来了真正的个性化、去中心化和信息自主权，它是互联网的一次理念和思想体系的升级换代，由原来的自上而下的由少数资源控制者集中控制主导的互联网体系转变为自下而上的由广大用户集体智慧和力量主导的互联网体系。在web2.0中人们使用的是基于非受控词即自然语言的标注。在这里用户不仅自己应用创建的元数据，也在社区中分享，这是一种自底向上的标注方法。
　　社会性标签能够从群体用户分类中涌现出对应使用最多的分类，这种通过协同用户单个行为“涌现”出使用最多的分类法，是在大众用户持续使用“tag”的过程中被集体创造出来的，所以thomas vander wal将其命名为floksonomy(floksonomy，由“folks”和“taxonomy”合成)，即集合众人之力产生的社会分类法。folksonomy可被译为“分众分类”、“大众分类”、“自由分类、“社会分类”、“通俗分类”，我们认为“大众标注”更能反映出“folksonomy”是一种大众性的、自由式的标注。大众标注是一种使用用户自由选择的关键词对网站进行协作分类的方式，而这些关键词一般称为标签(tag)。该方法是大众自发的用标签对网络信息标识和共享的过程，它没有权威、成形的分类文本，而是依据大众日常口头词汇对信息标记，其结果表现为系统的标签云，标签云易于直观地组织信息和共享信息，同时亦因缺乏等级结构、不精确、滥用、同义词等为研究者所质疑。但网民却接受了此种“有胜于无”的方案。
　　大众标注法分为宽(broad)大众标注法、窄(narrow)大众标注法。宽大众标注法指许多用户可以标注同一事物，而窄大众标注法指只有一少部分用户能够标注同一事物。
　　在大众标注法中，非受控词汇有着与生俱来的限制性和缺点：标签“一词多义”的现象就造成了标签的不确定性；同义词的不可控性使得相同的概念用不同的标签标注，这种“一义多词”的现象又造成协作的不便性；单词的不同格式，单复数，也经常用作不同的标签，这种情况在闪亮书签上尤为突出(中文中不存在这种单复数的问题)；美味书签和闪亮书签最初设计时只是针对单个词汇的，都不允许标签中出现空格。用户就用多个不含空格的单词组成单个的标签，比如闪亮书签中的“vertigovideostlllsbbc”，有时用户在单个标签中融入层次，比如美味书签中的“deslgn/css”。这两个系统忽略了字母的大小写，这可能导致具有不同含义的标签相同，尤其是在首字母缩写时。这些都是传统分类法中应用受控词汇的原因，但是在像美味书签、闪亮书签这种语境体系中应用受控词汇是不太现实的。
　　检索完整性的要求需要词表对词间关系给予全面揭示，具体包括等同关系、等级关系、相关关系等。本体能够表达概念间关系的这一特点可以补偿大众标注的缺憾。
　　1.3　语义标注
　　语义web被称为web3.0，是web上数据的一种表示，它基于资源描述框架rdf来集成以xml为语法、统一资源标识符uri为命名机制的各种应用。语义web是对当前web的一种扩充，并不是一个全新的web，其研究重点就是如何将信息表示为计算机能够理解和处理的形式，即带有语义，使计算机和人能协同工作。

　　实现语义web目标的一个重要前提是利用本体词汇标注web资源(如web页、服务等)。本体在timbemes-lee提出的语义web的七层体系结构中位于第四层，其目的是为捕获相关领域的知识，提供对该领域知识的共同理解，确定该领域内共同认可的词汇，并给出这些词汇(术语)和词汇间相互关系的明确定义，通过概念之间的关系来描述概念的语义。基于本体的语义标注利用由专家定义好的本体支持内容创建者在web页中添加语义元数据，使其内容能被人和机器所理解，与大众标注相比较这是一种自顶向下的分类法。利用语义标注工具对现有的大量web信息进行标注，将使得web页的内容成为机器可识别的数据，从而构成语义web的基础。
　　ogemarques等认为语义网的成功在于能够在web页面及其构成上作语义标记，且是以低成本的、采用一致性结构和本体的方式。他们着力于图像语义标注的智能方式，并提出三层结构。底层组织是从原图像内容中抽取的信息，这些信息映射中间层有语义的关键词，而这些关键词又联系着顶层的结构和本体。他利用机器学习算法作用户自助的、半自动的图像标注，可以加快相同领域本体图像的标注，并且改善标注图像以后的查询和检索。
　　在web服务方面，下一代网络语义标注下的软件代理能比目前的软件代理更快地抽取和翻译web内容。web服务中的语义标注能够促进服务发现，也能够促进服务组合转化为工作流。但目前仅有少量的服务标注被广泛应用，这就使得这种语义标注仍然受限。khalid belhajjame等基于操作参数之间的联系，在工作流中反复试验，推断关于操作参数的相关语义信息。虽在开放的上下文环境中只能推断参数语义的约束，但这些松散的标注在工作流、标注、本体中检测错误仍然有价值，在简化手工标注的任务中也很有价值。
　　
　　2　比较分析
　　
　　专业人员创建元数据最主要的问题是内容扩展时的可扩性和可行性问题，尤其是在万维网中。并且专业的编目系绩工具对于没有专门培训和知识的人来说太复杂；作者创建元数据也有问题，经常出现不恰当、不准确的标注，或者完全是虚假标注。
　　采用聚类分析方法对用关键词或自由词标引的检索系统中的词表建立词间关系，可以形成语义网提高系统检索效率，达到语义控制的目的。但汉语词条高达数百万条使得待聚类的web文档特征词条一权重矩阵的维数过高，增加了聚类算法的复杂度，因此空间维数较高或词与词间呈现较强的相关性时聚类质量和算法的性能会明显下降。目前有许多人从事该方面的研究，其中戚涌等人提出了基于潜在语义标注(latentsemanticindexing—lsi)的web文档自动分类，即对web文档采用最优聚类准则进行聚类，使得获得的特征向量具有较低的维数和更好的分类特征。
　　亚当·马斯认为大众标注将取代以往由专家控制的元数据编辑管理。marieke guy认为大众标注指的就是关键词、标签、元数据，是由使用资源的社区创建的自然语言，术语间不存在层次结构，没有特定的父子与兄弟关系，有反馈现象，是种类而非分类。
　　而在语义标注中人们将本体引入标注系统用于知识的组织。之所以将ontology引入网络信息资源组织领域，是因为ontology的研究着眼于更加宽泛的空间——即为人类认识活动构建顶层概念框架；ontology更加突出知识共享的功能，更着眼于给出人类事物认识的知识(或领域知识)总框架，以期待将internet上的信息资源组织成一个语义网、知识网，以最大程度实现internet信息资源的有效利用。
　　
　　3　评价
　　
　　正如david welnberger所述，大众标注法不同于传统分类法，最重要的地方表现在传统分类法是自顶向下的、有层次的，而大众标注法是自底向上的，没有层次的。如果说传统的分类法所得的是棵分类树，那么大众标注法只是将由用户自创建的叶子堆到了一起。语义标注所依赖的本体也是一种自顶向下分类法，所以从这点来看，可以将语义标注与传统分类法归为一类，即都是使用受控词汇的分类法。但是语义标注不仅增加了可控性，更由于本体的介入获得了标注中使用语义的便捷性。
　　在大众标注法中可以考虑在用户添加标签后，利用人工智能和ontology的方法对标签进行分析定位，并向用户显示其所处的树状，甚至网状的知识体系结构，方便用户从整体上认识问题。这做到了大众标注自底向上与ontology自顶向下的结合。
　　
　　4　结语
　　
　　标注对开发者而言可以更好地组织信息，对用户而言可以更好地检索信息。传统网络，web2.0中的标注都需要ontol-ogy的引入，需要语义标注的参与。目前在语义标注方面也已经有应用研究出现，但语义标注的发展需要ontology的深度介入。不过，作为底层支持的ontology自身研究进展缓慢，尤其是国内仍然研究多于应用，这给语义标注的发展造成瓶颈。我们期待语义标注更全面的发展，以促进语义网络更快速的进步，从而能更便捷地为人所用。本文链接：http://www.qk112.com/lwfw/jsjlw/jsjwl/239780.html

上一篇：3G时代电费移动支付模式的优势分析

下一篇：关于网络环境下信息用户需求满足分析

期刊推荐

论文中心 更多

发表指导
期刊知识
职称指导
论文百科
写作指导
论文指导: 论文格式论文题目论文开题参考文献论文致谢论文前言
教育论文: 美术教育小学教育学前教育高等教育职业教育体育教育英语教育数学教育初等教育音乐教育幼儿园教育中教教育教育理论教育管理中等教育教育教学成人教育艺术教育影视教育特殊教育心理学教育师范教育语文教育研究生论文化学教育图书馆论文文教资料其他教育
医学论文: 医学护理医学检验药学论文畜牧兽医中医学临床医学外科学内科学生物制药基础医学预防卫生肿瘤论文儿科学论文妇产科遗传学其他医学
经济论文: 国际贸易市场营销财政金融农业经济工业经济财务审计产业经济交通运输房地产经济微观经济学政治经济学宏观经济学西方经济学其他经济发展战略论文国际经济行业经济证券投资论文保险经济论文
法学论文: 民法国际法刑法行政法经济法宪法司法制度法学理论其他法学
计算机论文: 计算机网络软件技术计算机应用信息安全信息管理智能科技应用电子技术通讯论文
会计论文: 预算会计财务会计成本会计会计电算化管理会计国际会计会计理论会计控制审计会计
文学论文: 中国哲学艺术理论心理学伦理学新闻美学逻辑学音乐舞蹈喜剧表演广告学电视电影哲学理论世界哲学文史论文美术论文
管理论文: 行政管理论文工商管理论文市场营销论文企业管理论文成本管理论文人力资源论文项目管理论文旅游管理论文电子商务管理论文公共管理论文质量管理论文物流管理论文经济管理论文财务管理论文管理学论文秘书文秘档案管理
社科论文: 三农问题环境保护伦理道德城镇建设人口生育资本主义科技论文社会论文工程论文环境科学

关于网络标注的主要方法概述

相关文章

期刊推荐

论文中心 更多

计算机网络排行