欢迎光临112期刊网!
网站首页 > 论文范文 > 计算机论文 > 计算机网络 > 基于分类技术的Blog用户兴趣挖掘

基于分类技术的Blog用户兴趣挖掘

日期:2023-01-24 阅读量:0 所属栏目:计算机网络


  摘 要:文章通过分析blog用户兴趣挖掘的重要性,提出了一种基于文本分类技术的自动挖掘blog用户兴趣的方法,帮助用户自动推荐相似兴趣的博客以及为用户提供个性化的搜索与浏览博客内容的服务。
  关键词:blog;内容挖掘;blog搜索;中心向量法;knn算法
  
  1 blog技术介绍
  blog是web log的简称,称为“网络日志”,在大陆音译为“博客”。它让任何人都可以像免费电子邮件的注册、写作和发送一样,完成个人网页的创建、发布和更新,被认为是继e-mail、bbs、icq之后出现的第四种网络交流方式[1]。
  中国互联网络信息中心(cnnic)于2009年1月发布的《中国互联网络发展状况统计报告》中指出:2008年博客用户规模持续快速发展,截至2008年12月底,在中国2.98亿网民中,拥有博客的网民比例达到54.3%,用户规模为1.62亿人。在用户规模增长的同时,中国博客的活跃度有所提高,半年内更新过博客的比重较2007年底提高了11.7%。博客数量的增长带来了用户聚集的规模效应。博客频道在各类型网站中成为标准配置,其中sns元素的加入对博客用户的增长起到了推动作用。博客的影响力进一步加强[2]。
  由此可见,blog作为web2.0的重要应用,以其个性化的信息发布平台、多元化的内容载体等特点吸引着越来越多的网络用户,撰写和浏览blog已经成为网络文化的流行热点,推动了blog搜索服务的发展。
  2 blog用户兴趣挖掘的研究意义
  blog相关研究可划分为blog定义与识别、内容挖掘、社区发现、重要性分析、blog搜索和作弊blog识别这6个主要方面[3],而blog搜索是当前blog研究的热点之一。但是,目前的blog搜索服务大都是基于对用户输入关键词的匹配。这种搜索方式仅仅是传统web搜索的延伸,搜索范围也受到用户所指定的关键词的限制,并没有突出blog搜索的特殊性,也没有有效地利用博客内容的个性化、多元化等特征。
  而事实上,博客中个性化的内容为我们提供了丰富的有价值的可以用来挖掘用户个性化特征的数据,不仅可以帮助我们理解博客用户的兴趣、意图,对其进行个性化的服务,还可以为具有不同信息需求的用户提供个性化的搜索与浏览博客空间中的内容的服务。因此,研究blog用户的兴趣挖掘技术对于blog搜索服务的发展是十分重要的。
  3 构建blog用户兴趣挖掘方法
  该方法将兴趣挖掘的问题转化为对博客文章的文本分类问题,即利用文本分类技术来实现对主题信息的抽取,将一个博客内的文章分到事先定义好的兴趣类别中,如“体育健身”、“音乐”或“影视”等,然后综合所有文章的分类结果确定该博客作者的兴趣集合。
  3.1 定义兴趣类别
  由于没有统一的兴趣分类方式,所以可通过自定义兴趣类别来构建兴趣类别体系,但要求体系中尽可能包含生活的各种兴趣,且要具有层次化的结构,见图1描述了层次结构中一个第一层的类别节点和其子类别的形式:

  3.2 分类博客文章
  用分类算法计算待分类的博客文章与各兴趣类别的关联度,关联度较高的类将被判定其归属于哪一兴趣类别。目前已有多种文本分类算法:中心向量法、k邻近算法、支持向量机、简单贝叶斯等。
  中心向量法是根据算术平均为每类文本生成一个代表该类的中心向量,计算待分类文本与每类中心向量间的欧式距离,以距离最近的类作为待分类文本的类别。该方法分类速度快,但是,以向量空间距离作为分类标准将形成类球状类别分布,对于与多个类距离相近的文本,该算法的分类准确度将急剧下降[4]。
  knn算法,即k邻近算法,被普遍认为是分类准确度很高的算法。knn算法的思想是:给一篇待识别的文章,系统在训练集中找到最近的k个近邻,看这k个近邻中多数属于哪一类,就把待识别的文章归为哪一类。k近邻分类器在己分类文章中检索与待识别的文章最相似的文章,从而获得被测文章的类别[5]。knn算法虽然具有很高的分类准确度,但是它没有训练过程,分类阶段要对所有训练样本进行相似度匹配,计算时间较长。
  通过分析,笔者认为可以采用速度较快的中心向量法和准确性很高的knn算法相结合的方式完成博客文章的分类。系统先采用中心向量法进行分类,对于超过预定义边界范围的待分类向量再采用knn算法进行补充分类,以保证其分类准确性。因为在大多数情况下,中心向量法即可完成分类,所以该方式显著减少了分类算法的平均计算时间。
  3.3 构建兴趣集合
  当一个博客的所有文章被分类后,文章所属的兴趣类别被认为是博客作者的兴趣。然后,对兴趣进行整理和排序:根据每个兴趣出现的次数对兴趣进行排序,以兴趣出现次数的多少反应博客作者对兴趣感兴趣的程度。不同层次的兴趣单独计算。
  用户兴趣的收集和挖掘可能会涉及到用户的隐私和安全问题,因此,在使用用户兴趣数据前要征得用户的同意,同时让用户积极参与,以获得更好的用户个性化服务。
  4 blog用户兴趣挖掘的应用
  4.1 自动推荐相似兴趣的博客
  对于给定的博客,利用推荐系统可以挖掘出博客用户的兴趣,然后在索引的数据中选择与这些兴趣最匹配的博客。这样,不仅可以帮助用户迅速地了解博客的整体内容,同时兴趣相似的博客的推荐可以让用户找到更多相关的信息,也有助于社会化网络的构建。
  4.2 提供个性化的搜索与浏览博客空间中的内容的服务
  可以使用个性化搜索引擎索引博客或博客文章,以及博客文章的兴趣类别,博客用户的兴趣和博客关键词,方便用户在博客空间中快速地定位和浏览感兴趣的博客或博客文章。
  5 结束语
  综上所述,由于blog提供了更为丰富、极具个性化的信息资源,使得用户主动寻找和发掘自己感兴趣的blog,而通过基于文本分类技术的blog用户兴趣挖掘方法,可以满足用户的需求,并且可以为用户提供个性化的信息服务。
  参考文献:
  [1]崔琳,汪材印.blog的核心技术和web挖掘[j].电脑开发与应用,2008,2:44-45,48
  [2]中国互联网络信息中心(cnnic).中国互联网络发展状况统计报告.2009
  [3]杨宇航,赵铁军,于浩,郑德权.blog研究[j].软件学报,2008,4:912-924.
  [4]石伟志,刘 涛,吴功宜.一种快速高效的文本分类方法[j]. 计算机工程与应用,2005,41(29):180-183.
  [5]柯慧燕.web文本分类研究及应用[d].硕士学位论文.武汉理工大学,2006 本文链接:http://www.qk112.com/lwfw/jsjlw/jsjwl/240215.html

论文中心更多

发表指导
期刊知识
职称指导
论文百科
写作指导
论文指导
论文格式 论文题目 论文开题 参考文献 论文致谢 论文前言
教育论文
美术教育 小学教育 学前教育 高等教育 职业教育 体育教育 英语教育 数学教育 初等教育 音乐教育 幼儿园教育 中教教育 教育理论 教育管理 中等教育 教育教学 成人教育 艺术教育 影视教育 特殊教育 心理学教育 师范教育 语文教育 研究生论文 化学教育 图书馆论文 文教资料 其他教育
医学论文
医学护理 医学检验 药学论文 畜牧兽医 中医学 临床医学 外科学 内科学 生物制药 基础医学 预防卫生 肿瘤论文 儿科学论文 妇产科 遗传学 其他医学
经济论文
国际贸易 市场营销 财政金融 农业经济 工业经济 财务审计 产业经济 交通运输 房地产经济 微观经济学 政治经济学 宏观经济学 西方经济学 其他经济 发展战略论文 国际经济 行业经济 证券投资论文 保险经济论文
法学论文
民法 国际法 刑法 行政法 经济法 宪法 司法制度 法学理论 其他法学
计算机论文
计算机网络 软件技术 计算机应用 信息安全 信息管理 智能科技 应用电子技术 通讯论文
会计论文
预算会计 财务会计 成本会计 会计电算化 管理会计 国际会计 会计理论 会计控制 审计会计
文学论文
中国哲学 艺术理论 心理学 伦理学 新闻 美学 逻辑学 音乐舞蹈 喜剧表演 广告学 电视电影 哲学理论 世界哲学 文史论文 美术论文
管理论文
行政管理论文 工商管理论文 市场营销论文 企业管理论文 成本管理论文 人力资源论文 项目管理论文 旅游管理论文 电子商务管理论文 公共管理论文 质量管理论文 物流管理论文 经济管理论文 财务管理论文 管理学论文 秘书文秘 档案管理
社科论文
三农问题 环境保护 伦理道德 城镇建设 人口生育 资本主义 科技论文 社会论文 工程论文 环境科学