基于信息分析的用户个性化查询软件工程硕士论文范文(推荐)

发布时间:2020-05-26 09:00:49 来源:本站原创   作者:admin123

特别声明:站内论文除注明为本站原创外,其他均来自网友投稿、公共网络或者公开资源,本站不提供全文浏览或者下载,版权归原作者所有,仅供学习研究参考,不得用作商业目的。如著作权人不同意转载,请通知本站删除!

     

    基于信息分析的用户个性化查询

     

     
    20 年11月

     


    中图分类号:TP319
    UDC分类号:004.41

     


    基于信息分析的用户个性化查询

     

         作 者 姓 名      
         学 院 名 称   软件学院    
         指 导 教 师     教授    
         答辩委员会主席              
         申 请 学 位   工程硕士    
         学 科 专 业    软件工程    
         学位授予单位     
         论文答辩日期    年 月 

     

    User Personalized Query Based on Information Analysis


    Candidate Name:          
    School or Department:    School of software
    Faculty Mentor:             
    Chair, Thesis Committee:                 
    Degree Applied:           
    Major:                Software engineering
    Degree by:             
    The Date of Defence:  

     


    研究成果声明
    本人郑重声明:所提交的学位论文是我本人在指导教师的指导下进行的研究工作获得的研究成果。尽我所知,文中除特别标注和致谢的地方外,学位论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京理工大学或其它教育机构的学位或证书所使用过的材料。与我一同工作的合作者对此研究工作所做的任何贡献均已在学位论文中作了明确的说明并表示了谢意。
    特此申明。

                    签    名:         日期:


    关于学位论文使用权的说明
    本人完全了解      大学有关保管、使用学位论文的规定,其中包括:①学校有权保管、并向有关部门送交学位论文的原件与复印件;②学校可以采用影印、缩印或其它复制手段复制并保存学位论文;③学校可允许学位论文被查阅或借阅;④学校可以学术交流为目的,复制赠送和交换学位论文;⑤学校可以公布学位论文的全部或部分内容(保密学位论文在解密后遵守此规定)。

      签    名:            日期:
      导师签名:            日期:


    摘  要
    目前个性化搜索技术常用的信息主要包括四类:社会书签,访问日志,用户定制和网页文本,然而目前的用户个性化模型只使用了某类信息,而缺乏综合处理、分析的能力,对信息的利用并不充分。
    针对这一问题,本文将搜索引擎技术、数据库技术、机器学习技术的思想相结合,充分利用社会书签、访问日志、用户定制和网页文本四类信息,构建了一种用户个性化模型,在此基础上设计并实现一个智能化、个性化程度较高的用户个性化Web查询系统,通过实验分析发现,本文系统在查全率、查准率、稳定性和及时性等方面都具有较好的应用价值。
    具体来说,本文主要内容包括:
    (1)分析了目前个性化搜索技术常用的信息,并对基于这些信息的个性化搜索技术的优缺点进行了分析,针对其中存在的缺点,对这些信息的形式、用法、来源、框架进行了改进和扩展;
    (2)对个性度给出了一个明确的定义,在此基础上提出一种新颖的用户个性化模型,该模型通过聚类将社会书签、访问日志、用户定制和网页文本四类信息有机的结合在了一起,为用户提供更加准确、合理的个性化服务。
    (3)对用户个性化模型中的具体技术、算法进行了详细的分析和讨论,并在文本特征提取、文本分类、社会书签的扩展聚类分析、用户访问日志的挖掘等多方面技术中,对与本文相关的算法进行了适当的修正和改进。提出了一种基于时间窗的改进的用户个性化模型更新算法,既体现了个性更新的实时性,又避免了对整个缓冲区页面的重新学习。
    (4)分析了个性化系能的设计意义与目标,在此基础上设计了一种新颖的基于信息分析的用户个性化查询系统UPISIA,该系统由9个部分组成:用户界面,会话控制,用户个性化模型,搜索引擎,结果缓存,结果抽取,页面获取与转换,抽取规则库和学习模块。介绍了系统的关键实现技术和实现过程中的示例图形。将整个UPISIA的功能做了一个总结并给出了系统执行结果示例图。
    (5)给出了实验数据的来源和构造,对实验数据进行了预处理,就系统的主题聚类, 查询词的预分析, 个性化搜索, 用户个性化模型更新四个方面的性能通过实验进行了分析,对系统的综合性能进行了总结、分析和阐述。实验、分析表明:本文方法在实用性、效率方面都有一定的应用价值。

    关键词:个性化搜索;信息分析;用户个性化模型;查询聚类

    Abstract
    The existing personalized search information mainly includes four categories: social bookmarks, access log, user customization and web page text, however, only a several kinds of information of the four are used in the existing user personalized model, it’s lack of comprehensive processing, analysis ability and the sufficient use of the information.
    To remove this problem, this paper combines the engine technology, the database technology and the machine learning technology, at the same time, synthetically makes full use of social bookmark, access log, user customization and Web page text information, constructs a user personalized model, and realizes an high degree of intelligent, individualized user personalized web inquiry system. The recall ratio, precision ratio, stability and timeliness of our method have a good application value.
    Specifically, the main contents in this paper are illustrated as followed.
    (1) Analyze the personalized search information commonly used in the current technology, and the advantages and disadvantages of the existing personalized search technology based on it. In view of existent shortcomings, improve and extends such information forms, usage, the source and the framework.
    (2) Clearly define the degree of personalization and puts forward an novel user personalized model based on the definition. The model combines the social bookmarks, access log, user customization and web page text together to provide the user a more accurate and reasonable individualized service.
    (3) Detailed analyze and discuss the specific technology and algorithm of the personalized model, suitably modify and improve related algorithm on the technology of the text feature extraction, text classification, the social bookmark and expansion of clustering analysis. Provide an improved user personalized model updating algorithm based on time window, which not only embody the character of real-time update, but also avoid learning from the whole buffer page.
    (4) Analyze the design meaning and goal of the personalized system, on the basis of it, design an novel user personalized inquiry system UPISIA based on the information analysis, this system is composed of nine parts: user interface, session control, user personalized model, search engine, the result cache, results extraction, page and conversion, extraction rules library and learning module. Introduce the key technologies and the sample graphics during the implementation process of the system. Summarize the function of UPISIA and give the example diagram of the system implement results.
    (5) Show the source and structure of the experimental data pretreated, evaluate the clustering, inquires the word preliminary analysis, personalized search, the user personalized model update through the experiments, summarize and analyze the comprehensive performance of the system. The experiment and analysis show that the method proposed in this paper has certain application value in the practicability and efficiency.

    Key Words:Personalized search. Analysis of information; The user personalized model; Query clustering


    目  录
    摘  要 I
    Abstract III
    目  录 V
    第1章 绪论 1
    1.1  课题背景 1
    1.2  个性化服务 1
    1.2.1  个性化信息服务的定义 1
    1.2.2  个性化服务的形式 2
    1.3  国内外概况 3
    1.3.1  个性化推荐服务 4
    1.3.2  个性化信息检索 5
    1.3.3  用户个性模型 6
    1.3.4  用户行为分析 8
    1.4  论文研究的主要内容 10
    第2章  现有个性化技术的信息来源 11
    2.1  社会书签 11
    2.2  用户访问日志 12
    2.3  用户定制 15
    2.4  网页文本 16
    2.4.1  Web信息源 17
    2.4.2  文本信息抽取的基本原理 17
    2.5  本章小结 18
    第3章  用户个性化建模 19
    3.1  用户个性度 19
    3.2  用户个性化模型的建立 19
    3.3  文本特征提取 22
    3.4  文本分类 25
    3.4.1  简单向量距离分类法 26
    3.4.2  k-Nearest Neighbors 27
    3.4.3  Naive Bayes 27
    3.4.4  SVM 28
    3.5  社会书签的扩展聚类分析 28
    3.5.1  具体描述 29
    3.5.2  算法改进 30
    3.6  用户访问日志的挖掘 33
    3.6.1  Web挖掘 33
    3.6.2  查询扩展集聚类 36
    3.7  用户个性化模型更新 38
    3.7.1  更新方式 38
    3.7.2  更新机制 39
    3.7.3  更新算法 41
    3.8  本章小结 43
    第4章  基于信息分析的用户个性化查询系统的设计与实现 44
    4.1  设计的意义与目标 44
    4.2  系统的体系结构 45
    4.3  系统实现 47
    4.3.1  用户界面 47
    4.3.2  用户个性化模型 48
    4.3.3  抽取规则库 48
    4.4  个性化查询的实现 50
    4.5  本章小结 51
    第5章  实验分析 52
    5.1  实验数据 52
    5.2  数据预处理 53
    5.3  主题聚类 54
    5.4  查询词的预分析 56
    5.5  个性化搜索 57
    5.6  用户个性化模型更新 58
    5.7  系统的性能分析 60
    5.8  本章小结 60
    第6章  结束语 61
    6.1  已经完成的工作 61
    6.2  下一步的工作 61
    参考文献 63
    致  谢 67


    第1章 绪论
    1.1  课题背景
    随着互联网(Internet)的不断发展和日益普及,网络上的各种信息以指数级的速度增长,在2012年4月,全球Web页面的数目已经超过120亿,中国的网页数估计也超过了7亿。因特网从产生至今不过30余年的时间,但目前因特网上的信息量相当于人类过去100年产生的信息总量。很显然Internet目前已经发展成为了当今世界上资料最为齐全的信息库以及成为了在全球范围内信息传播最主要的渠道。
    然而,信息量的过于丰富对于用户来讲可能并不是一件幸福的事情,因为信息量的过于丰富对用户来讲面临着信息过载以及信息迷失等问题,造成的结果往往是信息的价值被海量信息的网络慢慢消弱。因此我们到底应该怎么从互联网这个信息资源库里面寻找出一些对客户有真正意义的信息呢?笔者在本文主要对这个问题展开研究。
    对于Internet上海量的信息资源,人们开发出了搜索引擎技术用来从互联网上进行资源获取。自1994年第一个搜索引擎WebCrawler在网上正式发布并开始服务以来,搜索引擎技术获得了突飞猛进的发展。然而,传统搜索引擎的服务模式面临“One Size Fits all”问题,即对所有用户返回相同的检索结果。为了从中找到自己所需要的信息,用户需要耗费大量的时间和精力。
    随着Internet的迅速发展以及信息资源的不读增长,客户已经再也无法从传统的信息搜索服务模式中获取到自己称心如意的信息,因此对于用户来讲急需一种能够根据以客户自身需要特点为基础的信息服务模式,所以就产生了个性化技术。可以说,个性化服务是Internet信息增长的必然结果。
    1.2  个性化服务
    1.2.1  个性化信息服务的定义
    “个性”一词从拉丁语发源而来,其原意是指希腊罗马时代戏剧演员在舞台上通过假面具而代表剧中人的身份。随着社会的发展,个性一词更多的用于形容个人与他人不同的特性。
    个性化服务是一种面向用户的全新的服务模式,在这种模式中可以根据不同用户的不同特点从而提供不同的服务策略和服务内容,相对于传统的服务模式而言这种模式具有更强的自动性以及对用户提供服务的高效性。
    个性化信息服务既是一种个性化服务,又是一种信息服务。所谓个性化信息服务是指能够为用户提供一些主动的或者是被动的一种服务,主动的服务是指首先通过对用户的行为以及习惯自行开展研究工作。
    事实上,个性化信息服务主要存在两个方面的含义,第一是指以用户的爱好和个人特点为基础,尽量提供满足客户需求的信息;另一方面是指为用户提供一些关于用户的兴趣、爱好等个性化信息服务。以用户为中心是这种服务的核心思想,首先需要研究分析用户的行为,从而提供用户有针对性的信息服务是这种服务的基本内容。
    1.2.2  个性化服务的形式
    在对个性化服务的研究过程中,产生了三种形式个性化服务,分别为个性化推荐、个性化网站以及个性化信息检索,下面对这三种形式分别进行概述。
    (1)个性化推荐
    这种形式可以所是最早出现的一种个性化服务形式,该实现方式大体有三种:基于内容的推存、混合推荐和协作过程的推荐等。这种方式最大优点是可以以用户的特点向用户推荐用户可能需要的信息。
    (2)个性化网站
    随着计算机及互联网的发展,网络经济已经到了百花盛行的时代,那么网络经济在某种意义上讲就是点击率经济,在网络经济中盈利与是否能够吸引住用户的注意力是直接相关的。为了提高对用户的吸引力,某些网站已经推出了一些个性化服务,这种个性化服务的服务宗旨是一切以用户为中心,为用户构建起一个完善的访问环境,从而将访问效率提升上去,吸引更多的用户。这种个性化的服务形式是以提高网站易用性为目的,称为个性化站点。
    (3)个性化信息检索
    信息检索是用户查找自己所需信息的主要途径,随着Internet中信息量的指数增长,信息检索系统的检索效率日益受到关注。相对于其它的个性化信息服务方式而言个性化信息检索是一种全新的服务形式,通过信息检索技术的引用可以对不同的用户提供有针对性且互不相同的信息检索服务,从而大大提高了用户的访问效率。个性化信息检索自从出现以来受到广大用户的青睐,能够显著提高用户对资源的访问效率。
    1.3  国内外概况
    如果使用的个性化服务系统不一样,其分类也是不一样的。如果以系统使用的具体技术为基础,我们可以将服务系统划分为两大类型:第一是以规则为基础的系统,第二是以信息过滤为基础的系统。而信息过滤系统也可以划分为两个种类:协作过滤系统和内容过滤系统。这两种过滤系统的原则如果是资源或者用户协作的时候,其分类系统也是不一样的。
    以规则为基础的系统如IBM的WebSphere,这种系统的要点是在系统管理员的参与下按照规则对不同的用户提供不同的服务。具体过程包括首先由系统管理员制定规则,规则主要是以用户个人信息和用户特征为基础来制定的,在顺利地完成了这些规则之后在对这些规则对不同的用户提供不同的服务。这种方法的优点在于系统实现相对较单,缺点在于这种方法需要人为的参与,即需要系统管理员制定规则,因此这种基于规则的系统第一过于依赖系统管理员,第二系统中的规则由于是人为制定,因此很难保证规则的公平性以及规则的正确性。信息过滤系统的基本要点在于首先为用户建立起不同的用户描述文件,然后系统通过这些助词描述文件与其它的用户或者资源进行比较,在比较的基础之上进行过滤。显然这种方法的优点在于系统对于整个过程实现最终自动化服务。而我们又可以将信息过滤系统划分为两个种类,分别是协作过滤和内容过滤,其基础原则都是不一样的。详细的区别情况我们将会在下图1.1介绍到。
    所谓内容过滤系统,指的是对用户文件和计算机资源信息的相似度进行比较,在比较的基础上实现对信息的过滤处理。这种方法虽然可以根据用户的具体需要来提供用户感兴趣的信息,但是在整个过程当中没有考虑资源之间的语义关系。另外,系统只能通过用户描述文件进行发现信息,而对于那些用户不知道的并且是用户感兴趣的新的信息则只能用户擦肩而过了。在内容过滤系统的实现过程中,用户描述文件的建立以及相关度的计算是系统需要处理的两个关键问题,而为用户建立一个适当的描述文件则是个性化信息服务领域研究的重点。本文研究的重点也是用户模型的创建。

    图1.1  信息过滤系统原理图
    协作过滤系统作为信息过滤系统的另一种分类,实现的基本思想在于系统通过比较用户之间或者资源之间的相似性从而实现信息过滤。其关键问题是用户聚类或资源聚类。这种系统最大的优点事实上就是尽可能地将一些用户比较喜欢的信心挖掘出来,但是它也存在着一个非常致命的缺点,那就是系统比较稀疏。系统在刚刚开始运行的时候,用户数量比较少,因此评价数量也是比较少的,所以我们想要在判断的时候往往很难去做出正确的选择。
    1.3.1 个性化推荐服务
    随着计算机技术、网络技术以及通信技术的飞速发展,电子商务在全球范围内取得了惊人的发展,伴随而来的个性化推荐服务也获取到了突破性的结果,在电子商务范围内,以协作过滤和内容为基础的个性化服务被广泛地运用在现实工作中。在个性化推荐领域中,工作人员们一部分的研究工作在于改进协作过滤推荐的性能。在电子商务应用当中,基于协作过滤的个性化推荐容易受假冒用户的影响,为用户强制推荐广告产品或用户不感兴趣的资源。基于SVD(Singular Value Decomposition)的协作过滤方法可以有效地抵御shilling attacks。国内的研究在传统推荐系统的基础上引入了反馈机制,对CF进行改进,提出RF(Relevant Feedback)推荐算法,使推荐系统在线给用户提供推荐功能的同时,对自身的推荐机制改进,更体现了个性化服务的灵活性。
    为了进行更好的个性化推荐,还有其它的研究工作把协作过滤和以内容为基础的这两种方法都同时结合在一起。有部分研究者提出过推荐技术,这种推荐技术的基础是信息流。所谓信息流技术就是用信息流模拟信息在具体网络中传播的一个过程,而信息流则是获取用户信息的一个过程。基于描述用户关系的EABIF通过把用户的查找模式对应到相对应的主题上从而提出主题相关的TEABIF。通过实验证明,EABIF和TEABIF均获得比CF算法更好的性能。
    1.3.2 个性化信息检索
    个人信息检索技术在发展的过程当中使用的技术数不胜数,而基于内容的信息过滤技术是在个性化信息检索领域中使用最为广泛的技术。即通过比较用户描述文件与资源间的相似度,用户能够从中获取到一些真实的检索结果。考虑到用户描述文件是个性化信息检索过程中一个最为重要的问题,即为用户创建用户模型。在挖掘用户的历史信息的过程当中,除了基于内容的信息过滤方法实现个性化检索之外,我们还可以通过其它方式实现个性化检索,如采用支持向量机(SVM)学习检索函数,从而实现个性化检索。
    提出基于观察到的查询和点击文档信息,采用机器学习的方法预测用户对结果的点击情况。加利福尼亚大学的研究中将用户的查询目的分为导航型与信息型两种。在对用户访问历史信息进行记录的过程中,我们能够对用户浏览行为进行观察并获得用户的意图,从而提高返回结果的质量。微软实验室的Ryen W.Wllite等创建了基于log日志对用户行为进行分析,判断用户的查询意图。而上海交通大学的Gui.Rong Xue等通过建立点击图,根据结合相似用户对结果页面的点击以及当前用户对相似页面的点击计算当前用户对当前结果的满意程序,充分地挖掘查询与文档间的关系从而改进查询的效率。
    与个性化推荐服务有区别的是,用户和用户使用的查询词会对个性化信息检索服务产生较大的影响。而对查询词的精简以及查询词的语义联系,另外还有重复查询以及查询推荐等一系列技术的处理由信息检索相关领域的专家来进行研究与探讨。
    在对查询词的数量对于个性化检索质量的影响的分析过程中,我们发现查询词的数量与用户对检索结果的满意度之间存在着必然的联系。通常来讲用户递交的查询词在两个至三个左右,而这个数量显然对于检索的质量来说不能满足我们的需求,因此查询词数量过少对于个性化信息检索的质量而言起着重要的作用。相关的研究已经开始对这一问题进行了相关的研究,解决的办法采用了查询词扩展的办法。如为了能够帮助用户能够使用更加准确的查询词,我们通过挖掘用户的私有信息库PIR对查询词进行扩大,想要将用户的检索效率提升上去,其最有效的方法就是扩展用户经常使用到的一些关键词。
    针对查询词,另一个需要解决的问题是重复查询。用户进行重复查询一般来说只有两个动机,即要想获取新的信息或者想要获取历史信息。通过对Yahoo日志进行分析得出60%的重复查询是想获取新的信息而有40%的人希望获取自己的历史信息,但是现有搜索引擎技术对于历史信息没有考虑,因此对于历史信息的考虑是一个需要考虑解决的问题。南开大学的Zhicheng Dou等通过研究,用实际数据测试了现有的各种个性化检索方法,例如以用户模型为基础的个性化检索、以点击为基础的个性化检索,和以协作用户模型为基础的个性化检索等,笔者发现性能比较稳定的是以点击为基础的个性化检索,特别是在重复查询上,取得非常好的效果。
    Jing Bai等提出以查询词为中心,建立查询词的语义描述。而微软实验室和IBM实验室使用挖掘查询词间的语义联系,对结果进行重排序。
    还有一些研究工作,如通过挖掘点击历史信息,对查询词进行聚类的方法实现查询词推荐。
    1.3.3 用户个性模型
    用户模型是个性化信息检索服务和个性化推荐服务的基础,因此用户模型对于这两种服务而都是起着至关重要的影响。用户获取信息的方法不一样,其用户个性模型的创建分为显式建模和隐式建模两种方法。

  •  1/6    1 2 3 4 5 6 下一页 尾页  
  • 原文地址:https://www.lunwen3721.com/jisuanjilunwen/rj/4940.html,如有转载请标明出处,谢谢。 您可能在寻找关于软件工程论文方面的范文,您可以到计算机论文频道查找。

    关于我们

    原创论文写作网

    本站拥有海量论文资源,为大学生、硕士生、博士生、学术研究者免费提供专业论文信息咨询,提供论文降重,论文改重,论文修改润色,硕士论文,博士论文,本科论文,毕业论文,MBA论文,开题报告,范文,模板,论文写作,论文检测,论文资料下载,论文答辩,论文写作指导服务。

    论文咨询

    QQ咨询
    微信咨询
    微信二维码

    官方微信服务号

    电话咨询
    联系电话
    131-6166-9098
    返回顶部