读书频道 > 系统 > 其他综合 > 推荐系统:技术、评估及高效算法
3.3.1.2 基于关键词系统概述
2015-08-06 14:57:30     我来说两句 
收藏    我要投稿   
本书可分成五部分,共25章。第1章是概述,系统介绍推荐系统的概念、功能、应用领域以及当前应用过程中遇到的问题与挑战。第一部分(第2~7章)介绍当前构建推荐系统最普遍使用的技术,如协同过滤、基于内容的数据  立即去当当网订购

许多基于关键词的推荐系统发展时间相对较短,但在很多领域都可以发现它们在应用程序中的应用,如新闻、音乐、电子商务、电影等。每个领域面对不同的问题,也就需要不同的解决方案。

在Web推荐系统的领域中,关于内容的著名系统有Letizia[49]、Personal WebWatcher[62,63]、Syskill&Webert[70,68]、ifWeb[4]、Amalthea[66]和WebMate[23]。Letizia是一个网页浏览器的扩展,它跟踪用户浏览行为,并依据与用户兴趣相关的关键词进行个性化建模。它依赖隐式反馈来推断用户的喜好。例如,收藏一个网页就表示为用户对这个网页感兴趣的有力证据。同样的方式,个人WebWatcher从用户访问的网页和离开已访问网页的链接来学习个体的兴趣。它将访问的网页作为用户兴趣的正例,未访问的网页作为负例。

Amalthea使用指定的过滤工具来协助用户发现感兴趣的信息。用户可以通过提供与用户兴趣相关的网页(表示为权重向量)来确定过滤器。

Syskill & Webert采用了相同的方法,它用128个最有代表性的词(文档中有代表性的词可以用许多不同的方法确定)来表示文档。ifWeb采用了更高级的表示技术,它将信息表示成一定形式的带权重的语义网。它支持显式反馈,并且不仅考虑兴趣,而且还考虑了显式的非兴趣。另一个有趣的方面是,它加入了一个时间衰减的机制,如给表示用户的兴趣加上时间衰减。WebMate采用了另一个不同的方法来表示用户兴趣,它在不同领域通过学习由正向训练样例表示的关键词向量构成的用户信息来跟踪用户兴趣。一个n个关键词的向量可以正确地表示最多n个独立的用户兴趣。

在新闻过滤领域,著名的推荐系统有NewT[87]、PSUN[90]、INFOrmer[91]、NewsDude[12]、Daily Learner[13]和YourNews[2]。NewT(News Tailor)允许用户提供关于文章、部分章节、作者或来源的显式和隐式反馈。许多过滤工具用不同类型的信息进行训练,如政治类新闻过滤器、体育类新闻过滤器等。YourNews是一个最近新出现的个性化新闻访问系统,使用同样的方法为8个不同主题(国内、国际、经济等)分别维护有一个兴趣个人信息。用户对这些主题的兴趣信息用一个加权的原型词向量表示,向量值从用户浏览的新闻的历史记录中抽取。用户过去浏览了N篇文章,抽取前100个加权了的词来生成用户最终的原型向量。该系统维护了一个仅考虑最近浏览过的20篇新闻信息的短期特征,而长期特征考虑的是过去所有浏览过的新闻。系统可以利用这些个人信息来显示最近的和推荐的两类新闻。? 这里的“recent and recommended”应该表示的是两种推荐的形式。——译者注?

在新闻过滤系统中,学习短期和长期特征是两种非常典型的方式。NewsDude在用户提供的感兴趣新闻的初始训练集基础上,用基于TF-IDF(余弦相似度)的方法学习用户短期模型,用基于朴素贝叶斯分类器的模型学习用户的长期模型。新闻来源于雅虎新闻。同样的Daily Learner无线信息访问的学习工具,也采用一种方法来学习两种不同的用户模型。

前者基于最近邻的文本分类器算法来维护用户的短期兴趣特征,后者利用长时间收集到的数据,基于朴素贝叶斯分类器,来学习用户的长期兴趣特征。

在对文章和个人信息使用更复杂表示的系统中,需要注意PSUN和INFOrmer。PSUN采用了一个可选择的文本表示方法。初始特征由系统中用户选择感兴趣的某些文章来提供。文本中重复出现的单词被记录在称为n-gams的网络中,这个网络中的单词可以相互吸引或者排斥,相互吸引程度主要取决于网络中两个词共同出现的次数。每个用户都有多个特征,它们是需要显式反馈,经过一个遗传算法来竞争产生的。INFOrmer使用一个语义网络来同时表示用户特征和文本。一个扩散激活技术[25]用来比较文本和用户特征,并且为使系统行为适应变化的用户兴趣,采用一个相关的反馈机制。一个纯扩散激活模型是由被标记或加权的链接起来的节点组成的数据网络。给一组源节点标记激活权重,然后不断迭代,将源节点激活权重传播给与它相连的其他节点,直到终止条件满足使得网络中的搜索过程结束。

各种不同的基于内容的推荐系统在其他的应用领域也有应用。LIBRA[65]做的书籍推荐,利用从Amazon在线电子商店获取的关于产品描述的网页,实现了一个朴素贝叶斯文本分类方法。Re:Agent[16]:智能的电子邮件工具,它利用自动的特征抽取算法,可以学习如过滤、下载到掌上电脑、将邮件转为语音邮件等行为。Re:Agent用户只需要将样例信息放置在与期望行为对应的文件夹中。Re:Agent从这些文件夹中学习概念和决策策略。

Citeseer[15]通过使用文字信息和分析论文中的共同引文,来协助用户搜索学术文献。INTIMATE[53]使用文本分类技术从Internet Movie Database? http://www.imdb.com?获得的电影剧情简介去学习,进而推荐电影。为了获得推荐电影,用户被要求至少给一定数量的电影进行评价,评价分为6个档次:很差、差、低于平均、高于平均、好、优秀。同样,Movies2GO[67]从用户评分过的电影剧情简介中学习用户偏好。该系统的创新之处是加入了投票模式[93],当多人在偏好上有冲突的时候,给一个可接受的折中,使他们的冲突偏好能更好地适应单个用户。

在音乐领域,一般使用的推荐技术是协同过滤(见Last.fm? http://www.last.fm?和MyStrands? http://www.mystrands.com?系统)。最著名的系统Pandora? http://www.pandora.com?使用(人工的)基于内容的描述来推荐音乐。该系统的主要问题是可扩展性,因为音乐注释的过程全是靠人工完成的。相反,FOAFing the music[21,22]可以推荐音乐、发现音乐和探索音乐的内容,它基于来自Friend of a Friend(FOAF? http://www.foaf-project.org?)的用户信息、从与音乐相关的RSS种子中提取的上下文信息,以及自动地从音频文件中提取的基于内容的描述。

为了完成采用简单的关键字向量空间表示的基于内容的推荐系统的研究,我们也会提到一些融合了协同和基于内容的方法的混合推荐系统,如Fab[7]、WebWacther[45]、ProfBuilder[99]、PTV[89]、Content-boosted Collaborative Filtering[56]、CinemaScreen[78]和在文献[94]中提到的一个。

对过去15年里主流系统的发展进行分析学习,最重要的发现是,同时对物品和用户信息采用基于关键词的表示,并通过足够多的信息证明用户兴趣可用,可以准确预测用户行为。大多数基于内容的系统被认为是建立在包括用户兴趣正例和负例文本训练集上的文本分类器。因此推荐的准确率依赖于大量的训练样本,而训练样本的好坏又依赖于对用户兴趣的可靠的句法分析的结果。这个方法的问题就是“缺乏智能”。当要求更高级的特性时,基于关键词的方法就显得不足。如果用户有个如“法国印象派”的关键词,基于关键词的方法只能找出包含有词“法国”和“印象派”的文档。那么关于Claude Monet或Renoir展览的文档将不会出现在推荐集合中,即使他们可能对用户来说更相关一些。更高级的表示策略需要为基于内容的推荐系统添加“语义智能”,它可以超越由关键词提供的用户兴趣的语法证据。

下面将会探究在索引阶段通过本体和广博知识源注入知识的可能方式。

点击复制链接 与好友分享!回本站首页
分享到: 更多
您对本文章有什么意见或着疑问吗?请到论坛讨论您的关注和建议是我们前行的参考和动力  
上一篇:3.3.1.1 基于关键字向量空间模型
下一篇:3.3.1.3 运用本体的语义分析
相关文章
图文推荐
2.7.12 使用仿真器查
2.7.11 栈和寄存器组
2.7.8 出栈
2.7.7 压栈
排行
热门
文章
下载
读书

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训
版权所有: 红黑联盟--致力于做最好的IT技术学习网站