第一章 引言
书中首先以在线书店为例,讲述了书店向特定用户推荐相关书籍的推荐系统,引申出推荐系统的类别——个性化推荐与热门推荐。在线书店是个性化推荐系统。每一个人由于其兴趣爱好不同,在系统中会看到不同的列表。当然也会有畅销书的推荐,而畅销书的推荐,显示的是当前用户群体,大众的关注热点,表示的是一种群体性推荐。
这本书重点讨论的是前面一种:也就是个性化的推荐系统。
提供个性化的推荐系统需要了解到用户的信息。它必须开发并维护一个用户模型或者用户记录来保存用户的偏好。以在线书店为例子,系统需要记住访客的浏览或者买过的书,从而预测他可能感兴趣的书。
尽管用户模型对推荐系统很重要,但是如何获取并利用这个信息,往往是取决于特定的推荐技术的。
用户的偏好可以通过监测用户行为隐式地获取,也可以通过询问访问者,显式地获取。
在获取用户的信息后,系统该如何利用,以及利用什么额外的信息。这些是推荐系统要解决的一部分问题。
目前已经在许多在线书店应用的方法:基于群体或协同的方法。
本书分为两部分:
第一部分总结了几年来被广泛接受的推荐系统方面的研究成果,介绍了协同过滤、基于内容的过滤、基于知识的推荐和混合推荐方法的基本理论框架。此外,还包含了解释推荐物品的原因和评估推荐结果质量。
第二部分讨论了推荐系统的最近研究课题。如:如何因对外来攻击和操作推荐系统的做法、支持消费决策和可能的说服策略、社交和语义网背景下的推荐系统和所有领域应用推荐系统。第二部分可以看作是持续研究的参考。
本书的第一部分简介:
协同过滤的推荐
这些推荐的思想是:如果用户在过去有相同的偏好,他们在未来也有相同的偏好。
基于协同过滤推荐下,一般需要回答几个问题:
我们如何发现与我们要推荐的用户有着相似的偏好的用户?
如何衡量相似度?
如何处理还没有购买经历的用户?
如果只有很少的评分怎么办?
除了利用相似的用户之外,还有哪些技术可以预测某个用户是否喜欢其他物品?
其实,纯粹的协同过滤方法不会用到和要求任何和物品有关本身的知识的。
基于内容的推荐
它的核心是:能够得到物品的描述,和这些特征的重要记录。
基于内容的推荐下,需要回答如下的问题:
系统如何获取并持续改进用户记录?
如何决定哪个物品匹配或至少能接近、符合用户的兴趣?
什么技术能自动抽取或学习物品的描述,减少人工标注?
与不涉及内容的方法比较,基于内容的推荐有两大优点:
1.不需要大规模用户就可以达到适度的推荐精准度 2.一旦得到物品的属性就能立即推荐新物品。
基于知识的推荐
如果我们把注意力投向其他领域,比如消费电子产品,就会涉及大量单次购买者。这意味着我们可能无法依赖购买记录,而这却是基于内容过滤和协同过滤的前提条件。即使如此,我们还是能够获取到更为精细化和结构化的内容,包括专业化的优质特征。
基于知识的推荐系统需要额外的因果关系知识生成推荐。在这种基于知识的方法中,推荐系统通常会用到有关当前用户和有效商品的额外信息。基于约束的推荐就是此类系统的例子(就类似与taobao,京东此类网站,需要用户设定条件,才能给你过滤,推荐产品)
基于知识的推荐系统要解决的问题如下:
什么机制可根据用户的特点来选择和排名物品?(为什么把某一个放在前面,把某一个放在后面)
哪种领域知识能表示成知识库?
如何在没有购买记录的领域获取用户信息?
如何处理用户直接给出的偏好信息?
哪种交互方式能够用英语交互式推荐系统?
设计对话时,要考虑哪些个性化因素才能保证获取用户的偏好信息?
混合推荐
由于问题的背景不同,每一种方法都有其优劣势。一种显而易见的方法就是组合不同技术产生更好或更精准的推荐。这种设计尤其适用于克服纯粹协同过滤方法的规模膨胀问题,并可以以来内容分析处理新物品或新用户。
在推荐系统中混合使用不同的方法时必须回答一下几个问题:
哪些方法能被组合,特定组合的前提是什么?
两个或多个推荐算法是应该顺序计算,还是按照其他方法计算?
不同的方法如何赋予权重,可以动态赋权吗?
一般来说,推荐系统的目的有两个:一方面,推荐系统被用于激发用户去做某件事;另一方面,也可以看作是解决信息过载的工具。
因此,推荐系统也深深根植于信息检索和信息过滤的领域。
推荐系统的解释
解释是未来让用户更容易理解推荐系统的推理脉络。
如何评估推荐系统?评估的方法有哪些?
评估方法有:实验、半实验和非实验三种设计方法。需要回答的问题有:
哪些研究适用于评估推荐系统?
如何利用历史数据实验评估推荐系统?
用什么衡量来适应不同的评估目标?
现有的评估技术的局限是什么?尤其是推荐系统的会话性或商业价值方面。