admin管理员组文章数量:1794759
推荐系统学习
相关概念
ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。
数据处理流程实时处理流程:
用户操作——服务器日志——日志采集——消队列——实时计算——计算结果存储——可视化展现
离线处理流程:
用户操作——服务器日志——日志采集——日志存储——日志清洗——进入数仓——离线数据计算——业务数据库——可视化展现
实现过程模块说明
学习案例的架构图
离线统计服务:基于统计的推荐
离线推荐服务:基于特征的个性化推荐
日志采集服务:实时采集日志转成消
消缓冲服务:收取过滤出有效内容,并进行队列缓冲
实时推荐服务:使用模型推荐相关数据
相关技术栈
离线隐语义模型协同过滤推荐
LFM (Latent factor model):隐语义模型,一种基于矩阵分解的用来预测用户对物品兴趣度的推荐算法,该算法的核心思想是通过隐含特征(Latent factor)联系用户和物品,该算法最早在文本挖掘领域中被提出用于找到文本的隐含语义
ALS(Alternating Least Squares):交替最小二乘法。LS算法是ALS的基础,是一种数学优化技术,通过最小化误差平方和寻找数据的最佳匹配,利用最小二乘法寻找最优的未知数据,保证求的数据与已知的数据误差最小。
是一种在推荐系统中广泛使用的技术。该技术通过分析用户或者事物之间的相似性,来预测用户可能感兴趣的内容并将此内容推荐给用户
矩阵分解:对于大量用户与大量商品、但用户与商品评分较少的场景,如何用用户对当前商品的评价去推测用户对商品集中其他商品的评价。(评价值包括但不限于用户行为浏览、收藏、加购物车、购买的加权求和)
用户\\商品 | 商品 1 | 商品 2 | 商品 3 | 商品 4 |
用户A | 3 | 2 | ||
用户B | 1 | 2 | ||
用户C | 3 | 4 | 6 | |
用户D | 1 | 2 | 5 |
离线提取商品特征基于内容推荐
TF-IDF(term frequency–inverse document frequency):一种用于信检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。
离线相似物品推荐
Item-CF: 基于商品的协同过滤算法, ItemCF算法不是根据物品内容的属性计算物品之间的相似度,而是通过分析用户的行为记录来计算用户的相似度,该算法认为物品A和物品B相似的依据是因为喜欢物品A的用户也喜欢物品B。
实时推荐
根据用户的一个行为,通过实时推荐算法,完成商品推荐评分的更新
主要推荐算法简介基于用户的推荐(User-based Recommendation)
系统首先根据用户的类型,比如按照年龄、性别、兴趣爱好等信进行分类。根据用户的这些特点计算形似度和匹配度。如图,发现用户A和B的性别一样,年龄段相似,于是推荐A喜欢的商品给C。
优点:
a 不需要历史数据,没有冷启动问题;
b 不依赖于物品的属性,因此其他领域的问题都可无缝接入。
不足:
算法比较粗糙,效果很难令人满意,只适合简单的推荐。
基于内容的推荐(Content-based Recommendation)
优点:
不足:
基于协同过滤的推荐(collaborative filtering):
- 基于用户(user-based)的协同过滤,UserCF算法主要是考虑用户与用户之间的相似度,给用户推荐和他兴趣相似的其他用户喜欢的物品
- 基于物品(item-based)的协同过滤,ItemCF算法不是根据物品内容的属性计算物品之间的相似度,而是通过分析用户的行为记录来计算用户的相似度,该算法认为物品A和物品B相似的依据是因为喜欢物品A的用户也喜欢物品B
- 基于模型(model-based)的协同过滤,也叫做基于学习的方法,通过定义一个参数模型来描述用户与物品,用户与用户(或者物品与物品)之间的关系,然后通过优化过程得到模型参数。
本文标签: 系统
版权声明:本文标题:推荐系统学习 内容由林淑君副主任自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.xiehuijuan.com/baike/1686513081a76040.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论