admin管理员组文章数量:1794759
利用人工智能解读区域时尚特征(译文)
原文作者:Rohit Gupta和Siddhartha Devapujula
介绍
每天有数百万用户访问 Myntra 来更新他们的衣柜,平台上随时都有数百万件商品列出。用户既没有时间也没有能力浏览这个庞大的商品列表。即使应用了类别和属性过滤器,商品数量通常仍达数千件。因此,对于任何用户来说,顶级搜索结果既相关又个性化至关重要。就像搜索一样,平台上的许多其他推荐小部件也面临着同样的挑战。
时尚多样性——每个地区都有自己的时尚
从百万种产品目录中向每位用户展示最适合他们的款式,这就是基于机器学习的推荐系统发挥作用的地方。从谷歌的搜索结果到 Netflix 主屏幕,推荐系统都在后台工作,为您提供最佳结果。如果没有这些系统,现代互联网体验是难以想象的。
这些模型的终极目标是以用户特征和大量的物品列表作为输入,为每个用户生成一个小型的个性化物品列表。
为了使这些系统发挥作用,我们主要使用用户在平台上的历史活动。在本博客中,我们将了解如何使用其他类型的用户详细信息来提高推荐的质量。
在接下来的几节中,我们将深入探讨推荐系统和相关技术的细节。我们将解释基于位置的推荐系统的动机以及我们如何在 Myntra 构建一个推荐系统。稍后,我们将讨论 Myntra 的一些用例、结果和潜在的未来工作。
推荐系统基础知识
这是一篇关于 Google 推荐系统的非常简单的文章 —推荐:是什么和为什么?| 机器学习 | Google 开发者指南。如果读者已经了解这一点,可以跳过。
传统的推荐模型专注于利用用户在平台上的历史互动来学习。这对于现有用户来说很有效,但存在用户冷启动问题,即向首次访问的用户显示什么?现代推荐模型使用用户的可用属性(或元数据)来解决这个问题。使用这些辅助信息也可以改善现有用户的结果。位置可以被认为是一种这样的辅助信息。
基于位置的推荐系统的动机
在这篇博客中,我们将重点关注一个重要的用户属性,即位置。
地理位置在时尚行业中发挥着更大的作用,尤其是在印度这样一个地域广阔、多元化的国家,每个地区都有自己的服装文化和不断变化的潮流。甚至印度各地的气候条件和地形也各不相同,这直接影响了当地居民的服装选择。所有这些因素都表明,在向用户推荐服装时,应考虑地理位置。地理位置可用于增强 Myntra 现有用户和新用户的体验。
位置也是一个略显模糊的术语。位置的含义可以很广泛,比如您居住的城市,也可以很狭窄,比如 GPS 跟踪的精确坐标。我们在模型中使用邮政编码作为位置的定义。邮政编码是我们可用的最精细的位置信息之一。它也是电子商务环境中可靠且易于获取的信息。可以使用位置的其他方面(州、城市、地理哈希编码等),但我们发现邮政编码是开始开发的理想选择。
我们展示了如何使用简单的协同过滤技术来支持基于位置的时尚推荐。在此之前,让我们先了解一下协同过滤的细节。
协同过滤简介
协同过滤已经成为推荐模型中常用的建模技术。[1] 这些算法有助于从我们所谓的交互矩阵中学习有意义的用户和项目嵌入。交互矩阵包含用户和项目交互分数(例如用户对电影的评分)。然后,这些嵌入用于在推理时预测用户项目分数。
我们在用例 [2] 中使用了 BPR(贝叶斯个性化排名)算法。BPR 是业界非常常用的协同过滤算法。该算法不是采用逐点训练方法,而是针对用户正确优化产品的成对排名。
损失函数一般表示为
在哪里
- uij是交互数据中的三元组,其语义是用户 u更喜欢项目 i而不是项目 j,这意味着项目 i 对于用户 u 来说是正样本,而项目 j 是负样本。
- x_uij 表示用户 u 对项目 i 和项目 j 的估计偏好分数之差(= x_uj — x_uj),
- Θ 表示模型参数向量,
- λ_Θ 指的是正则化参数。
左侧显示的是观察到的数据 S。我们的方法在两个项目之间创建用户特定的成对偏好 i >_u j。右侧的加号 (+) 表示用户更喜欢项目 i 而不是项目 j;减号 (-) 表示他更喜欢项目 j 而不是 i。(图片取自 [2])
我们可以使用任何类型的模型来估计用户-项目得分 x_uj 和 x_uj,比如说用户和项目嵌入之间的简单点积。我们的损失函数变成
更新损失函数
在哪里
- x_u、y_i、y_j 是用户 u、项目 i 和项目 j 的嵌入。
选择正样本和负样本可以根据用例进行定制,但通常选择用户表现出一些隐性/显性兴趣(例如点击、列表浏览、订单等)的项目作为正样本。负抽样策略可以像随机抽样一样简单,也可以基于方法,例如使用项目流行度作为抽样概率分布。
学习 Pincode 嵌入
我们在模型中使用邮政编码作为位置的代理。我们的目标是根据用户所属的邮政编码提供商品推荐。
我们学习邮政编码和项目嵌入,而不是通常的用户和项目嵌入,然后将其用于下游推荐任务。
我们的交互矩阵由邮政编码和商品组成,每个单元格中的值表示该邮政编码和商品之间的历史交互。如果该邮政编码至少有 K 个该商品的订单,我们将矩阵中的值设置为 1。(K 是一个超参数)。然后我们在这个矩阵上训练 BPR 以生成邮政编码和商品嵌入。
结果
一旦我们获得这些 pincode 嵌入,它们就可以在下游的多个模型中使用,尤其是在我们观察到用户冷启动问题的情况下。我们稍后会展示几个这样的用例,但在此之前,我们先来看看嵌入。
可视化邮政编码嵌入
一些重要的观察结果是 -
- 特定地区的购买行为起着至关重要的作用。许多邮政编码与地理位置相近的邮政编码属于同一群集。
- 许多大城市的邮政编码,不论属于哪个地区或州,都属于同一聚类。
- 一些二线城市的邮政编码与大城市属于同一集群。在这种情况下,将粒度保持在邮政编码级别比保持在城市级别更有优势。
当我们将班加罗尔邮政编码可视化时,我们可以看到一些邮政编码与其他大都市属于同一集群(颜色为浅蓝色),而其他邮政编码与卡纳塔克邦的大多数其他邮政编码属于同一集群(颜色为浅橙色)。熟悉班加罗尔的人会知道,浅蓝色的邮政编码是来自印度多个地区的人们居住的地区,由于人口结构相似,这些地区的购买模式更有可能与孟买和德里等大城市相似。
使用案例
现在我们展示 Myntra 的两个重要用例,其中我们直接使用邮政编码嵌入作为功能。
排行
产品的受欢迎程度(以收入、数量或订单等指标衡量)是排名和推荐系统中考虑的重要特征。事实上,基于受欢迎程度的推荐是机器学习模型竞争的最基本基准。
为了评估嵌入的优劣,我们对邮政编码嵌入进行了聚类,并查看聚类内产品的受欢迎程度是否比该产品在全国范围内的整体受欢迎程度更具排名能力。
我们测量了 nDCG 来比较两者,可以清楚地看到,基于 pincode 聚类的流行度是下游模型中更好的流行度测量方法。
请注意,我们在这里测量的是 k = 100 到 k = 5000 的 nDCG,与推荐系统中的 k 的通常值(1 到 20)相比,这个值相当大,因为这里我们测量的是每个邮政编码集群的 nDCG,而不是每个用户或会话的 nDCG。基本上,我们关注的是每个集群中排名前 100-5000 的推荐产品在带来收入方面的表现如何。
您附近的热门
我们使用邮政编码嵌入服务的另一个重要用例是您附近的流行趋势。目标是推荐一组在用户所在地流行且与用户正在查看的款式相似的款式。这个想法是利用这样一个事实:具有相似购买/查看行为的人更有可能查看/购买整个群体喜欢的产品。
北方邦
特伦甘纳邦
您附近的流行趋势:男装——北方邦与特伦甘纳邦——这是冬季的建议,我们可以清楚地看到,北方邦的顶级款式是冬装产品,而在第二种情况下,产品是适合赤道气候的普通服装。
阿萨姆
查谟和克什米尔
您附近的流行趋势:男装 — 阿萨姆邦 vs 查谟和克什米尔邦 — 比较查谟和克什米尔邦和阿萨姆邦时,我们可以清楚地看到趋势的明显转变。这表明我们的模型能够根据位置捕捉本地趋势。
未来工作
截至目前,基于 BPR 的邮政编码嵌入已经在 Myntra 上服务于多种用例。
未来工作可从以下几个主要方向开展:
- 使用协同过滤算法实现更好的嵌入— 可以对 BPR 进行很多改进。例如 — 更好的负采样以及在损失计算期间区分硬负样本和软负样本。可以尝试更复杂的算法,例如 WARP[ 3 ]、NCF[ 4 ] 和图形学习[ 5 ]。
- 属性感知推荐系统——许多推荐系统模型,如 Wide&Deep[ 6 ]、DeepFM[ 7 ]、DLRM[ 8 ]、基于 GNN 的模型等,都能够学习用户和项目类别特征的嵌入。Pincode 就是这样一个重要特征。我们必须评估此类模型的嵌入是否比现有模型更好。
致谢
我们要感谢Pankaj Agarwal的投入,以及Vipulsrivasmishra和Rahul Mishra在“您身边的趋势”上所做的工作。
参考
- 协同过滤 | 机器学习 | Google 开发者
- 来自隐式反馈的贝叶斯个性化排名 — .2618.pdf
- Light FM 文档 — .html
- 神经协同过滤 - .05031.pdf
- PinSage:一种用于网络规模推荐系统的新型图形卷积神经网络 | 来自 Pinterest 工程部
- 广泛和深度学习:与 TensorFlow 一起变得更好 — Google AI 博客
- DeepFM—— .04247.pdf
- Facebook 人工智能博客 — /
原文地址:
本文标签: 利用人工智能解读区域时尚特征(译文)
版权声明:本文标题:利用人工智能解读区域时尚特征(译文) 内容由林淑君副主任自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.xiehuijuan.com/baike/1754622487a1704487.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论