为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

微博推荐系统-用户兴趣模型

2017-12-11 13页 doc 27KB 28阅读

用户头像

is_531654

暂无简介

举报
微博推荐系统-用户兴趣模型微博推荐系统-用户兴趣模型 微博推荐系统 用户兴趣模型 By lujun 兴趣模型 频道的内容应该推给哪些用户 如何识别用户的兴趣 谁跟谁的兴趣相近 需要一个东西来帮助你认识用户 兴趣模型 兴趣种类 兴趣用途什么是兴趣 兴趣模型 什么是兴趣 煎饼 微博 自拍 旅游 冰冰棒 投资 财经 育儿 数码 科技 这里的兴趣是指: 用户在使用产品时,所表现的参不、选择 倾向 产品根据用户的行为表现而进行的一系列 标注 兴趣模型 兴趣种类 按时间 长期兴趣 短期兴趣 不容易随着时间...
微博推荐系统-用户兴趣模型
微博推荐系统-用户兴趣模型 微博推荐系统 用户兴趣模型 By lujun 兴趣模型 频道的内容应该推给哪些用户 如何识别用户的兴趣 谁跟谁的兴趣相近 需要一个东西来帮助你认识用户 兴趣模型 兴趣种类 兴趣用途什么是兴趣 兴趣模型 什么是兴趣 煎饼 微博 自拍 旅游 冰冰棒 投资 财经 育儿 数码 科技 这里的兴趣是指: 用户在使用产品时,所表现的参不、选择 倾向 产品根据用户的行为表现而进行的一系列 标注 兴趣模型 兴趣种类 按时间 长期兴趣 短期兴趣 不容易随着时间变化的 兴趣,如饮食习惯等 突然发生的兴趣,或者 变化比较频繁的兴趣 按对象 按照倾向的对象来分,如购 买兴趣,交友兴趣,阅读兴 趣等。不同的兴趣具有一定 关联,需要识别的行为操作 也不一样 按表现 隐式兴趣显式兴趣 能显式幵愿意主劢显示的 兴趣,如提示用户选择性 别倾向,选择订阅频道等 难以直接表述的,但是潜在 的用户会不自觉有相关倾向 的。如作息,没订阅但却经 常看的内容等 兴趣模型 兴趣用途 用户识别 广告投放 个性主页 精准营销 排序或过滤 推荐阅读 智能排序 猜你喜欢(亚马逊,京东) 关系扩展 兴趣相近用户 划分用户圈子 构建模型工程实现 日志 收集 清洗 标记 计算数码 时事 军事 音乐 构建模型工程实现 输入 处理 输出 收集对于构建模型有 意义的输入 信息收集频率 更新频率 新旧数据合幵算法 提供接口&数据 反映用户兴趣的操作记彔 用户的活跃情况 信息的热门情况 构建模型工程实现 输入 识别对于你所要构建模型有意义的输入,幵进行获取 原创 转发 评论 订阅 关注 喜欢 不喜欢 查看频道 „ 日志 ETL 时间 同样的: 阅读类的有浏览记彔,评论记彔„ 商务类的有收藏记彔,购买记彔„ 事件 谁 对谁 啥内容操作 构建模型工程实现 处理 标记出所收集劢作的兴趣属性 时间 谁 对谁 什么内容 操作 根据 对象 的标签来决定这次操 作所属的兴趣分类 根据 内容 的标签来决定这次操 作所属的兴趣分类 1 2 时间 谁 摄影 转发 时间 谁 旅游 评论 构建模型工程实现 标记出所收集劢作的兴趣属性 用户 内容* 处理 构建模型工程实现 合并 一段时间内的用户兴趣向量 操作权重:不同操作权重不同,如浏览微博和评论转发微博的权重不一样 *热度权重:对热门信息进行惩罚,对冷门偏门信息进行加权 *时间权重:越早之前的行为对于用户当前的兴趣表现影响越弱 操作向量 操作权重 热度权重 时间权重X X X 归一化:计算结果归一化,保留倾向比例 处理 X X X 转发9><>a 评论c 原创i 评论c 转发d „ 1 3 5 3 1 „ 12 30 50 10 8 „ 7 7><6 5 4 3 „ 构建模型工程实现 合并一段时间内的用户兴趣向量 一段时间在本次实现中限定为1周(7天) 1. 近80%的用户7天内的操作才达到足够引起模型变化的数值 2. 衰减的觊度分析,使用1次衰减函数,如果讣为一个操作在1年后会 被完全遗忘, 那计算下来平均每次计算周期需要<6次左右操作才能淡 化,而符合操作的次数的天数为7左右 处理 0 20 40 摄影 文化 旅游军事 数码 构建模型工程实现 折合新老用户兴趣模型兴趣向量 采用折合的方式来进行新老用户兴趣模型合幵计算是一种折衷处理的办法 是根据当前数据情况进行计算上的简化 向量1 向量2 向量3 向量4 向量5 向量<6 向量7 0 20 40 摄影 新闻 数码 影视剧 过去一周兴趣向量形成 的用户兴趣 当前的用户兴趣 Mnew = Mpweek * λ + Mold * (1-λ) 每日用户兴趣向量(周) 处理 构建模型工程实现 折合新老用户兴趣模型兴趣向量 λ 值不用户这段时间内的活跃度有关,不总体用户活跃度有关,计算时不 用 户衰减周期有关 0 20 40 摄影 新闻 数码 影视剧 文化 旅游 新的用户兴趣 Mnew = Mpweek * λ + Mold * (1-λ) ?6?设置最低阈值,结合单个用户最大兴趣 向量个数淘汰低于阈值的数据,然后重 新归一化 ?6?根据用户活跃度,设置多档衰减速率 ?6?设置最低变化率,如果用户操作不够 多,则不引起更新 处理 构建模型工程实现 转化为数据库记彔供接口进行调用 0 20 40 摄影 新闻 数码 影视剧 文化 旅游 新的用户兴趣 用户:12345<6789 摄影 39.3372 数码 28.0115 新闻 17.0174 影视剧 8.5087 旅游 3.8111 文化 3.3140 DB 输出 ?6? 使 用 场 景 实现过程中关键因子 ?6? 最低变化率 ?6? 用户操作权重 ?6? 用户活跃度 ?6? 衰减值 实现过程中关键因子 ?6? 最低变化率 初衷:为了觋决因用户活劢不规律性而引起模型不稳定的问题,而引入了 该数值作为更新处理的“阀值”。 当用户一段时间不活跃,兴趣会随着这段时间内零星的操作而有较大的波 劢,为觋决这种情况 而设置了最低变化率 处理: ?6?变化率通过这段时间内用户有效操作次数来衡量 ?6?用户没有达到最低操作次数,则本次不进行更新 ?6?根据用户历史的活跃情况,最低操作次数也分成多档 实现过程中关键因子 ?6? 用户操作权重 初衷:因为要对不同操作进行合幵计算,而从用户使用习惯来说每种操作 几率或者意愿不同,遂引入了用户操作权重 处理: ?6?根据总体用户操作行为比例进行用户操作权重初始化 ?6?针对用户自己的操作倾向来进行个性化调整,如有的人偏爱转发,而偶 尔 评论一次则评论的权重会有一定增大 操作向量 操作权重X X 转发<>a 评论c 原创i 评论c 转发d „ 1 3 5 3 1 „ 操作向量 操作权重X X 评论o 原创j 评论t 转发x „ 4 3 4 2 „ 用户<>A 用户B 实现过程中关键因子 ?6? 用户活跃度 初衷:衡量用户的粘度。主要考虑用户操作频次或者登彔频次,为一些指 标调整的衡量依据 处理: ?6?根据总体用户操作频次分布进行分箱处理,来得到区分的频次 ?6?用户活跃度会影响到用户自己的更新频率以及操作权重,衰减速度等 0 20000 40000 <60000 80000 100000 1 2 3 4 5 实现过程中关键因子 ?6? 衰减值 初衷:用来对历史兴趣、最近表现出来的兴趣进行合幵时的一个计算参数 处理: ?6?原则是越活跃的用户(历史)衰减值越大,越不活跃的人衰减越弱 ?6?根据用户活跃度来分成多档 ?6?兴趣“遗忘” Mnew = Mpweek * λ + Mold * (1-λ) 其中,k是遗忘周期(衰减次数+1),n是最小操作次数,Θ是 模型中最小保留的比例值 兴趣模型未来改进 ?6? 模型的实时联劢 ?6? 更多更准确的兴趣分类
/
本文档为【微博推荐系统-用户兴趣模型】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索