用户画像的核心工作是为用户打标签,打标签的重要目的之一是为了让人能够理解并且方便计算机处理。比如可以做分类统计:喜欢购物的用户有多少?喜欢理财的人群中,男、女比例是多少?也可以做数据挖掘工作:利用关联规则计算,喜欢理财的人通常喜欢什么运动品牌?利用聚类算法分析,喜欢购物的人地区分布情况是怎么样的?
大数据处理,离不开计算机的运算,标签提供了一种便捷的方式,使得计算机能够程序化处理与人相关的信息,甚至通过算法、模型能够“理解”人。当计算机具备这样的能力后,无论是搜索引擎、推荐引擎、广告投放等各种应用领域,都将能进一步提升精准度,提高信息获取的效率。
如何构建用户画像?
一个标签通常是人为规定的高度精炼的特征标识,如:性别标签”男、女”、地域标签“北京”,等等。标签呈现出两个重要特征:一是语义化,即人能很方便地理解每个标签的含义。这也使得用户画像模型具备实际意义,能够较好地满足业务需求。如:判断用户偏好。二是短文本,每个标签通常只表示一种含义,标签本身无需再做过多的文本分析等预处理工作,这为利用机器提取标准化信息提供了便利。
我们制定的标签规则,必须要确保所做的标签具备两个基本特性:人能够通过标签快速读出其中的信息,机器方便做标签提取、聚合分析。所以,用户画像,即用户标签,向我们展示了一种用于描述用户信息的朴素而简洁的方法。数据源分析
构建用户画像是为了还原用户信息,因此数据来源于:所有用户相关的数据。
关于用户相关数据的分类,这里介绍一种重要的分类思想:封闭性的分类方式。
这样的分类方式,有助于后续不断枚举并迭代补充遗漏的信息维度。不必担心架构上对每一层分类没有考虑完整,造成维度遗漏留下扩展性隐患。另外,不同的分类方式根据应用场景,业务需求的不同,也许各有道理,按需划分即可。
本文将用户数据划分为静态信息数据、动态信息数据两大类。静态信息数据——
用户相对稳定的信息,如图所示,主要包括人口属性、商业属性等方面的数据。这类信息,自成标签,如果企业有真实信息则无需过多建模预测,更多的是数据运营清洗工作,因此这方面信息的数据建模不是本篇文章重点。动态信息数据——
用户不断变化的行为信息,如果存在上帝,每一个人的行为都在时刻被上帝那双无形的眼睛监控着。从广义上讲,一个用户打开网页,买了一个杯子,与该用户傍晚溜了趟狗,白天取了一次钱,打了一个哈欠等一样,都是上帝眼中的用户行为。当行为集中到互联网,乃至电商,用户行为就会聚焦很多。
本篇文章以互联网电商用户为主要分析对象,暂不考虑线下用户行为数据(分析方法类同,只是数据获取途径、用户识别方式有些差异)。
在互联网上,用户行为可以看作用户动态信息的唯一数据来源。如何对用户行为数据构建数据模型,分析出用户标签,将是本文着重介绍的内容。目标分析
用户画像的目标是通过分析用户行为,最终为每个用户打上标签,以及该标签的权重。如:男、网购、自拍。
标签,表征了内容,用户对该内容有兴趣、偏好、需求,等等。
权重,表征了指数,用户的兴趣、偏好指数,也可能表征用户的需求度,可以简单地理解为可信度、概率。数据建模方法
下面内容将详细介绍如何根据用户行为,构建模型产出标签、权重。一个事件模型包括时间、地点、人物三个要素。每一次用户行为本质上是一次随机事件,可以详细描述为:什么用户,在什么时间、什么地点,做了什么事。
四、总结:
本文并未涉及具体算法,更多的是阐述了一种分析思想。
来源:http://zhugeio.com/news/?p=99
人人都是产品经理(woshipm.com)中国最大最活跃的产品经理学习、交流、分享平台
因篇幅问题不能全部显示,请点此查看更多更全内容