用户画像的标签体系

如题所述

第1个回答  2022-07-07
一、为什么需要标签?

随着互联网的兴起,每天有大量的内容以视频等形式被生产并上传到各大平台,面对海量的内容,如何提升这些内容的智能分发效率是各大平台面临的重要课题。

而要实现这一目标,第一步就是更好地认识我们的用户。构建用户画像的过程的本质就是对用户信息进行标签化管理的过程。通过标签体系的建设,一方面让数据变得可阅读、易理解,方便业务使用;另一方面通过标签类目体系将标签组织排布,以一种适用性更好的组织方式来匹配未来变化的业务场景需求。如何合理规划标签体系对产品的运营影响非常大,因此,标签是产品策略中特别关键的一环。

二、标签是什么?

对于标签的定义在不同场景中往往是不同的,太纠结或执着于单一概念定义,会无法推进实际的业务和工作。我们所有的技术和业务层面的工作是为了业务目标,并且要实用和适用,并不是纯学术层面的研讨。

一般来说,我们认为标签是指 “利用原始数据,通过一定的加工逻辑产出,能够为业务所直接使用的可阅读、易理解、有业务价值的数据。”

标签体系有两种组织方式:结构化标签和半结构化/非结构化标签。

所谓结构化标签是按照某个分类法制定一个层次标签体系,其中上层的标签是下一层的父节点,在人群覆盖上是包含关系。一些面向品牌广告的受众定向往往采用这种结构化较强的标签体系。需要指出,这一体系中的标签是根据需求方的逻辑而制定,某些在媒体方意义很大的分类标签,如军事等,由于没有明确的需求对应,不宜出现在标签体系中。

另外一种兴趣标签的组织方式,是根据具体需求设置相应的标签,所有的标签并不能为同一个分类体系中所描述,也不存在明确的父子关系。这种半结构化或非结构化的标签体系往往包含一些比较精准的标签的集合,因而主要适用于多种目标,特别是效果目标并存的对内容精准投放的诉求。

选择结构化兴趣标签体系还是非结构化的兴趣标签体系更多地是基于业务场景的决策,当标签仅仅是投放系统需要的中间变量,作为CTR预测或者其他模块的变量输入时,那么结构化的标签体系其实是没有必要的,应该完全按照效果驱动的方式来规划或挖掘标签,而各个标签之间也不太需要层次关系的约束。

还有一种特殊的标签形式,关键词。直接按照搜索或浏览内容的关键词划分人群和投放广告,往往可以达到比较精准的效果。关键词这种标签体系是无层级关系、完全非结构化的,它虽然很容易理解,但并不太容易操作。不过由于搜索在互联网中的重要地位,选择和优化投放关键词这样一项专门技术已经发展得相当充分,因此这种标签也是实践中常用的。

三、如何构建标签体系?

1.确定对象

进行标签建设,首先要清楚对哪类对象建设标签,也就是确定对象。对象是客观世界中研究目标的抽象,有实体的对象,也有虚拟的对象。在企业经营过程中可以抽象出非常多的对象,这些对象在不同业务场景下交叉产生联系,是企业的重要资产,需要全面刻画了解。

经过对多个行业、多个标签体系建设经验的总结,可把对象分为 “人”“物”“关系”三大类 。三种对象是不一样的,“人”往往具有主动性和智慧,能主动参与社会活动,主动发挥推动作用,往往是关系的发出者。“物”往往是被动的,包括原料、设备、建筑物、简单操作的工具或功能集合等,是关系的接收者。当常规意义上的设备具有了充分的人工智能,变成了机器人,那么它就属于“人”这一类对象。“人”和“物”是实体类的对象,即看得到、摸得着的对象,而“关系”属于一种虚拟对象,是对两两实物实体间的联系的定义。因为关系很重要,企业大多数情况下反而是在对关系进行定义、反复发生、记录、分析、优化,因此需要“关系”这种对象存在,对关系进行属性描述和研究。关系按照产生的动因不同,又分为事实关系和归属关系,事实关系会产生可量化的事实度量,归属关系只是一种归属属性。

明确了对象的定义和分类,就可以根据业务的需要确定要对哪些对象建立标签体系。 基于内容的对象非常多,不可能对所有对象都建立独立的标签体系,一般我们会根据业务流量的需求,稿件数量的多少,类目的相似性,类目间的关系进行排名,确定标签的优先级和必要性。

2.设计框架

一般来说,互联网产品需要使用的标签类目数量非常庞大,当标签项超过一定数量时,业务人员要使用或查找标签就开始变得麻烦,管理标签也会变得困难。因此笔者借鉴了图书管理学中的经典方法:海量图书需要有专门的图书分类体系对书本进行编号并按照编号分柜排放,阅读者在查阅图书时只需要按编号索引即可快速找到自己所需图书,图书管理员也可以方便、有效地理清所有图书状况。

构建标签类目体系首先需要确定根目录。根目录就是上文提到的对象,因此有三大类根目录:人、物、关系。根目录就像树根一样直接确定这是一棵什么树。

如果根目录是人,即这个标签类目体系就是人的标签类目体系,每个根目录都有一个识别列来唯一识别具体对象。人这种大类下包括自然人和企业法人两种亚根,同时自然人群体或企业法人群体也可以认为属于人的对象范畴内,也是亚根。自然人实例可以有消费者、员工、加盟商等,因此可以形成消费者的标签类目体系、员工的标签类目体系、加盟商的标签类目体系。同样法人也可以细分为实体公司、营销公司、运输公司等。从最大的“人”根目录、到“自然人/法人/自然人群体/法人群体”亚根,再到实例“用户/员工/加盟商”,都属于根目录的范畴。

根据类似的方式,也可以将物细分为“物品”“物体”“物品集合”“物体集合”等亚类,各亚类下也可以细分根;关系也可以细分“关系记录”“关系集合”。

标签类目体系是对业务所需标签采用类目体系的方法进行设计、归属、分类。类目体系本身是对某一类目标物进行分类、架构组织,分类通常使用一级类目、二级类目、三级类目等作为分类名。

类目结构可以用树状结构来比拟,根上长出的第一级分支,称为一级类目;从第一级分支中长出的第二级分支,称为二级类目;从第二级分支中长出的第三级分支,称为三级类目。一般类目结构设为三级分层结构即可。没有下一级分类的类目叫叶类目,挂在叶类目上的具体叶子就是标签。

需要注意的是,类目框架的建设一般是基于业务展开的,因为类目体系存在的核心意义即为帮用户快速查找、管理数据/标签。

下图为某银行构建的客户标签类目体系,其中客户是根目录,会由custom_id来进行唯一识别,根目录下有“基本特征”“资产特征”“行为特征”“偏好特征”“价值特征”“风险特征”“营销特征”等一级类目。“基本特征”一级类目下又分“ID信息”“人口统计”“地址信息”“职业信息”等二级类目。“地址信息”二级类目下再细分为“账单地址”“家庭地址”“工作地址”“手机地址”等三级类目。“账单地址”三级类目下挂有“账单详细地址”“账单地址邮编”“账单地址所在省”等标签。

标签类目设计完成,整个标签体系的框架就有了,接下来要做的就是往每个叶类目下填充有业务价值并且可以加工出来的标签,进而完成整个标签体系的设计。

3.填充内容

通过标签类目设计,已经有了某类对象的标签体系框架,只是还没有具体的标签内容。标签设计就是设计合适的标签并将其挂载到标签类目。 在这一部分,笔者将尽量脱离技术视角,从产品视角出发,剖析如何“制作标签”。

首先,是如何拆解内容。对内容的拆解首先还是分为三个部分:“用户”“内容”“关系”,作为根目录。接下来,关于“人”这个部分,我们可以拆分为:人口属性、兴趣属性、行为偏好、发表时间等;同理,关于内容,我们可以拆分成“统计类”、“质量类”、“向量类”。接着,我们再对二级类目进行拆分,比如“统计类”中包含“点击率”“时长”“完播率”“转评赞”“跳出率”等。

要特别注意的是,往常习惯给别人打标签、贴标签的动作,其实不是在设计标签,而是在设计特征值。例如对某个人的定义“女、20~30岁、白领、活泼开朗”,分别是性别、年龄段、职业、性格标签的具体特征值。

这些特征会进行一定的交叉,赋予这个特征更多的含义。比如说使用用户画像和内容画像做交叉,可以得到用户的长短期的兴趣匹配、Session兴趣泛化匹配、用户年龄对于某些内容类别的偏好、用户性别对于某些内容类别的偏好等。如果拿用户特征与请求的上下文进行特征的交叉,则会得到用户常驻地在什么地方、用户的兴趣随时间的变化,比如有的用户会在早上看新闻,而在晚上看一些娱乐类的资讯;还有一些场景的刻画,如用户喜欢在地铁上看视频,而在办公的时候喜欢看图文。通过这些特征值组合,我们可以尽可能高效地对用户群进行划分,从而实现内容的精准分发。

现在,我们知道了如何建设标签体系以及如何通过标签体系对用户群进行划分,但想要做好标签,我们不仅要从需要解构技术,还要立足于“好的内容”。在这一部分,笔者将通过运营&创作者的视角简单分析如何制作“好的标签”。

要想制定能够打动人心的标签,首先要了解用户,切中他们的痛点。

如何才能了解用户?一种办法是角色转换,换位思考,把自己看作用户,而且是什么都不懂的“小白用户”,以这样的视角去看问题、去思考。

举个例子,你作为一个UP主,接了一份宣传“降噪耳机”的营销单,你的任务是让用户下单,完成内容的价值转化。思考一下,该怎么设计这个故事?

下面的一段参考文案:你在银行做经理,维护客户关系很艰难,你的职位不上不下。你有房贷和车贷,每月按揭五千元。你孩子的数学成绩不好。你老婆在市人民医院做护士,她母亲有尿毒症并透析多年,她不爱你。你年轻的时候觉得能成一番事业,但现在也就这样,朋友们混得都比你好。生活太糟了,你需要一个独立的环境抒发情绪,这时候你戴上了降噪耳机。

这就是一个典型的“用户视角”,它描述的是一个场景,它让你一边看一边产生强烈的代入感,不由自主受到内容的感染,产生情绪波动,在情绪的驱使下完成下单的行为,实现价值转化。

除了上面这种基于内容体验的打标方法,还有另一种方式,也就是我们之前提过的“特征值”,基于算法生成的高精度内容标签,一般是基于视频帧、标题、作者、内容属性、地理属性、时间等。这些由算法生成的内容标签可以替换人工标注,从而节省人力成本,提高内容标签生产效率。目前的内容标签技术,其精度已经达到了90%以上,通过算法对内容的分析自动生成一些标签值。

比如上面这个视频,所生成的标签值就可能是“中华田园犬”“农村”“百万播放”“狗”“华农兄弟”“萌宠”“动物”等。

经过对象确定、框架设计、类目设计、标签设计、打标这几个步骤,我们就完成了整个标签体系的建设,文章写得比较简单,全当抛砖引玉。

四、一些问题

在标签体系落地的过程中我们还会遇到很多问题,以下几个问题也是笔者一直在思考的。如果有任何好的建议可以加笔者微信一起交流:shmusk

内容的时效性: 任何一个内容,包括视频或者图文,是有生命周期在里面的,内容有长有短,其中预测一个内容的生命周期是一个挺难的事情,不论通过算法也好或者其它技术也好;假设我们已经知道内容的生命周期,如何在有效的周期内给予内容有效的曝光量,也是个很难的问题。如何Balance这两个问题,时效性是非常重要的,因为过了内容的生命周期,再给用户推荐,是没有意义的,用户体验会非常差。

内容质量的判定: 怎样判定一个内容质量到底是好还是坏,好的标准到底是什么,以及我们如何去建模,如果可以建模,特征是什么,以及我们的模型如何有效的利用特征去判别?

冷启动问题: 分为内容冷启动与用户冷启动。内容冷启动就是一个新内容进入平台,没有被分发出来;而用户冷启动就是一个新的用户,交互数据和行为非常的稀疏,如何做比较好的推荐、能够引导进行后续更加稠密的交互,增加粘性,以此来提升用户体验,更好的满足用户的需求?
相似回答