写在前面: 博主是一名软件工程系大数据应用开发专业大二的学生,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,
写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新
。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站:http://alices.ibilibili.xyz/ , 博客主页:https://alice.blog.csdn.net/
尽管当前水平可能不及各位大佬,但我还是希望自己能够做得更好,因为一天的生活就是一生的缩影
。我希望在最美的年华,做最好的自己
!
在正式开始对【企业级用户画像】项目展开介绍之前,博主可是煞费苦心,为大家整理了一期,如何彻底理解什么是用户画像(一文让你彻底明白,到底什么是用户画像?)。如果确实帮到您了,不妨给博主一个大大的赞|ू・ω・` )
接下来,正式开始对该项目的介绍…
文章目录
- 项目介绍
- 功能模块
- 技术架构
- 标签梳理
- 标签定义依据
- 标签体系需求分析
- 项目工程演示
- 小结
项目介绍
企业级360°全方位用户画像是基于电商平台进行设计和开发,是面向注册会员的偏好、行为习惯和 人口属性的画像还原,同时也包括对商品信息的画像还原。 提供用户喜好和商品特征帮助营销平台提升营销的精准度,也方便个性化推荐系统快速准确的为每个用户推荐相关的商品。
项目名称:
企业级360°全方位用户画像
行业领域:
电商平台,针对电商平台用户构建用户画像,给用户打标签
构建画像:
1)、注册会员(打标签) - 用户标签
a)、偏好:订单数据
依据订单数据、购物车数据和收藏数据构建标签
b)、行为习惯:流量数据、搜索数据
依据浏览数据,构建标签
c)、人口属性:用户注册信息数据
对用户基本信息构建标签
2)、商品信息(打标签) - 商品标签
订单数据构建商品的标签
标签存储:`将用户标签数据存储到HBase表中`
表名称:
tbl_profile
ROW_KEY:
userId
列簇ColumnFamily:
用户标签列簇:user
商品标签列簇:item
列值:
标签的ID集合:tagIds -> 384,392,376,.....
回顾:
在HBase Shell命令行中如何创建用户标签表呢?
create 'tbl_profile', 'user', 'item' -> 此种方式创建表的只有一个分区Region
创建表的时候,考虑数据的预分区和预测压缩
画像功能:
1)、精准营销
2)、个性化推荐
功能模块
整个项目分为如下几个功能模块,具体描述:
画像模块:
个体画像 -> 【微观画像】
依据用户ID:userId,查询用户所用标签,进行展示
群体画像 -> 【标签查询】
依据多个标签组合(OR、AND)查询用户,属于某个群体,分不同类
- 1、标签体系
标签体系模块基于本体论建立,包括基础标签和组合标签两个子模块。基础标签维护了人口属性、 商业属性、行为属性和用户价值4个方面。组合标签是在基础标签的基础上按TGI创建的,用于反映目标 群体在特定研究范围的强势和弱势。
- 2、标签引擎
标签引擎模块是用户画像运转的核心实现,维护标签的具体实现逻辑,包括标签依赖的数据源、规 则和模型的信息。同时提供每一个标签引擎运行状态的可视化监控。当Super User登录时会出现新增标 签及其引擎的审核。
- 3、画像模块
画像模块是对实体(用户/物品)信息全貌可视化的精准还原,包括对个体的全方位还原和群体的 全方位还原。
- 4、标签查询
标签查询模块是查看标签所覆盖的实体,用于查看标签体系中所有标签包含的商品详细信息和经过脱敏后的用户信息。
- 5、系统设置
系统设置模块主要包括用户管理、权限管理。
技术架构
项目的总体架构图:
软件版本:
jdk1.8.0_221
hadoop-2.6.0-cdh5.14.0
hbase-1.2.0-cdh5.14.0
zookeeper-3.4.5-cdh5.14.0
spark-2.2.0-bin-2.6.0-cdh5.14.0
sqoop-1.4.6-cdh5.14.0
apache-flume-1.6.0-cdh5.14.0-bin
solr-4.10.3-cdh5.14.0
oozie-4.1.0-cdh5.14.0
hue-3.9.0-cdh5.14.0
安装目录:
/export/servers
系统用户:
root/123456
实际项目使用CDH版本大数据框架版本,使用HDP 大数据框架版本
HDP 2.x版本
项目功能架构图:
标签梳理
学习目标
- 能够了解本体论
- 能够掌握标签的分类和业务背景
标签定义依据
知识工程(本体论)的概念最早由美国斯坦福大学计算机科学家费根鲍姆提出。他认为“知识工程是人工智能的原理和方法,为那些需要专家知识才能解决的应用难题提供求解的手段,恰当运用专家知识对获取、表达、和推理过程做出解释,是设计知识系统的关键问题”。
基于知识工程的用户定性画像中,核心思想是利用本体对用户画像中的标签进行表示、验证、推理和解释。本体论(Ontology)是哲学上的一个学科,是研究客观事物存在和组成的通用理论。
本体的结构包括类、属性、实例、公理和推理规则。
1)、类:Thing为本体中所有类的父类,如酒类。
2)、属性:每个类都有属性,在酒类当中包括:白酒、啤酒、红酒等属性。
3)、实例:指类的具体对象,如茅台酒、二锅头酒。
4)、公理:本体中的永真式,描述类的约束条件,该条件在某个领域中是永远成立的。例如茅台酒厂生产的酒就是茅台酒,这个公理即永远成立。
5)、推理规则:本体所在领域以专家知识的形式化表示,用于保证本体的完整性和一致性。
标签体系需求分析
标签体系是根据已注册用户的偏好、行为习惯和人口属性等不同的领域进行建立的,按领域可以分为人口属性、商业属性、行为属性和用户价值四类。按具体的实现方式分为规则标签、统计标签和挖掘标签。在本项目中标签体系按照业务类型划分为基础标签和组合标签。
- 按领域划分
人口属性 | 用户的社会化特征相关的标签 |
---|---|
商业属性 | 电商平台中购物相关的标签 |
行为属性 | 电商平台中的浏览、购买等行为标签 |
用户价值 | 用户的资产相关标签 |
- 按实现方式划分
规则标签 | 通过匹配标签的属性值实现标签的业务逻辑 |
---|---|
统计标签 | 使用数学统计方法实现标签的业务逻辑 |
挖掘标签 | 使用数据挖掘算法实现标签的业务逻辑 |
- 按照业务类型划分
- 业务标签一:人口属性
- 业务标签二:商业属性
- 业务标签三:行为属性
- 业务标签四:用户价值
项目工程演示
我们本次的项目为Maven Project,导入IDEA中,如下图所示:
选择解压的工程,如下图:
一直点击下一步【Next】即可,最终导入工程:
由于项目使用SSM开发WEB工程,需要运行到Tomcat中,配置Tomcat,如下所示:
添加TomcatServer,使用Tomcat版本为【apache-tomcat-8.5.45】:
选择WEB项目,修改访问ROOT路径:
选择部署工程:
选择WEB项目,修改访问ROOT路径:
启动Tomcat
看到弹出了一个账户登录界面说明我们的操作就成功了~
小结
本篇博客主要为大家简单介绍了一下用户画像项目,包括功能模块,技术架构,标签梳理,并最后进行了项目工程的一个演示
如果以上过程中出现了任何的纰漏错误,烦请大佬们指正
受益的朋友或对大数据技术感兴趣的伙伴记得点赞关注支持一波