本文以作者学习记录为主,多数为文章自我理解总结,可能存在错误,仅供读者参考,欢迎留言纠错和交流。
另外,本书是阿里的技术分享,并非行业的严格规范。
文章目录
- 日志采集
- 浏览器日志采集
- 无线客户端日志采集
- 日志采集的挑战
- 数据同步
日志采集
(这一部分我以理解为主,没做过多研究)
浏览器日志采集
-
主要分为页面浏览日志和页面交互日志。
页面浏览日志:以pv、uv为主
页面交互日志:以用户行为日志为主,用于获取用户兴趣和体验优化点。(业务方会注册一个模板,获取需要的那部分日志) -
采集后的日志需要处理
1.存在流量攻击、爬虫、作弊流量
2.数据缺项补正
3.存在无效数据
无线客户端日志采集
通过采集SDK采集日志
根据事件进行了分类,分为页面事件和控件点击事件,和浏览器采集的两种对应。
-
页面事件
日志记录分为三类信息:设备及用户基本信息、被访问页面的信息(业务参数)、访问路径。
为了平衡采集、计算、分析成本,日志会采用透传。即上个页面的日志传到下个页面,甚至下下个。 -
采集SDK提供了聚合功能
减少发送的请求、减小日志大小。例如滚动页面的多条日志可以聚合起来。 -
H5和Native日志统一
当今app大多为有Native又有H5嵌套,两者对应无线端和浏览器端日志,需要进行结合才能更好分析。
日志采集的挑战
- 分流与定制
- 采集与计算一体化