《大数据之路 阿里巴巴大数据实践》阅读学习记录(编辑中)

   日期:2020-05-26     浏览:106    评论:0    
核心提示:本文以作者学习记录为主,多数为文章自我理解总结,可能存在错误,仅供读者参考,欢迎留言纠错和交流。大数据

本文以作者学习记录为主,多数为文章自我理解总结,可能存在错误,仅供读者参考,欢迎留言纠错和交流。
另外,本书是阿里的技术分享,并非行业的严格规范。

文章目录

  • 日志采集
    • 浏览器日志采集
    • 无线客户端日志采集
    • 日志采集的挑战
  • 数据同步

日志采集

(这一部分我以理解为主,没做过多研究)

浏览器日志采集

  • 主要分为页面浏览日志和页面交互日志。
    页面浏览日志:以pv、uv为主
    页面交互日志:以用户行为日志为主,用于获取用户兴趣和体验优化点。(业务方会注册一个模板,获取需要的那部分日志)

  • 采集后的日志需要处理
    1.存在流量攻击、爬虫、作弊流量
    2.数据缺项补正
    3.存在无效数据

无线客户端日志采集

通过采集SDK采集日志
根据事件进行了分类,分为页面事件和控件点击事件,和浏览器采集的两种对应。

  • 页面事件
    日志记录分为三类信息:设备及用户基本信息、被访问页面的信息(业务参数)、访问路径。
    为了平衡采集、计算、分析成本,日志会采用透传。即上个页面的日志传到下个页面,甚至下下个。

  • 采集SDK提供了聚合功能
    减少发送的请求、减小日志大小。例如滚动页面的多条日志可以聚合起来。

  • H5和Native日志统一
    当今app大多为有Native又有H5嵌套,两者对应无线端和浏览器端日志,需要进行结合才能更好分析。

日志采集的挑战

  1. 分流与定制
  2. 采集与计算一体化

数据同步

 
打赏
 本文转载自:网络 
所有权利归属于原作者,如文章来源标示错误或侵犯了您的权利请联系微信13520258486
更多>最近资讯中心
更多>最新资讯中心
更多>相关资讯中心
0相关评论

推荐图文
推荐资讯中心
点击排行
最新信息
新手指南
采购商服务
供应商服务
交易安全
关注我们
手机网站:
新浪微博:
微信关注:

13520258486

周一至周五 9:00-18:00
(其他时间联系在线客服)

24小时在线客服