【项目】数仓项目（一）

日期：2020-04-29 浏览：105 评论：0

核心提示：（图片来源于网络，侵删）一、数据仓库数据仓库（Data Warehouse），是为企业所有决策制定过运维

（图片来源于网络，侵删）

一、数据仓库

数据仓库（Data Warehouse），是为企业所有决策制定过程，提供所有系统数据支持的战略集合

通过对数据仓库中数据的分析，可以帮助企业，改进业务流程、控制成本、提高产品质量等

数据仓库，并不是数据的最终目的地，而是为数据最终的目的地做好准备。这些准备包括对数据的：清洗，转义，分类，重组，合并，拆分，统计等等

二、项目需求

1、用户行为数据采集平台搭建
2、业务数据采集平台搭建
3、数据仓库维度建模
4、分析，用户、流量、会员、商品、销售、地区、活动等电商核心主题，统计的报表指标
5、采用即席查询工具，随时进行指标分析
6、对集群性能进行监控，发生异常需要报警
7、元数据管理
8、质量监控

三、技术选型

【1】思考题
1、项目技术如何选型？
2、框架版本如何选型（Apache、CDH、HDP）
3、服务器使用物理机还是云主机？
4、如何确认集群规模？（假设每台服务器8T硬盘）

【2】技术选型主要考虑因素

数据量大小
业务需求
行业内经验
技术成熟度
开发维护成本
总成本预算

【3】使用的技术
1、数据采集传输：Flume,Kafka,Sqoop，Logstash，DataX

2、数据存储：MySql，HDFS，HBase,Redis,MongoDB

3、数据计算：Hive,Tez,Spark,Flink,Storm

4、数据查询：Presto，Druid，Impala，Kylin

5、数据可视化：Echarts、Superset、QuickBI、DataV

6、任务调度：Azkaban、Oozie

7、集群监控：Zabbix

8、元数据管理：Atlas

9、数据质量监控：Griffin

四、系统数据流程设计

数据来源：

埋点用户行为数据
用户在使用产品过程中，与客户端产品交互过程中产生的数据，比如页面浏览、点击、停留、评论、点赞、收藏等
业务交互数据
业务流程中产生的登录、订单、用户、商品、支付等相关的数据，通常存储在DB中，包括Mysql、Oracle等

架构图：

五、框架版本选型

1）如何选择Apache/CDH/HDP版本？

（1）Apache：运维麻烦，组件间兼容性需要自己调研。（一般大厂使用，技术实力雄厚，有专业的运维人员）（建议使用）
（2）CDH:国内使用最多的版本，但CM不开源，今年开始要收费，一个节点1万美金
（3）HDP：开源，可以进行二次开发，但是没有CDH稳定，国内使用较少

2）Apache框架版本

产品	版本
Hadoop	2.7.2
Flume	1.7.0
Kafka	0.11.0.2
Sqoop	1.4.6
MySQL	5.6.24
Azkaban	2.5.0
Java	1.8
Zookeeper	3.4.10
Presto	0.189

3）CDH框架版本：5.12.1

产品	版本
Hadoop	2.6.0
Spark	1.6.0
Flume	1.6.0
Hive	1.1.0
Sqoop	1.4.6
oozie	4.1.0
Zookeeper	3.4.5
Impala	2.9.0

六、服务器选型

1）物理机
以128G内存，20核物理CPU，40线程，8THDD和2TSSD硬盘，戴尔品牌单台报价4W出头。一般物理机寿命5年左右
需要有专业的运维人员，平均一个月1万，电费也是不少的开销

2)云主机
以阿里云为例，差不多相同配置，每年5W
很多运维工作都由阿里云完成，运维相对较轻松

3）企业选择
1、金融有钱公司和阿里没有直接冲突的公司选择阿里云
2、中小公司、为了融资上市，选择阿里云，拉倒融资后买物理机
3、有长期打算，资金比较足，选择物理机

七、集群规模

1）如何确认集群规模？（假设：每台服务器8T磁盘，128G内存）

1、每天日活跃用户100万，每人一天平均100条：100万*100条=1亿条
2、每条日志1K左右，每天1亿条：100000000/1024/1024=约100G
3、半年内不扩容服务器来算：100G*180天=约18T
4、保存3副本：18T*3=54T
5、预留20%~30%Buf=54T/0.7=77T
6、算到这：约8T*10台服务器

2）如果考虑数仓分层？数据采用压缩？需要重新再计算

3）测试服务器规划

都看到这里了，点赞评论一下吧！！！

点击查看

【项目】数仓项目（二）

打赏

所有权利归属于原作者，如文章来源标示错误或侵犯了您的权利请联系微信13520258486

更多>最近资讯中心

更多>最新资讯中心

更多>相关资讯中心

0 条相关评论

• Reids基础及常见面试题	• 幂等性设计和解决方案
• 个人前端面试经验略谈	• HCIP之三层架构（四）
• JAVA-JVM-GC垃圾回收机制	• 大学四年，这个Java学习路线，让我现在进了阿里

• Esp8266天猫精灵_RGB灯_非点灯平台	• STM32F103 串口1和串口3对发数据配合蓝牙模块
• TMS570学习【1】了解什么是TMS570	• 新闻稿 \| Qt公司收购froglogic公司以巩固市场领
• [Java]SpringBoot2整合mqtt服务器EMQ实现消息订	• 苹果群控投屏同步操作原理及运用的平台APP分享

• Esp8266天猫精灵_RGB灯_非点灯平台	• STM32F103 串口1和串口3对发数据配合蓝牙模块
• TMS570学习【1】了解什么是TMS570	• 新闻稿 \| Qt公司收购froglogic公司以巩固市场领
• [Java]SpringBoot2整合mqtt服务器EMQ实现消息订	• 苹果群控投屏同步操作原理及运用的平台APP分享
• STM32查询式按键输入[直接用寄存器]	• Ubuntu系统 USB设备端口绑定
• 2021-04-14 第四次按键输入实验	• Flutter扫码功能完美实现

• 谈谈Spring中的对象跟Bean，你知道Spring怎么创	• 面试\|有关字符串中字符出现重复字符的面试问题
• 老王的JAVA基础课：第4课以hello world学习基	• 配置SpringBoot项目热部署
• 我的Java学习之路（九）-- 模拟斗地主扑克牌发	• 深入浅出的Java面向对象编程，助你深入探索开发
• 关于blob与流互转的问题	• 在Java中MD5、SHA、SHA256、SHA512加密的实现[
• Java设计模式---原型模式	• spring boot整合mybatis+druid和多数据源外加dr