-
工作应用
-
业务相关
- 用户画像
- 风险控制
-
决策相关
- 数据科学的领域,了解统计学、算法
- 数据科学家
-
工程相关
- 如何实施、实现、解决什么业务
- 数据工程师
-
工程核心
-
数据源
- 特点决定数据采集和数据存储的技术选型
-
四种
-
内外部
- 内部主动写入
- CRM
- Hadoop
- mongo
- Apache Kafka
- ORACLE
- 外部网络拉取
- 获得外部数据本身提供的api
- 调用api获取,如微信
- 写爬虫获取
- 特点
- 数据结构不一致,需要转换和清洗加工
- ETL,由ETL进行数据提取、转换、加载,清洗、去重、去噪
-
结构化和非结构化数据
- 结构化偏向文件,NoSQL数据库
-
不变可添加数据,可修改可删除数据
- 前
- 增量同步策略
- 后
-
数据量大小
- 大
- Lambda架构
- 高延迟
- batch处理方式
- 实时分析
- 流式处理
-
数据存储
-
相同数据多种表现形式,存储不同类型数据库中
- poly-db数据冗余生态
-
按数据源分类
-
三种
- 数据源的类型和采集方式
- 采集后数据的格式和规模
- 分析数据的应用场景
-
场景
-
场景一
- 舆情分析
- 选择用ES,在单机上做了一个简单的测试,大概三亿多条数据,用最坏的查询条件进行搜索,保证这个搜索是全表搜索(基于Lucence创建了索引,使得这种搜索更高效),整个查询时间能控制在几秒以内
-
场景二:商业智能产品
- 对数据集进行分析(聚合运算为主)
- Parquet列式存储
- 要求
- 既要满足大数据量的水平可伸缩
- 同时满足高性能的聚合运算
-
场景三:Airbnb大数据平台
- 数据来源
- 大量的事件
- 本身的业务数据
- 技术处理:
- 日志数据通过Kafka
- 线上通过Sqoop
- 为什么不是flume,这里是指已经得到后的考量?
- 数据存储选择HDFS
- 通过Presto对Hive表执行 即席查询
-
数据处理
-
业务角度
- 查询检索
- 数据挖掘
- 统计分析
-
深度分析
- 机器学习
- 神经网络
-
技术角度
- Batch SQL
- 流式处理
- machine learning
- Deep learning
-
编程模型
- 离线编程模型
- 内存编程模型
- 实时编程模型
- 分支主题 3