操作层面的数据科学

了解数据科学的目的
1. 对于企业而言
  1. 生产力提升4~6%
  2. 新发现，协助决策
  3. 大规模决策
2. 对于个人而言
  1. 明晰数据项目的价值
  2. 如果有上级部门通过大数据管理你的部门，你最好知道这个项目有可能存在的漏洞
  3. 数据思维：不需要你会数据挖掘，但最好有“数据思维”——能够与数据部门互动，可以发现机会和威胁
  4. 数据科学家负责挖掘数据，但公司业务部门需要做决策。如果没有数据思维，那个决策一般是错误的。
  5. 在2018年以前，公司将有150万的，拥有是用数据技术的经理和分析师的短缺
提及案例
1. 金融
  1. 信用评级
  2. 不正常交易发现（第一次海外消费后会接到中信银行核实的电话
  3. Signet Bank的不良账户预测
  4. 使用Profiling方法，发现异常的信用卡交易
2. 推荐
  1. 亚马逊类似书籍推荐
  2. 豆瓣兴趣推荐
  3. RTB
  4. 是用Link Prediction计算推荐你可能认识的人
任务
1. 分析师
  1. 创造力、商业知识和常识
2. 数据科学家
  1. 数据科学家给出以往的案例，企业按菜单选择，并进行创新
数据挖掘流程
1. 理解商业
2. 理解数据
3. 数据准备
  1. training data
  2. hold-out data
4. 建立模型
5. 评价
6. 部署
工具
1. 数据的选择
  1. 数据纯度
    1. Information Gain：通过计算数据的熵（entropy）来计算一个独立变量对于我们的”贡献“
2. 可能性计算
  1. Tree induction
3. Parameter Modelign
  1. 选择模型并界定参数，所选参数能最大配合模型与数据的匹配
4. 避免overfitting
5. Learning Curve
  1. 比较两种model的图
6. 评估工具
  1. 准确率：真确决策除以总决策
  2. 预计收益计算：在目前的精准度情况下，企业获得的收益是多少
  3. Baseline：如果不用数据挖掘，能够保证的收益是多少？
  4. 增加数据投入：如果增加数据投入，可以获得更好的收益，则需要增加数据投入
7. 表现视觉化
  1. Profit Curves横坐标是instance数量，纵坐标是精准度，用于比较不同模型
8. Receiver of Characteristics (ROC)：表现不同模型的true positive和false positive的比例
9. Cumulative Response：用于比较各个模型和不用模型
10. Lift Curve：将cumulative response按扁后，更加直观
11. Profit Curve，结合利润的直线
12. Naive Bayes：根据不同的新的evidence，重算一个结论的可能性。Facebook like和智商的关系。Lift系数是根据Bayes法则算出来的只用相乘就可以生效的系数。
模型
1. 找到独立变量对于目标变量的影响
  1. Classification/probability estimation
    1. Tree Induction
      1. 喜欢狗的人——喜欢狗的男人——喜欢狗并且已结婚的男人——喜欢狗并且已结婚并且收入大于50k的男人
      2. 树的分叉
      3. 每一次“分叉”的时候，都要计算数据纯度和信息贡献，如果够，就分；如果到下一步，出现了“死胡同”，可以车回来，重新分。
      4. 有时候，分到第100个节点的时候，会出现sweet point，但之后就会overfit了
      5. 这个非常好理解和执行，但是比regression（下面的依靠单一的数学公式来分类）更加耗费人力。初次接触数据挖掘的客户很愿意使用tree induction
      6. Overfitting
      7. Sweet point
  2. Regression
    1. 直线方程回归
      1. 直线方程，就是用一个函数的直线，将在坐标轴里面的instance分类成为两类。由于直线方程对于计算机十分简单直接，所以是数据挖掘的驮马，最朴素耐劳。
      2. 就像春晚里面，郭达讲，一个男的炒红豆和绿豆，倒到盘子里面，红豆和绿豆都分开了。不是因为只有两个豆，而是这个方程“超平面”将所有的豆分开了。
      3. y=ax+b
      4. 其中的a和b都是参数，通过调整a和b，获得更能分开instance的”超平面”
    2. 对数函数回归Logistic regression
      1. 对数函数的统计方法，可以直接根据一组体重和糖尿病的数据，计算出某一个体重患有糖尿病的probability
    3. SVM
      1. 类似直线方程，但是可以向坐标轴的两边“扩张”，通过这样做，可以将这条直线“卡”得更加结实
      2. 这个是很高深的一个概念，如果你说起来，最懂行的人也会怕的。
      3. SVM有一个kernel tactic，可以创造出具有魔力的“超平面”。面对二维的坐标轴，使用三位的假设，让所有的instance处于三维空间中，然后通过一个“超平面”将两部分泾渭分明地切开。
      4. 当然，SVM可以是直线，可以是曲线，可以是毫无规律的曲线，也可以是平面，这就是它的魔力
      5. SVM的边缘
  3. Similarity matching
    1. 计算instance间距离的方法：欧几里得定理
    2. ”最近的邻居“法：根据”邻居“的行为，判断你的行为，在美国总统选举中曾经使用。不是地理距离，而是根据选择的参数，决定你们的距离。
    3. K-NN：依据K个参数，决定你最近的邻居的计算方法
    4. K越小，越容易overfit；越大越容易精准度低
  4. Clustering
    1. 归簇时，相邻的instance并不是按数值的距离，而是按分享特征的个数
    2. Dendrogram，和思维导图十分像
    3. Clustering around Centroids：根据与小核心的距离，决定不同的分簇
  5. Co-occurence
    1. Support是二者同时发生的可能性，Strength是买了A以后，有多大的可能买B，Lift是买A对于买B的拉升
    2. 《千与千寻》对《哈尔的移动城堡》的拉升很大
  6. Profiling/behavior description
  7. Link prediciton
  8. Causal modeling
企业与大数据
1. 企业应该怎么做？
  1. 让管理人员建立大数据思维
    1. 能够创想到数据战略的机会
    2. 有能力向数据团队提供资源
    3. 有能力投资数据来源和实验
  2. 创造大数据文化，让数据相关的工作人员能安心工作
    1. 尊重大数据文化是以上三点的基础
    2. 前沿的数据科学家会想发表结果，企业害怕透露信息。企业如果允许科学家发表结果，尖端人才就更希望留在企业。很矛盾。
2. 出众数据管理人员特质（企业管理人员）
  1. 能预测业务需求，和数据人员一起出主意
  2. 能翻译行话，也能把企业的话翻译成行话
  3. 理解其他软件（比如CRM系统、折扣系统和售后系统），保证数据挖掘结果没有断档
  4. 选对人，能通过直觉选出能够做出成绩的团队和项目。当然，选择企业内部数据管理人员也有同样的任务。
  5. 对于公司文化的认同。
3. 衡量数据项提案
  1. 一、业务问题是否明晰？数据能否解决这个问题？
  2. 二、我们能否评价这个解决方案？
  3. 三、在大量投入资金之前，我们能否知晓成功的可能性？
  4. 四、有没有training data？要不要买？
4. 企业的数据成熟度
  1. 不成熟：模拟其他企业、临时项目。难以决策。
    1. 不一定不成熟的企业的项目就无法获得成功。决定成功的是选对负责人。
  2. 中等成熟：主动测试和评估，之后进阶。
  3. 成熟公司：实验、优化、整合