1. 特征工程
    1. 网络及设备终端
      1. 维度
        1. 代理检测
        2. IDC检测
        3. root越狱/调试/模式检测
        4. 模拟器/虚拟机检测
        5. 木马/肉鸡检测
        6. 一键新机行为
      2. 设备指纹系统
        1. 1. 根据收集到的历史数据,形成操作系统签名数据库
          1. 判断设备是否是脚本程序或模拟器伪装,是否使用了代理或VPN,是否篡改了UA等设备信息等等
        2. 2. 对设备的IP来源进行分析,看是否有可疑行为的历史
          1. 判断其自动化或作弊的可能性
        3. 3. 根据设备相关的三十多个特征将设备进行关联,赋予其唯一的身份识别符
          1. 用户行为、频次及欺诈网络图谱的基础。
    2. 用户行为信息
      1. 维度
        1. 注册行为
        2. 交易行为
        3. 登录行为
        4. 事件序列
        5. 事件间隔异常
        6. 用户画像
      2. 用户画像
        1. 会话的层面
          1. 基于概率的聚类模型和模式挖掘算法,将用户的行为模式归类,建模
        2. 账号的层面
          1. 1. 以账号为索引,将会话层面上提取到的行为信息特征按时间串联起来,得到异常行为标示特征
          2. 2. 根据账号相关联的历史行为数据,提取出用户的偏好属性
    3. 业务事件频次
      1. 维度
        1. 注册频次
        2. 交易频次
        3. 登录频次
        4. 地域性频次
        5. 时间段频次
      2. 典型表现
        1. 短时期,小欺诈额,高频次
          1. 会引起业务事件在某些颗粒度的时间+空间上分布异常
      3. 时间序列
        1. 被监控的交易事件,随时间变化分布曲线
          1. 1. 数据整体随时间的趋势效应
          2. 2. 数据随时间的周期效应
          3. 3. 统计噪音效应
          4. 用来做异常分析
        2. 可以用时间序列模型统计和预测
        3. 时间变化曲线是三个相应叠加
      4. 检测办法和难点
        1. 在某细颗粒度上制定检测规则
          1. 如某个地域/IP网段每小时交易超过多少为异常
        2. 难点
          1. 异常数据会被正常数据淹没掉
          2. 欺诈行为会引起在某个空间细颗粒度上,时间分布曲线异常;但不会引起整体层面上的异常
          3. 整体层面上的模型是无法区分细颗粒度上的差别
          4. 时间+空间维度,面临的困难
          5. 细颗粒度的维度过高,分别建模成本过高
          6. 细颗粒上的数据通常累积量不够,难以满足时间序列模型所需的条件
          7. 基于贝叶斯框架的生成式模型 能较完美地克服上述困难
    4. 欺诈网络图谱
      1. 维度
        1. 羊毛团伙发现
        2. 代理池发现
        3. 羊毛设备网络发现
        4. 肉鸡网络发现
        5. 跨应用欺诈团伙
      2. 在网络图上的特征
        1. 正常用户
          1. 不同设备的行为是分散的,不一致
        2. 羊毛党
          1. 设备行为会呈现出高度的一致性和集中性
  2. 关联图谱
    1. 分析指标
      1. 关联度指标
        1. 一度的关联度即是指一个节点和多少个其他节点相邻
        2. 二度关联度则是指介由一个中间节点相关联的节点数
      2. 中心度
        1. 如介数中心度,特征向量中心度等等
          1. 节点的重要性时,不止考虑他有多少个邻接节点,还要考虑这些邻接节点的重要性
      3. 网络上的聚类
        1. 考察和一个节点有紧密联系的其他节点所构成聚类的共性
      4. 在反欺诈的场景中的使用非常的广泛
    2. 分析方法
      1. 对网络特征的直接提取
        1. 提取出中心度或一度二度关联特征可供 上层规则系统或风险评估模型使用
          1. 如一度关联节点或二度关联节点是否触黑
      2. 对网络信息的深度挖掘
        1. 对连通子图的计算
          1. 社交属性较弱的金融应用,较大的连通子图可能对欺诈网络有揭示作用
          2. 将已知的欺诈标注扩散开来,从而获得更多的欺诈标注,也是关联图谱的一个重要应用
  3. 推荐建模思路
    1. 1. 对数据进行必要的可视化,如MDS
    2. 2. 同时考虑时间是否是重要因素,如果是那么进行时序分析
    3. 3. 用无监督学习得到一些可能的异常点,如Isolation Forests
    4. 4. 通过统计学方法分析得到的异常点是否有显著的不同,有特征可供我们研究
    5. 5. 归纳特征并构造一个故事,与领域专家共同验证故事的可靠性
    6. 6. 重复1-5直到被派到下一个项目上搬砖,争取找到尽量多有效的欺诈
    7. 7. 构造[规则+机器学习]的混合模型,进一步调参优化模型