1. 群体异常检测
    1. 定性认识
      1. 正常玩家
        1. 个人账号
        2. 手动
        3. 追求体验
      2. 打金工作室
        1. 多账号,多机器
        2. 用程序和工具
        3. 追求变现
        4. IP/设备
        5. 低付费,高在线,只打某些副本
    2. 技术实现
      1. 聚集10+
        1. 选择聚类key
        2. uni聚集度
      2. 变量30+
        1. 选择合适变量
        2. 布尔变量
        3. 连续变量转布尔变量
        4. 连续变量归一化
        5. 变量可解释性
      3. 变量聚集分布
        1. 聚集x变量
        2. 正交过滤
        3. 低聚集基准概率
        4. 聚集内变量分布
      4. 单规则判定
        1. 计算概率
        2. 大群体风险
        3. 米中之沙过滤
        4. 标准差过滤
        5. 重复分段问题
      5. 多规则组合
        1. 聚集/变量 分类
        2. 命中次数
        3. 大小端筛选
        4. 监控打击筛选
      6. 可拓展、可控制
        1. 可拓展聚集、变量
        2. 游戏个性变量
        3. 游戏个性配置
    3. 误判难点应对
      1. 【90%】基准概率污染
        1. 全服工作室60%
        2. root比率70%
        3. 坏人太多,好人是另类
      2. 【95%】好坏混合
        1. 群体前置过滤:好人<10,标准差<0.1
        2. 群体判定加严: 概率<0.0001,且多段命中
        3. 个体后置过滤: 1.3标准差之外
      3. 【99%】聚合key与特征强相关
        1. 机器码root分布
          1. 通过对一些变量的聚类、组合、 正交、归类命中次数
      4. 应对
        1. 基准概率修正,尽量选好人
        2. 基于简单通用规则
  2. 个体异常检测
    1. 问题
      1. 标签来源
        1. 人工标注难度大,效率低
      2. 特征表达
        1. 游戏100+类日志,用哪些,不用哪些
      3. 通用性
        1. 各游戏玩法不同,日志多样
      4. 分类准确率
    2. 通用特征设计
      1. 问题定义:开放问题转化为封闭问题
        1. 思考原则
          1. 可用性
          2. 通用性
          3. 抗对抗性
          4. 验证评估
        2. 关键通用行为
          1. 完成副本
          2. 完成任务
        3. 关键通用结果
          1. 金钱流水
          2. 物品流水
          3. 资源流水
      2. 工作室自身对比:行为单一
        1. 特点
          1. 次数多
          2. 类型单一
          3. 金钱数量规律,相似
          4. 时间间隔规律,相似
        2. 统计指标(groupby(用户ID))
          1. 金钱获取
          2. min,max,avg,std
          3. 时间间隔
          4. min,max,avg,std
      3. 工作室与玩家对比:行为差异性
        1. 特点
          1. 高产出行为:大量执行
          2. 高消耗行为:几乎没有
        2. 处理流程(频繁模式项挖掘)
          1. 1. 金钱流水日志
          2. 2. 2-gram切分
          3. 3. 统计频次
          4. 4. Hash 10W维稀疏特征
      4. 工作室端到端特征提取
        1. 关键日志序列为基础
        2. 区分连续型和枚举型变量
        3. 多CNN特征融合表达
    3. 准确率如何达到 99.9%
      1. 投票机制
        1. 多数据源日志
          1. 金钱日志
          2. 物品日志
          3. 副本日志
          4. 人物日志
        2. 多特征提取方式
          1. 单一
          2. group by
          3. N-gram
          4. End2End
          5. 组合
          6. 金钱+物品 group by
          7. 副本+任务 group by
          8. 金钱+物品 N-gram
          9. ...
          10. 金钱+物品+副本+任务 End2End
        3. 多模型
          1. XGB
          2. RDF
          3. SVM
          4. GBDT
          5. MLP
          6. CNN
      2. 混合模型,投票规则
        1. 70%+ 模型判黑
        2. 同一类日志+特征至少一个以上判黑