群体异常检测
定性认识
正常玩家
个人账号
手动
追求体验
打金工作室
多账号,多机器
用程序和工具
追求变现
IP/设备
低付费,高在线,只打某些副本
技术实现
聚集10+
选择聚类key
uni聚集度
变量30+
选择合适变量
布尔变量
连续变量转布尔变量
连续变量归一化
变量可解释性
变量聚集分布
聚集x变量
正交过滤
低聚集基准概率
聚集内变量分布
单规则判定
计算概率
大群体风险
米中之沙过滤
标准差过滤
重复分段问题
多规则组合
聚集/变量 分类
命中次数
大小端筛选
监控打击筛选
可拓展、可控制
可拓展聚集、变量
游戏个性变量
游戏个性配置
误判难点应对
【90%】基准概率污染
全服工作室60%
root比率70%
坏人太多,好人是另类
【95%】好坏混合
群体前置过滤:好人<10,标准差<0.1
群体判定加严: 概率<0.0001,且多段命中
个体后置过滤: 1.3标准差之外
【99%】聚合key与特征强相关
机器码root分布
通过对一些变量的聚类、组合、 正交、归类命中次数
应对
基准概率修正,尽量选好人
基于简单通用规则
个体异常检测
问题
标签来源
人工标注难度大,效率低
特征表达
游戏100+类日志,用哪些,不用哪些
通用性
各游戏玩法不同,日志多样
分类准确率
通用特征设计
问题定义:开放问题转化为封闭问题
思考原则
可用性
通用性
抗对抗性
验证评估
关键通用行为
完成副本
完成任务
关键通用结果
金钱流水
物品流水
资源流水
工作室自身对比:行为单一
特点
次数多
类型单一
金钱数量规律,相似
时间间隔规律,相似
统计指标(groupby(用户ID))
金钱获取
min,max,avg,std
时间间隔
min,max,avg,std
工作室与玩家对比:行为差异性
特点
高产出行为:大量执行
高消耗行为:几乎没有
处理流程(频繁模式项挖掘)
1. 金钱流水日志
2. 2-gram切分
3. 统计频次
4. Hash 10W维稀疏特征
工作室端到端特征提取
关键日志序列为基础
区分连续型和枚举型变量
多CNN特征融合表达
准确率如何达到 99.9%
投票机制
多数据源日志
金钱日志
物品日志
副本日志
人物日志
多特征提取方式
单一
group by
N-gram
End2End
组合
金钱+物品 group by
副本+任务 group by
金钱+物品 N-gram
...
金钱+物品+副本+任务 End2End
多模型
XGB
RDF
SVM
GBDT
MLP
CNN
混合模型,投票规则
70%+ 模型判黑
同一类日志+特征至少一个以上判黑