-
特征工程
-
网络及设备终端
-
维度
- 代理检测
- IDC检测
- root越狱/调试/模式检测
- 模拟器/虚拟机检测
- 木马/肉鸡检测
- 一键新机行为
-
设备指纹系统
-
1. 根据收集到的历史数据,形成操作系统签名数据库
- 判断设备是否是脚本程序或模拟器伪装,是否使用了代理或VPN,是否篡改了UA等设备信息等等
-
2. 对设备的IP来源进行分析,看是否有可疑行为的历史
- 判断其自动化或作弊的可能性
-
3. 根据设备相关的三十多个特征将设备进行关联,赋予其唯一的身份识别符
- 用户行为、频次及欺诈网络图谱的基础。
-
用户行为信息
-
维度
- 注册行为
- 交易行为
- 登录行为
- 事件序列
- 事件间隔异常
- 用户画像
-
用户画像
-
会话的层面
- 基于概率的聚类模型和模式挖掘算法,将用户的行为模式归类,建模
-
账号的层面
- 1. 以账号为索引,将会话层面上提取到的行为信息特征按时间串联起来,得到异常行为标示特征
- 2. 根据账号相关联的历史行为数据,提取出用户的偏好属性
-
业务事件频次
-
维度
- 注册频次
- 交易频次
- 登录频次
- 地域性频次
- 时间段频次
-
典型表现
-
短时期,小欺诈额,高频次
- 会引起业务事件在某些颗粒度的时间+空间上分布异常
-
时间序列
-
被监控的交易事件,随时间变化分布曲线
- 1. 数据整体随时间的趋势效应
- 2. 数据随时间的周期效应
- 3. 统计噪音效应
- 用来做异常分析
- 可以用时间序列模型统计和预测
- 时间变化曲线是三个相应叠加
-
检测办法和难点
-
在某细颗粒度上制定检测规则
- 如某个地域/IP网段每小时交易超过多少为异常
-
难点
- 异常数据会被正常数据淹没掉
- 欺诈行为会引起在某个空间细颗粒度上,时间分布曲线异常;但不会引起整体层面上的异常
- 整体层面上的模型是无法区分细颗粒度上的差别
- 时间+空间维度,面临的困难
- 细颗粒度的维度过高,分别建模成本过高
- 细颗粒上的数据通常累积量不够,难以满足时间序列模型所需的条件
- 基于贝叶斯框架的生成式模型
能较完美地克服上述困难
-
欺诈网络图谱
-
维度
- 羊毛团伙发现
- 代理池发现
- 羊毛设备网络发现
- 肉鸡网络发现
- 跨应用欺诈团伙
-
在网络图上的特征
-
正常用户
- 不同设备的行为是分散的,不一致
-
羊毛党
- 设备行为会呈现出高度的一致性和集中性
-
关联图谱
-
分析指标
-
关联度指标
- 一度的关联度即是指一个节点和多少个其他节点相邻
- 二度关联度则是指介由一个中间节点相关联的节点数
-
中心度
-
如介数中心度,特征向量中心度等等
- 节点的重要性时,不止考虑他有多少个邻接节点,还要考虑这些邻接节点的重要性
-
网络上的聚类
- 考察和一个节点有紧密联系的其他节点所构成聚类的共性
- 在反欺诈的场景中的使用非常的广泛
-
分析方法
-
对网络特征的直接提取
-
提取出中心度或一度二度关联特征可供
上层规则系统或风险评估模型使用
- 如一度关联节点或二度关联节点是否触黑
-
对网络信息的深度挖掘
-
对连通子图的计算
- 社交属性较弱的金融应用,较大的连通子图可能对欺诈网络有揭示作用
- 将已知的欺诈标注扩散开来,从而获得更多的欺诈标注,也是关联图谱的一个重要应用
-
推荐建模思路
- 1. 对数据进行必要的可视化,如MDS
- 2. 同时考虑时间是否是重要因素,如果是那么进行时序分析
- 3. 用无监督学习得到一些可能的异常点,如Isolation Forests
- 4. 通过统计学方法分析得到的异常点是否有显著的不同,有特征可供我们研究
- 5. 归纳特征并构造一个故事,与领域专家共同验证故事的可靠性
- 6. 重复1-5直到被派到下一个项目上搬砖,争取找到尽量多有效的欺诈
- 7. 构造[规则+机器学习]的混合模型,进一步调参优化模型