Hiding in Plain Sight: A Longitudinal Study of Combosquatting Abuse
Hiding in Plain Sight: A Longitudinal Study of Combosquatting Abuse
A Longitudinal Study of Combosquatting Abuse)
2017 CCS
基于组合域名抢注安全性分析(包括钓鱼网站等)
这项工作只研究网络钓鱼滥用背景下的组合抢注,未能捕捉到各种潜在的滥用行为
摘要
domain squatting :combosquatting
分析超过4680亿的DNS 记录(6年以来的主动+被动 DNS 数据)第一次执行了一次大规模、经验学习与分析
发现:60%滥用组合域生存周期超过了1000天,与组合域名有关的活动年复一年地增加
使用组合抢注来执行各种类型的滥用,包括网络钓鱼,社交工程,联盟滥用,商标滥用,甚至是高级持续性威胁。
知识点
论文内容
先前工作
- 深入调研了typographical errors、bit squatting、homograph-based squatting
- 组合域的滥用问题:
- 钓鱼攻击
- malware:组合状态域可用于将受害者重定向到显示虚假警告的页面,以诱使他们下载恶意软件
- monetization:在商标侵权和搜索引擎优化(SEO)中被大量利用(利用知名品牌域来宣传自己的产品)
论文主要工作
- 我们研究组合式仿冒域名的词汇特征:50%在源域名上添加了8个以上的字母、40%添加了一个token;大多数组合仿冒域名更偏爱添加常用的下级目录
- 分析时间特征:60%滥用组合域名生存期超过了1000天
- 在真实环境中组合域名的滥用案例:钓鱼、社工、联盟滥用、商业滥用(利用知名来普及自己的业务),识别了65个组合仿冒域名被用来APT
- 手动分析了攻击者用来丢弃恶意软件和反击检测的各种技术
自我分析
- 获得组合域的数据来源(仿冒哪个域?dns记录中匹配组合域)
- 总结每个组合域出现的时间
- 分析这些组合域在真实环境下的功能
数据集
brand分类参考
- Alexa list 14
- TrendMicro 88
- DMOZ database 32
数据集
- 被动DNS:美国最大的互联网服务提供商(ISP)中的递归DNS服务器之上;此数据集包含在ISP上观察到的所有成功DNS解析的DNS资源记录(RR),包括其每日查找量。
- 主动DNS:Active DNS project
- 公布非名单:2-9Advanced Persistent Threats、Spam Trap、Malware Feeds、Alexa List、Certificate Transparency
上图:数据集选择汇总
实验内容
测量方法
本文假设second level domain下的组合
brand 选择: Alexa top 500 美国品牌,排除:有几个品牌使用常用词作为其品牌名称(apple.comVSapplejuice[.]com)+有几个域名和商标太短,无法考虑进行组合式处理( cisco.com sanfrancisco[.]com),最终246个域名。基于服务将它们分为22个类别
在dns记录中找组合仿冒域名: 被动+主动数据集中
黑名单中抽取的即为滥用
测量组合仿冒域
Q1:组合与typosquatting对比?
- 识别typosquatting利用了5种技术,但是目前缺乏识别组合仿冒域的技术手段
- typosquatting静等用户发生错误拼写(被动攻击),组合仿冒域名更加基于主动攻击(强迫用户访问)
- 攻击者可以使用Let’s Encrypt [56]等服务自由地自动获取其域名的TLS证书。为了验证,获取2.71证书发现691,182份证书被授予与商标相关的107,572个完全合格的组合域名,但是typosquatting很少
- 两种完全不一样的情况
Q2: 组合上的字符规律?
缺乏组合仿冒域名的检测模型
- 攻击者通常不会注册冗长的域
- 倾向某些单词
60%使用小于10个字母,80%少于22个
利用word segmentation algorithm产生input独立token,利用四个库识别words和segment,80% 两个库的words,90%三个以上words
c:segment和word相关度:一半是单词,另一半是分段。 这可能是攻击者试图注册可能包含拼写错误或几个字符串的域名的文件,目标可能会忽略这些字符串,以增加他们的混淆域库
常用单词:free, online, code, store, sale, air, best, price, shop, head, home, shoes, work, www, cheap, com, new, buy, max, card.
Q3:时序特征?
橙色代表我们能够在每个商标类别的数据集中识别的联合域名的总数。 蓝色显示基于每个类别中出现的商标数量的标准化数字。
a:CP集合, 50%超过了100天,滥用域的生命周期大雨整个组合仿冒域
b:community遇到组合仿冒域的速度
c:为了测量流行域名在CP时间;
Q4:基础设施?DNS和IP属性变化?
恶意组合域的托管基础设施集中在某些自治系统中,并且它们分散在众多不同的CIDR中 - 这与组合域的一般行为不同。
a:CP和CA 组合仿冒域名分布,通用的组合注射活动遍布全球,没有明显的分布偏向
b:滥用数据集:单个CIDR和AS中的滥用域集中度更高(恶意域名出现在单个CIDR概率为58%),很少有CIDR和AS可以长期托管恶意域名。
c:集合Cabuse中的域指向分布在比CP和CA集合中的域更多不同CIDR的主机
在野外测量combosquatting
在野外如何利用组合仿冒域名?
Q1:如何发现、测量野外组合仿冒域名?
构建了一个包含100个可编写脚本的浏览器实例的基础架构,抓去了130w个组合仿冒域名(CA一部分)。130万个域名由113万个初始种子域组成,还抓取了20万个域名,其中包括每日注册新的混合域名以及其他转换为未知NS服务器基础架构的域名,最后成功爬取了110w个域名
- 扫描整个数据集以获取关联企业滥用的证据
- 识别登录表单(来自HTML检查)并关注与合法网站“视觉上相似”的网页来查看网络钓鱼页面的其余数据集
- 其他滥用类型:对剩余数据集执行分层和简单随机抽样的组合,并手动标记8.7万个网页
联盟滥用: 重定向到预期网页但是根据用户的行为来获取佣金。重点关注那些通过一系列重定向将我们的爬虫导航到适当的权威域的页面,手动排除属于合法domain 后,调查剩余的domain,识别了2573个独特的域名
钓鱼: 40299包含login,使用汉明距离测量页面相似度,聚类7845蔟,识别174个钓鱼攻击。
其他类型滥用: 每个商标类别的前两个Alexa域选取221,292组合仿冒域名,将网站的35.1万个屏幕截图,聚类,手动分析:社会工程(诈骗)、商标滥用、联合国 - 相关(看似良性和无关的网站)和错误/正在建设中
研究事件
2016.10.30:505个组合仿冒域名,它们只想同一组IP地址
- 使用python requests自带的配置爬取域名
- 重复进程,但是使用Chrome UA
- 根据HTTP标头,客户端的IP地址和Cookie的存在等因素来识别针对我们的抓取工具的规避行为
Redirection Game 没有置UA:没有设置UA,28个域名到parking page,设置后,127个;没有UAHTTP重定向,但是有UA javascipt重定向
**Malware Drops ** 攻击者如何隐藏自动系统和爬虫的域行为。
http://zillowhomesforsale[.]com
没有UA时,重定向至 http://ww1.zillowhomesforsale[.]com/(parking)
有UA:eg.http://rtbtracking[.]com/click?data=Mm[…]Q2&id=8c[…]d3 不同url
在URL中附加联盟标识符后,基本上会进行联盟滥用,在访问其中一个网站后,将在用户的浏览器上设置cookie。 如果用户试图访问另一个网站(来自同一组域),她会发现自己在停车页面
社工 & 钓鱼 完成调查之类的
创新点
brand 排除考虑周到
数据源dns 考虑被动和主动
深入调查组合仿冒域名,字符、时间、部署
黑名单交叉验证
我认为的改进
- second level domain 扩展