软 件 学 报 doi: 10.13328/j.cnki.jos.004932 中 文 公 众 事 件 信 息 熵 计 算 方 法 靳 锐 +, 张 宏 莉, 张 玥, 王 星 ( 哈 尔 滨 工 业 大 学 计 算 机 科 学 与 技 术 学 院, 哈 尔 滨 150001) Calculation Method of Chinese Public Event Information Entropy * JIN Rui +, ZHANG Hong-Li, ZHANG Yue, WANG Xing (School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China) Abstract: With the development of the Chinese social network (especially the rise of weibo), because the lack of the effective technical means, the efficiency of information processing is limited. This paper proposes a new public event information entropy calculation method, and the basic idea is that a mathematical modeling of event information content is built firstly, and then multidimensional random variables information entropy of the public events is to be calculated based on shannon information theory. A new technical index of quantitative analysis to the Internet public events is put forward, which lay the foundation for further research work. Key words: social computing; public event; shannon information theory; information entropy; principle of maximum entropy 摘 要 : 随 着 中 文 社 交 网 络 的 发 展 ( 特 别 是 微 博 的 兴 起 ), 互 联 网 中 文 公 众 事 件 越 来 越 深 刻 的 影 响 现 实 社 会 的 生 产 和 生 活. 由 于 缺 乏 有 效 的 技 术 手 段, 信 息 处 理 的 效 率 受 到 了 限 制. 文 中 提 出 了 一 种 新 的 公 众 事 件 信 息 熵 的 计 算 方 法, 其 基 本 思 想 是 首 先 对 公 众 事 件 信 息 内 容 进 行 建 模, 然 后 以 香 农 信 息 论 为 理 论 基 础, 对 公 众 事 件 的 多 维 随 机 变 量 信 息 熵 进 行 计 算. 这 为 互 联 网 公 众 事 件 的 定 量 化 分 析 提 供 了 一 个 重 要 技 术 指 标, 为 进 一 步 的 研 究 工 作 打 下 基 础. 关 键 词 : 社 会 计 算 ; 公 众 事 件 ; 香 农 信 息 论 ; 信 息 熵 ; 最 大 熵 理 论 中 图 法 分 类 号 : TP301 文 献 标 识 码 : A 引 言 随 着 互 联 网 技 术 的 发 展,Web2.0 的 网 络 用 户 信 息 发 布 技 术 引 发 了 社 交 网 络 的 蓬 勃 发 展, 社 交 网 络 时 代 到 来.Web2.0 则 更 注 重 用 户 的 交 互 作 用, 用 户 既 是 网 站 内 容 的 浏 览 者, 也 是 网 站 内 容 的 制 造 者. 基 于 此, 在 国 际 互 联 网 产 业 领 域, 以 facebook 和 twitter 为 代 表 的 新 型 社 交 网 站 成 为 了 社 交 网 络 时 代 成 功 的 典 范, 以 人 人 网 新 浪 微 博 为 代 表 的 中 文 社 交 网 络 取 得 巨 大 成 功, 社 交 网 络 深 入 到 社 会 各 个 角 落, 深 刻 的 影 响 着 国 家 的 政 治 经 济 文 化 社 会 活 动 组 织 等 领 域. 技 术 革 命 造 成 了 社 会 生 产 生 活 方 式 的 变 革, 在 社 交 网 络 的 快 速 信 息 交 互 中, 非 洲 大 陆 与 阿 拉 伯 世 界 经 历 了 一 系 列 的 剧 烈 社 会 变 革 [1] ; 在 中 国,SNS, 微 博 等 社 交 网 站 的 发 展 如 火 如 荼, 各 种 社 会 信 息 在 社 交 网 络 中 快 速 流 转, [2] 互 联 网 公 众 意 见 得 到 了 快 速 的 表 达 与 形 成, 担 当 起 前 所 未 有 的 社 会 角 色, 发 挥 着 举 足 轻 重 的 社 会 作 用. 近 两 年, 基 金 项 目 : 国 家 重 点 基 础 研 究 发 展 计 划 (973 计 划 )(2013CB329602), 国 家 自 然 科 学 基 金 (61202457,61472108,61402149) 收 稿 时 间 : 2015-02-17; 修 改 时 间 : 2015-05-08,2015-09-10; 采 用 时 间 : 2015-10-17; jos 在 线 出 版 时 间 : 2015-11-18 CNKI 网 络 优 先 出 版 : 2015-11-18 14:58:46, http://www.cnki.net/kcms/detail/11.2560.tp.20151118.1458.001.html
靳 锐 等 : 中 文 公 众 事 件 信 息 熵 计 算 方 法 中 国 国 内 的 各 类 公 众 事 件 频 频 爆 发, 对 互 联 网 舆 情 监 控 提 出 了 新 的 要 求. 如 何 准 确 快 速 的 获 取 和 分 析 相 应 的 事 件 信 息, 成 为 中 文 社 交 网 络 信 息 处 理 领 域 的 一 个 新 的 挑 战. 互 联 网 公 众 意 见 研 究, 又 称 为 舆 情 分 析, 是 当 前 互 联 网 智 能 信 息 处 理 的 研 究 热 点 之 一 [5,6,7]. 这 项 技 术 研 究 可 以 应 用 于 国 家 政 策 的 实 施 预 测 政 治 选 举 结 果 的 预 测 与 分 析 [5] 产 品 的 市 场 销 售 分 析 以 及 个 人 名 誉 与 发 展 等. 近 年 来, 国 内 外 的 研 究 人 员 开 始 重 视 该 领 域 的 研 究, 并 逐 渐 受 到 各 个 国 家 政 府 经 济 实 体 乃 至 个 人 用 户 的 重 视. 如 何 衡 量 一 件 公 众 事 件 的 重 要 性 计 算 其 影 响 力 或 涉 及 事 件 部 门 的 事 态 严 重 程 度, 目 前 还 没 有 一 个 有 效 的 衡 量 方 法, 无 法 对 公 众 意 见 事 件 的 内 容 信 息 进 行 定 量 化 计 算. 仅 仅 依 靠 网 民 的 参 与 程 度 来 衡 量 事 件 的 重 要 程 度 是 不 够 的, 这 不 但 不 能 反 映 事 件 的 实 质 内 容, 而 且 具 有 明 显 的 滞 后 性 和 具 有 易 被 误 导 的 弊 端. [7] 随 着 社 交 网 络 的 发 展, 社 会 计 算 逐 渐 引 起 相 关 的 研 究 人 员 的 重 视.2007 年 底 在 哈 佛 大 学 举 办 了 计 算 社 会 学 研 讨 会,2008 年 4 月, 美 国 军 方 在 亚 利 桑 那 州 立 大 学 举 办 了 社 会 计 算 行 为 建 模 和 预 测 研 讨 会. 在 此 基 础 上,2009 [10] 年 David Lazer 等 在 Science 杂 志 上 提 出 计 算 社 会 学 的 概 念, 指 出 网 络 上 的 大 量 信 息, 如 博 客 论 坛 聊 天 消 费 记 录 电 子 邮 件 等, 都 是 对 现 实 社 会 的 人 及 组 织 行 为 的 映 射, 网 络 数 据 可 用 来 分 析 个 人 和 群 体 的 行 为 模 式, 标 志 着 计 算 科 学 和 社 会 科 学 的 交 叉 融 合 正 成 为 国 际 瞩 目 的 前 沿 研 究 和 应 用 热 点 [15]. 在 911 恐 怖 事 件 的 推 动 下,2003 年 美 国 提 出 情 报 与 安 全 信 息 学 的 概 念, 其 核 心 是 研 究 如 何 开 发 研 究 智 能 算 法 通 过 数 据 信 息 处 理 技 术 安 全 策 略 的 集 成 等 使 情 报 采 集 和 安 全 分 析 更 加 系 统 化 科 学 化, 保 障 国 际 安 全 国 家 安 全 社 会 安 全 商 业 安 全 和 个 人 安 全. 美 国 亚 利 桑 那 大 学 关 于 国 家 社 会 安 全 问 题 考 虑, 进 行 情 报 与 安 全 信 息 学 (ISI) [11] 研 究, 卡 内 基 梅 隆 大 学 也 开 展 了 公 共 卫 生 事 件 等 领 域 的 学 术 研 讨.2005 年 开 始, 中 科 院 自 动 化 研 究 所 开 始 情 报 与 安 全 信 息 学 (ISI) 的 研 究, 以 社 会 计 算 理 论 与 计 算 实 验 平 台 为 基 础, 并 以 开 源 情 报 的 获 取 和 处 理 为 基 础 对 社 会 媒 体 和 舆 情 信 息 进 行 实 时 监 测 分 析 和 预 警 [15]. 当 前, 社 会 计 算 方 法 多 用 于 社 区 发 现 与 社 会 媒 体 挖 掘 如 社 交 网 络 用 户 的 信 息 交 互 关 系 计 算, 社 区 与 意 见 领 袖 发 现 社 交 网 络 用 户 行 为 分 析 等 [5,6,7]. 公 众 意 见 分 析 领 域 的 研 究 仍 然 处 于 发 展 初 期 阶 段, 理 论 体 系 还 没 有 完 全 建 立 起 来, 尤 其 是 定 量 化 的 技 术 衡 量 指 标 还 不 完 备, 引 入 社 会 计 算 方 法 是 解 决 此 问 题 的 有 效 途 径 之 一. 互 联 网 公 众 事 件 的 文 本 形 式 是 互 联 网 信 息 的 重 要 载 体 [5], 其 包 含 的 信 息 量 是 事 件 信 息 的 重 要 技 术 指 标, 也 是 分 析 其 影 响 力 舆 论 压 力 等 技 术 指 标 的 定 量 化 前 提. 本 文 通 过 香 农 信 息 论 与 最 大 熵 理 论 的 方 法, 对 互 联 网 公 众 事 件 内 容 信 息 量 的 计 算 方 法 进 行 了 研 究, 该 方 法 属 于 社 会 计 算 范 畴. 1. 公 众 事 件 数 学 模 型 1.1 公 众 事 件 的 分 析 模 型 网 络 文 本 事 件 的 结 构 如 图 1 所 示. 为 了 进 行 信 息 量 的 计 算, 先 分 析 一 下 公 众 事 件 的 构 成, 如 图 1 所 示. 这 里 对 事 件 所 包 含 的 信 息 内 容 进 行 分 析, 事 件 信 息 有 5 个 构 成 要 素 : 事 件 主 体 时 间 地 点 数 量 未 抽 取 信 息 ; 而 事 件 主 体 又 有 四 个 属 性, 社 会 ( 自 然 ) 角 色 社 会 ( 自 然 ) 关 系 所 属 机 构 或 体 系 主 体 行 为 ; 事 件 本 身 具 有 一 个 重 要 属 性, 即 事 件 社 会 ( 自 然 ) 类 别.
2 公 事 件 主 体 社 会 ( 自 然 ) 角 色 时 间 社 会 ( 自 然 ) 关 系 事 件 信 息 地 点 所 属 机 构 或 体 系 事 件 社 会 ( 自 然 ) 类 别 数 量 未 抽 取 信 息 主 体 行 为 数 学 描 述 : Fig.1 The public event structure 图 1 公 众 事 件 结 构 设 事 件 信 息 为 全 集 U, 由 个 子 集 构 成 为, 其 中, 上 图 中 取 10, 表 示 事 件 主 体 集 合, 表 示 社 会 ( 自 然 ) 角 色 集 合, 表 示 社 会 ( 自 然 ) 关 系, 表 示 所 属 机 构 或 体 系 集 合, 表 示 时 间 信 息 集 合, 表 示 主 体 行 为 集 合, 表 示 地 点 集 合, 表 示 数 量 集 合, 表 示 事 件 社 会 ( 自 然 ) 类 别 集 合, 表 示 未 抽 取 信 息. 由 集 合 的 性 质 可 知. 我 们 看 到 上 图 中 所 示 的 5 个 构 成 要 素 5 个 相 关 的 属 性, 这 是 对 公 众 事 件 最 简 化 的 一 种 表 达 方 式, 公 众 事 件 文 本 内 容 的 信 息 全 部 包 含 其 中. 经 过 分 析, 信 息 系 统 内 的 各 个 属 性 和 要 素 之 间 的 相 互 影 响 可 以 导 致 要 素 或 属 性 的 条 件 信 息 量 的 变 化. 图 1 中 的 信 息 模 块 结 构 来 源 于 文 本 信 息 抽 取 项 的 研 究 [19], 抽 取 项 有 主 体 时 间 关 系 机 构 等 多 项 研 究. 设 一 个 互 联 网 公 众 事 件 由 个 随 机 变 量 构 成, 则 事 件 可 以 表 示 为 ( ), 事 件 本 身 为 一 个 随 机 信 息 系 统, 用 表 示, 则 等 价 于 ( ). 根 据 哲 学 的 一 般 原 理, 在 一 个 系 统 之 内, 每 一 个 部 分 都 不 是 孤 立 存 在 的. 图 1 中 表 示 了 结 构 图, 包 含 5 个 要 素 和 5 个 属 性.5 个 要 素 和 5 个 属 性 相 互 之 间 的 相 互 影 响 关 系 要 比 图 1 中 表 示 的 复 杂 得 多, 图 1 表 示 的 仅 仅 是 基 本 的 隶 属 关 系. 1.2 应 用 多 维 随 机 变 量 对 公 众 事 件 进 行 建 模 设 一 个 互 联 网 公 众 事 件 由 个 随 机 变 量 构 成, 则 事 件 可 以 表 示 为 ( ), 事 件 本 身 为 一 个 随 机 信 息 系 统, 用 表 示, 则 等 价 于 ( ). 这 里 我 们 取, 其 中 表 示 公 众 事 件 的 主 体 名 称, 表 示 主 体 的 社 会 或 自 然 角 色, 表 示 社 会 或 自 然 关 系, 表 示 主 体 所 属 的 机 构 或 体 系 的 名 称, 表 示 时 间 信 息, 表 示 主 体 的 社 会 ( 自 然 ) 行 为, 表 示 事 件 的 地 址 信 息, 为 事 件 的 数 量 信 息, 为 舆 情 事 件 的 类 别, 为 未 抽 取 信 息. 众 事 件 熵 的 计 算 方 法 2.1 香 农 信 息 熵 信 息 的 可 度 量 可 计 算 是 人 类 对 信 息 技 术 掌 握 的 里 程 碑. 香 农 在 信 息 论 的 研 究 中 贡 献 最 为 显 著, 下 面 我 们 阐
靳 锐 等 : 中 文 公 众 事 件 信 息 熵 计 算 方 法 述 一 下 相 关 理 论. 香 农 理 论 的 重 要 特 征 是 熵 (entropy) 的 概 念, 他 证 明 熵 与 信 息 内 容 的 不 确 定 程 度 有 等 价 关 系 [17]. 定 义 : 一 个 随 机 变 量 的 熵 定 义 为 : H X = p x p x (1) ( ) ( ) log ( ) 一 个 随 机 变 量 X 的 熵 是 概 率 分 布 的 函 数, 它 衡 量 了 包 含 在 X 中 的 平 均 信 息 量. 下 面, 我 们 依 据 此 公 式 计 算 公 众 事 件 的 信 息 熵. 2.2 基 于 最 大 熵 理 论 的 计 算 方 法 1) 理 论 描 述 最 大 熵 原 理 最 初 是 由 E.T.Jayness 在 1950 年 提 出 [9]. 结 论 : 对 一 随 机 过 程, 如 果 没 有 任 何 观 测 量, 即 没 有 任 何 约 束, 则 解 为 均 匀 分 布. 2) 最 大 熵 建 模 最 大 熵 统 计 建 模 是 以 最 大 熵 理 论 为 基 础 的 一 种 选 择 模 型 的 方 法, 即 从 符 合 条 件 的 分 布 中 选 择 熵 最 大 的 分 布 作 为 最 优 的 分 布. x ( ) p = argmaxh p 3) 熵 函 数 取 最 大 值 时 的 概 率 分 布 以 (0-1) 分 布 的 熵 函 数 为 例 : 在 概 率 时, 取 得 均 值 的 位 置 出 现 最 大 熵 值, 其 他 类 型 概 率 分 布 函 数 的 熵 函 数 情 况 相 似, 也 存 在 最 大 值, 在 概 率 分 布 取 得 均 值 的 点 获 得 最 大 熵. Fig.2 the entropy function of (0-1) probability distribution 图 2 (0-1) 分 布 的 熵 函 数 2.3 最 大 熵 原 理 的 数 学 表 示 2.3.1 最 大 熵 的 数 学 表 示 1) 在 给 定 的 约 束 条 件 下, 由 最 大 熵 原 理 求 解 最 佳 概 率 分 布, 就 是 应 用 拉 格 朗 日 乘 子 法 求 解 条 件 极 值 问 题 [18]. 2) 求 解 过 程 求 n 元 函 数 的 在 个 约 束 条 件 下 的 条 件 极 值, 常 数 依 此 乘 然 后 累 加 起 来 得 函 数. ( x, x xn ) ( x x x ) ϕ1 1 2,, = 0 ϕ2 1, 2,, n = 0 ϕ m( x1, x2,, xn) = 0
( ) F x1, x2,, xn = f + λϕ 1 1+ λϕ 2 2 + + λmϕ 然 后 列 出 无 约 束 条 件 时 具 有 极 值 的 必 要 条 件, m F f ϕ1 ϕ2 ϕm = + λ1 + λ2 + + λm = 0 x1 x1 x1 x1 x 1 F f ϕ1 ϕ2 ϕm = + λ1 + λ2 + + λm = 0 x2 x2 x2 x2 x2 F f ϕ1 ϕ2 ϕm λ1 λ2 λm 0 x n x n x n x n x n 把 这 n 个 方 程 和 m 个 约 束 条 件 方 程 进 行 联 立, 即 可 求 出 n+m 个 的 值, 其 中 就 是 可 能 的 极 值 点, 称 为 驻 点. 因 为 熵 函 数 是 分 布 函 数 的 泛 函, 于 是 用 拉 格 朗 日 乘 子 法 求 出 的 解 就 不 再 是, 而 是. 2.3.2 离 散 型 随 机 变 量 的 最 大 熵 分 布 形 式 设 离 散 型 随 机 变 量 X 取 得 有 限 个 值, 相 应 的 概 率 记 为,,, 则 最 大 的 充 要 条 件. 证 明 : 由 于 =1, 根 据 拉 格 朗 日 乘 子 法 求 解 此 约 束 条 件 下 熵 最 大 概 率 分 布, 设 n n F( p1, p2,, pn) = piln pi + λ pi 1 i= 1 i= 1 对 求 偏 导 数, 根 据 求 取 最 值 的 必 要 条 件, 得 到 方 程 组 : F / p = ln p 1+ λ = 0, i = 1,2,, n i 求 解 : p exp( λ 1) i i =, 为 常 数. 根 据 约 束 条 件 =1, 则, 即. 此 时, 熵 函 数 : n ( ) = ( 1/ ) ln( 1/ ) = ln( ) (2) H x n n n i= 1 对 于 取 值 为 有 限 值 的 离 散 型 随 机 变 量 来 说, 当 每 一 个 取 值 的 概 率 相 等 时, 其 信 息 熵 最 大, 此 时 的 分 布 为 最 大 熵 分 布. 重 要 结 论 : 得 到 了 一 个 关 于 n 的 严 格 单 调 函 数, 本 文 利 用 这 个 结 论 进 行 公 众 事 件 信 息 熵 的 社 会 计 算, 可 以 保 证 计 算 结 果 具 有 严 格 单 调 性.
3 应 靳 锐 等 : 中 文 公 众 事 件 信 息 熵 计 算 方 法 Fig.3 The monotony of the entropy function 图 3 熵 函 数 的 单 调 性 用 最 大 熵 理 论 计 算 公 众 事 件 的 信 息 熵 3.1 公 众 事 件 建 模 用 随 机 变 量 表 示 公 众 事 件 表 示, 等 价 于, 其 中 事 件 主 体, 社 会 ( 自 然 ) 角 色, 关 系, 所 属 机 构 或 体 系, 事 件 发 生 时 间, 行 为, 发 生 地 点, 数 量, 事 件 类 别, 未 抽 取 信 息. 3.2 多 维 随 机 变 量 的 向 量 空 间 设 一 个 公 众 事 件 可 以 由 多 维 随 机 变 量 表 示, 我 们 分 别 确 定 各 个 分 变 量 的 取 值 范 围, 并 组 合 构 成 一 个 多 维 向 量 空 间 [16]. 定 义 : 当 多 维 随 机 变 量 的 取 值 都 是 基 本 取 值 集 合 内 元 素 时, 此 事 件 为 元 事 件, 以 表 示. 所 有 的 分 向 量 的 取 值 元 素 集 合 组 合 在 一 起 构 成 了 公 众 事 件 的 多 维 向 量 空 间. 这 里 的 集 合 元 素 指 的 是 文 本 事 件 抽 取 项 的 关 键 词 或 短 语. 举 例 说 明, 以 80 后 清 华 硕 士 任 副 局 长 后 受 贿 1600 万, 被 判 无 期 事 件 为 例, 对 文 本 形 式 的 事 件 进 行 信 息 抽 取, 得 到 以 下 形 式. 80 后 清 华 硕 士 任 副 局 长 后 受 贿 1600 万, 被 判 无 期 事 件 :: - 事 件 主 体 :80 后 ; 清 华 ; 清 华 硕 士 ; 副 局 长 ;1600 万 ; 无 期 ; 科 员 ; 副 局 长 ; 杰 出 青 年 ; 光 环 ; 肖 明 辉 ;5 亿 元 ; 工 程 招 标 ; 大 权 ;1611 万 元 ; 好 处 费 ; 经 济 利 益 ; 肖 明 辉 ; 海 南 省 ; 海 南 省 二 中 院 ; 无 期 徒 刑 ; 政 治 权 利 ; ; 赵 某 ; 该 工 程 ; 人 民 币 ;6 万 元 ; - 社 会 角 色 :80 后 -< 专 有 名 词, 敏 感 词 汇 >; 清 华 ( 大 学 )-< 专 有 名 词, 敏 感 词 汇, 国 家 著 名 大 学 一 类, 国 家 教 育 机 构, 国 家 事 业 单 位 >; 清 华 硕 士 -< 专 有 名 词, 敏 感 词 汇, 国 家 名 牌 大 学 一 类 毕 业 生 >; 副 局 长 -< 专 有 名 词, 敏 感 词 汇, 国 家 公 务 员, 国 家 处 级 公 务 员 >; ; 肖 明 辉 -< 国 家 公 务 员, 国 家 官 员, 国 家 处 级 公 务 员, 工 程 管 理 类 国 家 公 务 员, 名 牌 大 学 一 类 毕 业 生, 硕 士 学 历 人 员 >; ; 赵 某 -< 个 体 营 业 者, 专 有 名 词 >; 该 工 程 -< 专 有 名 词, 敏 感 词 汇, 工 程 类 名 词 >; 人 民 币 -< 专 有 名 词, 敏 感 词 汇, 财 经 类 名 词 >;6 万 元 -< 专 有 名 词, 敏 感 词 汇, 钱 款 类 名 词 >; - 社 会 关 系 : < 清 华 硕 士, 清 华 大 学 > : 校 友 关 系 ;< 海 南 省 第 九 届 十 大 杰 出 青 年, 清 华 大 学 > : 校 友 关 系 ;< 副 局 长, 清 华 大 学 >: 校 友 关 系 ; < 政 府 官 员, 清 华 大 学 >: 校 友 关 系 ;< 国 家 公 务 员, 清 华 大 学 >: 校 友 关 系 ; ;< 国 家 公 务 员, 副 局 长 >: 上 下 级 关 系, ;< 司 机, 副 局 长 >: 紧 密 上 下 级 级 关 系 ; - 所 属 机 构 :< 肖 明 辉, 海 南 省 洋 浦 经 济 开 发 区 规 划 建 设 土 地 局 >;< 张 成 梁, 海 南 省 洋 浦 经 济 开 发 区 规 划 建 设 土 地 局 >; ;< 张 成 梁, 行 政 机 构 >; - 事 件 发 生 时 间 :2012 年 10 月 15 日 ;2007 年 ;2007 年 底 ;2008 年 3 月 ;2009 年 ;2009 年 ;2011 年 ; - 行 为 : 受 贿 ; 收 1611 万 元 好 处 费 ; 为 他 人 谋 取 不 正 当 经 济 利 益 ; 注 册 空 头 公 司 ; 牵 线 搭 桥 ; 签 订 10 份 虚 假 合 同 ; 签 订 虚 假 劳 务 合 同 ; 被 判 无 期 徒 刑 ; 剥 夺 政
治 权 利 终 生 ; 提 供 虚 假 发 票 ; 支 付 好 处 费 ; 帮 助 赵 某 中 标 工 程 ; 收 取 6 万 好 处 费 ; 事 件 发 生 地 点 : 海 南 省 ; 海 南 省 洋 浦 经 济 开 发 区 ; 屯 昌 ; 海 口 ; - 数 量 : 涉 案 人 员 :2 人 ; 受 贿 :1611 万 元 6 万 元 ; 年 龄 :32 岁 ; - 事 件 类 别 : 经 济 犯 罪 官 员 违 纪 官 员 受 贿 ; Table 1 The distribution of multiple random variables 表 1: 多 维 随 机 变 量 的 分 布 80 后 80 后 -< 专 有 名 词, 敏 感 词 汇 > 清 华 清 华 ( 大 学 ) -< 专 有 名 词, 敏 感 词 汇, 国 家 著 名 大 学 一 类, 国 家 教 育 机 构, 国 家 事 业 单 位 > 清 华 硕 士 清 华 硕 士 -< 专 有 名 词, 敏 感 词 汇, 国 家 名 牌 大 学 一 类 毕 业 生 > < 清 华 硕 士, 清 华 大 学 > : 校 友 关 系 < 海 南 省 第 九 届 十 大 杰 出 青 年, 清 华 大 学 > : 校 友 关 系 < 副 局 长, 清 华 大 学 >: 校 友 关 系 < 肖 明 辉, 海 南 省 洋 浦 经 济 开 发 区 规 划 建 设 土 地 局 > < 张 成 梁, 海 南 省 洋 浦 经 济 开 发 区 规 划 建 设 土 地 局 > 10 月 15 日 ( 国 庆 期 间, 敏 感 时 段 ) 受 贿 2007 年 收 1611 万 元 好 处 费 2007 年 底 为 他 人 谋 取 不 正 当 经 济 利 益 海 南 省 -< 国 家 省 级 行 政 域, 区 域 > 海 南 省 洋 浦 经 济 开 发 区 -< 国 家 经 济 开 发 区, > 屯 昌 -< 国 家 县 级 行 政 区 域 > 2008 年 3 月 海 口 -< 国 家 市 级 行 政 区 域, > 赵 某 赵 某 -< 个 体 营 业 者, 专 有 名 词 > 该 工 程 该 工 程 -< 专 有 名 词, 敏 感 词 汇, 工 程 类 名 词 > 人 民 币 人 民 币 -< 专 有 名 词, 敏 感 词 汇, 财 经 类 名 词 > 6 万 元 6 万 元 -< 专 有 名 词, 敏 感 词 汇, 钱 款 类 名 词 > < 国 家 公 务 员, 副 局 长 >: 上 下 级 关 系 2009 年 提 供 虚 假 发 票 2009 年 支 付 好 处 费 2011 年 帮 助 赵 某 中 标 工 程 < 司 机, 副 局 长 >: 紧 密 上 下 级 级 关 系 < 张 成 梁, 行 政 机 构 > 收 取 6 万 好 处 费 涉 案 人 员 :2 人 受 贿 :1611 万 元 受 贿 :6 万 元 年 龄 :32 岁 经 济 犯 罪 官 员 违 纪 官 员 受 贿 由 最 大 熵 理 论 可 知, 当 随 机 变 量 的 取 值 项 数 量 越 多 的 时 候, 即 内 容 越 杂 乱, 最 大 熵 值 就 越 大, 这 可 以 解 释 为 什 么 一 些 包 含 复 杂 内 容 ( 如 社 会 角 色 和 关 系 等 ) 的 公 众 事 件 容 易 引 起 关 注, 因 为 事 件 本 身 信 息 量 较 大, 或 者 直 观 解 释 为 事 件 内 容 更 加 丰 富, 对 表 1 中 的 信 息 系 统 进 行 向 量 抽 取, 显 然 其 信 息 冗 余 较 大, 也 就 是 信 息 量 较 大. 由 于 之 间 的 函 数 关 系 无 法 确 定, 所 以 此 问 题 适 合 使 用 最 大 熵 模 型 解 决, 以 最 大 熵 表 征 公 众 事 件 的 熵 值, 与 实 际 的 情 况 最 为 接 近. 3.3 公 众 事 件 信 息 熵 的 计 算 公 式 在 公 众 事 件 信 息 量 的 计 算 中 属 于 约 束 条 件 =1 的 最 大 熵 问 题, 其 熵 函 数 的 形 式 与 一 维 随 机 变 量 的 形 式 类 似, 信 息 熵 值 可 以 为 任 意 正 数. 取 最 大 熵 时, 其 联 合 概 率 分 布 为 均 匀 分 布, 则 计 算 公 式 可 以 表 示 为 : ( 1, 2,, n) = ( 1, 2,, n) l ( 1, 2,, n ) H X X X p x x x ogp x x x x
靳 锐 等 : 中 文 公 众 事 件 信 息 熵 计 算 方 法 ( x ) = l ogp x, x,, n 用 表 示 随 机 变 量 的 取 值 次 数 总 数, 当 有 一 次 基 本 集 合 的 取 值 时,. Table 2 The value of dimensions 表 2 分 变 量 的 取 值 1 2 取 值 项 数 由 约 束. 则 熵 函 数 表 示 为 : 1 H ( X, X,, X ) = l ogp( x, x,, x ) = log = log ( q q q ) (3) 1 2 9 1 2 9 1 2 9 qq 1 2 q9 此 公 式 为 公 众 事 件 多 维 随 机 变 量 的 信 息 熵 计 算 公 式, 其 形 式 具 有 严 格 的 单 调 关 系. 下 面 证 明 其 单 调 性, 并 分 析 如 何 计 算 出 事 件 信 息 熵 值. 3.4 多 维 随 机 变 量 信 息 熵 的 单 调 性 证 明 由 (3) 式, 熵 函 数 : H ( X, X,, X ) logp( x, x,, x ) log ( q q q ) = =, 证 明 其 具 有 单 调 性. 1 2 9 1 2 9 1 2 9 证 明 : 当 取 得 一 组 熵 函 数 取 值 为, 而 另 一 组 取 得 的 熵 函 数 取 值 为. 当 时, 此 时 取 得 正 整 数 值, 可 知, 进 而 得 知. 所 以 熵 函 数 具 有 严 格 的 单 调 性,. 可 知 这 个 多 维 随 机 变 量 的 熵 函 数 具 有 严 格 单 调 性, 证 毕. 3.5 中 文 语 言 特 性 对 公 众 事 件 信 息 熵 的 影 响 中 文 公 众 事 件 的 信 息 熵 值, 必 然 受 到 中 文 语 言 特 性 的 影 响, 中 文 语 言 是 一 种 意 合 语 言, 中 文 的 特 点 是 概 括 性 强, 语 言 表 述 往 往 包 含 很 多 汉 语 成 语 典 故 常 用 语 等, 这 样 的 语 言 往 往 简 短, 但 却 包 含 了 比 词 本 身 丰 富 得 多 的 含 义. 这 体 现 在 信 息 熵 值 计 算 方 面, 必 然 造 成 信 息 熵 值 的 增 大, 这 种 中 文 语 言 特 性 对 事 件 信 息 熵 影 响 较 大. 例 如 : 这 样 一 则 公 众 信 息 表 述 : 谎 称 收 工 程 保 证 金, 七 旬 老 汉 指 鹿 为 马 诈 骗 百 万 (2015-04-17 09:18:58 来 源 : 胶 东 在 线 ) 胶 东 在 线 网 4 月 17 日 讯 ( 记 者 侯 嘉 伟 通 讯 员 徐 忠 孙 世 建 )2014 年 以 来, 蓬 莱 市 公 安 局 经 侦 大 队 共 破 获 以 收 取 工 程 保 证 金 为 名 实 施 的 合 同 诈 骗 案 件 4 起, 抓 获 犯 罪 嫌 疑 人 20 余 名, 涉 案 金 额 达 5000 余 万 元. 经 查,1945 年 出 生 的 柯 某 利 利 用 相 同 手 段 共 诈 骗 150 余 万 元.2014 年 11 月 6 日 因 涉 嫌 合 同 诈 骗 被 刑 事 拘 留, 同 年 12 月 12 日 被 批 准 逮 捕, 现 该 案 已 移 送 检 察 部 门 审 查 起 诉. 事 件 中 使 用 了 指 鹿 为 马 这 样 的 成 语, 在 中 文 社 区, 这 样 的 表 述 会 激 发 读 者 头 脑 中 的 语 义 框 架, 读 者 获 得 了 成 语 中 丰 富 的 信 息, 指 鹿 为 马 成 语 中 包 含 的 信 息 就 嵌 入 到 了 事 件 当 中, 这 在 中 文 公 众 事 件 表 达 当 中 属 于 常 见 现 象. 指 鹿 为 马 这 样 的 成 语, 包 含 的 信 息 内 容 是 比 较 固 定 的, 构 成 一 个 封 闭 的 独 立 语 境 事 件. 同 样, 我 们 可 以 计 算 其 熵 值, 在 计 算 过 程 中, 可 以 把 这 个 熵 值 当 做 常 数, 累 加 到 事 件 信 息 熵 值 中. 指 鹿 为 马 的 文 本 信 息 摘 要 描 述 如 下 ; 指 鹿 为 马 : 出 自 史 记 秦 始 皇 本 纪, 秦 始 皇 死 后, 赵 高 试 图 要 谋 朝 篡 位, 为 了 试 验 朝 廷 中 有 哪 些 大 臣 顺 从 他 的 意 愿, 特 地 呈 上 一 只 鹿 给 秦 二 世 胡 亥, 并 说 这 是 马. 秦 二 世 不 信, 赵 高 便 借 故 问 各 位 大 臣. 不 敢 逆 赵 高 意 的 大 臣 都 说 是 马, 而 敢 于 反 对 赵 高 的 人 则 说 是 鹿. 后 来 说 是 鹿 的 大 臣 都 被
4 公 赵 高 用 各 种 手 段 害 死 了. 指 鹿 为 马 的 故 事 流 传 至 今, 人 们 便 用 指 鹿 为 马 形 容 一 个 人 是 非 不 分, 颠 倒 黑 白. 经 过 信 息 抽 取 计 算 后, 得 到 指 鹿 为 马 典 故 成 语 的 熵 值 为, 事 件 信 息 熵 值 为, 则 最 终 的 事 件 信 息 熵 为. 这 可 以 解 释, 为 什 么 使 用 成 语 典 故 较 多 的 事 件 描 述, 更 容 易 引 起 读 者 的 兴 趣, 其 中 一 个 原 因 是 其 造 成 了 事 件 信 息 熵 的 增 加. 众 事 件 熵 的 计 算 过 程 在 计 算 公 众 事 件 信 息 熵 的 时 候, 基 于 社 会 学 理 论 以 及 一 些 领 域 知 识, 我 们 可 以 把 它 以 关 键 词 或 同 义 词 短 语 的 形 式 集 成 到 我 们 的 知 识 库 中, 这 里 需 要 专 家 的 人 工 知 识 分 析. 一 旦 知 识 库 建 立 后, 会 为 我 们 提 供 很 大 的 便 利. 由 4.4 中 的 单 调 性 证 明, 我 们 这 里 构 建 的 关 键 词 知 识 库, 只 需 要 按 社 会 学 知 识 划 分 不 同 的 子 集 合, 并 进 行 关 键 词 的 匹 配 或 短 语 的 同 义 词 替 换 然 后 进 行 关 键 词 匹 配 计 算 即 可, 由 此 而 产 生 的 计 算 属 于 社 会 计 算. 以 2012 年 度 全 年 的 互 联 网 中 文 公 众 事 件 为 实 验 数 据 集 进 行 计 算, 语 料 库 中 统 计 了 中 国 全 年 1200 个 中 文 事 件 案 例 ( 每 个 季 度 300 件 公 众 事 件 ), 这 是 全 年 爆 发 的 互 联 网 中 文 公 众 事 件 中 引 起 社 会 重 视 较 高 的 事 件, 文 中 选 取 部 分 事 件 的 计 算 结 果 进 行 分 析. 4.1 构 建 知 识 库 设 为 公 众 事 件 的 某 个 分 随 机 变 量 ( 如 ), 离 散 型 随 机 变 量, 假 设 的 取 值 集 合 为, 包 含 若 干 个 子 集, 同 时 满 足 =. 由 于 各 个 国 家 的 历 史 文 化 习 俗 宗 教 固 有 观 念 等 社 会 状 况 有 很 大 的 区 别, 所 以 特 定 的 国 家 或 地 区 要 有 特 定 的 分 析, 相 应 的 随 机 变 量 的 概 率 分 布 情 况 也 会 有 很 大 的 区 别, 比 如 驻 阿 富 汗 美 军 烧 古 兰 经 事 件, 如 果 发 生 在 其 他 非 信 仰 伊 斯 兰 教 的 地 区, 事 件 不 会 这 么 敏 感, 不 会 引 起 这 么 大 规 模 和 广 泛 的 争 端. 本 文 在 使 用 通 用 计 算 方 法 的 基 础 上, 以 中 国 国 内 社 会 状 况 文 化 特 点 为 背 景 进 行 互 联 网 社 会 计 算 研 究, 如 果 要 计 算 其 他 国 家 的 互 联 网 公 众 事 件 信 息 熵, 要 根 据 实 际 情 况 进 行 相 应 的 知 识 库 调 整. 下 面 我 们 以 中 文 公 众 事 件 的 计 算 为 例, 分 别 分 析 9 个 随 机 变 量 的 取 值 集 合 情 况, 给 出 一 个 互 联 网 公 众 事 件 信 息 熵 的 具 体 计 算 方 法. 集 合 中 的 元 素 都 是 有 代 表 性 的 关 键 词, 这 些 关 键 词 或 同 义 短 语 构 成 了 知 识 库, 考 察 9 个 随 机 变 量 的 取 值 集 合, 可 以 构 建 相 应 的 知 识 库. 这 里 给 出 简 略 描 述. 4.1.1 分 析 随 机 变 量 ( 公 众 事 件 中 的 主 体 名 ) 的 取 值 范 围 事 件 的 主 体 名, 往 往 是 人 物 的 名 称, 也 有 地 名 机 构 名 和 其 他 类 型 主 体 的 名 称. 把 集 合 按 子 集 合 划 分, 当 有 一 次 关 键 词 匹 配 的 时 候,, 若 无 则 取. 设 为 表 示 公 众 事 件 主 体 名 的 随 机 变 量, 是 离 散 型 随 机 变 量, 建 立 的 取 值 集 合, 其 中 包 含 若 干 个 子 集, 满 足 =. 根 据 常 识, 人 名 或 地 名 等 具 有 公 众 信 息 敏 感 度, 我 们 把 知 名 度 分 为 四 个 等 级, 分 别 对 应 的 四 个 取 值 子 集 合, 其 中 为 取 值 的 基 本 集 合. 公 众 信 息 敏 感 度 级 别 的 划 分 : 公 众 信 息 敏 感 度 度 第 一 等 级, 可 继 续 划 分 子 集,. 历 史 名 人, ; 当 代 政 治 人 物, ; 公 众 信 息 敏 感 度 第 四 等 级, 可 继 续 划 分 子 集,. 本 文 中, 划 分 等 级 是 为 了 方 便 说 明 问 题, 当 有 匹 配 时 取 值 相 同, 取 值 为 1. 社 会 计 算 中 使 用 带 有 加 权 值 的 运
靳 锐 等 : 中 文 公 众 事 件 信 息 熵 计 算 方 法 算 方 法 留 待 后 续 研 究 中 系 统 介 绍. 即 当, 若, 则 取 得, 否 则, 以 下 各 项 情 况 类 似. 形 式 化 命 题 逻 辑 判 断, 描 述 如 下 : 可 以 看 到, 进 行 匹 配 计 算 的 过 程 就 是 进 行 一 阶 谓 词 逻 辑 判 断 的 过 程. 命 题 A: 有 一 个 取 值, 即 当, 逻 辑 为 真. 命 题 B: 当 或, 或 其 中 一 个 成 立 时, 逻 辑 为 真. 则 当 A B 的 合 取 式 为 真 时, 表 示 有 一 次 取 值, 为 1. 当 A B 的 合 取 式 为 假 时, 表 示 有 一 次 取 值, 为 0. 这 种 情 况 下, 对 计 算 值 无 贡 献. 4.1.2 分 析 随 机 变 量 ( 社 会 ( 自 然 ) 角 色 ) 的 取 值 范 围 设 为 表 示 公 众 事 件 主 体 的 社 会 角 色 的 随 机 变 量, 是 离 散 型 随 机 变 量, 我 们 建 立 的 取 值 集 合, 并 包 含 若 干 个 子 集, 满 足 =. 由 于 互 联 网 空 间 的 出 现, 相 应 的 出 现 了 许 多 新 的 社 会 角 色, 如 互 联 网 的 公 知 人 群 意 见 领 袖 人 群 还 有 部 分 网 络 文 化 名 人 等, 并 担 当 起 了 相 应 的 社 会 责 任, 发 挥 着 某 种 社 会 功 能. 从 社 会 学 的 角 度 来 分 析, 互 联 网 不 但 改 变 了 人 们 获 取 知 识 的 方 式, 同 时 新 的 社 会 角 色 也 在 一 定 程 度 上 改 变 了 人 们 之 间 的 关 系, 产 生 了 新 的 信 息 传 播 与 信 任 方 式, 比 如 公 知 意 见 领 袖 微 博 大 V 等. 作 为 主 体 的 属 性, 社 会 ( 自 然 ) 角 色 是 构 成 事 件 信 息 内 容 的 重 要 因 素. 因 为 在 互 联 网 公 众 事 件 中, 主 体 的 角 色 对 事 件 信 息 引 起 关 注 的 程 度 影 响 极 大, 一 个 事 件 的 主 体 可 以 有 多 个 社 会 角 色. 这 里 取 主 体 的 职 位 名 称 地 名 的 行 政 区 域 身 份 或 属 性 名 称 商 业 实 体 名 称 商 业 人 士 的 职 位 名 称 或 是 特 殊 人 群 的 社 会 名 称 等 关 键 词, 作 为 社 会 ( 自 然 ) 角 色 的 描 述. 子 集 自 然 灾 害 类 型 名 称, 星 际 名 称 集 合, 地 理 名 的 社 会 ( 自 然 ) 角 色, 国 家 自 然 类 别 集 合, 特 殊 国 家 类 别,, 学 生 类 别 集 合, 未 成 年 人, 敏 感 角 色 ( 如 奶 粉 业 明 胶 业 三 鹿 乳 业 等 ), 普 通 民 众 集 合, 其 他 角 色. 允 许, 1. 我 们 逐 项 分 析,,. 为 自 然 灾 害 严 重 程 度 集 合, 可 继 续 划 分 子 集,. 满 足,, =. 我 们 按 自 然 灾 害 的 级 别 进 行 划 分 子 集 : 较 轻 型 灾 害 集 合, ; 其 他 类 型 灾 害 集 合, ; 为 普 通 民 众 集 合, 其 权 值 为 1, 为 其 他 角 色 集 合, 体 现 完 备 性, 权 值 也 为 1. 与 5.1.1 中 类 似, 进 行 一 阶 谓 词 逻 辑 判 断. 命 题 C: 有 一 个 取 值, 即 当, 逻 辑 为 真. 命 题 D: 当 或, 或 其 中 一 个 成 立 时, 逻 辑 为 真. 则 当 C D 的 合 取 式 为 真 时, 表 示 有 一 次 取 值, 为 1. 当 C D 的 合 取 式 为 假 时, 表 示 有 一 次 取 值, 为 0. 这 种 情 况 下, 对 计 算 值 无 贡 献. 4.1.3 设 表 示 公 众 事 件 的 社 会 关 系, 是 离 散 型 随 机 变 量, 我 们 建 立 的 取 值 集 合, 并 包 含 若 干 个 子 集
, 满 足 =. 由 于 这 里 考 察 的 随 机 变 量 为 事 件 主 体 的 某 种 关 系, 会 对 公 众 事 件 本 身 的 信 息 量 有 很 大 的 贡 献. 我 们 把 关 系 一 项 分 为 强 关 系 中 等 关 系 弱 关 系 其 他 关 系. 强 关 系, ; 其 他 关 系, 如 下 表 所 示. 使 用 二 元 组 来 作 形 式 化 的 表 示 如 下 形 式 : 设 以 表 示 实 体 1, 以 表 示 实 体 2, 则 它 们 之 间 的 关 系 可 以 表 示 为, 且, 若, 则 值 取 得 1, 即, 否 则. 进 行 一 阶 谓 词 逻 辑 判 断 : 命 题 E: 有 一 个 取 值, 即 当, 逻 辑 为 真. 命 题 F: 当 或, 或 其 中 一 个 成 立 时, 逻 辑 为 真. 则 当 E F 的 合 取 式 为 真 时, 表 示 有 一 次 取 值, 为 1. 当 E F 的 合 取 式 为 假 时, 表 示 有 一 次 取 值, 为 0. 这 种 情 况 下, 对 计 算 值 无 贡 献. 4.1.4 分 析 随 机 变 量 ( 主 体 所 属 机 构 名 称 或 所 属 体 系 的 名 称 ) 的 取 值 范 围. 设 为 公 众 事 件 的 机 构 名 称, 是 离 散 型 随 机 变 量, 我 们 建 立 的 取 值 集 合, 并 包 含 若 干 个 子 集 按 机 构 的 重 要 程 度 分 为 5 级, 细 节 略. 进 行 一 阶 谓 词 逻 辑 判 断 :, 满 足 =. 命 题 G: 有 一 个 取 值, 即 当, 逻 辑 为 真. 命 题 H: 当 或, 或 其 中 一 个 成 立 时, 逻 辑 为 真. 则 当 G H 的 合 取 式 为 真 时, 表 示 有 一 次 取 值, 为 1. 当 G H 的 合 取 式 为 假 时, 表 示 有 一 次 取 值, 为 0. 这 种 情 况 下, 对 计 算 值 无 贡 献. 4.1.5 分 析 随 机 变 量 ( 时 间 信 息 ) 的 取 值 范 围 设 为 公 众 事 件 的 时 间 信 息, 是 离 散 型 随 机 变 量, 随 机 变 量 取 值 的 所 属 时 段 作 为 集 合 的 元 素, 并 包 含 若 干 个 子 集,, 满 足 =. 按 时 段 的 重 要 程 度 由 高 到 低, 分 为 6 级 : 第 一 级 为 灾 害 时 期, 如 洪 水 疾 病 暴 发 等 时 期, 其 子 集 为,,. 第 五 级 季 节 性 时 段, 如 春 运 期 休 渔 期 春 播 期 洪 讯 期 冰 霜 期 禁 海 期 等, 第 六 级 为 其 他 时 段. 进 行 一 阶 谓 词 逻 辑 判 断 : 命 题 I: 有 一 个 取 值, 即 当, 逻 辑 为 真. 命 题 J: 当 或, 或 其 中 一 个 成 立 时, 逻 辑 为 真. 则 当 I J 的 合 取 式 为 真 时, 表 示 有 一 次 取 值, 为 1. 当 I J 的 合 取 式 为 假 时, 表 示 有 一 次 取 值, 为 0. 这 种 情 况 下, 对 计 算 值 无 贡 献. 4.1.6 分 析 随 机 变 量 ( 社 会 ( 自 然 ) 行 为 ) 的 取 值 范 围 设 为 舆 情 事 件 的 社 会 行 为, 是 离 散 型 随 机 变 量, 我 们 建 立 的 取 值 集 合, 并 包 含 若 干 个 子 集, 满 足 =. [15] 我 们 依 据 社 会 学 构 建 理 论 对 事 件 的 行 为 进 行 划 分 :
靳 锐 等 : 中 文 公 众 事 件 信 息 熵 计 算 方 法 为 自 然 灾 害 类 社 会 行 为 ; 为 邪 教 类 行 为 反 人 类 行 为 恶 性 刑 事 犯 罪 行 为 ; 宗 教 类 行 为 群 体 性 行 为 ; 造 谣 中 伤 类 行 为 恶 意 商 业 攻 击 类 事 件 恶 意 人 身 攻 击 类 事 件 或 普 通 犯 罪 行 为 等 ; 普 通 个 人 意 见 表 达 商 业 网 络 信 息 发 布 或 讨 论 行 为 普 通 民 事 纠 纷 等, 其 他 行 为 类 型. 进 行 一 阶 谓 词 逻 辑 判 断 : 命 题 K: 有 一 个 取 值, 即 当, 逻 辑 为 真. 命 题 L: 当 或, 或 其 中 一 个 成 立 时, 逻 辑 为 真. 则 当 K L 的 合 取 式 为 真 时, 表 示 有 一 次 取 值, 为 1. 当 K L 的 合 取 式 为 假 时, 表 示 有 一 次 取 值, 为 0. 这 种 情 况 下, 对 计 算 值 无 贡 献. 4.1.7 分 析 随 机 变 量 ( 事 件 发 生 的 地 址 信 息 ) 的 取 值 范 围 设 为 公 众 事 件 的 地 址 信 息, 是 离 散 型 随 机 变 量, 我 们 建 立 的 取 值 集 合, 并 包 含 若 干 个 子 集, 满 足 =. 为 星 系 地 址 名 称, 为 国 家 地 名, 为 国 家 首 都 地 名, 为 国 家 州 省 地 名, 为 省 会 城 市 地 名, 地 市 级 城 市 地 名 集 合, 县 级 地 名, 乡 镇 以 下 级 地 名, 具 有 政 治 意 义 的 地 名 集 合,, 著 名 风 景 区 集 合 著 名 国 家 保 护 区 集 合, 娱 乐 场 所, 其 他 地 名 集 合. 进 行 一 阶 谓 词 逻 辑 判 断 : 命 题 N: 有 一 个 取 值, 即 当, 逻 辑 为 真. 命 题 O: 当 或, 或 其 中 一 个 成 立 时, 逻 辑 为 真. 则 当 N O 的 合 取 式 为 真 时, 表 示 有 一 次 取 值, 为 1. 当 N O 的 合 取 式 为 假 时, 表 示 有 一 次 取 值, 为 0. 这 种 情 况 下, 对 计 算 值 无 贡 献. 4.1.8 分 析 随 机 变 量 ( 事 件 中 数 量 信 息 ) 的 取 值 范 围 设 为 公 众 事 件 社 会 行 为 的 涉 及 数 量, 是 离 散 型 随 机 变 量, 我 们 建 立 的 取 值 集 合, 并 包 含 若 干 个 子 集, 满 足 =. 按 事 件 中 数 量 的 重 要 程 度 分 5 个 级 别 : 第 一 级 的 数 量, 其 子 集 为,,. 第 五 级 的 数 量, 其 子 集 为,,. 进 行 一 阶 谓 词 逻 辑 判 断 : 命 题 P: 有 一 个 取 值, 即 当, 逻 辑 为 真.,, 命 题 Q: 当 或, 或 其 中 一 个 成 立 时, 逻 辑 为 真. 则 当 P Q 的 合 取 式 为 真 时, 表 示 有 一 次 取 值, 为 1. 当 P Q 的 合 取 式 为 假 时, 表 示 有 一 次 取 值, 为 0. 这 种 情 况 下, 对 计 算 值 无 贡 献. 4.1.9 分 析 随 机 变 量 ( 公 众 事 件 中 的 类 别 信 息 ) 的 取 值 范 围 设 为 公 众 事 件 的 类 别 名, 是 离 散 型 随 机 变 量, 我 们 建 立 的 取 值 集 合, 并 包 含 若 干 个 子 集, 满 足 =. [19] 我 们 依 据 社 会 学 构 建 理 论 对 事 件 的 类 别 领 域 进 行 划 分, 此 项 与 项 相 对 应. 为 自 然 灾 害 类 事 件 集 合 ; 为 邪 教 类 反 人 类 事 件 恶 性 刑 事 犯 罪 事 件 集 合 ; 宗 教 类 群 体 性 事 件 群 体 行 为 事 件 集 合 ; 造 谣 中 伤 类 事 件 集 合 恶 意 商 业 攻 击 人 身 攻 击 事 件 ; 普 通 个 人 信 息 发 布 商 业 网
5 实 络 信 息 发 布 或 讨 论 类 事 件, 其 他 事 件 类 别 集 合. 进 行 一 阶 谓 词 逻 辑 判 断 : 命 题 R: 有 一 个 取 值, 即 当, 逻 辑 为 真. 命 题 S: 当 或, 或 其 中 一 个 成 立 时, 逻 辑 为 真. 则 当 R S 的 合 取 式 为 真 时, 表 示 有 一 次 取 值, 为 1. 当 R S 的 合 取 式 为 假 时, 表 示 有 一 次 取 值, 为 0. 这 种 情 况 下, 对 计 算 值 无 贡 献. 4.1.10 为 公 众 事 件 信 息 抽 取 过 程 中 未 抽 取 的 信 息 此 随 机 变 量 是 为 了 体 现 公 众 事 件 信 息 量 定 义 的 完 备 性, 对 事 件 的 信 息 量 计 算 没 有 贡 献, 不 计 算 这 一 项. 9 个 随 机 变 量 知 识 库 的 集 合 划 分 不 是 唯 一 的 划 分 方 法, 这 里 所 做 的 计 算 属 于 社 会 计 算, 要 根 据 实 际 情 况 进 行 调 整. 4.2 计 算 信 息 熵 当 对 事 件 进 行 信 息 抽 取 并 进 行 知 识 库 进 行 匹 配 计 算 后, 可 以 得 到 算 信 息 熵 值, 则. 的 值. 根 据 4.3 节 中 公 式 (3) 计 验 5.1 计 算 信 息 熵 计 算 信 息 抽 取 形 式 的 80 后 清 华 硕 士 任 副 局 长 后 受 贿 1600 万, 被 判 无 期 事 件 的 信 息 熵 值, 如 4.2 中 的 形 式. 逐 项 匹 配 计 算 值, 如 下 表 所 示, 这 里 采 用 自 然 对 数 计 算. Table 3 The weight of 表 3 的 加 权 值 值 104 342 15 8 6 41 10 10 3 H=, 取 小 数 点 后 两 位 有 效 数 字. 5.2 同 类 案 例 事 件 的 熵 值 比 较 以 2012 年 第 四 季 度 公 众 事 件 为 例, 我 们 进 行 了 繁 琐 的 信 息 项 信 息 抽 取, 并 进 行 了 相 应 的 复 杂 计 算, 数 据 量 和 计 算 量 都 较 大, 这 里 选 取 官 员 违 纪 类 事 件 进 行 了 实 验 结 果 展 示, 表 4 中 熵 值 1 的 数 据 项 显 示 为 信 息 抽 取 后 的 计 算 值, 此 实 验 是 为 了 验 证 计 算 方 法 的 单 调 性, 比 较 不 同 的 事 件 包 含 的 信 息 量, 如 图 4 所 示. Table 4 The ranking of calculation 表 4 计 算 结 果 排 序 官 员 违 纪 类 事 件 排 名 熵 值 1 熵 值 2 熵 值 3 街 道 党 工 委 书 记 受 贿 被 审 :732 万 买 景 德 镇 瓷 器 1 36.15 34.58 33.17 山 西 4 妻 10 子 村 官 人 大 代 表 资 格 被 暂 停 已 取 保 候 审 2 35.46 34.31 33.18 杭 州 房 管 局 副 局 长 被 指 拥 20 多 套 房 价 值 数 亿 3 33.89 31.67 30.89 陕 西 表 哥 存 款 涉 20 多 家 银 行 4 33.34 31.24 29.90 广 州 越 秀 区 原 城 管 局 长 涉 嫌 受 贿 178 万 受 审 5 33.23 31.73 30.06 长 沙 副 处 级 官 员 贪 污 7000 余 万 被 小 三 情 妇 揭 发 6 31.64 30.13 28.79 新 疆 乌 苏 公 安 局 长 被 指 包 养 双 胞 胎 当 地 纪 委 调 查 7 30.91 29.86 29.04 太 原 市 公 安 局 局 长 被 停 职 网 传 其 子 涉 醉 驾 殴 打 交 警 8 30.07 28.63 27.94 湖 北 一 女 县 长 被 指 持 钞 票 炫 富 当 地 宣 传 部 门 否 认 9 28.10 27.06 25.95 广 西 桂 林 一 村 委 组 长 涉 嫌 贪 污 9 万 公 款 被 判 刑 8 年 10 26.68 25.31 24.37 广 州 一 城 管 队 长 受 贿 400 余 万 称 怕 得 罪 人 才 收 钱 11 26.63 25.02 23.88 中 纪 委 : 李 春 城 涉 嫌 严 重 违 纪 正 接 受 组 织 调 查 12 26.62 25.31 24.11 80 后 清 华 硕 士 任 副 局 长 后 受 贿 1600 万 被 判 无 期 13 26.48 24.98 24.00 山 西 价 值 2 亿 煤 矿 37 万 贱 卖 当 地 纪 委 介 入 调 查 14 25.61 24.61 23.50 国 家 能 源 局 回 应 局 长 被 举 报 : 纯 属 污 蔑 造 谣 正 报 案 15 25.47 23.88 22.84 湖 北 通 山 31 岁 女 县 长 8 年 6 次 破 格 提 拔 被 疑 潜 规 则 16 25.10 24.07 23.35 山 东 临 沂 一 副 县 级 干 部 贪 污 19 万 受 贿 217 万 余 元 被 判 刑 17 25.05 23.80 22.93
靳 锐 等 : 中 文 公 众 事 件 信 息 熵 计 算 方 法 长 沙 市 规 划 局 原 高 官 拥 16 套 房 女 儿 过 生 日 给 20 万 18 24.72 23.49 22.88 北 京 原 朝 阳 副 区 长 刘 希 泉 之 子 受 贿 诈 骗 拆 迁 款 477 万 获 刑 20 年 19 23.72 22.75 21.93 中 国 党 政 机 关 255 人 因 公 务 用 车 问 题 被 处 分 20 22.46 21.35 20.41 重 庆 南 川 人 民 医 院 骨 科 主 任 受 贿 逾 356 万 获 刑 11 年 21 21.36 20.60 19.86 涪 陵 艳 照 门 事 件 当 事 者 为 执 法 干 部 监 察 局 立 案 调 查 22 17.33 16.71 15.87 我 们 根 据 上 表 的 数 据 排 序 给 出 趋 势 图, 熵 值 1 列 项 为 纵 坐 标, 可 以 看 到, 得 到 了 一 个 趋 势 性 的 单 调 关 系, 趋 势 线 表 明 了 我 们 计 算 方 法 的 合 理 性, 与 理 论 分 析 4.4 中 单 调 性 证 明 的 结 论 相 符 合, 是 计 算 方 法 科 学 性 的 体 现. 我 们 看 到, 其 中 最 小 的 熵 值 事 件 为 涪 陵 艳 照 门 事 件 当 事 者 为 执 法 干 部 监 察 局 立 案 调 查, 值 为 17.33, 这 是 因 为 其 文 本 事 件 描 述 很 短, 处 于 事 件 的 爆 发 初 期, 内 容 所 包 含 的 信 息 较 少 的 缘 故 ; 熵 值 最 大 的 事 件 为 街 道 党 工 委 书 记 受 贿 被 审 :732 万 买 景 德 镇 瓷 器, 因 为 事 件 已 经 调 查 完 毕, 并 且 已 经 由 法 院 给 出 了 详 细 的 判 决, 其 文 本 内 容 包 含 详 细 的 内 容, 所 以 其 信 息 量 较 大, 这 与 我 们 的 直 觉 接 近. Fig.4 The verification of the calculation method rationality 图 4 计 算 方 法 的 合 理 性 验 证 5.3 信 息 抽 取 方 法 对 计 算 结 果 的 影 响 熵 的 计 算 值 必 然 受 到 信 息 抽 取 方 法 的 影 响, 为 了 获 得 更 为 合 理 的 计 算 值, 往 往 需 要 对 信 息 抽 取 项 进 行 以 下 两 步 处 理. 1) 重 复 项 过 滤 : 这 个 过 程 主 要 是 过 滤 掉 内 容 重 复 抽 取 的 信 息, 计 算 结 果 如 表 4 中 熵 值 2 列 项 所 示. 2) 共 指 消 解 : 过 滤 之 后, 进 一 步 进 行 共 指 消 解 处 理, 消 除 掉 具 有 共 指 关 系 的 冗 余 信 息 抽 取 项, 计 算 结 果 如 表 4 中 熵 值 3 列 项 所 示. 图 4 显 示 的 是 进 行 信 息 抽 取 后 的 计 算 结 果, 当 进 行 重 复 项 过 滤 与 共 指 消 解 后 实 验 结 果 对 比 如 图 5 所 示, 熵 值 比 较 接 近 的 事 件 排 序 有 些 许 的 变 化, 但 计 算 结 果 的 单 调 性 函 数 状 态 保 持 良 好.
6 结 Fig.5 The experiment of contrast 图 5 对 比 试 验 实 验 结 果 表 明, 经 过 滤 与 共 指 消 解 处 理 后, 对 不 同 类 型 事 件 的 计 算 结 果 影 响 类 似, 熵 值 一 定 幅 度 上 有 所 减 小. 束 语 本 文 应 用 香 农 信 息 论 和 最 大 熵 理 论, 给 出 了 一 个 合 理 而 且 可 行 的 计 算 方 法, 解 决 了 互 联 网 公 众 事 件 信 息 熵 的 定 量 化 计 算 问 题. 文 中 所 提 到 的 计 算 方 法 是 最 大 熵 理 论 在 社 会 计 算 中 的 一 个 直 接 应 用, 对 于 解 决 其 他 社 会 计 算 定 量 化 问 题, 应 该 有 一 定 的 借 鉴 意 义. 文 中 所 使 用 的 计 算 方 法, 仍 然 基 于 当 前 的 社 会 计 算 理 论 基 础, 为 了 获 得 更 加 合 理 的 计 算 结 果, 后 续 的 研 究 工 作 可 以 探 讨 带 有 加 权 值 的 社 会 计 算 方 法, 这 部 分 内 容 留 待 后 续 工 作 中 单 独 进 行 阐 述, 并 探 讨 社 会 计 算 的 公 理 化 体 系 问 题 [21], 也 希 望 其 他 的 研 究 人 员 关 注 该 问 题, 共 同 促 进 这 一 领 域 的 研 究 工 作 进 展. 致 谢 在 此, 我 们 向 对 本 文 的 工 作 给 予 支 持 和 建 议 的 学 者, 尤 其 是 北 京 邮 电 大 学 的 方 滨 兴 院 士, 您 提 出 的 建 议 使 我 在 寻 找 单 调 函 数 的 工 作 中 得 到 了 启 发, 最 终 得 以 完 成 了 本 文 的 工 作, 在 此 表 示 感 谢. References: [1] Arab Spring,https://en.wikipedia.org/wiki/Arab_Spring. [2] public opinion, http://en.wikipedia.org/wiki/public_opinion. [3] Valdimer Orlando Key Jr. Public Opinion and American Democarcy. New York,John Wiley,June 9, 2012. [4] Mueller, John E, War, presidents, and public opinion.wiley. New York. 1973. [5] Kevin Lerman, Ari Gilder and Mark Dredze, Fernando Pereira. Reading the Markets:Forecasting Public Opinion of Political Candidates by News Analysis. Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008), pages 473 480 Manchester, August 2008. [6] Cuneyt Gurcan Akcora, Murat Ali Bayir,Murat Demirbas. Hakan Ferhatosmanoglu. Identifying Breakpoints in Public Opinion. 1st Workshop on Social Media Analytics (SOMA 10), July 25, 2010,Washington, DC, USA. Copyright 2010 ACM978-1-4503-0217-3. [7] Li Juan,Zhou Xueguang,and Chen Bin. Research on Analysis and monitoring of Internet Public Opinion. Proceedings of the 2012 International Conference of Modern Computer Science and Applications Advances in Intelligent Systems and Computing Volume 191, 2013, pp 449-453. [8] Social computing. http://en.wikipedia.org/wiki/social_computing. [9] E.T.Jaynes Information and statistical mechanics.[j]physical Review.1957,32(1).3-7. [10] D. Lazer, A. Pentland, L. Adamic, et al. SOCIAL SCIENCE:Computational Social Science. Science,2009, vol. 323,no. 5915:721-723, 2009.
靳 锐 等 : 中 文 公 众 事 件 信 息 熵 计 算 方 法 [11] H. Chen, F.-Y. Wang and D. Zeng. Intelligence and Security Informatics for Homeland Security: Information,Communication, and Transportation. IEEE Transactions on Intelligent Transportation Systems, 2004, vol. 5, no.4:329-341. 附 中 文 参 考 文 献 : [12] 王 飞 跃. 从 社 会 计 算 到 社 会 制 造 : 一 场 即 将 来 临 的 产 业 革 命. DOI 10.3969/j.issn.1000-3045.2012.06.002. 中 国 科 学 院 战 略 与 决 策 研 究. 北 京,2012. [13] 王 飞 跃, 曾 大 军, 曹 志 冬. 网 络 虚 拟 社 会 中 非 常 规 安 全 问 题 与 社 会 计 算 方 法. doi 10.3981/j.issn.1000-7857.2011.12.001. 科 技 导 报. 北 京.2011. [14] 王 飞 跃. 社 会 计 算 与 数 字 网 络 化 社 会 的 动 态 分 析. [ 文 章 编 号 ] 1000-7857( 2005) 09-0004- 03. 科 技 导 报. 北 京.2005. [15] 王 飞 跃, 曾 大 军, 毛 文 吉. 社 会 计 算 的 意 义 发 展 与 研 究 状 况.e-Science 2010 年 7 月. [16] 陈 昱, 张 慧 琳. 社 会 计 算 在 信 息 安 全 中 的 应 用. 清 华 大 学 学 报.2011:51-10. [17] Raymond W.Yeung,Information( 加 拿 大 ). Theory and Network Coding. 信 息 论 与 网 络 编 码. 高 教 出 版 社. 北 京.2011. [18] 李 宪 东. 基 于 最 大 熵 原 理 的 确 定 概 率 分 布 的 方 法 研 究, 硕 士 学 位 论 文. 华 北 电 力 大 学 ( 北 京 ).2008. [19] 马 尔 利 姆 沃 特 斯 (Malcolm Waters) ( 澳 大 利 亚 ). 译 者 : 杨 善 华. 现 代 社 会 学 理 论. 华 夏 出 版 社. 北 京. 2000. [20] 谭 红 叶. 中 文 事 件 抽 取 关 键 技 术 研 究. 博 士 论 文. 哈 尔 滨 工 业 大 学.2008. [21] 赵 鑫 珊. 我 对 人 类 社 会 公 理 的 敬 畏. 人 文 素 养 读 本.2006.