中文模板



Similar documents
Microsoft Word - A doc

TI 3 TI TABLE 4 RANDBIN Research of Modern Basic Education

1. 课 程 负 责 人 情 况 姓 名 蒋 效 宇 性 别 男 出 生 年 月 基 本 信 息 最 终 学 历 研 究 生 职 称 副 教 授 电 话 学 位 博 士 职 务 无 传 真 研 究 方 向 MIS 系 统 整 合 电 子

交流活动

<4D F736F F D DBED4B2A4A9D2A9DBA5CDB8EAB054A7B9BEE3AAA92DB3D5A468AF5A2E646F63>

Microsoft Word - 33-p skyd8.doc

Microsoft Word tb 赵宏宇s-高校教改纵横.doc

标题

Microsoft Word - 专论综述1.doc

Microsoft Word - NMIT项目封面.doc

中国媒体发展研究报告

北 京 大 学

2013_6_3.indd

山东省招生委员会

标题

闲 旅 游 现 已 成 为 城 市 居 民 日 常 生 活 的 重 要 部 分 袁 它 的 出 现 标 志 着 现 代 社 会 文 明 的 进 步 遥 据 国 外 学 者 预 测 袁 2015 年 左 右 袁 发 达 国 家 将 陆 续 进 入 野 休 闲 时 代 冶 袁 发 展 中 国 家 也 将

Microsoft Word - ä¸fi颟æ−¥å‚−_å“ı弋论_1104

Microsoft Word - 1-1《國文》試題評析.doc

标题

Mechanical Science and Technology for Aerospace Engineering October Vol No. 10 Web SaaS B /S Web2. 0 Web2. 0 TP315 A

Revit Revit Revit BIM BIM 7-9 3D 1 BIM BIM 6 Revit 0 4D 1 2 Revit Revit 2. 1 Revit Revit Revit Revit 2 2 Autodesk Revit Aut

业 务 与 运 营 社 交 网 络 行 为 将 对 网 络 流 量 造 成 较 大 影 响 3) 即 时 通 信 类 业 务 包 括 微 信 QQ 等, 该 类 业 务 属 于 典 型 的 小 数 据 包 业 务, 有 可 能 带 来 较 大 的 信 令 开 呼 叫 建 立 的 时 延 销 即 时

,.,,.. :,, ,:, ( 1 ). Π,.,.,,,.,.,. 1 : Π Π,. 212,. : 1)..,. 2). :, ;,,,;,. 3

实 践 探 讨 高 丽 : 从 少 数 民 族 大 学 生 的 阅 读 需 求 看 民 族 院 校 图 书 馆 的 资 源 建 设 有 区 域 性 和 民 族 性 很 强 的 传 统 学 科 特 色 学 科 及 优 势 学 科, 因 此 图 书 馆 的 资 源 建 设 也 要 顺 应 这 一 特 性

g 100mv /g 0. 5 ~ 5kHz 1 YSV8116 DASP 1 N 2. 2 [ M] { x } + [ C] { x } + [ K]{ x } = { f t } 1 M C K 3 M C K f t x t 1 [ H( ω )] = - ω 2

一 课 程 负 责 人 情 况 姓 名 吴 翊 性 别 男 出 生 年 月 基 本 信 息 学 位 硕 士 职 称 教 授 职 务 所 在 院 系 理 学 院 数 学 与 系 统 科 学 系 电 话 研 究 方 向 数 据 处 理 近 三 年 来

Microsoft Word 定版

Microsoft Word - 王彬_已修改_.doc



Welch & Bishop, [Kalman60] [Maybeck79] [Sorenson70] [Gelb74, Grewal93, Maybeck79, Lewis86, Brown92, Jacobs93] x R n x k = Ax k 1 + Bu k 1 + w


CHINA SCIENCE AND TECHNOLOGY DEVELOPMENT REPORT

[1] Liu Hongwei,2013, Study on Comprehensive Evaluation of Iron and Steel Enterprises Production System s Basic Capacities, International Asia Confere

~ ~ ~

~ ~ ~ ~ ~ ~ ~ % % ~ 20% 50% ~ 60%


University of Science and Technology of China A dissertation for master s degree Research of e-learning style for public servants under the context of

科 研 信 息 化 技 术 与 应 用,2015, 6 (1) of identity and the framework of identity management, this paper analyses the development trend of Identity Management

( ) [11 13 ] 2 211,,, : (1),, 1990 ( ) ( ),, ; OD, ( ) ( ) ; , ( ), (2) 50 %,, 1999 ( ) ( ) ; (3),,

Microsoft Word - 贺小凤,王国胜.doc

/3 CAD JPG GIS CAD GIS GIS 1 a CAD CAD CAD GIS GIS ArcGIS 9. x 10 1 b 1112 CAD GIS 1 c R2VArcscan CAD MapGIS CAD 1 d CAD U

于 水 等 : 多 源 流 理 论 视 角 下 宅 基 地 使 用 权 确 权 政 策 的 议 程 设 置 研 究 基 于 江 苏 省 4 市 的 调 查 83 push forward the confirmation of homestead use right of rural central

Dan Buettner / /

作 主 动 追 求 知 识 获 取 技 能, 在 心 理 和 生 理 上 都 非 常 积 极 的 个 体 (Zimmerman & Pons, 1986) 在 此 期 间, 自 我 效 能 感 (self-efficacy) 自 我 控 制 (self-control) 自 我 管 理 (self-

标题

实验室代码

Index SSCI Art education ) OR TS =( medic* teach* ) & Humanities Citation Index A&HCI SCIE SSCI A&HCI = / Thomson AND Countries/Territories = Re

1 GIS 95 Y = F y + (1 F) (1) 0 0 Y0 kg/hm 2 /day F y 0 y c kg/hm 2 /day [12] y m 20 kg/hm 2 /hour Y = cl cn ch G [ F( y ) T m yo + (2) (1 F)(

% GIS / / Fig. 1 Characteristics of flood disaster variation in suburbs of Shang

doc

3 4-5 Sharon Weinberger 6 Matthew M. Aid 7 Mary DeRosa Web

Microsoft Word D 孙竹森.doc

Microsoft Word doc

~ ~

L1-01.FIT)

10 中 草 药 Chinese Traditional and Herbal Drugs 第 43 卷 第 1 期 2012 年 1 月 生 药 打 粉 入 药 的 基 本 特 点, 借 鉴 材 料 学 粉 体 学 等 学 科 的 研 究 成 果, 在 中 药 传 统 制 药 理 念 的 启 发

微 分 方 程 是 经 典 数 学 的 一 个 重 要 分 支, 常 用 来 描 述 随 时 间 变 化 的 动 态 系 统, 被 广 泛 应 用 于 物 理 学 工 程 数 学 和 经 济 学 等 领 域. 实 际 上, 系 统 在 随 时 间 的 变 化 过 程 中, 经 常 会 受 到 一 些

VLBI2010 [2] 1 mm EOP VLBI VLBI [3 5] VLBI h [6 11] VLBI VLBI VLBI VLBI VLBI GPS GPS ( ) [12] VLBI 10 m VLBI 65 m [13,14] (referen

SVM OA 1 SVM MLP Tab 1 1 Drug feature data quantization table

Transcription:

软 件 学 报 doi: 10.13328/j.cnki.jos.004932 中 文 公 众 事 件 信 息 熵 计 算 方 法 靳 锐 +, 张 宏 莉, 张 玥, 王 星 ( 哈 尔 滨 工 业 大 学 计 算 机 科 学 与 技 术 学 院, 哈 尔 滨 150001) Calculation Method of Chinese Public Event Information Entropy * JIN Rui +, ZHANG Hong-Li, ZHANG Yue, WANG Xing (School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China) Abstract: With the development of the Chinese social network (especially the rise of weibo), because the lack of the effective technical means, the efficiency of information processing is limited. This paper proposes a new public event information entropy calculation method, and the basic idea is that a mathematical modeling of event information content is built firstly, and then multidimensional random variables information entropy of the public events is to be calculated based on shannon information theory. A new technical index of quantitative analysis to the Internet public events is put forward, which lay the foundation for further research work. Key words: social computing; public event; shannon information theory; information entropy; principle of maximum entropy 摘 要 : 随 着 中 文 社 交 网 络 的 发 展 ( 特 别 是 微 博 的 兴 起 ), 互 联 网 中 文 公 众 事 件 越 来 越 深 刻 的 影 响 现 实 社 会 的 生 产 和 生 活. 由 于 缺 乏 有 效 的 技 术 手 段, 信 息 处 理 的 效 率 受 到 了 限 制. 文 中 提 出 了 一 种 新 的 公 众 事 件 信 息 熵 的 计 算 方 法, 其 基 本 思 想 是 首 先 对 公 众 事 件 信 息 内 容 进 行 建 模, 然 后 以 香 农 信 息 论 为 理 论 基 础, 对 公 众 事 件 的 多 维 随 机 变 量 信 息 熵 进 行 计 算. 这 为 互 联 网 公 众 事 件 的 定 量 化 分 析 提 供 了 一 个 重 要 技 术 指 标, 为 进 一 步 的 研 究 工 作 打 下 基 础. 关 键 词 : 社 会 计 算 ; 公 众 事 件 ; 香 农 信 息 论 ; 信 息 熵 ; 最 大 熵 理 论 中 图 法 分 类 号 : TP301 文 献 标 识 码 : A 引 言 随 着 互 联 网 技 术 的 发 展,Web2.0 的 网 络 用 户 信 息 发 布 技 术 引 发 了 社 交 网 络 的 蓬 勃 发 展, 社 交 网 络 时 代 到 来.Web2.0 则 更 注 重 用 户 的 交 互 作 用, 用 户 既 是 网 站 内 容 的 浏 览 者, 也 是 网 站 内 容 的 制 造 者. 基 于 此, 在 国 际 互 联 网 产 业 领 域, 以 facebook 和 twitter 为 代 表 的 新 型 社 交 网 站 成 为 了 社 交 网 络 时 代 成 功 的 典 范, 以 人 人 网 新 浪 微 博 为 代 表 的 中 文 社 交 网 络 取 得 巨 大 成 功, 社 交 网 络 深 入 到 社 会 各 个 角 落, 深 刻 的 影 响 着 国 家 的 政 治 经 济 文 化 社 会 活 动 组 织 等 领 域. 技 术 革 命 造 成 了 社 会 生 产 生 活 方 式 的 变 革, 在 社 交 网 络 的 快 速 信 息 交 互 中, 非 洲 大 陆 与 阿 拉 伯 世 界 经 历 了 一 系 列 的 剧 烈 社 会 变 革 [1] ; 在 中 国,SNS, 微 博 等 社 交 网 站 的 发 展 如 火 如 荼, 各 种 社 会 信 息 在 社 交 网 络 中 快 速 流 转, [2] 互 联 网 公 众 意 见 得 到 了 快 速 的 表 达 与 形 成, 担 当 起 前 所 未 有 的 社 会 角 色, 发 挥 着 举 足 轻 重 的 社 会 作 用. 近 两 年, 基 金 项 目 : 国 家 重 点 基 础 研 究 发 展 计 划 (973 计 划 )(2013CB329602), 国 家 自 然 科 学 基 金 (61202457,61472108,61402149) 收 稿 时 间 : 2015-02-17; 修 改 时 间 : 2015-05-08,2015-09-10; 采 用 时 间 : 2015-10-17; jos 在 线 出 版 时 间 : 2015-11-18 CNKI 网 络 优 先 出 版 : 2015-11-18 14:58:46, http://www.cnki.net/kcms/detail/11.2560.tp.20151118.1458.001.html

靳 锐 等 : 中 文 公 众 事 件 信 息 熵 计 算 方 法 中 国 国 内 的 各 类 公 众 事 件 频 频 爆 发, 对 互 联 网 舆 情 监 控 提 出 了 新 的 要 求. 如 何 准 确 快 速 的 获 取 和 分 析 相 应 的 事 件 信 息, 成 为 中 文 社 交 网 络 信 息 处 理 领 域 的 一 个 新 的 挑 战. 互 联 网 公 众 意 见 研 究, 又 称 为 舆 情 分 析, 是 当 前 互 联 网 智 能 信 息 处 理 的 研 究 热 点 之 一 [5,6,7]. 这 项 技 术 研 究 可 以 应 用 于 国 家 政 策 的 实 施 预 测 政 治 选 举 结 果 的 预 测 与 分 析 [5] 产 品 的 市 场 销 售 分 析 以 及 个 人 名 誉 与 发 展 等. 近 年 来, 国 内 外 的 研 究 人 员 开 始 重 视 该 领 域 的 研 究, 并 逐 渐 受 到 各 个 国 家 政 府 经 济 实 体 乃 至 个 人 用 户 的 重 视. 如 何 衡 量 一 件 公 众 事 件 的 重 要 性 计 算 其 影 响 力 或 涉 及 事 件 部 门 的 事 态 严 重 程 度, 目 前 还 没 有 一 个 有 效 的 衡 量 方 法, 无 法 对 公 众 意 见 事 件 的 内 容 信 息 进 行 定 量 化 计 算. 仅 仅 依 靠 网 民 的 参 与 程 度 来 衡 量 事 件 的 重 要 程 度 是 不 够 的, 这 不 但 不 能 反 映 事 件 的 实 质 内 容, 而 且 具 有 明 显 的 滞 后 性 和 具 有 易 被 误 导 的 弊 端. [7] 随 着 社 交 网 络 的 发 展, 社 会 计 算 逐 渐 引 起 相 关 的 研 究 人 员 的 重 视.2007 年 底 在 哈 佛 大 学 举 办 了 计 算 社 会 学 研 讨 会,2008 年 4 月, 美 国 军 方 在 亚 利 桑 那 州 立 大 学 举 办 了 社 会 计 算 行 为 建 模 和 预 测 研 讨 会. 在 此 基 础 上,2009 [10] 年 David Lazer 等 在 Science 杂 志 上 提 出 计 算 社 会 学 的 概 念, 指 出 网 络 上 的 大 量 信 息, 如 博 客 论 坛 聊 天 消 费 记 录 电 子 邮 件 等, 都 是 对 现 实 社 会 的 人 及 组 织 行 为 的 映 射, 网 络 数 据 可 用 来 分 析 个 人 和 群 体 的 行 为 模 式, 标 志 着 计 算 科 学 和 社 会 科 学 的 交 叉 融 合 正 成 为 国 际 瞩 目 的 前 沿 研 究 和 应 用 热 点 [15]. 在 911 恐 怖 事 件 的 推 动 下,2003 年 美 国 提 出 情 报 与 安 全 信 息 学 的 概 念, 其 核 心 是 研 究 如 何 开 发 研 究 智 能 算 法 通 过 数 据 信 息 处 理 技 术 安 全 策 略 的 集 成 等 使 情 报 采 集 和 安 全 分 析 更 加 系 统 化 科 学 化, 保 障 国 际 安 全 国 家 安 全 社 会 安 全 商 业 安 全 和 个 人 安 全. 美 国 亚 利 桑 那 大 学 关 于 国 家 社 会 安 全 问 题 考 虑, 进 行 情 报 与 安 全 信 息 学 (ISI) [11] 研 究, 卡 内 基 梅 隆 大 学 也 开 展 了 公 共 卫 生 事 件 等 领 域 的 学 术 研 讨.2005 年 开 始, 中 科 院 自 动 化 研 究 所 开 始 情 报 与 安 全 信 息 学 (ISI) 的 研 究, 以 社 会 计 算 理 论 与 计 算 实 验 平 台 为 基 础, 并 以 开 源 情 报 的 获 取 和 处 理 为 基 础 对 社 会 媒 体 和 舆 情 信 息 进 行 实 时 监 测 分 析 和 预 警 [15]. 当 前, 社 会 计 算 方 法 多 用 于 社 区 发 现 与 社 会 媒 体 挖 掘 如 社 交 网 络 用 户 的 信 息 交 互 关 系 计 算, 社 区 与 意 见 领 袖 发 现 社 交 网 络 用 户 行 为 分 析 等 [5,6,7]. 公 众 意 见 分 析 领 域 的 研 究 仍 然 处 于 发 展 初 期 阶 段, 理 论 体 系 还 没 有 完 全 建 立 起 来, 尤 其 是 定 量 化 的 技 术 衡 量 指 标 还 不 完 备, 引 入 社 会 计 算 方 法 是 解 决 此 问 题 的 有 效 途 径 之 一. 互 联 网 公 众 事 件 的 文 本 形 式 是 互 联 网 信 息 的 重 要 载 体 [5], 其 包 含 的 信 息 量 是 事 件 信 息 的 重 要 技 术 指 标, 也 是 分 析 其 影 响 力 舆 论 压 力 等 技 术 指 标 的 定 量 化 前 提. 本 文 通 过 香 农 信 息 论 与 最 大 熵 理 论 的 方 法, 对 互 联 网 公 众 事 件 内 容 信 息 量 的 计 算 方 法 进 行 了 研 究, 该 方 法 属 于 社 会 计 算 范 畴. 1. 公 众 事 件 数 学 模 型 1.1 公 众 事 件 的 分 析 模 型 网 络 文 本 事 件 的 结 构 如 图 1 所 示. 为 了 进 行 信 息 量 的 计 算, 先 分 析 一 下 公 众 事 件 的 构 成, 如 图 1 所 示. 这 里 对 事 件 所 包 含 的 信 息 内 容 进 行 分 析, 事 件 信 息 有 5 个 构 成 要 素 : 事 件 主 体 时 间 地 点 数 量 未 抽 取 信 息 ; 而 事 件 主 体 又 有 四 个 属 性, 社 会 ( 自 然 ) 角 色 社 会 ( 自 然 ) 关 系 所 属 机 构 或 体 系 主 体 行 为 ; 事 件 本 身 具 有 一 个 重 要 属 性, 即 事 件 社 会 ( 自 然 ) 类 别.

2 公 事 件 主 体 社 会 ( 自 然 ) 角 色 时 间 社 会 ( 自 然 ) 关 系 事 件 信 息 地 点 所 属 机 构 或 体 系 事 件 社 会 ( 自 然 ) 类 别 数 量 未 抽 取 信 息 主 体 行 为 数 学 描 述 : Fig.1 The public event structure 图 1 公 众 事 件 结 构 设 事 件 信 息 为 全 集 U, 由 个 子 集 构 成 为, 其 中, 上 图 中 取 10, 表 示 事 件 主 体 集 合, 表 示 社 会 ( 自 然 ) 角 色 集 合, 表 示 社 会 ( 自 然 ) 关 系, 表 示 所 属 机 构 或 体 系 集 合, 表 示 时 间 信 息 集 合, 表 示 主 体 行 为 集 合, 表 示 地 点 集 合, 表 示 数 量 集 合, 表 示 事 件 社 会 ( 自 然 ) 类 别 集 合, 表 示 未 抽 取 信 息. 由 集 合 的 性 质 可 知. 我 们 看 到 上 图 中 所 示 的 5 个 构 成 要 素 5 个 相 关 的 属 性, 这 是 对 公 众 事 件 最 简 化 的 一 种 表 达 方 式, 公 众 事 件 文 本 内 容 的 信 息 全 部 包 含 其 中. 经 过 分 析, 信 息 系 统 内 的 各 个 属 性 和 要 素 之 间 的 相 互 影 响 可 以 导 致 要 素 或 属 性 的 条 件 信 息 量 的 变 化. 图 1 中 的 信 息 模 块 结 构 来 源 于 文 本 信 息 抽 取 项 的 研 究 [19], 抽 取 项 有 主 体 时 间 关 系 机 构 等 多 项 研 究. 设 一 个 互 联 网 公 众 事 件 由 个 随 机 变 量 构 成, 则 事 件 可 以 表 示 为 ( ), 事 件 本 身 为 一 个 随 机 信 息 系 统, 用 表 示, 则 等 价 于 ( ). 根 据 哲 学 的 一 般 原 理, 在 一 个 系 统 之 内, 每 一 个 部 分 都 不 是 孤 立 存 在 的. 图 1 中 表 示 了 结 构 图, 包 含 5 个 要 素 和 5 个 属 性.5 个 要 素 和 5 个 属 性 相 互 之 间 的 相 互 影 响 关 系 要 比 图 1 中 表 示 的 复 杂 得 多, 图 1 表 示 的 仅 仅 是 基 本 的 隶 属 关 系. 1.2 应 用 多 维 随 机 变 量 对 公 众 事 件 进 行 建 模 设 一 个 互 联 网 公 众 事 件 由 个 随 机 变 量 构 成, 则 事 件 可 以 表 示 为 ( ), 事 件 本 身 为 一 个 随 机 信 息 系 统, 用 表 示, 则 等 价 于 ( ). 这 里 我 们 取, 其 中 表 示 公 众 事 件 的 主 体 名 称, 表 示 主 体 的 社 会 或 自 然 角 色, 表 示 社 会 或 自 然 关 系, 表 示 主 体 所 属 的 机 构 或 体 系 的 名 称, 表 示 时 间 信 息, 表 示 主 体 的 社 会 ( 自 然 ) 行 为, 表 示 事 件 的 地 址 信 息, 为 事 件 的 数 量 信 息, 为 舆 情 事 件 的 类 别, 为 未 抽 取 信 息. 众 事 件 熵 的 计 算 方 法 2.1 香 农 信 息 熵 信 息 的 可 度 量 可 计 算 是 人 类 对 信 息 技 术 掌 握 的 里 程 碑. 香 农 在 信 息 论 的 研 究 中 贡 献 最 为 显 著, 下 面 我 们 阐

靳 锐 等 : 中 文 公 众 事 件 信 息 熵 计 算 方 法 述 一 下 相 关 理 论. 香 农 理 论 的 重 要 特 征 是 熵 (entropy) 的 概 念, 他 证 明 熵 与 信 息 内 容 的 不 确 定 程 度 有 等 价 关 系 [17]. 定 义 : 一 个 随 机 变 量 的 熵 定 义 为 : H X = p x p x (1) ( ) ( ) log ( ) 一 个 随 机 变 量 X 的 熵 是 概 率 分 布 的 函 数, 它 衡 量 了 包 含 在 X 中 的 平 均 信 息 量. 下 面, 我 们 依 据 此 公 式 计 算 公 众 事 件 的 信 息 熵. 2.2 基 于 最 大 熵 理 论 的 计 算 方 法 1) 理 论 描 述 最 大 熵 原 理 最 初 是 由 E.T.Jayness 在 1950 年 提 出 [9]. 结 论 : 对 一 随 机 过 程, 如 果 没 有 任 何 观 测 量, 即 没 有 任 何 约 束, 则 解 为 均 匀 分 布. 2) 最 大 熵 建 模 最 大 熵 统 计 建 模 是 以 最 大 熵 理 论 为 基 础 的 一 种 选 择 模 型 的 方 法, 即 从 符 合 条 件 的 分 布 中 选 择 熵 最 大 的 分 布 作 为 最 优 的 分 布. x ( ) p = argmaxh p 3) 熵 函 数 取 最 大 值 时 的 概 率 分 布 以 (0-1) 分 布 的 熵 函 数 为 例 : 在 概 率 时, 取 得 均 值 的 位 置 出 现 最 大 熵 值, 其 他 类 型 概 率 分 布 函 数 的 熵 函 数 情 况 相 似, 也 存 在 最 大 值, 在 概 率 分 布 取 得 均 值 的 点 获 得 最 大 熵. Fig.2 the entropy function of (0-1) probability distribution 图 2 (0-1) 分 布 的 熵 函 数 2.3 最 大 熵 原 理 的 数 学 表 示 2.3.1 最 大 熵 的 数 学 表 示 1) 在 给 定 的 约 束 条 件 下, 由 最 大 熵 原 理 求 解 最 佳 概 率 分 布, 就 是 应 用 拉 格 朗 日 乘 子 法 求 解 条 件 极 值 问 题 [18]. 2) 求 解 过 程 求 n 元 函 数 的 在 个 约 束 条 件 下 的 条 件 极 值, 常 数 依 此 乘 然 后 累 加 起 来 得 函 数. ( x, x xn ) ( x x x ) ϕ1 1 2,, = 0 ϕ2 1, 2,, n = 0 ϕ m( x1, x2,, xn) = 0

( ) F x1, x2,, xn = f + λϕ 1 1+ λϕ 2 2 + + λmϕ 然 后 列 出 无 约 束 条 件 时 具 有 极 值 的 必 要 条 件, m F f ϕ1 ϕ2 ϕm = + λ1 + λ2 + + λm = 0 x1 x1 x1 x1 x 1 F f ϕ1 ϕ2 ϕm = + λ1 + λ2 + + λm = 0 x2 x2 x2 x2 x2 F f ϕ1 ϕ2 ϕm λ1 λ2 λm 0 x n x n x n x n x n 把 这 n 个 方 程 和 m 个 约 束 条 件 方 程 进 行 联 立, 即 可 求 出 n+m 个 的 值, 其 中 就 是 可 能 的 极 值 点, 称 为 驻 点. 因 为 熵 函 数 是 分 布 函 数 的 泛 函, 于 是 用 拉 格 朗 日 乘 子 法 求 出 的 解 就 不 再 是, 而 是. 2.3.2 离 散 型 随 机 变 量 的 最 大 熵 分 布 形 式 设 离 散 型 随 机 变 量 X 取 得 有 限 个 值, 相 应 的 概 率 记 为,,, 则 最 大 的 充 要 条 件. 证 明 : 由 于 =1, 根 据 拉 格 朗 日 乘 子 法 求 解 此 约 束 条 件 下 熵 最 大 概 率 分 布, 设 n n F( p1, p2,, pn) = piln pi + λ pi 1 i= 1 i= 1 对 求 偏 导 数, 根 据 求 取 最 值 的 必 要 条 件, 得 到 方 程 组 : F / p = ln p 1+ λ = 0, i = 1,2,, n i 求 解 : p exp( λ 1) i i =, 为 常 数. 根 据 约 束 条 件 =1, 则, 即. 此 时, 熵 函 数 : n ( ) = ( 1/ ) ln( 1/ ) = ln( ) (2) H x n n n i= 1 对 于 取 值 为 有 限 值 的 离 散 型 随 机 变 量 来 说, 当 每 一 个 取 值 的 概 率 相 等 时, 其 信 息 熵 最 大, 此 时 的 分 布 为 最 大 熵 分 布. 重 要 结 论 : 得 到 了 一 个 关 于 n 的 严 格 单 调 函 数, 本 文 利 用 这 个 结 论 进 行 公 众 事 件 信 息 熵 的 社 会 计 算, 可 以 保 证 计 算 结 果 具 有 严 格 单 调 性.

3 应 靳 锐 等 : 中 文 公 众 事 件 信 息 熵 计 算 方 法 Fig.3 The monotony of the entropy function 图 3 熵 函 数 的 单 调 性 用 最 大 熵 理 论 计 算 公 众 事 件 的 信 息 熵 3.1 公 众 事 件 建 模 用 随 机 变 量 表 示 公 众 事 件 表 示, 等 价 于, 其 中 事 件 主 体, 社 会 ( 自 然 ) 角 色, 关 系, 所 属 机 构 或 体 系, 事 件 发 生 时 间, 行 为, 发 生 地 点, 数 量, 事 件 类 别, 未 抽 取 信 息. 3.2 多 维 随 机 变 量 的 向 量 空 间 设 一 个 公 众 事 件 可 以 由 多 维 随 机 变 量 表 示, 我 们 分 别 确 定 各 个 分 变 量 的 取 值 范 围, 并 组 合 构 成 一 个 多 维 向 量 空 间 [16]. 定 义 : 当 多 维 随 机 变 量 的 取 值 都 是 基 本 取 值 集 合 内 元 素 时, 此 事 件 为 元 事 件, 以 表 示. 所 有 的 分 向 量 的 取 值 元 素 集 合 组 合 在 一 起 构 成 了 公 众 事 件 的 多 维 向 量 空 间. 这 里 的 集 合 元 素 指 的 是 文 本 事 件 抽 取 项 的 关 键 词 或 短 语. 举 例 说 明, 以 80 后 清 华 硕 士 任 副 局 长 后 受 贿 1600 万, 被 判 无 期 事 件 为 例, 对 文 本 形 式 的 事 件 进 行 信 息 抽 取, 得 到 以 下 形 式. 80 后 清 华 硕 士 任 副 局 长 后 受 贿 1600 万, 被 判 无 期 事 件 :: - 事 件 主 体 :80 后 ; 清 华 ; 清 华 硕 士 ; 副 局 长 ;1600 万 ; 无 期 ; 科 员 ; 副 局 长 ; 杰 出 青 年 ; 光 环 ; 肖 明 辉 ;5 亿 元 ; 工 程 招 标 ; 大 权 ;1611 万 元 ; 好 处 费 ; 经 济 利 益 ; 肖 明 辉 ; 海 南 省 ; 海 南 省 二 中 院 ; 无 期 徒 刑 ; 政 治 权 利 ; ; 赵 某 ; 该 工 程 ; 人 民 币 ;6 万 元 ; - 社 会 角 色 :80 后 -< 专 有 名 词, 敏 感 词 汇 >; 清 华 ( 大 学 )-< 专 有 名 词, 敏 感 词 汇, 国 家 著 名 大 学 一 类, 国 家 教 育 机 构, 国 家 事 业 单 位 >; 清 华 硕 士 -< 专 有 名 词, 敏 感 词 汇, 国 家 名 牌 大 学 一 类 毕 业 生 >; 副 局 长 -< 专 有 名 词, 敏 感 词 汇, 国 家 公 务 员, 国 家 处 级 公 务 员 >; ; 肖 明 辉 -< 国 家 公 务 员, 国 家 官 员, 国 家 处 级 公 务 员, 工 程 管 理 类 国 家 公 务 员, 名 牌 大 学 一 类 毕 业 生, 硕 士 学 历 人 员 >; ; 赵 某 -< 个 体 营 业 者, 专 有 名 词 >; 该 工 程 -< 专 有 名 词, 敏 感 词 汇, 工 程 类 名 词 >; 人 民 币 -< 专 有 名 词, 敏 感 词 汇, 财 经 类 名 词 >;6 万 元 -< 专 有 名 词, 敏 感 词 汇, 钱 款 类 名 词 >; - 社 会 关 系 : < 清 华 硕 士, 清 华 大 学 > : 校 友 关 系 ;< 海 南 省 第 九 届 十 大 杰 出 青 年, 清 华 大 学 > : 校 友 关 系 ;< 副 局 长, 清 华 大 学 >: 校 友 关 系 ; < 政 府 官 员, 清 华 大 学 >: 校 友 关 系 ;< 国 家 公 务 员, 清 华 大 学 >: 校 友 关 系 ; ;< 国 家 公 务 员, 副 局 长 >: 上 下 级 关 系, ;< 司 机, 副 局 长 >: 紧 密 上 下 级 级 关 系 ; - 所 属 机 构 :< 肖 明 辉, 海 南 省 洋 浦 经 济 开 发 区 规 划 建 设 土 地 局 >;< 张 成 梁, 海 南 省 洋 浦 经 济 开 发 区 规 划 建 设 土 地 局 >; ;< 张 成 梁, 行 政 机 构 >; - 事 件 发 生 时 间 :2012 年 10 月 15 日 ;2007 年 ;2007 年 底 ;2008 年 3 月 ;2009 年 ;2009 年 ;2011 年 ; - 行 为 : 受 贿 ; 收 1611 万 元 好 处 费 ; 为 他 人 谋 取 不 正 当 经 济 利 益 ; 注 册 空 头 公 司 ; 牵 线 搭 桥 ; 签 订 10 份 虚 假 合 同 ; 签 订 虚 假 劳 务 合 同 ; 被 判 无 期 徒 刑 ; 剥 夺 政

治 权 利 终 生 ; 提 供 虚 假 发 票 ; 支 付 好 处 费 ; 帮 助 赵 某 中 标 工 程 ; 收 取 6 万 好 处 费 ; 事 件 发 生 地 点 : 海 南 省 ; 海 南 省 洋 浦 经 济 开 发 区 ; 屯 昌 ; 海 口 ; - 数 量 : 涉 案 人 员 :2 人 ; 受 贿 :1611 万 元 6 万 元 ; 年 龄 :32 岁 ; - 事 件 类 别 : 经 济 犯 罪 官 员 违 纪 官 员 受 贿 ; Table 1 The distribution of multiple random variables 表 1: 多 维 随 机 变 量 的 分 布 80 后 80 后 -< 专 有 名 词, 敏 感 词 汇 > 清 华 清 华 ( 大 学 ) -< 专 有 名 词, 敏 感 词 汇, 国 家 著 名 大 学 一 类, 国 家 教 育 机 构, 国 家 事 业 单 位 > 清 华 硕 士 清 华 硕 士 -< 专 有 名 词, 敏 感 词 汇, 国 家 名 牌 大 学 一 类 毕 业 生 > < 清 华 硕 士, 清 华 大 学 > : 校 友 关 系 < 海 南 省 第 九 届 十 大 杰 出 青 年, 清 华 大 学 > : 校 友 关 系 < 副 局 长, 清 华 大 学 >: 校 友 关 系 < 肖 明 辉, 海 南 省 洋 浦 经 济 开 发 区 规 划 建 设 土 地 局 > < 张 成 梁, 海 南 省 洋 浦 经 济 开 发 区 规 划 建 设 土 地 局 > 10 月 15 日 ( 国 庆 期 间, 敏 感 时 段 ) 受 贿 2007 年 收 1611 万 元 好 处 费 2007 年 底 为 他 人 谋 取 不 正 当 经 济 利 益 海 南 省 -< 国 家 省 级 行 政 域, 区 域 > 海 南 省 洋 浦 经 济 开 发 区 -< 国 家 经 济 开 发 区, > 屯 昌 -< 国 家 县 级 行 政 区 域 > 2008 年 3 月 海 口 -< 国 家 市 级 行 政 区 域, > 赵 某 赵 某 -< 个 体 营 业 者, 专 有 名 词 > 该 工 程 该 工 程 -< 专 有 名 词, 敏 感 词 汇, 工 程 类 名 词 > 人 民 币 人 民 币 -< 专 有 名 词, 敏 感 词 汇, 财 经 类 名 词 > 6 万 元 6 万 元 -< 专 有 名 词, 敏 感 词 汇, 钱 款 类 名 词 > < 国 家 公 务 员, 副 局 长 >: 上 下 级 关 系 2009 年 提 供 虚 假 发 票 2009 年 支 付 好 处 费 2011 年 帮 助 赵 某 中 标 工 程 < 司 机, 副 局 长 >: 紧 密 上 下 级 级 关 系 < 张 成 梁, 行 政 机 构 > 收 取 6 万 好 处 费 涉 案 人 员 :2 人 受 贿 :1611 万 元 受 贿 :6 万 元 年 龄 :32 岁 经 济 犯 罪 官 员 违 纪 官 员 受 贿 由 最 大 熵 理 论 可 知, 当 随 机 变 量 的 取 值 项 数 量 越 多 的 时 候, 即 内 容 越 杂 乱, 最 大 熵 值 就 越 大, 这 可 以 解 释 为 什 么 一 些 包 含 复 杂 内 容 ( 如 社 会 角 色 和 关 系 等 ) 的 公 众 事 件 容 易 引 起 关 注, 因 为 事 件 本 身 信 息 量 较 大, 或 者 直 观 解 释 为 事 件 内 容 更 加 丰 富, 对 表 1 中 的 信 息 系 统 进 行 向 量 抽 取, 显 然 其 信 息 冗 余 较 大, 也 就 是 信 息 量 较 大. 由 于 之 间 的 函 数 关 系 无 法 确 定, 所 以 此 问 题 适 合 使 用 最 大 熵 模 型 解 决, 以 最 大 熵 表 征 公 众 事 件 的 熵 值, 与 实 际 的 情 况 最 为 接 近. 3.3 公 众 事 件 信 息 熵 的 计 算 公 式 在 公 众 事 件 信 息 量 的 计 算 中 属 于 约 束 条 件 =1 的 最 大 熵 问 题, 其 熵 函 数 的 形 式 与 一 维 随 机 变 量 的 形 式 类 似, 信 息 熵 值 可 以 为 任 意 正 数. 取 最 大 熵 时, 其 联 合 概 率 分 布 为 均 匀 分 布, 则 计 算 公 式 可 以 表 示 为 : ( 1, 2,, n) = ( 1, 2,, n) l ( 1, 2,, n ) H X X X p x x x ogp x x x x

靳 锐 等 : 中 文 公 众 事 件 信 息 熵 计 算 方 法 ( x ) = l ogp x, x,, n 用 表 示 随 机 变 量 的 取 值 次 数 总 数, 当 有 一 次 基 本 集 合 的 取 值 时,. Table 2 The value of dimensions 表 2 分 变 量 的 取 值 1 2 取 值 项 数 由 约 束. 则 熵 函 数 表 示 为 : 1 H ( X, X,, X ) = l ogp( x, x,, x ) = log = log ( q q q ) (3) 1 2 9 1 2 9 1 2 9 qq 1 2 q9 此 公 式 为 公 众 事 件 多 维 随 机 变 量 的 信 息 熵 计 算 公 式, 其 形 式 具 有 严 格 的 单 调 关 系. 下 面 证 明 其 单 调 性, 并 分 析 如 何 计 算 出 事 件 信 息 熵 值. 3.4 多 维 随 机 变 量 信 息 熵 的 单 调 性 证 明 由 (3) 式, 熵 函 数 : H ( X, X,, X ) logp( x, x,, x ) log ( q q q ) = =, 证 明 其 具 有 单 调 性. 1 2 9 1 2 9 1 2 9 证 明 : 当 取 得 一 组 熵 函 数 取 值 为, 而 另 一 组 取 得 的 熵 函 数 取 值 为. 当 时, 此 时 取 得 正 整 数 值, 可 知, 进 而 得 知. 所 以 熵 函 数 具 有 严 格 的 单 调 性,. 可 知 这 个 多 维 随 机 变 量 的 熵 函 数 具 有 严 格 单 调 性, 证 毕. 3.5 中 文 语 言 特 性 对 公 众 事 件 信 息 熵 的 影 响 中 文 公 众 事 件 的 信 息 熵 值, 必 然 受 到 中 文 语 言 特 性 的 影 响, 中 文 语 言 是 一 种 意 合 语 言, 中 文 的 特 点 是 概 括 性 强, 语 言 表 述 往 往 包 含 很 多 汉 语 成 语 典 故 常 用 语 等, 这 样 的 语 言 往 往 简 短, 但 却 包 含 了 比 词 本 身 丰 富 得 多 的 含 义. 这 体 现 在 信 息 熵 值 计 算 方 面, 必 然 造 成 信 息 熵 值 的 增 大, 这 种 中 文 语 言 特 性 对 事 件 信 息 熵 影 响 较 大. 例 如 : 这 样 一 则 公 众 信 息 表 述 : 谎 称 收 工 程 保 证 金, 七 旬 老 汉 指 鹿 为 马 诈 骗 百 万 (2015-04-17 09:18:58 来 源 : 胶 东 在 线 ) 胶 东 在 线 网 4 月 17 日 讯 ( 记 者 侯 嘉 伟 通 讯 员 徐 忠 孙 世 建 )2014 年 以 来, 蓬 莱 市 公 安 局 经 侦 大 队 共 破 获 以 收 取 工 程 保 证 金 为 名 实 施 的 合 同 诈 骗 案 件 4 起, 抓 获 犯 罪 嫌 疑 人 20 余 名, 涉 案 金 额 达 5000 余 万 元. 经 查,1945 年 出 生 的 柯 某 利 利 用 相 同 手 段 共 诈 骗 150 余 万 元.2014 年 11 月 6 日 因 涉 嫌 合 同 诈 骗 被 刑 事 拘 留, 同 年 12 月 12 日 被 批 准 逮 捕, 现 该 案 已 移 送 检 察 部 门 审 查 起 诉. 事 件 中 使 用 了 指 鹿 为 马 这 样 的 成 语, 在 中 文 社 区, 这 样 的 表 述 会 激 发 读 者 头 脑 中 的 语 义 框 架, 读 者 获 得 了 成 语 中 丰 富 的 信 息, 指 鹿 为 马 成 语 中 包 含 的 信 息 就 嵌 入 到 了 事 件 当 中, 这 在 中 文 公 众 事 件 表 达 当 中 属 于 常 见 现 象. 指 鹿 为 马 这 样 的 成 语, 包 含 的 信 息 内 容 是 比 较 固 定 的, 构 成 一 个 封 闭 的 独 立 语 境 事 件. 同 样, 我 们 可 以 计 算 其 熵 值, 在 计 算 过 程 中, 可 以 把 这 个 熵 值 当 做 常 数, 累 加 到 事 件 信 息 熵 值 中. 指 鹿 为 马 的 文 本 信 息 摘 要 描 述 如 下 ; 指 鹿 为 马 : 出 自 史 记 秦 始 皇 本 纪, 秦 始 皇 死 后, 赵 高 试 图 要 谋 朝 篡 位, 为 了 试 验 朝 廷 中 有 哪 些 大 臣 顺 从 他 的 意 愿, 特 地 呈 上 一 只 鹿 给 秦 二 世 胡 亥, 并 说 这 是 马. 秦 二 世 不 信, 赵 高 便 借 故 问 各 位 大 臣. 不 敢 逆 赵 高 意 的 大 臣 都 说 是 马, 而 敢 于 反 对 赵 高 的 人 则 说 是 鹿. 后 来 说 是 鹿 的 大 臣 都 被

4 公 赵 高 用 各 种 手 段 害 死 了. 指 鹿 为 马 的 故 事 流 传 至 今, 人 们 便 用 指 鹿 为 马 形 容 一 个 人 是 非 不 分, 颠 倒 黑 白. 经 过 信 息 抽 取 计 算 后, 得 到 指 鹿 为 马 典 故 成 语 的 熵 值 为, 事 件 信 息 熵 值 为, 则 最 终 的 事 件 信 息 熵 为. 这 可 以 解 释, 为 什 么 使 用 成 语 典 故 较 多 的 事 件 描 述, 更 容 易 引 起 读 者 的 兴 趣, 其 中 一 个 原 因 是 其 造 成 了 事 件 信 息 熵 的 增 加. 众 事 件 熵 的 计 算 过 程 在 计 算 公 众 事 件 信 息 熵 的 时 候, 基 于 社 会 学 理 论 以 及 一 些 领 域 知 识, 我 们 可 以 把 它 以 关 键 词 或 同 义 词 短 语 的 形 式 集 成 到 我 们 的 知 识 库 中, 这 里 需 要 专 家 的 人 工 知 识 分 析. 一 旦 知 识 库 建 立 后, 会 为 我 们 提 供 很 大 的 便 利. 由 4.4 中 的 单 调 性 证 明, 我 们 这 里 构 建 的 关 键 词 知 识 库, 只 需 要 按 社 会 学 知 识 划 分 不 同 的 子 集 合, 并 进 行 关 键 词 的 匹 配 或 短 语 的 同 义 词 替 换 然 后 进 行 关 键 词 匹 配 计 算 即 可, 由 此 而 产 生 的 计 算 属 于 社 会 计 算. 以 2012 年 度 全 年 的 互 联 网 中 文 公 众 事 件 为 实 验 数 据 集 进 行 计 算, 语 料 库 中 统 计 了 中 国 全 年 1200 个 中 文 事 件 案 例 ( 每 个 季 度 300 件 公 众 事 件 ), 这 是 全 年 爆 发 的 互 联 网 中 文 公 众 事 件 中 引 起 社 会 重 视 较 高 的 事 件, 文 中 选 取 部 分 事 件 的 计 算 结 果 进 行 分 析. 4.1 构 建 知 识 库 设 为 公 众 事 件 的 某 个 分 随 机 变 量 ( 如 ), 离 散 型 随 机 变 量, 假 设 的 取 值 集 合 为, 包 含 若 干 个 子 集, 同 时 满 足 =. 由 于 各 个 国 家 的 历 史 文 化 习 俗 宗 教 固 有 观 念 等 社 会 状 况 有 很 大 的 区 别, 所 以 特 定 的 国 家 或 地 区 要 有 特 定 的 分 析, 相 应 的 随 机 变 量 的 概 率 分 布 情 况 也 会 有 很 大 的 区 别, 比 如 驻 阿 富 汗 美 军 烧 古 兰 经 事 件, 如 果 发 生 在 其 他 非 信 仰 伊 斯 兰 教 的 地 区, 事 件 不 会 这 么 敏 感, 不 会 引 起 这 么 大 规 模 和 广 泛 的 争 端. 本 文 在 使 用 通 用 计 算 方 法 的 基 础 上, 以 中 国 国 内 社 会 状 况 文 化 特 点 为 背 景 进 行 互 联 网 社 会 计 算 研 究, 如 果 要 计 算 其 他 国 家 的 互 联 网 公 众 事 件 信 息 熵, 要 根 据 实 际 情 况 进 行 相 应 的 知 识 库 调 整. 下 面 我 们 以 中 文 公 众 事 件 的 计 算 为 例, 分 别 分 析 9 个 随 机 变 量 的 取 值 集 合 情 况, 给 出 一 个 互 联 网 公 众 事 件 信 息 熵 的 具 体 计 算 方 法. 集 合 中 的 元 素 都 是 有 代 表 性 的 关 键 词, 这 些 关 键 词 或 同 义 短 语 构 成 了 知 识 库, 考 察 9 个 随 机 变 量 的 取 值 集 合, 可 以 构 建 相 应 的 知 识 库. 这 里 给 出 简 略 描 述. 4.1.1 分 析 随 机 变 量 ( 公 众 事 件 中 的 主 体 名 ) 的 取 值 范 围 事 件 的 主 体 名, 往 往 是 人 物 的 名 称, 也 有 地 名 机 构 名 和 其 他 类 型 主 体 的 名 称. 把 集 合 按 子 集 合 划 分, 当 有 一 次 关 键 词 匹 配 的 时 候,, 若 无 则 取. 设 为 表 示 公 众 事 件 主 体 名 的 随 机 变 量, 是 离 散 型 随 机 变 量, 建 立 的 取 值 集 合, 其 中 包 含 若 干 个 子 集, 满 足 =. 根 据 常 识, 人 名 或 地 名 等 具 有 公 众 信 息 敏 感 度, 我 们 把 知 名 度 分 为 四 个 等 级, 分 别 对 应 的 四 个 取 值 子 集 合, 其 中 为 取 值 的 基 本 集 合. 公 众 信 息 敏 感 度 级 别 的 划 分 : 公 众 信 息 敏 感 度 度 第 一 等 级, 可 继 续 划 分 子 集,. 历 史 名 人, ; 当 代 政 治 人 物, ; 公 众 信 息 敏 感 度 第 四 等 级, 可 继 续 划 分 子 集,. 本 文 中, 划 分 等 级 是 为 了 方 便 说 明 问 题, 当 有 匹 配 时 取 值 相 同, 取 值 为 1. 社 会 计 算 中 使 用 带 有 加 权 值 的 运

靳 锐 等 : 中 文 公 众 事 件 信 息 熵 计 算 方 法 算 方 法 留 待 后 续 研 究 中 系 统 介 绍. 即 当, 若, 则 取 得, 否 则, 以 下 各 项 情 况 类 似. 形 式 化 命 题 逻 辑 判 断, 描 述 如 下 : 可 以 看 到, 进 行 匹 配 计 算 的 过 程 就 是 进 行 一 阶 谓 词 逻 辑 判 断 的 过 程. 命 题 A: 有 一 个 取 值, 即 当, 逻 辑 为 真. 命 题 B: 当 或, 或 其 中 一 个 成 立 时, 逻 辑 为 真. 则 当 A B 的 合 取 式 为 真 时, 表 示 有 一 次 取 值, 为 1. 当 A B 的 合 取 式 为 假 时, 表 示 有 一 次 取 值, 为 0. 这 种 情 况 下, 对 计 算 值 无 贡 献. 4.1.2 分 析 随 机 变 量 ( 社 会 ( 自 然 ) 角 色 ) 的 取 值 范 围 设 为 表 示 公 众 事 件 主 体 的 社 会 角 色 的 随 机 变 量, 是 离 散 型 随 机 变 量, 我 们 建 立 的 取 值 集 合, 并 包 含 若 干 个 子 集, 满 足 =. 由 于 互 联 网 空 间 的 出 现, 相 应 的 出 现 了 许 多 新 的 社 会 角 色, 如 互 联 网 的 公 知 人 群 意 见 领 袖 人 群 还 有 部 分 网 络 文 化 名 人 等, 并 担 当 起 了 相 应 的 社 会 责 任, 发 挥 着 某 种 社 会 功 能. 从 社 会 学 的 角 度 来 分 析, 互 联 网 不 但 改 变 了 人 们 获 取 知 识 的 方 式, 同 时 新 的 社 会 角 色 也 在 一 定 程 度 上 改 变 了 人 们 之 间 的 关 系, 产 生 了 新 的 信 息 传 播 与 信 任 方 式, 比 如 公 知 意 见 领 袖 微 博 大 V 等. 作 为 主 体 的 属 性, 社 会 ( 自 然 ) 角 色 是 构 成 事 件 信 息 内 容 的 重 要 因 素. 因 为 在 互 联 网 公 众 事 件 中, 主 体 的 角 色 对 事 件 信 息 引 起 关 注 的 程 度 影 响 极 大, 一 个 事 件 的 主 体 可 以 有 多 个 社 会 角 色. 这 里 取 主 体 的 职 位 名 称 地 名 的 行 政 区 域 身 份 或 属 性 名 称 商 业 实 体 名 称 商 业 人 士 的 职 位 名 称 或 是 特 殊 人 群 的 社 会 名 称 等 关 键 词, 作 为 社 会 ( 自 然 ) 角 色 的 描 述. 子 集 自 然 灾 害 类 型 名 称, 星 际 名 称 集 合, 地 理 名 的 社 会 ( 自 然 ) 角 色, 国 家 自 然 类 别 集 合, 特 殊 国 家 类 别,, 学 生 类 别 集 合, 未 成 年 人, 敏 感 角 色 ( 如 奶 粉 业 明 胶 业 三 鹿 乳 业 等 ), 普 通 民 众 集 合, 其 他 角 色. 允 许, 1. 我 们 逐 项 分 析,,. 为 自 然 灾 害 严 重 程 度 集 合, 可 继 续 划 分 子 集,. 满 足,, =. 我 们 按 自 然 灾 害 的 级 别 进 行 划 分 子 集 : 较 轻 型 灾 害 集 合, ; 其 他 类 型 灾 害 集 合, ; 为 普 通 民 众 集 合, 其 权 值 为 1, 为 其 他 角 色 集 合, 体 现 完 备 性, 权 值 也 为 1. 与 5.1.1 中 类 似, 进 行 一 阶 谓 词 逻 辑 判 断. 命 题 C: 有 一 个 取 值, 即 当, 逻 辑 为 真. 命 题 D: 当 或, 或 其 中 一 个 成 立 时, 逻 辑 为 真. 则 当 C D 的 合 取 式 为 真 时, 表 示 有 一 次 取 值, 为 1. 当 C D 的 合 取 式 为 假 时, 表 示 有 一 次 取 值, 为 0. 这 种 情 况 下, 对 计 算 值 无 贡 献. 4.1.3 设 表 示 公 众 事 件 的 社 会 关 系, 是 离 散 型 随 机 变 量, 我 们 建 立 的 取 值 集 合, 并 包 含 若 干 个 子 集

, 满 足 =. 由 于 这 里 考 察 的 随 机 变 量 为 事 件 主 体 的 某 种 关 系, 会 对 公 众 事 件 本 身 的 信 息 量 有 很 大 的 贡 献. 我 们 把 关 系 一 项 分 为 强 关 系 中 等 关 系 弱 关 系 其 他 关 系. 强 关 系, ; 其 他 关 系, 如 下 表 所 示. 使 用 二 元 组 来 作 形 式 化 的 表 示 如 下 形 式 : 设 以 表 示 实 体 1, 以 表 示 实 体 2, 则 它 们 之 间 的 关 系 可 以 表 示 为, 且, 若, 则 值 取 得 1, 即, 否 则. 进 行 一 阶 谓 词 逻 辑 判 断 : 命 题 E: 有 一 个 取 值, 即 当, 逻 辑 为 真. 命 题 F: 当 或, 或 其 中 一 个 成 立 时, 逻 辑 为 真. 则 当 E F 的 合 取 式 为 真 时, 表 示 有 一 次 取 值, 为 1. 当 E F 的 合 取 式 为 假 时, 表 示 有 一 次 取 值, 为 0. 这 种 情 况 下, 对 计 算 值 无 贡 献. 4.1.4 分 析 随 机 变 量 ( 主 体 所 属 机 构 名 称 或 所 属 体 系 的 名 称 ) 的 取 值 范 围. 设 为 公 众 事 件 的 机 构 名 称, 是 离 散 型 随 机 变 量, 我 们 建 立 的 取 值 集 合, 并 包 含 若 干 个 子 集 按 机 构 的 重 要 程 度 分 为 5 级, 细 节 略. 进 行 一 阶 谓 词 逻 辑 判 断 :, 满 足 =. 命 题 G: 有 一 个 取 值, 即 当, 逻 辑 为 真. 命 题 H: 当 或, 或 其 中 一 个 成 立 时, 逻 辑 为 真. 则 当 G H 的 合 取 式 为 真 时, 表 示 有 一 次 取 值, 为 1. 当 G H 的 合 取 式 为 假 时, 表 示 有 一 次 取 值, 为 0. 这 种 情 况 下, 对 计 算 值 无 贡 献. 4.1.5 分 析 随 机 变 量 ( 时 间 信 息 ) 的 取 值 范 围 设 为 公 众 事 件 的 时 间 信 息, 是 离 散 型 随 机 变 量, 随 机 变 量 取 值 的 所 属 时 段 作 为 集 合 的 元 素, 并 包 含 若 干 个 子 集,, 满 足 =. 按 时 段 的 重 要 程 度 由 高 到 低, 分 为 6 级 : 第 一 级 为 灾 害 时 期, 如 洪 水 疾 病 暴 发 等 时 期, 其 子 集 为,,. 第 五 级 季 节 性 时 段, 如 春 运 期 休 渔 期 春 播 期 洪 讯 期 冰 霜 期 禁 海 期 等, 第 六 级 为 其 他 时 段. 进 行 一 阶 谓 词 逻 辑 判 断 : 命 题 I: 有 一 个 取 值, 即 当, 逻 辑 为 真. 命 题 J: 当 或, 或 其 中 一 个 成 立 时, 逻 辑 为 真. 则 当 I J 的 合 取 式 为 真 时, 表 示 有 一 次 取 值, 为 1. 当 I J 的 合 取 式 为 假 时, 表 示 有 一 次 取 值, 为 0. 这 种 情 况 下, 对 计 算 值 无 贡 献. 4.1.6 分 析 随 机 变 量 ( 社 会 ( 自 然 ) 行 为 ) 的 取 值 范 围 设 为 舆 情 事 件 的 社 会 行 为, 是 离 散 型 随 机 变 量, 我 们 建 立 的 取 值 集 合, 并 包 含 若 干 个 子 集, 满 足 =. [15] 我 们 依 据 社 会 学 构 建 理 论 对 事 件 的 行 为 进 行 划 分 :

靳 锐 等 : 中 文 公 众 事 件 信 息 熵 计 算 方 法 为 自 然 灾 害 类 社 会 行 为 ; 为 邪 教 类 行 为 反 人 类 行 为 恶 性 刑 事 犯 罪 行 为 ; 宗 教 类 行 为 群 体 性 行 为 ; 造 谣 中 伤 类 行 为 恶 意 商 业 攻 击 类 事 件 恶 意 人 身 攻 击 类 事 件 或 普 通 犯 罪 行 为 等 ; 普 通 个 人 意 见 表 达 商 业 网 络 信 息 发 布 或 讨 论 行 为 普 通 民 事 纠 纷 等, 其 他 行 为 类 型. 进 行 一 阶 谓 词 逻 辑 判 断 : 命 题 K: 有 一 个 取 值, 即 当, 逻 辑 为 真. 命 题 L: 当 或, 或 其 中 一 个 成 立 时, 逻 辑 为 真. 则 当 K L 的 合 取 式 为 真 时, 表 示 有 一 次 取 值, 为 1. 当 K L 的 合 取 式 为 假 时, 表 示 有 一 次 取 值, 为 0. 这 种 情 况 下, 对 计 算 值 无 贡 献. 4.1.7 分 析 随 机 变 量 ( 事 件 发 生 的 地 址 信 息 ) 的 取 值 范 围 设 为 公 众 事 件 的 地 址 信 息, 是 离 散 型 随 机 变 量, 我 们 建 立 的 取 值 集 合, 并 包 含 若 干 个 子 集, 满 足 =. 为 星 系 地 址 名 称, 为 国 家 地 名, 为 国 家 首 都 地 名, 为 国 家 州 省 地 名, 为 省 会 城 市 地 名, 地 市 级 城 市 地 名 集 合, 县 级 地 名, 乡 镇 以 下 级 地 名, 具 有 政 治 意 义 的 地 名 集 合,, 著 名 风 景 区 集 合 著 名 国 家 保 护 区 集 合, 娱 乐 场 所, 其 他 地 名 集 合. 进 行 一 阶 谓 词 逻 辑 判 断 : 命 题 N: 有 一 个 取 值, 即 当, 逻 辑 为 真. 命 题 O: 当 或, 或 其 中 一 个 成 立 时, 逻 辑 为 真. 则 当 N O 的 合 取 式 为 真 时, 表 示 有 一 次 取 值, 为 1. 当 N O 的 合 取 式 为 假 时, 表 示 有 一 次 取 值, 为 0. 这 种 情 况 下, 对 计 算 值 无 贡 献. 4.1.8 分 析 随 机 变 量 ( 事 件 中 数 量 信 息 ) 的 取 值 范 围 设 为 公 众 事 件 社 会 行 为 的 涉 及 数 量, 是 离 散 型 随 机 变 量, 我 们 建 立 的 取 值 集 合, 并 包 含 若 干 个 子 集, 满 足 =. 按 事 件 中 数 量 的 重 要 程 度 分 5 个 级 别 : 第 一 级 的 数 量, 其 子 集 为,,. 第 五 级 的 数 量, 其 子 集 为,,. 进 行 一 阶 谓 词 逻 辑 判 断 : 命 题 P: 有 一 个 取 值, 即 当, 逻 辑 为 真.,, 命 题 Q: 当 或, 或 其 中 一 个 成 立 时, 逻 辑 为 真. 则 当 P Q 的 合 取 式 为 真 时, 表 示 有 一 次 取 值, 为 1. 当 P Q 的 合 取 式 为 假 时, 表 示 有 一 次 取 值, 为 0. 这 种 情 况 下, 对 计 算 值 无 贡 献. 4.1.9 分 析 随 机 变 量 ( 公 众 事 件 中 的 类 别 信 息 ) 的 取 值 范 围 设 为 公 众 事 件 的 类 别 名, 是 离 散 型 随 机 变 量, 我 们 建 立 的 取 值 集 合, 并 包 含 若 干 个 子 集, 满 足 =. [19] 我 们 依 据 社 会 学 构 建 理 论 对 事 件 的 类 别 领 域 进 行 划 分, 此 项 与 项 相 对 应. 为 自 然 灾 害 类 事 件 集 合 ; 为 邪 教 类 反 人 类 事 件 恶 性 刑 事 犯 罪 事 件 集 合 ; 宗 教 类 群 体 性 事 件 群 体 行 为 事 件 集 合 ; 造 谣 中 伤 类 事 件 集 合 恶 意 商 业 攻 击 人 身 攻 击 事 件 ; 普 通 个 人 信 息 发 布 商 业 网

5 实 络 信 息 发 布 或 讨 论 类 事 件, 其 他 事 件 类 别 集 合. 进 行 一 阶 谓 词 逻 辑 判 断 : 命 题 R: 有 一 个 取 值, 即 当, 逻 辑 为 真. 命 题 S: 当 或, 或 其 中 一 个 成 立 时, 逻 辑 为 真. 则 当 R S 的 合 取 式 为 真 时, 表 示 有 一 次 取 值, 为 1. 当 R S 的 合 取 式 为 假 时, 表 示 有 一 次 取 值, 为 0. 这 种 情 况 下, 对 计 算 值 无 贡 献. 4.1.10 为 公 众 事 件 信 息 抽 取 过 程 中 未 抽 取 的 信 息 此 随 机 变 量 是 为 了 体 现 公 众 事 件 信 息 量 定 义 的 完 备 性, 对 事 件 的 信 息 量 计 算 没 有 贡 献, 不 计 算 这 一 项. 9 个 随 机 变 量 知 识 库 的 集 合 划 分 不 是 唯 一 的 划 分 方 法, 这 里 所 做 的 计 算 属 于 社 会 计 算, 要 根 据 实 际 情 况 进 行 调 整. 4.2 计 算 信 息 熵 当 对 事 件 进 行 信 息 抽 取 并 进 行 知 识 库 进 行 匹 配 计 算 后, 可 以 得 到 算 信 息 熵 值, 则. 的 值. 根 据 4.3 节 中 公 式 (3) 计 验 5.1 计 算 信 息 熵 计 算 信 息 抽 取 形 式 的 80 后 清 华 硕 士 任 副 局 长 后 受 贿 1600 万, 被 判 无 期 事 件 的 信 息 熵 值, 如 4.2 中 的 形 式. 逐 项 匹 配 计 算 值, 如 下 表 所 示, 这 里 采 用 自 然 对 数 计 算. Table 3 The weight of 表 3 的 加 权 值 值 104 342 15 8 6 41 10 10 3 H=, 取 小 数 点 后 两 位 有 效 数 字. 5.2 同 类 案 例 事 件 的 熵 值 比 较 以 2012 年 第 四 季 度 公 众 事 件 为 例, 我 们 进 行 了 繁 琐 的 信 息 项 信 息 抽 取, 并 进 行 了 相 应 的 复 杂 计 算, 数 据 量 和 计 算 量 都 较 大, 这 里 选 取 官 员 违 纪 类 事 件 进 行 了 实 验 结 果 展 示, 表 4 中 熵 值 1 的 数 据 项 显 示 为 信 息 抽 取 后 的 计 算 值, 此 实 验 是 为 了 验 证 计 算 方 法 的 单 调 性, 比 较 不 同 的 事 件 包 含 的 信 息 量, 如 图 4 所 示. Table 4 The ranking of calculation 表 4 计 算 结 果 排 序 官 员 违 纪 类 事 件 排 名 熵 值 1 熵 值 2 熵 值 3 街 道 党 工 委 书 记 受 贿 被 审 :732 万 买 景 德 镇 瓷 器 1 36.15 34.58 33.17 山 西 4 妻 10 子 村 官 人 大 代 表 资 格 被 暂 停 已 取 保 候 审 2 35.46 34.31 33.18 杭 州 房 管 局 副 局 长 被 指 拥 20 多 套 房 价 值 数 亿 3 33.89 31.67 30.89 陕 西 表 哥 存 款 涉 20 多 家 银 行 4 33.34 31.24 29.90 广 州 越 秀 区 原 城 管 局 长 涉 嫌 受 贿 178 万 受 审 5 33.23 31.73 30.06 长 沙 副 处 级 官 员 贪 污 7000 余 万 被 小 三 情 妇 揭 发 6 31.64 30.13 28.79 新 疆 乌 苏 公 安 局 长 被 指 包 养 双 胞 胎 当 地 纪 委 调 查 7 30.91 29.86 29.04 太 原 市 公 安 局 局 长 被 停 职 网 传 其 子 涉 醉 驾 殴 打 交 警 8 30.07 28.63 27.94 湖 北 一 女 县 长 被 指 持 钞 票 炫 富 当 地 宣 传 部 门 否 认 9 28.10 27.06 25.95 广 西 桂 林 一 村 委 组 长 涉 嫌 贪 污 9 万 公 款 被 判 刑 8 年 10 26.68 25.31 24.37 广 州 一 城 管 队 长 受 贿 400 余 万 称 怕 得 罪 人 才 收 钱 11 26.63 25.02 23.88 中 纪 委 : 李 春 城 涉 嫌 严 重 违 纪 正 接 受 组 织 调 查 12 26.62 25.31 24.11 80 后 清 华 硕 士 任 副 局 长 后 受 贿 1600 万 被 判 无 期 13 26.48 24.98 24.00 山 西 价 值 2 亿 煤 矿 37 万 贱 卖 当 地 纪 委 介 入 调 查 14 25.61 24.61 23.50 国 家 能 源 局 回 应 局 长 被 举 报 : 纯 属 污 蔑 造 谣 正 报 案 15 25.47 23.88 22.84 湖 北 通 山 31 岁 女 县 长 8 年 6 次 破 格 提 拔 被 疑 潜 规 则 16 25.10 24.07 23.35 山 东 临 沂 一 副 县 级 干 部 贪 污 19 万 受 贿 217 万 余 元 被 判 刑 17 25.05 23.80 22.93

靳 锐 等 : 中 文 公 众 事 件 信 息 熵 计 算 方 法 长 沙 市 规 划 局 原 高 官 拥 16 套 房 女 儿 过 生 日 给 20 万 18 24.72 23.49 22.88 北 京 原 朝 阳 副 区 长 刘 希 泉 之 子 受 贿 诈 骗 拆 迁 款 477 万 获 刑 20 年 19 23.72 22.75 21.93 中 国 党 政 机 关 255 人 因 公 务 用 车 问 题 被 处 分 20 22.46 21.35 20.41 重 庆 南 川 人 民 医 院 骨 科 主 任 受 贿 逾 356 万 获 刑 11 年 21 21.36 20.60 19.86 涪 陵 艳 照 门 事 件 当 事 者 为 执 法 干 部 监 察 局 立 案 调 查 22 17.33 16.71 15.87 我 们 根 据 上 表 的 数 据 排 序 给 出 趋 势 图, 熵 值 1 列 项 为 纵 坐 标, 可 以 看 到, 得 到 了 一 个 趋 势 性 的 单 调 关 系, 趋 势 线 表 明 了 我 们 计 算 方 法 的 合 理 性, 与 理 论 分 析 4.4 中 单 调 性 证 明 的 结 论 相 符 合, 是 计 算 方 法 科 学 性 的 体 现. 我 们 看 到, 其 中 最 小 的 熵 值 事 件 为 涪 陵 艳 照 门 事 件 当 事 者 为 执 法 干 部 监 察 局 立 案 调 查, 值 为 17.33, 这 是 因 为 其 文 本 事 件 描 述 很 短, 处 于 事 件 的 爆 发 初 期, 内 容 所 包 含 的 信 息 较 少 的 缘 故 ; 熵 值 最 大 的 事 件 为 街 道 党 工 委 书 记 受 贿 被 审 :732 万 买 景 德 镇 瓷 器, 因 为 事 件 已 经 调 查 完 毕, 并 且 已 经 由 法 院 给 出 了 详 细 的 判 决, 其 文 本 内 容 包 含 详 细 的 内 容, 所 以 其 信 息 量 较 大, 这 与 我 们 的 直 觉 接 近. Fig.4 The verification of the calculation method rationality 图 4 计 算 方 法 的 合 理 性 验 证 5.3 信 息 抽 取 方 法 对 计 算 结 果 的 影 响 熵 的 计 算 值 必 然 受 到 信 息 抽 取 方 法 的 影 响, 为 了 获 得 更 为 合 理 的 计 算 值, 往 往 需 要 对 信 息 抽 取 项 进 行 以 下 两 步 处 理. 1) 重 复 项 过 滤 : 这 个 过 程 主 要 是 过 滤 掉 内 容 重 复 抽 取 的 信 息, 计 算 结 果 如 表 4 中 熵 值 2 列 项 所 示. 2) 共 指 消 解 : 过 滤 之 后, 进 一 步 进 行 共 指 消 解 处 理, 消 除 掉 具 有 共 指 关 系 的 冗 余 信 息 抽 取 项, 计 算 结 果 如 表 4 中 熵 值 3 列 项 所 示. 图 4 显 示 的 是 进 行 信 息 抽 取 后 的 计 算 结 果, 当 进 行 重 复 项 过 滤 与 共 指 消 解 后 实 验 结 果 对 比 如 图 5 所 示, 熵 值 比 较 接 近 的 事 件 排 序 有 些 许 的 变 化, 但 计 算 结 果 的 单 调 性 函 数 状 态 保 持 良 好.

6 结 Fig.5 The experiment of contrast 图 5 对 比 试 验 实 验 结 果 表 明, 经 过 滤 与 共 指 消 解 处 理 后, 对 不 同 类 型 事 件 的 计 算 结 果 影 响 类 似, 熵 值 一 定 幅 度 上 有 所 减 小. 束 语 本 文 应 用 香 农 信 息 论 和 最 大 熵 理 论, 给 出 了 一 个 合 理 而 且 可 行 的 计 算 方 法, 解 决 了 互 联 网 公 众 事 件 信 息 熵 的 定 量 化 计 算 问 题. 文 中 所 提 到 的 计 算 方 法 是 最 大 熵 理 论 在 社 会 计 算 中 的 一 个 直 接 应 用, 对 于 解 决 其 他 社 会 计 算 定 量 化 问 题, 应 该 有 一 定 的 借 鉴 意 义. 文 中 所 使 用 的 计 算 方 法, 仍 然 基 于 当 前 的 社 会 计 算 理 论 基 础, 为 了 获 得 更 加 合 理 的 计 算 结 果, 后 续 的 研 究 工 作 可 以 探 讨 带 有 加 权 值 的 社 会 计 算 方 法, 这 部 分 内 容 留 待 后 续 工 作 中 单 独 进 行 阐 述, 并 探 讨 社 会 计 算 的 公 理 化 体 系 问 题 [21], 也 希 望 其 他 的 研 究 人 员 关 注 该 问 题, 共 同 促 进 这 一 领 域 的 研 究 工 作 进 展. 致 谢 在 此, 我 们 向 对 本 文 的 工 作 给 予 支 持 和 建 议 的 学 者, 尤 其 是 北 京 邮 电 大 学 的 方 滨 兴 院 士, 您 提 出 的 建 议 使 我 在 寻 找 单 调 函 数 的 工 作 中 得 到 了 启 发, 最 终 得 以 完 成 了 本 文 的 工 作, 在 此 表 示 感 谢. References: [1] Arab Spring,https://en.wikipedia.org/wiki/Arab_Spring. [2] public opinion, http://en.wikipedia.org/wiki/public_opinion. [3] Valdimer Orlando Key Jr. Public Opinion and American Democarcy. New York,John Wiley,June 9, 2012. [4] Mueller, John E, War, presidents, and public opinion.wiley. New York. 1973. [5] Kevin Lerman, Ari Gilder and Mark Dredze, Fernando Pereira. Reading the Markets:Forecasting Public Opinion of Political Candidates by News Analysis. Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008), pages 473 480 Manchester, August 2008. [6] Cuneyt Gurcan Akcora, Murat Ali Bayir,Murat Demirbas. Hakan Ferhatosmanoglu. Identifying Breakpoints in Public Opinion. 1st Workshop on Social Media Analytics (SOMA 10), July 25, 2010,Washington, DC, USA. Copyright 2010 ACM978-1-4503-0217-3. [7] Li Juan,Zhou Xueguang,and Chen Bin. Research on Analysis and monitoring of Internet Public Opinion. Proceedings of the 2012 International Conference of Modern Computer Science and Applications Advances in Intelligent Systems and Computing Volume 191, 2013, pp 449-453. [8] Social computing. http://en.wikipedia.org/wiki/social_computing. [9] E.T.Jaynes Information and statistical mechanics.[j]physical Review.1957,32(1).3-7. [10] D. Lazer, A. Pentland, L. Adamic, et al. SOCIAL SCIENCE:Computational Social Science. Science,2009, vol. 323,no. 5915:721-723, 2009.

靳 锐 等 : 中 文 公 众 事 件 信 息 熵 计 算 方 法 [11] H. Chen, F.-Y. Wang and D. Zeng. Intelligence and Security Informatics for Homeland Security: Information,Communication, and Transportation. IEEE Transactions on Intelligent Transportation Systems, 2004, vol. 5, no.4:329-341. 附 中 文 参 考 文 献 : [12] 王 飞 跃. 从 社 会 计 算 到 社 会 制 造 : 一 场 即 将 来 临 的 产 业 革 命. DOI 10.3969/j.issn.1000-3045.2012.06.002. 中 国 科 学 院 战 略 与 决 策 研 究. 北 京,2012. [13] 王 飞 跃, 曾 大 军, 曹 志 冬. 网 络 虚 拟 社 会 中 非 常 规 安 全 问 题 与 社 会 计 算 方 法. doi 10.3981/j.issn.1000-7857.2011.12.001. 科 技 导 报. 北 京.2011. [14] 王 飞 跃. 社 会 计 算 与 数 字 网 络 化 社 会 的 动 态 分 析. [ 文 章 编 号 ] 1000-7857( 2005) 09-0004- 03. 科 技 导 报. 北 京.2005. [15] 王 飞 跃, 曾 大 军, 毛 文 吉. 社 会 计 算 的 意 义 发 展 与 研 究 状 况.e-Science 2010 年 7 月. [16] 陈 昱, 张 慧 琳. 社 会 计 算 在 信 息 安 全 中 的 应 用. 清 华 大 学 学 报.2011:51-10. [17] Raymond W.Yeung,Information( 加 拿 大 ). Theory and Network Coding. 信 息 论 与 网 络 编 码. 高 教 出 版 社. 北 京.2011. [18] 李 宪 东. 基 于 最 大 熵 原 理 的 确 定 概 率 分 布 的 方 法 研 究, 硕 士 学 位 论 文. 华 北 电 力 大 学 ( 北 京 ).2008. [19] 马 尔 利 姆 沃 特 斯 (Malcolm Waters) ( 澳 大 利 亚 ). 译 者 : 杨 善 华. 现 代 社 会 学 理 论. 华 夏 出 版 社. 北 京. 2000. [20] 谭 红 叶. 中 文 事 件 抽 取 关 键 技 术 研 究. 博 士 论 文. 哈 尔 滨 工 业 大 学.2008. [21] 赵 鑫 珊. 我 对 人 类 社 会 公 理 的 敬 畏. 人 文 素 养 读 本.2006.