中文模板



Similar documents
填 写 要 求 一 以 word 文 档 格 式 如 实 填 写 各 项 二 表 格 文 本 中 外 文 名 词 第 一 次 出 现 时, 要 写 清 全 称 和 缩 写, 再 次 出 现 时 可 以 使 用 缩 写 三 涉 密 内 容 不 填 写, 有 可 能 涉 密 和 不 宜 大 范 围 公

Microsoft Word - A doc

, [3 ] Petri, 25 7, 500, [4,5 ], 3, (2), 2003, [ 6 ],,, ,, [7 ], 569, 26, ( ) : 2 ; 3 ; 4, ; 5, : (a) ( ) :,,

TI 3 TI TABLE 4 RANDBIN Research of Modern Basic Education

1 引言

MyCOS

1. 课 程 负 责 人 情 况 姓 名 蒋 效 宇 性 别 男 出 生 年 月 基 本 信 息 最 终 学 历 研 究 生 职 称 副 教 授 电 话 学 位 博 士 职 务 无 传 真 研 究 方 向 MIS 系 统 整 合 电 子

黑 龙 江 省 哈 尔 滨 市 规 划 局 与 黑 龙 江 汇 丰 实 业 发 展 有 限 公 司 行 政 处 罚 纠 纷 上 诉 案 中 华 人 民 共 和 国 最 高 人 民 法 院 行 政 判 决 书 (1999) 行 终 字 第 20 号 上 诉 人 ( 原 审 被 告 ) 黑 龙 江 省

第 02 期 1 医 疗 信 息 现 状 20% EMR Electronic Medical Record HIS HIS [1-2] 张 肖 等 : 基 于 大 数 据 的 医 疗 健 康 创 新 应 用 2 大 数 据 环 境 下 医 疗 数 据 特 征 分 析 PC [3]

2 3. 1,,,.,., CAD,,,. : 1) :, 1,,. ; 2) :,, ; 3) :,; 4) : Fig. 1 Flowchart of generation and application of 3D2digital2building 2 :.. 3 : 1) :,

F4

交流活动

<4D F736F F D DBED4B2A4A9D2A9DBA5CDB8EAB054A7B9BEE3AAA92DB3D5A468AF5A2E646F63>

Microsoft Word - 33-p skyd8.doc


1983



Microsoft Word - 華藏衛視清明祭祖三時繫念法會開示_ _

2 ( 自 然 科 学 版 ) 第 20 卷 波 ). 这 种 压 缩 波 空 气 必 然 有 一 部 分 要 绕 流 到 车 身 两 端 的 环 状 空 间 中, 形 成 与 列 车 运 行 方 向 相 反 的 空 气 流 动. 在 列 车 尾 部, 会 产 生 低 于 大 气 压 的 空 气 流

,,, () 20 80,,,,, ;,, ;,, ;,,,,,,,,, [1 ], :,,,,2 2,,, () (),,,,:,,,,:,,,, :, [2 ] :,,,,,,, : AN NA,,,,,, ( ),:,,: ( F) = (A1 + A2 + A3 + An -

Microsoft Word tb 赵宏宇s-高校教改纵横.doc

标题

Microsoft Word - 专论综述1.doc

Microsoft Word - NMIT项目封面.doc

中国媒体发展研究报告

北 京 大 学

关于2007年硕士研究生培养方案修订几点要求的说明

2013_6_3.indd

山东省招生委员会

标题

晋中师~1

就 是 要 步 步 深 入 环 环 相 扣, 以 严 肃 的 态 度 严 抓 的 韧 劲, 把 全 面 从 严 治 党 的 良 好 态 势 巩 固 发 展 下 去, 做 到 真 管 真 严 长 管 长 严 开 展 两 学 一 做 学 习 教 育, 是 推 进 思 想 政 治 建 设 常 态 化 制

中 国 近 现 代 史 纲 要 重 要 会 议 ( 一 ) 党 的 创 建 时 期 1. 一 大 ( , 上 海 ), 中 国 共 产 党 成 立 (1) 内 容 :1 确 定 党 的 名 称 为 中 国 共 产 党 2 通 过 了 中 国 共 产 党 第 一 个 党 纲 : 以 无

发 展 为 目 标, 以 发 挥 事 务 所 党 组 织 战 斗 堡 垒 作 用 和 党 员 先 锋 模 范 作 用 为 重 点, 以 党 务 工 作 者 队 伍 建 设 为 支 撑, 以 制 度 机 制 建 设 为 保 障, 不 断 创 新 理 念 措 施 和 载 体, 在 新 的 起 点 上 全

2013年全区基层党建工作

广州民航职业技术学院

<4D F736F F D20BBA6CBC9BDCCB0ECA1B A1B33731BAC520B8BDBCFE2E646F63>

闲 旅 游 现 已 成 为 城 市 居 民 日 常 生 活 的 重 要 部 分 袁 它 的 出 现 标 志 着 现 代 社 会 文 明 的 进 步 遥 据 国 外 学 者 预 测 袁 2015 年 左 右 袁 发 达 国 家 将 陆 续 进 入 野 休 闲 时 代 冶 袁 发 展 中 国 家 也 将

中国主权资产负债表风险分析

8 DEA min θ - ε( ^e T S - + e T S ) [ + ] GDP n X 4 j λ j + S - = θx 0 j = 1 n Y j λ j - S + = Y 0 j = 1 5 λ J 0 j = 1 n S - 0 S + 0 ^e = ( 1 1

XXX专业本科人才培养方案

Microsoft Word - ä¸fi颟æ−¥å‚−_å“ı弋论_1104

Microsoft Word - 1-1《國文》試題評析.doc

06-5_ _横組-唐.indd

标题

θ 1 = φ n -n 2 2 n AR n φ i = 0 1 = a t - θ θ m a t-m 3 3 m MA m 1. 2 ρ k = R k /R 0 5 Akaike ρ k 1 AIC = n ln δ 2

标题

IT 36% Computer Science Teachers Association, CSTA K K-12 CSTA K-12 K-12 K-6 K6-9 K STEM STEM STEM

JAIST Reposi Title WWW における関連リンク集の自動生成 Author(s) 田村, 雅樹 Citation Issue Date Type Thesis or Dissertation Text version author U

Mechanical Science and Technology for Aerospace Engineering October Vol No. 10 Web SaaS B /S Web2. 0 Web2. 0 TP315 A

Revit Revit Revit BIM BIM 7-9 3D 1 BIM BIM 6 Revit 0 4D 1 2 Revit Revit 2. 1 Revit Revit Revit Revit 2 2 Autodesk Revit Aut

业 务 与 运 营 社 交 网 络 行 为 将 对 网 络 流 量 造 成 较 大 影 响 3) 即 时 通 信 类 业 务 包 括 微 信 QQ 等, 该 类 业 务 属 于 典 型 的 小 数 据 包 业 务, 有 可 能 带 来 较 大 的 信 令 开 呼 叫 建 立 的 时 延 销 即 时

,.,,.. :,, ,:, ( 1 ). Π,.,.,,,.,.,. 1 : Π Π,. 212,. : 1)..,. 2). :, ;,,,;,. 3

实 践 探 讨 高 丽 : 从 少 数 民 族 大 学 生 的 阅 读 需 求 看 民 族 院 校 图 书 馆 的 资 源 建 设 有 区 域 性 和 民 族 性 很 强 的 传 统 学 科 特 色 学 科 及 优 势 学 科, 因 此 图 书 馆 的 资 源 建 设 也 要 顺 应 这 一 特 性

在 培 养 职 前 卓 越 化 学 教 师 的 院 校, 会 编 一 本 过 去 称 作 化 学 教 学 论 实 验, 现 在 拟 为 卓 越 化 学 教 师 教 育 实 验 教 学 研 究 的 教 材 各 院 校 对 这 门 课 程 所 给 的 学 时 不 太 一 样, 但 都 是 围 绕 实 验

g 100mv /g 0. 5 ~ 5kHz 1 YSV8116 DASP 1 N 2. 2 [ M] { x } + [ C] { x } + [ K]{ x } = { f t } 1 M C K 3 M C K f t x t 1 [ H( ω )] = - ω 2

一 课 程 负 责 人 情 况 姓 名 吴 翊 性 别 男 出 生 年 月 基 本 信 息 学 位 硕 士 职 称 教 授 职 务 所 在 院 系 理 学 院 数 学 与 系 统 科 学 系 电 话 研 究 方 向 数 据 处 理 近 三 年 来

Microsoft Word 定版

P(x,y) P(x-1,y) P(x,y-1) P(x,y+1) P(x+1,y) Sobel LaplacePrewittRoberts Sobel [2] Sobel [6] 0 1 1: P(x,y) t (4-connectivity) 2: P(x,y) t 3:

国有大型能源企业财务风险内部控制研究

Microsoft Word - 王彬_已修改_.doc



Welch & Bishop, [Kalman60] [Maybeck79] [Sorenson70] [Gelb74, Grewal93, Maybeck79, Lewis86, Brown92, Jacobs93] x R n x k = Ax k 1 + Bu k 1 + w


CHINA SCIENCE AND TECHNOLOGY DEVELOPMENT REPORT

[1] Liu Hongwei,2013, Study on Comprehensive Evaluation of Iron and Steel Enterprises Production System s Basic Capacities, International Asia Confere

~ ~ ~

Microsoft Word - A doc

PCA+LDA 14 1 PEN mL mL mL 16 DJX-AB DJ X AB DJ2 -YS % PEN

~ ~ ~ ~ ~ ~ ~ % % ~ 20% 50% ~ 60%


University of Science and Technology of China A dissertation for master s degree Research of e-learning style for public servants under the context of

科 研 信 息 化 技 术 与 应 用,2015, 6 (1) of identity and the framework of identity management, this paper analyses the development trend of Identity Management

( ) [11 13 ] 2 211,,, : (1),, 1990 ( ) ( ),, ; OD, ( ) ( ) ; , ( ), (2) 50 %,, 1999 ( ) ( ) ; (3),,

Microsoft Word - 贺小凤,王国胜.doc

标题

/3 CAD JPG GIS CAD GIS GIS 1 a CAD CAD CAD GIS GIS ArcGIS 9. x 10 1 b 1112 CAD GIS 1 c R2VArcscan CAD MapGIS CAD 1 d CAD U

于 水 等 : 多 源 流 理 论 视 角 下 宅 基 地 使 用 权 确 权 政 策 的 议 程 设 置 研 究 基 于 江 苏 省 4 市 的 调 查 83 push forward the confirmation of homestead use right of rural central

Dan Buettner / /

作 主 动 追 求 知 识 获 取 技 能, 在 心 理 和 生 理 上 都 非 常 积 极 的 个 体 (Zimmerman & Pons, 1986) 在 此 期 间, 自 我 效 能 感 (self-efficacy) 自 我 控 制 (self-control) 自 我 管 理 (self-

标题

实验室代码

Index SSCI Art education ) OR TS =( medic* teach* ) & Humanities Citation Index A&HCI SCIE SSCI A&HCI = / Thomson AND Countries/Territories = Re

1 GIS 95 Y = F y + (1 F) (1) 0 0 Y0 kg/hm 2 /day F y 0 y c kg/hm 2 /day [12] y m 20 kg/hm 2 /hour Y = cl cn ch G [ F( y ) T m yo + (2) (1 F)(

% GIS / / Fig. 1 Characteristics of flood disaster variation in suburbs of Shang

doc

3 4-5 Sharon Weinberger 6 Matthew M. Aid 7 Mary DeRosa Web

Microsoft Word D 孙竹森.doc

致 谢 论 文 写 到 这 里, 两 年 半 的 研 究 生 生 涯 也 即 将 结 束 回 顾 两 年 半 来 的 学 习 生 活, 心 中 充 满 感 恩 和 感 激, 从 松 江 到 虹 口, 校 园 生 活 给 我 留 下 了 深 刻 的 印 象 与 回 忆 感 谢 我 的 导 师 张 健

Microsoft Word doc

Technical Acoustics Vol.27, No.4 Aug., 2008,,, (, ) :,,,,,, : ; ; : TB535;U : A : (2008) Noise and vibr

~ ~

Microsoft Word - A _ doc

L1-01.FIT)

10 中 草 药 Chinese Traditional and Herbal Drugs 第 43 卷 第 1 期 2012 年 1 月 生 药 打 粉 入 药 的 基 本 特 点, 借 鉴 材 料 学 粉 体 学 等 学 科 的 研 究 成 果, 在 中 药 传 统 制 药 理 念 的 启 发

微 分 方 程 是 经 典 数 学 的 一 个 重 要 分 支, 常 用 来 描 述 随 时 间 变 化 的 动 态 系 统, 被 广 泛 应 用 于 物 理 学 工 程 数 学 和 经 济 学 等 领 域. 实 际 上, 系 统 在 随 时 间 的 变 化 过 程 中, 经 常 会 受 到 一 些

VLBI2010 [2] 1 mm EOP VLBI VLBI [3 5] VLBI h [6 11] VLBI VLBI VLBI VLBI VLBI GPS GPS ( ) [12] VLBI 10 m VLBI 65 m [13,14] (referen

SVM OA 1 SVM MLP Tab 1 1 Drug feature data quantization table

Transcription:

软 件 学 报 doi: 10.13328/j.cnki.jos.004932 中 文 公 众 事 件 信 息 熵 计 算 方 法 靳 锐 +, 张 宏 莉, 张 玥, 王 星 ( 哈 尔 滨 工 业 大 学 计 算 机 科 学 与 技 术 学 院, 哈 尔 滨 150001) Calculation Method of Chinese Public Event Information Entropy * JIN Rui +, ZHANG Hong-Li, ZHANG Yue, WANG Xing (School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China) Abstract: With the development of the Chinese social network (especially the rise of weibo), because the lack of the effective technical means, the efficiency of information processing is limited. This paper proposes a new public event information entropy calculation method, and the basic idea is that a mathematical modeling of event information content is built firstly, and then multidimensional random variables information entropy of the public events is to be calculated based on shannon information theory. A new technical index of quantitative analysis to the Internet public events is put forward, which lay the foundation for further research work. Key words: social computing; public event; shannon information theory; information entropy; principle of maximum entropy 摘 要 : 随 着 中 文 社 交 网 络 的 发 展 ( 特 别 是 微 博 的 兴 起 ), 互 联 网 中 文 公 众 事 件 越 来 越 深 刻 的 影 响 现 实 社 会 的 生 产 和 生 活. 由 于 缺 乏 有 效 的 技 术 手 段, 信 息 处 理 的 效 率 受 到 了 限 制. 文 中 提 出 了 一 种 新 的 公 众 事 件 信 息 熵 的 计 算 方 法, 其 基 本 思 想 是 首 先 对 公 众 事 件 信 息 内 容 进 行 建 模, 然 后 以 香 农 信 息 论 为 理 论 基 础, 对 公 众 事 件 的 多 维 随 机 变 量 信 息 熵 进 行 计 算. 这 为 互 联 网 公 众 事 件 的 定 量 化 分 析 提 供 了 一 个 重 要 技 术 指 标, 为 进 一 步 的 研 究 工 作 打 下 基 础. 关 键 词 : 社 会 计 算 ; 公 众 事 件 ; 香 农 信 息 论 ; 信 息 熵 ; 最 大 熵 理 论 中 图 法 分 类 号 : TP301 文 献 标 识 码 : A 引 言 随 着 互 联 网 技 术 的 发 展,Web2.0 的 网 络 用 户 信 息 发 布 技 术 引 发 了 社 交 网 络 的 蓬 勃 发 展, 社 交 网 络 时 代 到 来.Web2.0 则 更 注 重 用 户 的 交 互 作 用, 用 户 既 是 网 站 内 容 的 浏 览 者, 也 是 网 站 内 容 的 制 造 者. 基 于 此, 在 国 际 互 联 网 产 业 领 域, 以 facebook 和 twitter 为 代 表 的 新 型 社 交 网 站 成 为 了 社 交 网 络 时 代 成 功 的 典 范, 以 人 人 网 新 浪 微 博 为 代 表 的 中 文 社 交 网 络 取 得 巨 大 成 功, 社 交 网 络 深 入 到 社 会 各 个 角 落, 深 刻 的 影 响 着 国 家 的 政 治 经 济 文 化 社 会 活 动 组 织 等 领 域. 技 术 革 命 造 成 了 社 会 生 产 生 活 方 式 的 变 革, 在 社 交 网 络 的 快 速 信 息 交 互 中, 非 洲 大 陆 与 阿 拉 伯 世 界 经 历 了 一 系 列 的 剧 烈 社 会 变 革 [1] ; 在 中 国,SNS, 微 博 等 社 交 网 站 的 发 展 如 火 如 荼, 各 种 社 会 信 息 在 社 交 网 络 中 快 速 流 转, [2] 互 联 网 公 众 意 见 得 到 了 快 速 的 表 达 与 形 成, 担 当 起 前 所 未 有 的 社 会 角 色, 发 挥 着 举 足 轻 重 的 社 会 作 用. 近 两 年, 基 金 项 目 : 国 家 重 点 基 础 研 究 发 展 计 划 (973 计 划 )(2013CB329602), 国 家 自 然 科 学 基 金 (61202457,61472108,61402149) 收 稿 时 间 : 2015-02-17; 修 改 时 间 : 2015-05-08,2015-09-10; 采 用 时 间 : 2015-10-17; jos 在 线 出 版 时 间 : 2015-11-18 CNKI 网 络 优 先 出 版 : 2015-11-18 14:58:46, http://www.cnki.net/kcms/detail/11.2560.tp.20151118.1458.001.html

靳 锐 等 : 中 文 公 众 事 件 信 息 熵 计 算 方 法 中 国 国 内 的 各 类 公 众 事 件 频 频 爆 发, 对 互 联 网 舆 情 监 控 提 出 了 新 的 要 求. 如 何 准 确 快 速 的 获 取 和 分 析 相 应 的 事 件 信 息, 成 为 中 文 社 交 网 络 信 息 处 理 领 域 的 一 个 新 的 挑 战. 互 联 网 公 众 意 见 研 究, 又 称 为 舆 情 分 析, 是 当 前 互 联 网 智 能 信 息 处 理 的 研 究 热 点 之 一 [5,6,7]. 这 项 技 术 研 究 可 以 应 用 于 国 家 政 策 的 实 施 预 测 政 治 选 举 结 果 的 预 测 与 分 析 [5] 产 品 的 市 场 销 售 分 析 以 及 个 人 名 誉 与 发 展 等. 近 年 来, 国 内 外 的 研 究 人 员 开 始 重 视 该 领 域 的 研 究, 并 逐 渐 受 到 各 个 国 家 政 府 经 济 实 体 乃 至 个 人 用 户 的 重 视. 如 何 衡 量 一 件 公 众 事 件 的 重 要 性 计 算 其 影 响 力 或 涉 及 事 件 部 门 的 事 态 严 重 程 度, 目 前 还 没 有 一 个 有 效 的 衡 量 方 法, 无 法 对 公 众 意 见 事 件 的 内 容 信 息 进 行 定 量 化 计 算. 仅 仅 依 靠 网 民 的 参 与 程 度 来 衡 量 事 件 的 重 要 程 度 是 不 够 的, 这 不 但 不 能 反 映 事 件 的 实 质 内 容, 而 且 具 有 明 显 的 滞 后 性 和 具 有 易 被 误 导 的 弊 端. [7] 随 着 社 交 网 络 的 发 展, 社 会 计 算 逐 渐 引 起 相 关 的 研 究 人 员 的 重 视.2007 年 底 在 哈 佛 大 学 举 办 了 计 算 社 会 学 研 讨 会,2008 年 4 月, 美 国 军 方 在 亚 利 桑 那 州 立 大 学 举 办 了 社 会 计 算 行 为 建 模 和 预 测 研 讨 会. 在 此 基 础 上,2009 [10] 年 David Lazer 等 在 Science 杂 志 上 提 出 计 算 社 会 学 的 概 念, 指 出 网 络 上 的 大 量 信 息, 如 博 客 论 坛 聊 天 消 费 记 录 电 子 邮 件 等, 都 是 对 现 实 社 会 的 人 及 组 织 行 为 的 映 射, 网 络 数 据 可 用 来 分 析 个 人 和 群 体 的 行 为 模 式, 标 志 着 计 算 科 学 和 社 会 科 学 的 交 叉 融 合 正 成 为 国 际 瞩 目 的 前 沿 研 究 和 应 用 热 点 [15]. 在 911 恐 怖 事 件 的 推 动 下,2003 年 美 国 提 出 情 报 与 安 全 信 息 学 的 概 念, 其 核 心 是 研 究 如 何 开 发 研 究 智 能 算 法 通 过 数 据 信 息 处 理 技 术 安 全 策 略 的 集 成 等 使 情 报 采 集 和 安 全 分 析 更 加 系 统 化 科 学 化, 保 障 国 际 安 全 国 家 安 全 社 会 安 全 商 业 安 全 和 个 人 安 全. 美 国 亚 利 桑 那 大 学 关 于 国 家 社 会 安 全 问 题 考 虑, 进 行 情 报 与 安 全 信 息 学 (ISI) [11] 研 究, 卡 内 基 梅 隆 大 学 也 开 展 了 公 共 卫 生 事 件 等 领 域 的 学 术 研 讨.2005 年 开 始, 中 科 院 自 动 化 研 究 所 开 始 情 报 与 安 全 信 息 学 (ISI) 的 研 究, 以 社 会 计 算 理 论 与 计 算 实 验 平 台 为 基 础, 并 以 开 源 情 报 的 获 取 和 处 理 为 基 础 对 社 会 媒 体 和 舆 情 信 息 进 行 实 时 监 测 分 析 和 预 警 [15]. 当 前, 社 会 计 算 方 法 多 用 于 社 区 发 现 与 社 会 媒 体 挖 掘 如 社 交 网 络 用 户 的 信 息 交 互 关 系 计 算, 社 区 与 意 见 领 袖 发 现 社 交 网 络 用 户 行 为 分 析 等 [5,6,7]. 公 众 意 见 分 析 领 域 的 研 究 仍 然 处 于 发 展 初 期 阶 段, 理 论 体 系 还 没 有 完 全 建 立 起 来, 尤 其 是 定 量 化 的 技 术 衡 量 指 标 还 不 完 备, 引 入 社 会 计 算 方 法 是 解 决 此 问 题 的 有 效 途 径 之 一. 互 联 网 公 众 事 件 的 文 本 形 式 是 互 联 网 信 息 的 重 要 载 体 [5], 其 包 含 的 信 息 量 是 事 件 信 息 的 重 要 技 术 指 标, 也 是 分 析 其 影 响 力 舆 论 压 力 等 技 术 指 标 的 定 量 化 前 提. 本 文 通 过 香 农 信 息 论 与 最 大 熵 理 论 的 方 法, 对 互 联 网 公 众 事 件 内 容 信 息 量 的 计 算 方 法 进 行 了 研 究, 该 方 法 属 于 社 会 计 算 范 畴. 1. 公 众 事 件 数 学 模 型 1.1 公 众 事 件 的 分 析 模 型 网 络 文 本 事 件 的 结 构 如 图 1 所 示. 为 了 进 行 信 息 量 的 计 算, 先 分 析 一 下 公 众 事 件 的 构 成, 如 图 1 所 示. 这 里 对 事 件 所 包 含 的 信 息 内 容 进 行 分 析, 事 件 信 息 有 5 个 构 成 要 素 : 事 件 主 体 时 间 地 点 数 量 未 抽 取 信 息 ; 而 事 件 主 体 又 有 四 个 属 性, 社 会 ( 自 然 ) 角 色 社 会 ( 自 然 ) 关 系 所 属 机 构 或 体 系 主 体 行 为 ; 事 件 本 身 具 有 一 个 重 要 属 性, 即 事 件 社 会 ( 自 然 ) 类 别.

2 公 事 件 主 体 社 会 ( 自 然 ) 角 色 时 间 社 会 ( 自 然 ) 关 系 事 件 信 息 地 点 所 属 机 构 或 体 系 事 件 社 会 ( 自 然 ) 类 别 数 量 未 抽 取 信 息 主 体 行 为 数 学 描 述 : Fig.1 The public event structure 图 1 公 众 事 件 结 构 设 事 件 信 息 为 全 集 U, 由 个 子 集 构 成 为, 其 中, 上 图 中 取 10, 表 示 事 件 主 体 集 合, 表 示 社 会 ( 自 然 ) 角 色 集 合, 表 示 社 会 ( 自 然 ) 关 系, 表 示 所 属 机 构 或 体 系 集 合, 表 示 时 间 信 息 集 合, 表 示 主 体 行 为 集 合, 表 示 地 点 集 合, 表 示 数 量 集 合, 表 示 事 件 社 会 ( 自 然 ) 类 别 集 合, 表 示 未 抽 取 信 息. 由 集 合 的 性 质 可 知. 我 们 看 到 上 图 中 所 示 的 5 个 构 成 要 素 5 个 相 关 的 属 性, 这 是 对 公 众 事 件 最 简 化 的 一 种 表 达 方 式, 公 众 事 件 文 本 内 容 的 信 息 全 部 包 含 其 中. 经 过 分 析, 信 息 系 统 内 的 各 个 属 性 和 要 素 之 间 的 相 互 影 响 可 以 导 致 要 素 或 属 性 的 条 件 信 息 量 的 变 化. 图 1 中 的 信 息 模 块 结 构 来 源 于 文 本 信 息 抽 取 项 的 研 究 [19], 抽 取 项 有 主 体 时 间 关 系 机 构 等 多 项 研 究. 设 一 个 互 联 网 公 众 事 件 由 个 随 机 变 量 构 成, 则 事 件 可 以 表 示 为 ( ), 事 件 本 身 为 一 个 随 机 信 息 系 统, 用 表 示, 则 等 价 于 ( ). 根 据 哲 学 的 一 般 原 理, 在 一 个 系 统 之 内, 每 一 个 部 分 都 不 是 孤 立 存 在 的. 图 1 中 表 示 了 结 构 图, 包 含 5 个 要 素 和 5 个 属 性.5 个 要 素 和 5 个 属 性 相 互 之 间 的 相 互 影 响 关 系 要 比 图 1 中 表 示 的 复 杂 得 多, 图 1 表 示 的 仅 仅 是 基 本 的 隶 属 关 系. 1.2 应 用 多 维 随 机 变 量 对 公 众 事 件 进 行 建 模 设 一 个 互 联 网 公 众 事 件 由 个 随 机 变 量 构 成, 则 事 件 可 以 表 示 为 ( ), 事 件 本 身 为 一 个 随 机 信 息 系 统, 用 表 示, 则 等 价 于 ( ). 这 里 我 们 取, 其 中 表 示 公 众 事 件 的 主 体 名 称, 表 示 主 体 的 社 会 或 自 然 角 色, 表 示 社 会 或 自 然 关 系, 表 示 主 体 所 属 的 机 构 或 体 系 的 名 称, 表 示 时 间 信 息, 表 示 主 体 的 社 会 ( 自 然 ) 行 为, 表 示 事 件 的 地 址 信 息, 为 事 件 的 数 量 信 息, 为 舆 情 事 件 的 类 别, 为 未 抽 取 信 息. 众 事 件 熵 的 计 算 方 法 2.1 香 农 信 息 熵 信 息 的 可 度 量 可 计 算 是 人 类 对 信 息 技 术 掌 握 的 里 程 碑. 香 农 在 信 息 论 的 研 究 中 贡 献 最 为 显 著, 下 面 我 们 阐

靳 锐 等 : 中 文 公 众 事 件 信 息 熵 计 算 方 法 述 一 下 相 关 理 论. 香 农 理 论 的 重 要 特 征 是 熵 (entropy) 的 概 念, 他 证 明 熵 与 信 息 内 容 的 不 确 定 程 度 有 等 价 关 系 [17]. 定 义 : 一 个 随 机 变 量 的 熵 定 义 为 : H X = p x p x (1) ( ) ( ) log ( ) 一 个 随 机 变 量 X 的 熵 是 概 率 分 布 的 函 数, 它 衡 量 了 包 含 在 X 中 的 平 均 信 息 量. 下 面, 我 们 依 据 此 公 式 计 算 公 众 事 件 的 信 息 熵. 2.2 基 于 最 大 熵 理 论 的 计 算 方 法 1) 理 论 描 述 最 大 熵 原 理 最 初 是 由 E.T.Jayness 在 1950 年 提 出 [9]. 结 论 : 对 一 随 机 过 程, 如 果 没 有 任 何 观 测 量, 即 没 有 任 何 约 束, 则 解 为 均 匀 分 布. 2) 最 大 熵 建 模 最 大 熵 统 计 建 模 是 以 最 大 熵 理 论 为 基 础 的 一 种 选 择 模 型 的 方 法, 即 从 符 合 条 件 的 分 布 中 选 择 熵 最 大 的 分 布 作 为 最 优 的 分 布. x ( ) p = argmaxh p 3) 熵 函 数 取 最 大 值 时 的 概 率 分 布 以 (0-1) 分 布 的 熵 函 数 为 例 : 在 概 率 时, 取 得 均 值 的 位 置 出 现 最 大 熵 值, 其 他 类 型 概 率 分 布 函 数 的 熵 函 数 情 况 相 似, 也 存 在 最 大 值, 在 概 率 分 布 取 得 均 值 的 点 获 得 最 大 熵. Fig.2 the entropy function of (0-1) probability distribution 图 2 (0-1) 分 布 的 熵 函 数 2.3 最 大 熵 原 理 的 数 学 表 示 2.3.1 最 大 熵 的 数 学 表 示 1) 在 给 定 的 约 束 条 件 下, 由 最 大 熵 原 理 求 解 最 佳 概 率 分 布, 就 是 应 用 拉 格 朗 日 乘 子 法 求 解 条 件 极 值 问 题 [18]. 2) 求 解 过 程 求 n 元 函 数 的 在 个 约 束 条 件 下 的 条 件 极 值, 常 数 依 此 乘 然 后 累 加 起 来 得 函 数. ( x, x xn ) ( x x x ) ϕ1 1 2,, = 0 ϕ2 1, 2,, n = 0 ϕ m( x1, x2,, xn) = 0

( ) F x1, x2,, xn = f + λϕ 1 1+ λϕ 2 2 + + λmϕ 然 后 列 出 无 约 束 条 件 时 具 有 极 值 的 必 要 条 件, m F f ϕ1 ϕ2 ϕm = + λ1 + λ2 + + λm = 0 x1 x1 x1 x1 x 1 F f ϕ1 ϕ2 ϕm = + λ1 + λ2 + + λm = 0 x2 x2 x2 x2 x2 F f ϕ1 ϕ2 ϕm λ1 λ2 λm 0 x n x n x n x n x n 把 这 n 个 方 程 和 m 个 约 束 条 件 方 程 进 行 联 立, 即 可 求 出 n+m 个 的 值, 其 中 就 是 可 能 的 极 值 点, 称 为 驻 点. 因 为 熵 函 数 是 分 布 函 数 的 泛 函, 于 是 用 拉 格 朗 日 乘 子 法 求 出 的 解 就 不 再 是, 而 是. 2.3.2 离 散 型 随 机 变 量 的 最 大 熵 分 布 形 式 设 离 散 型 随 机 变 量 X 取 得 有 限 个 值, 相 应 的 概 率 记 为,,, 则 最 大 的 充 要 条 件. 证 明 : 由 于 =1, 根 据 拉 格 朗 日 乘 子 法 求 解 此 约 束 条 件 下 熵 最 大 概 率 分 布, 设 n n F( p1, p2,, pn) = piln pi + λ pi 1 i= 1 i= 1 对 求 偏 导 数, 根 据 求 取 最 值 的 必 要 条 件, 得 到 方 程 组 : F / p = ln p 1+ λ = 0, i = 1,2,, n i 求 解 : p exp( λ 1) i i =, 为 常 数. 根 据 约 束 条 件 =1, 则, 即. 此 时, 熵 函 数 : n ( ) = ( 1/ ) ln( 1/ ) = ln( ) (2) H x n n n i= 1 对 于 取 值 为 有 限 值 的 离 散 型 随 机 变 量 来 说, 当 每 一 个 取 值 的 概 率 相 等 时, 其 信 息 熵 最 大, 此 时 的 分 布 为 最 大 熵 分 布. 重 要 结 论 : 得 到 了 一 个 关 于 n 的 严 格 单 调 函 数, 本 文 利 用 这 个 结 论 进 行 公 众 事 件 信 息 熵 的 社 会 计 算, 可 以 保 证 计 算 结 果 具 有 严 格 单 调 性.

3 应 靳 锐 等 : 中 文 公 众 事 件 信 息 熵 计 算 方 法 Fig.3 The monotony of the entropy function 图 3 熵 函 数 的 单 调 性 用 最 大 熵 理 论 计 算 公 众 事 件 的 信 息 熵 3.1 公 众 事 件 建 模 用 随 机 变 量 表 示 公 众 事 件 表 示, 等 价 于, 其 中 事 件 主 体, 社 会 ( 自 然 ) 角 色, 关 系, 所 属 机 构 或 体 系, 事 件 发 生 时 间, 行 为, 发 生 地 点, 数 量, 事 件 类 别, 未 抽 取 信 息. 3.2 多 维 随 机 变 量 的 向 量 空 间 设 一 个 公 众 事 件 可 以 由 多 维 随 机 变 量 表 示, 我 们 分 别 确 定 各 个 分 变 量 的 取 值 范 围, 并 组 合 构 成 一 个 多 维 向 量 空 间 [16]. 定 义 : 当 多 维 随 机 变 量 的 取 值 都 是 基 本 取 值 集 合 内 元 素 时, 此 事 件 为 元 事 件, 以 表 示. 所 有 的 分 向 量 的 取 值 元 素 集 合 组 合 在 一 起 构 成 了 公 众 事 件 的 多 维 向 量 空 间. 这 里 的 集 合 元 素 指 的 是 文 本 事 件 抽 取 项 的 关 键 词 或 短 语. 举 例 说 明, 以 80 后 清 华 硕 士 任 副 局 长 后 受 贿 1600 万, 被 判 无 期 事 件 为 例, 对 文 本 形 式 的 事 件 进 行 信 息 抽 取, 得 到 以 下 形 式. 80 后 清 华 硕 士 任 副 局 长 后 受 贿 1600 万, 被 判 无 期 事 件 :: - 事 件 主 体 :80 后 ; 清 华 ; 清 华 硕 士 ; 副 局 长 ;1600 万 ; 无 期 ; 科 员 ; 副 局 长 ; 杰 出 青 年 ; 光 环 ; 肖 明 辉 ;5 亿 元 ; 工 程 招 标 ; 大 权 ;1611 万 元 ; 好 处 费 ; 经 济 利 益 ; 肖 明 辉 ; 海 南 省 ; 海 南 省 二 中 院 ; 无 期 徒 刑 ; 政 治 权 利 ; ; 赵 某 ; 该 工 程 ; 人 民 币 ;6 万 元 ; - 社 会 角 色 :80 后 -< 专 有 名 词, 敏 感 词 汇 >; 清 华 ( 大 学 )-< 专 有 名 词, 敏 感 词 汇, 国 家 著 名 大 学 一 类, 国 家 教 育 机 构, 国 家 事 业 单 位 >; 清 华 硕 士 -< 专 有 名 词, 敏 感 词 汇, 国 家 名 牌 大 学 一 类 毕 业 生 >; 副 局 长 -< 专 有 名 词, 敏 感 词 汇, 国 家 公 务 员, 国 家 处 级 公 务 员 >; ; 肖 明 辉 -< 国 家 公 务 员, 国 家 官 员, 国 家 处 级 公 务 员, 工 程 管 理 类 国 家 公 务 员, 名 牌 大 学 一 类 毕 业 生, 硕 士 学 历 人 员 >; ; 赵 某 -< 个 体 营 业 者, 专 有 名 词 >; 该 工 程 -< 专 有 名 词, 敏 感 词 汇, 工 程 类 名 词 >; 人 民 币 -< 专 有 名 词, 敏 感 词 汇, 财 经 类 名 词 >;6 万 元 -< 专 有 名 词, 敏 感 词 汇, 钱 款 类 名 词 >; - 社 会 关 系 : < 清 华 硕 士, 清 华 大 学 > : 校 友 关 系 ;< 海 南 省 第 九 届 十 大 杰 出 青 年, 清 华 大 学 > : 校 友 关 系 ;< 副 局 长, 清 华 大 学 >: 校 友 关 系 ; < 政 府 官 员, 清 华 大 学 >: 校 友 关 系 ;< 国 家 公 务 员, 清 华 大 学 >: 校 友 关 系 ; ;< 国 家 公 务 员, 副 局 长 >: 上 下 级 关 系, ;< 司 机, 副 局 长 >: 紧 密 上 下 级 级 关 系 ; - 所 属 机 构 :< 肖 明 辉, 海 南 省 洋 浦 经 济 开 发 区 规 划 建 设 土 地 局 >;< 张 成 梁, 海 南 省 洋 浦 经 济 开 发 区 规 划 建 设 土 地 局 >; ;< 张 成 梁, 行 政 机 构 >; - 事 件 发 生 时 间 :2012 年 10 月 15 日 ;2007 年 ;2007 年 底 ;2008 年 3 月 ;2009 年 ;2009 年 ;2011 年 ; - 行 为 : 受 贿 ; 收 1611 万 元 好 处 费 ; 为 他 人 谋 取 不 正 当 经 济 利 益 ; 注 册 空 头 公 司 ; 牵 线 搭 桥 ; 签 订 10 份 虚 假 合 同 ; 签 订 虚 假 劳 务 合 同 ; 被 判 无 期 徒 刑 ; 剥 夺 政

治 权 利 终 生 ; 提 供 虚 假 发 票 ; 支 付 好 处 费 ; 帮 助 赵 某 中 标 工 程 ; 收 取 6 万 好 处 费 ; 事 件 发 生 地 点 : 海 南 省 ; 海 南 省 洋 浦 经 济 开 发 区 ; 屯 昌 ; 海 口 ; - 数 量 : 涉 案 人 员 :2 人 ; 受 贿 :1611 万 元 6 万 元 ; 年 龄 :32 岁 ; - 事 件 类 别 : 经 济 犯 罪 官 员 违 纪 官 员 受 贿 ; Table 1 The distribution of multiple random variables 表 1: 多 维 随 机 变 量 的 分 布 80 后 80 后 -< 专 有 名 词, 敏 感 词 汇 > 清 华 清 华 ( 大 学 ) -< 专 有 名 词, 敏 感 词 汇, 国 家 著 名 大 学 一 类, 国 家 教 育 机 构, 国 家 事 业 单 位 > 清 华 硕 士 清 华 硕 士 -< 专 有 名 词, 敏 感 词 汇, 国 家 名 牌 大 学 一 类 毕 业 生 > < 清 华 硕 士, 清 华 大 学 > : 校 友 关 系 < 海 南 省 第 九 届 十 大 杰 出 青 年, 清 华 大 学 > : 校 友 关 系 < 副 局 长, 清 华 大 学 >: 校 友 关 系 < 肖 明 辉, 海 南 省 洋 浦 经 济 开 发 区 规 划 建 设 土 地 局 > < 张 成 梁, 海 南 省 洋 浦 经 济 开 发 区 规 划 建 设 土 地 局 > 10 月 15 日 ( 国 庆 期 间, 敏 感 时 段 ) 受 贿 2007 年 收 1611 万 元 好 处 费 2007 年 底 为 他 人 谋 取 不 正 当 经 济 利 益 海 南 省 -< 国 家 省 级 行 政 域, 区 域 > 海 南 省 洋 浦 经 济 开 发 区 -< 国 家 经 济 开 发 区, > 屯 昌 -< 国 家 县 级 行 政 区 域 > 2008 年 3 月 海 口 -< 国 家 市 级 行 政 区 域, > 赵 某 赵 某 -< 个 体 营 业 者, 专 有 名 词 > 该 工 程 该 工 程 -< 专 有 名 词, 敏 感 词 汇, 工 程 类 名 词 > 人 民 币 人 民 币 -< 专 有 名 词, 敏 感 词 汇, 财 经 类 名 词 > 6 万 元 6 万 元 -< 专 有 名 词, 敏 感 词 汇, 钱 款 类 名 词 > < 国 家 公 务 员, 副 局 长 >: 上 下 级 关 系 2009 年 提 供 虚 假 发 票 2009 年 支 付 好 处 费 2011 年 帮 助 赵 某 中 标 工 程 < 司 机, 副 局 长 >: 紧 密 上 下 级 级 关 系 < 张 成 梁, 行 政 机 构 > 收 取 6 万 好 处 费 涉 案 人 员 :2 人 受 贿 :1611 万 元 受 贿 :6 万 元 年 龄 :32 岁 经 济 犯 罪 官 员 违 纪 官 员 受 贿 由 最 大 熵 理 论 可 知, 当 随 机 变 量 的 取 值 项 数 量 越 多 的 时 候, 即 内 容 越 杂 乱, 最 大 熵 值 就 越 大, 这 可 以 解 释 为 什 么 一 些 包 含 复 杂 内 容 ( 如 社 会 角 色 和 关 系 等 ) 的 公 众 事 件 容 易 引 起 关 注, 因 为 事 件 本 身 信 息 量 较 大, 或 者 直 观 解 释 为 事 件 内 容 更 加 丰 富, 对 表 1 中 的 信 息 系 统 进 行 向 量 抽 取, 显 然 其 信 息 冗 余 较 大, 也 就 是 信 息 量 较 大. 由 于 之 间 的 函 数 关 系 无 法 确 定, 所 以 此 问 题 适 合 使 用 最 大 熵 模 型 解 决, 以 最 大 熵 表 征 公 众 事 件 的 熵 值, 与 实 际 的 情 况 最 为 接 近. 3.3 公 众 事 件 信 息 熵 的 计 算 公 式 在 公 众 事 件 信 息 量 的 计 算 中 属 于 约 束 条 件 =1 的 最 大 熵 问 题, 其 熵 函 数 的 形 式 与 一 维 随 机 变 量 的 形 式 类 似, 信 息 熵 值 可 以 为 任 意 正 数. 取 最 大 熵 时, 其 联 合 概 率 分 布 为 均 匀 分 布, 则 计 算 公 式 可 以 表 示 为 : ( 1, 2,, n) = ( 1, 2,, n) l ( 1, 2,, n ) H X X X p x x x ogp x x x x

靳 锐 等 : 中 文 公 众 事 件 信 息 熵 计 算 方 法 ( x ) = l ogp x, x,, n 用 表 示 随 机 变 量 的 取 值 次 数 总 数, 当 有 一 次 基 本 集 合 的 取 值 时,. Table 2 The value of dimensions 表 2 分 变 量 的 取 值 1 2 取 值 项 数 由 约 束. 则 熵 函 数 表 示 为 : 1 H ( X, X,, X ) = l ogp( x, x,, x ) = log = log ( q q q ) (3) 1 2 9 1 2 9 1 2 9 qq 1 2 q9 此 公 式 为 公 众 事 件 多 维 随 机 变 量 的 信 息 熵 计 算 公 式, 其 形 式 具 有 严 格 的 单 调 关 系. 下 面 证 明 其 单 调 性, 并 分 析 如 何 计 算 出 事 件 信 息 熵 值. 3.4 多 维 随 机 变 量 信 息 熵 的 单 调 性 证 明 由 (3) 式, 熵 函 数 : H ( X, X,, X ) logp( x, x,, x ) log ( q q q ) = =, 证 明 其 具 有 单 调 性. 1 2 9 1 2 9 1 2 9 证 明 : 当 取 得 一 组 熵 函 数 取 值 为, 而 另 一 组 取 得 的 熵 函 数 取 值 为. 当 时, 此 时 取 得 正 整 数 值, 可 知, 进 而 得 知. 所 以 熵 函 数 具 有 严 格 的 单 调 性,. 可 知 这 个 多 维 随 机 变 量 的 熵 函 数 具 有 严 格 单 调 性, 证 毕. 3.5 中 文 语 言 特 性 对 公 众 事 件 信 息 熵 的 影 响 中 文 公 众 事 件 的 信 息 熵 值, 必 然 受 到 中 文 语 言 特 性 的 影 响, 中 文 语 言 是 一 种 意 合 语 言, 中 文 的 特 点 是 概 括 性 强, 语 言 表 述 往 往 包 含 很 多 汉 语 成 语 典 故 常 用 语 等, 这 样 的 语 言 往 往 简 短, 但 却 包 含 了 比 词 本 身 丰 富 得 多 的 含 义. 这 体 现 在 信 息 熵 值 计 算 方 面, 必 然 造 成 信 息 熵 值 的 增 大, 这 种 中 文 语 言 特 性 对 事 件 信 息 熵 影 响 较 大. 例 如 : 这 样 一 则 公 众 信 息 表 述 : 谎 称 收 工 程 保 证 金, 七 旬 老 汉 指 鹿 为 马 诈 骗 百 万 (2015-04-17 09:18:58 来 源 : 胶 东 在 线 ) 胶 东 在 线 网 4 月 17 日 讯 ( 记 者 侯 嘉 伟 通 讯 员 徐 忠 孙 世 建 )2014 年 以 来, 蓬 莱 市 公 安 局 经 侦 大 队 共 破 获 以 收 取 工 程 保 证 金 为 名 实 施 的 合 同 诈 骗 案 件 4 起, 抓 获 犯 罪 嫌 疑 人 20 余 名, 涉 案 金 额 达 5000 余 万 元. 经 查,1945 年 出 生 的 柯 某 利 利 用 相 同 手 段 共 诈 骗 150 余 万 元.2014 年 11 月 6 日 因 涉 嫌 合 同 诈 骗 被 刑 事 拘 留, 同 年 12 月 12 日 被 批 准 逮 捕, 现 该 案 已 移 送 检 察 部 门 审 查 起 诉. 事 件 中 使 用 了 指 鹿 为 马 这 样 的 成 语, 在 中 文 社 区, 这 样 的 表 述 会 激 发 读 者 头 脑 中 的 语 义 框 架, 读 者 获 得 了 成 语 中 丰 富 的 信 息, 指 鹿 为 马 成 语 中 包 含 的 信 息 就 嵌 入 到 了 事 件 当 中, 这 在 中 文 公 众 事 件 表 达 当 中 属 于 常 见 现 象. 指 鹿 为 马 这 样 的 成 语, 包 含 的 信 息 内 容 是 比 较 固 定 的, 构 成 一 个 封 闭 的 独 立 语 境 事 件. 同 样, 我 们 可 以 计 算 其 熵 值, 在 计 算 过 程 中, 可 以 把 这 个 熵 值 当 做 常 数, 累 加 到 事 件 信 息 熵 值 中. 指 鹿 为 马 的 文 本 信 息 摘 要 描 述 如 下 ; 指 鹿 为 马 : 出 自 史 记 秦 始 皇 本 纪, 秦 始 皇 死 后, 赵 高 试 图 要 谋 朝 篡 位, 为 了 试 验 朝 廷 中 有 哪 些 大 臣 顺 从 他 的 意 愿, 特 地 呈 上 一 只 鹿 给 秦 二 世 胡 亥, 并 说 这 是 马. 秦 二 世 不 信, 赵 高 便 借 故 问 各 位 大 臣. 不 敢 逆 赵 高 意 的 大 臣 都 说 是 马, 而 敢 于 反 对 赵 高 的 人 则 说 是 鹿. 后 来 说 是 鹿 的 大 臣 都 被

4 公 赵 高 用 各 种 手 段 害 死 了. 指 鹿 为 马 的 故 事 流 传 至 今, 人 们 便 用 指 鹿 为 马 形 容 一 个 人 是 非 不 分, 颠 倒 黑 白. 经 过 信 息 抽 取 计 算 后, 得 到 指 鹿 为 马 典 故 成 语 的 熵 值 为, 事 件 信 息 熵 值 为, 则 最 终 的 事 件 信 息 熵 为. 这 可 以 解 释, 为 什 么 使 用 成 语 典 故 较 多 的 事 件 描 述, 更 容 易 引 起 读 者 的 兴 趣, 其 中 一 个 原 因 是 其 造 成 了 事 件 信 息 熵 的 增 加. 众 事 件 熵 的 计 算 过 程 在 计 算 公 众 事 件 信 息 熵 的 时 候, 基 于 社 会 学 理 论 以 及 一 些 领 域 知 识, 我 们 可 以 把 它 以 关 键 词 或 同 义 词 短 语 的 形 式 集 成 到 我 们 的 知 识 库 中, 这 里 需 要 专 家 的 人 工 知 识 分 析. 一 旦 知 识 库 建 立 后, 会 为 我 们 提 供 很 大 的 便 利. 由 4.4 中 的 单 调 性 证 明, 我 们 这 里 构 建 的 关 键 词 知 识 库, 只 需 要 按 社 会 学 知 识 划 分 不 同 的 子 集 合, 并 进 行 关 键 词 的 匹 配 或 短 语 的 同 义 词 替 换 然 后 进 行 关 键 词 匹 配 计 算 即 可, 由 此 而 产 生 的 计 算 属 于 社 会 计 算. 以 2012 年 度 全 年 的 互 联 网 中 文 公 众 事 件 为 实 验 数 据 集 进 行 计 算, 语 料 库 中 统 计 了 中 国 全 年 1200 个 中 文 事 件 案 例 ( 每 个 季 度 300 件 公 众 事 件 ), 这 是 全 年 爆 发 的 互 联 网 中 文 公 众 事 件 中 引 起 社 会 重 视 较 高 的 事 件, 文 中 选 取 部 分 事 件 的 计 算 结 果 进 行 分 析. 4.1 构 建 知 识 库 设 为 公 众 事 件 的 某 个 分 随 机 变 量 ( 如 ), 离 散 型 随 机 变 量, 假 设 的 取 值 集 合 为, 包 含 若 干 个 子 集, 同 时 满 足 =. 由 于 各 个 国 家 的 历 史 文 化 习 俗 宗 教 固 有 观 念 等 社 会 状 况 有 很 大 的 区 别, 所 以 特 定 的 国 家 或 地 区 要 有 特 定 的 分 析, 相 应 的 随 机 变 量 的 概 率 分 布 情 况 也 会 有 很 大 的 区 别, 比 如 驻 阿 富 汗 美 军 烧 古 兰 经 事 件, 如 果 发 生 在 其 他 非 信 仰 伊 斯 兰 教 的 地 区, 事 件 不 会 这 么 敏 感, 不 会 引 起 这 么 大 规 模 和 广 泛 的 争 端. 本 文 在 使 用 通 用 计 算 方 法 的 基 础 上, 以 中 国 国 内 社 会 状 况 文 化 特 点 为 背 景 进 行 互 联 网 社 会 计 算 研 究, 如 果 要 计 算 其 他 国 家 的 互 联 网 公 众 事 件 信 息 熵, 要 根 据 实 际 情 况 进 行 相 应 的 知 识 库 调 整. 下 面 我 们 以 中 文 公 众 事 件 的 计 算 为 例, 分 别 分 析 9 个 随 机 变 量 的 取 值 集 合 情 况, 给 出 一 个 互 联 网 公 众 事 件 信 息 熵 的 具 体 计 算 方 法. 集 合 中 的 元 素 都 是 有 代 表 性 的 关 键 词, 这 些 关 键 词 或 同 义 短 语 构 成 了 知 识 库, 考 察 9 个 随 机 变 量 的 取 值 集 合, 可 以 构 建 相 应 的 知 识 库. 这 里 给 出 简 略 描 述. 4.1.1 分 析 随 机 变 量 ( 公 众 事 件 中 的 主 体 名 ) 的 取 值 范 围 事 件 的 主 体 名, 往 往 是 人 物 的 名 称, 也 有 地 名 机 构 名 和 其 他 类 型 主 体 的 名 称. 把 集 合 按 子 集 合 划 分, 当 有 一 次 关 键 词 匹 配 的 时 候,, 若 无 则 取. 设 为 表 示 公 众 事 件 主 体 名 的 随 机 变 量, 是 离 散 型 随 机 变 量, 建 立 的 取 值 集 合, 其 中 包 含 若 干 个 子 集, 满 足 =. 根 据 常 识, 人 名 或 地 名 等 具 有 公 众 信 息 敏 感 度, 我 们 把 知 名 度 分 为 四 个 等 级, 分 别 对 应 的 四 个 取 值 子 集 合, 其 中 为 取 值 的 基 本 集 合. 公 众 信 息 敏 感 度 级 别 的 划 分 : 公 众 信 息 敏 感 度 度 第 一 等 级, 可 继 续 划 分 子 集,. 历 史 名 人, ; 当 代 政 治 人 物, ; 公 众 信 息 敏 感 度 第 四 等 级, 可 继 续 划 分 子 集,. 本 文 中, 划 分 等 级 是 为 了 方 便 说 明 问 题, 当 有 匹 配 时 取 值 相 同, 取 值 为 1. 社 会 计 算 中 使 用 带 有 加 权 值 的 运

靳 锐 等 : 中 文 公 众 事 件 信 息 熵 计 算 方 法 算 方 法 留 待 后 续 研 究 中 系 统 介 绍. 即 当, 若, 则 取 得, 否 则, 以 下 各 项 情 况 类 似. 形 式 化 命 题 逻 辑 判 断, 描 述 如 下 : 可 以 看 到, 进 行 匹 配 计 算 的 过 程 就 是 进 行 一 阶 谓 词 逻 辑 判 断 的 过 程. 命 题 A: 有 一 个 取 值, 即 当, 逻 辑 为 真. 命 题 B: 当 或, 或 其 中 一 个 成 立 时, 逻 辑 为 真. 则 当 A B 的 合 取 式 为 真 时, 表 示 有 一 次 取 值, 为 1. 当 A B 的 合 取 式 为 假 时, 表 示 有 一 次 取 值, 为 0. 这 种 情 况 下, 对 计 算 值 无 贡 献. 4.1.2 分 析 随 机 变 量 ( 社 会 ( 自 然 ) 角 色 ) 的 取 值 范 围 设 为 表 示 公 众 事 件 主 体 的 社 会 角 色 的 随 机 变 量, 是 离 散 型 随 机 变 量, 我 们 建 立 的 取 值 集 合, 并 包 含 若 干 个 子 集, 满 足 =. 由 于 互 联 网 空 间 的 出 现, 相 应 的 出 现 了 许 多 新 的 社 会 角 色, 如 互 联 网 的 公 知 人 群 意 见 领 袖 人 群 还 有 部 分 网 络 文 化 名 人 等, 并 担 当 起 了 相 应 的 社 会 责 任, 发 挥 着 某 种 社 会 功 能. 从 社 会 学 的 角 度 来 分 析, 互 联 网 不 但 改 变 了 人 们 获 取 知 识 的 方 式, 同 时 新 的 社 会 角 色 也 在 一 定 程 度 上 改 变 了 人 们 之 间 的 关 系, 产 生 了 新 的 信 息 传 播 与 信 任 方 式, 比 如 公 知 意 见 领 袖 微 博 大 V 等. 作 为 主 体 的 属 性, 社 会 ( 自 然 ) 角 色 是 构 成 事 件 信 息 内 容 的 重 要 因 素. 因 为 在 互 联 网 公 众 事 件 中, 主 体 的 角 色 对 事 件 信 息 引 起 关 注 的 程 度 影 响 极 大, 一 个 事 件 的 主 体 可 以 有 多 个 社 会 角 色. 这 里 取 主 体 的 职 位 名 称 地 名 的 行 政 区 域 身 份 或 属 性 名 称 商 业 实 体 名 称 商 业 人 士 的 职 位 名 称 或 是 特 殊 人 群 的 社 会 名 称 等 关 键 词, 作 为 社 会 ( 自 然 ) 角 色 的 描 述. 子 集 自 然 灾 害 类 型 名 称, 星 际 名 称 集 合, 地 理 名 的 社 会 ( 自 然 ) 角 色, 国 家 自 然 类 别 集 合, 特 殊 国 家 类 别,, 学 生 类 别 集 合, 未 成 年 人, 敏 感 角 色 ( 如 奶 粉 业 明 胶 业 三 鹿 乳 业 等 ), 普 通 民 众 集 合, 其 他 角 色. 允 许, 1. 我 们 逐 项 分 析,,. 为 自 然 灾 害 严 重 程 度 集 合, 可 继 续 划 分 子 集,. 满 足,, =. 我 们 按 自 然 灾 害 的 级 别 进 行 划 分 子 集 : 较 轻 型 灾 害 集 合, ; 其 他 类 型 灾 害 集 合, ; 为 普 通 民 众 集 合, 其 权 值 为 1, 为 其 他 角 色 集 合, 体 现 完 备 性, 权 值 也 为 1. 与 5.1.1 中 类 似, 进 行 一 阶 谓 词 逻 辑 判 断. 命 题 C: 有 一 个 取 值, 即 当, 逻 辑 为 真. 命 题 D: 当 或, 或 其 中 一 个 成 立 时, 逻 辑 为 真. 则 当 C D 的 合 取 式 为 真 时, 表 示 有 一 次 取 值, 为 1. 当 C D 的 合 取 式 为 假 时, 表 示 有 一 次 取 值, 为 0. 这 种 情 况 下, 对 计 算 值 无 贡 献. 4.1.3 设 表 示 公 众 事 件 的 社 会 关 系, 是 离 散 型 随 机 变 量, 我 们 建 立 的 取 值 集 合, 并 包 含 若 干 个 子 集

, 满 足 =. 由 于 这 里 考 察 的 随 机 变 量 为 事 件 主 体 的 某 种 关 系, 会 对 公 众 事 件 本 身 的 信 息 量 有 很 大 的 贡 献. 我 们 把 关 系 一 项 分 为 强 关 系 中 等 关 系 弱 关 系 其 他 关 系. 强 关 系, ; 其 他 关 系, 如 下 表 所 示. 使 用 二 元 组 来 作 形 式 化 的 表 示 如 下 形 式 : 设 以 表 示 实 体 1, 以 表 示 实 体 2, 则 它 们 之 间 的 关 系 可 以 表 示 为, 且, 若, 则 值 取 得 1, 即, 否 则. 进 行 一 阶 谓 词 逻 辑 判 断 : 命 题 E: 有 一 个 取 值, 即 当, 逻 辑 为 真. 命 题 F: 当 或, 或 其 中 一 个 成 立 时, 逻 辑 为 真. 则 当 E F 的 合 取 式 为 真 时, 表 示 有 一 次 取 值, 为 1. 当 E F 的 合 取 式 为 假 时, 表 示 有 一 次 取 值, 为 0. 这 种 情 况 下, 对 计 算 值 无 贡 献. 4.1.4 分 析 随 机 变 量 ( 主 体 所 属 机 构 名 称 或 所 属 体 系 的 名 称 ) 的 取 值 范 围. 设 为 公 众 事 件 的 机 构 名 称, 是 离 散 型 随 机 变 量, 我 们 建 立 的 取 值 集 合, 并 包 含 若 干 个 子 集 按 机 构 的 重 要 程 度 分 为 5 级, 细 节 略. 进 行 一 阶 谓 词 逻 辑 判 断 :, 满 足 =. 命 题 G: 有 一 个 取 值, 即 当, 逻 辑 为 真. 命 题 H: 当 或, 或 其 中 一 个 成 立 时, 逻 辑 为 真. 则 当 G H 的 合 取 式 为 真 时, 表 示 有 一 次 取 值, 为 1. 当 G H 的 合 取 式 为 假 时, 表 示 有 一 次 取 值, 为 0. 这 种 情 况 下, 对 计 算 值 无 贡 献. 4.1.5 分 析 随 机 变 量 ( 时 间 信 息 ) 的 取 值 范 围 设 为 公 众 事 件 的 时 间 信 息, 是 离 散 型 随 机 变 量, 随 机 变 量 取 值 的 所 属 时 段 作 为 集 合 的 元 素, 并 包 含 若 干 个 子 集,, 满 足 =. 按 时 段 的 重 要 程 度 由 高 到 低, 分 为 6 级 : 第 一 级 为 灾 害 时 期, 如 洪 水 疾 病 暴 发 等 时 期, 其 子 集 为,,. 第 五 级 季 节 性 时 段, 如 春 运 期 休 渔 期 春 播 期 洪 讯 期 冰 霜 期 禁 海 期 等, 第 六 级 为 其 他 时 段. 进 行 一 阶 谓 词 逻 辑 判 断 : 命 题 I: 有 一 个 取 值, 即 当, 逻 辑 为 真. 命 题 J: 当 或, 或 其 中 一 个 成 立 时, 逻 辑 为 真. 则 当 I J 的 合 取 式 为 真 时, 表 示 有 一 次 取 值, 为 1. 当 I J 的 合 取 式 为 假 时, 表 示 有 一 次 取 值, 为 0. 这 种 情 况 下, 对 计 算 值 无 贡 献. 4.1.6 分 析 随 机 变 量 ( 社 会 ( 自 然 ) 行 为 ) 的 取 值 范 围 设 为 舆 情 事 件 的 社 会 行 为, 是 离 散 型 随 机 变 量, 我 们 建 立 的 取 值 集 合, 并 包 含 若 干 个 子 集, 满 足 =. [15] 我 们 依 据 社 会 学 构 建 理 论 对 事 件 的 行 为 进 行 划 分 :

靳 锐 等 : 中 文 公 众 事 件 信 息 熵 计 算 方 法 为 自 然 灾 害 类 社 会 行 为 ; 为 邪 教 类 行 为 反 人 类 行 为 恶 性 刑 事 犯 罪 行 为 ; 宗 教 类 行 为 群 体 性 行 为 ; 造 谣 中 伤 类 行 为 恶 意 商 业 攻 击 类 事 件 恶 意 人 身 攻 击 类 事 件 或 普 通 犯 罪 行 为 等 ; 普 通 个 人 意 见 表 达 商 业 网 络 信 息 发 布 或 讨 论 行 为 普 通 民 事 纠 纷 等, 其 他 行 为 类 型. 进 行 一 阶 谓 词 逻 辑 判 断 : 命 题 K: 有 一 个 取 值, 即 当, 逻 辑 为 真. 命 题 L: 当 或, 或 其 中 一 个 成 立 时, 逻 辑 为 真. 则 当 K L 的 合 取 式 为 真 时, 表 示 有 一 次 取 值, 为 1. 当 K L 的 合 取 式 为 假 时, 表 示 有 一 次 取 值, 为 0. 这 种 情 况 下, 对 计 算 值 无 贡 献. 4.1.7 分 析 随 机 变 量 ( 事 件 发 生 的 地 址 信 息 ) 的 取 值 范 围 设 为 公 众 事 件 的 地 址 信 息, 是 离 散 型 随 机 变 量, 我 们 建 立 的 取 值 集 合, 并 包 含 若 干 个 子 集, 满 足 =. 为 星 系 地 址 名 称, 为 国 家 地 名, 为 国 家 首 都 地 名, 为 国 家 州 省 地 名, 为 省 会 城 市 地 名, 地 市 级 城 市 地 名 集 合, 县 级 地 名, 乡 镇 以 下 级 地 名, 具 有 政 治 意 义 的 地 名 集 合,, 著 名 风 景 区 集 合 著 名 国 家 保 护 区 集 合, 娱 乐 场 所, 其 他 地 名 集 合. 进 行 一 阶 谓 词 逻 辑 判 断 : 命 题 N: 有 一 个 取 值, 即 当, 逻 辑 为 真. 命 题 O: 当 或, 或 其 中 一 个 成 立 时, 逻 辑 为 真. 则 当 N O 的 合 取 式 为 真 时, 表 示 有 一 次 取 值, 为 1. 当 N O 的 合 取 式 为 假 时, 表 示 有 一 次 取 值, 为 0. 这 种 情 况 下, 对 计 算 值 无 贡 献. 4.1.8 分 析 随 机 变 量 ( 事 件 中 数 量 信 息 ) 的 取 值 范 围 设 为 公 众 事 件 社 会 行 为 的 涉 及 数 量, 是 离 散 型 随 机 变 量, 我 们 建 立 的 取 值 集 合, 并 包 含 若 干 个 子 集, 满 足 =. 按 事 件 中 数 量 的 重 要 程 度 分 5 个 级 别 : 第 一 级 的 数 量, 其 子 集 为,,. 第 五 级 的 数 量, 其 子 集 为,,. 进 行 一 阶 谓 词 逻 辑 判 断 : 命 题 P: 有 一 个 取 值, 即 当, 逻 辑 为 真.,, 命 题 Q: 当 或, 或 其 中 一 个 成 立 时, 逻 辑 为 真. 则 当 P Q 的 合 取 式 为 真 时, 表 示 有 一 次 取 值, 为 1. 当 P Q 的 合 取 式 为 假 时, 表 示 有 一 次 取 值, 为 0. 这 种 情 况 下, 对 计 算 值 无 贡 献. 4.1.9 分 析 随 机 变 量 ( 公 众 事 件 中 的 类 别 信 息 ) 的 取 值 范 围 设 为 公 众 事 件 的 类 别 名, 是 离 散 型 随 机 变 量, 我 们 建 立 的 取 值 集 合, 并 包 含 若 干 个 子 集, 满 足 =. [19] 我 们 依 据 社 会 学 构 建 理 论 对 事 件 的 类 别 领 域 进 行 划 分, 此 项 与 项 相 对 应. 为 自 然 灾 害 类 事 件 集 合 ; 为 邪 教 类 反 人 类 事 件 恶 性 刑 事 犯 罪 事 件 集 合 ; 宗 教 类 群 体 性 事 件 群 体 行 为 事 件 集 合 ; 造 谣 中 伤 类 事 件 集 合 恶 意 商 业 攻 击 人 身 攻 击 事 件 ; 普 通 个 人 信 息 发 布 商 业 网

5 实 络 信 息 发 布 或 讨 论 类 事 件, 其 他 事 件 类 别 集 合. 进 行 一 阶 谓 词 逻 辑 判 断 : 命 题 R: 有 一 个 取 值, 即 当, 逻 辑 为 真. 命 题 S: 当 或, 或 其 中 一 个 成 立 时, 逻 辑 为 真. 则 当 R S 的 合 取 式 为 真 时, 表 示 有 一 次 取 值, 为 1. 当 R S 的 合 取 式 为 假 时, 表 示 有 一 次 取 值, 为 0. 这 种 情 况 下, 对 计 算 值 无 贡 献. 4.1.10 为 公 众 事 件 信 息 抽 取 过 程 中 未 抽 取 的 信 息 此 随 机 变 量 是 为 了 体 现 公 众 事 件 信 息 量 定 义 的 完 备 性, 对 事 件 的 信 息 量 计 算 没 有 贡 献, 不 计 算 这 一 项. 9 个 随 机 变 量 知 识 库 的 集 合 划 分 不 是 唯 一 的 划 分 方 法, 这 里 所 做 的 计 算 属 于 社 会 计 算, 要 根 据 实 际 情 况 进 行 调 整. 4.2 计 算 信 息 熵 当 对 事 件 进 行 信 息 抽 取 并 进 行 知 识 库 进 行 匹 配 计 算 后, 可 以 得 到 算 信 息 熵 值, 则. 的 值. 根 据 4.3 节 中 公 式 (3) 计 验 5.1 计 算 信 息 熵 计 算 信 息 抽 取 形 式 的 80 后 清 华 硕 士 任 副 局 长 后 受 贿 1600 万, 被 判 无 期 事 件 的 信 息 熵 值, 如 4.2 中 的 形 式. 逐 项 匹 配 计 算 值, 如 下 表 所 示, 这 里 采 用 自 然 对 数 计 算. Table 3 The weight of 表 3 的 加 权 值 值 104 342 15 8 6 41 10 10 3 H=, 取 小 数 点 后 两 位 有 效 数 字. 5.2 同 类 案 例 事 件 的 熵 值 比 较 以 2012 年 第 四 季 度 公 众 事 件 为 例, 我 们 进 行 了 繁 琐 的 信 息 项 信 息 抽 取, 并 进 行 了 相 应 的 复 杂 计 算, 数 据 量 和 计 算 量 都 较 大, 这 里 选 取 官 员 违 纪 类 事 件 进 行 了 实 验 结 果 展 示, 表 4 中 熵 值 1 的 数 据 项 显 示 为 信 息 抽 取 后 的 计 算 值, 此 实 验 是 为 了 验 证 计 算 方 法 的 单 调 性, 比 较 不 同 的 事 件 包 含 的 信 息 量, 如 图 4 所 示. Table 4 The ranking of calculation 表 4 计 算 结 果 排 序 官 员 违 纪 类 事 件 排 名 熵 值 1 熵 值 2 熵 值 3 街 道 党 工 委 书 记 受 贿 被 审 :732 万 买 景 德 镇 瓷 器 1 36.15 34.58 33.17 山 西 4 妻 10 子 村 官 人 大 代 表 资 格 被 暂 停 已 取 保 候 审 2 35.46 34.31 33.18 杭 州 房 管 局 副 局 长 被 指 拥 20 多 套 房 价 值 数 亿 3 33.89 31.67 30.89 陕 西 表 哥 存 款 涉 20 多 家 银 行 4 33.34 31.24 29.90 广 州 越 秀 区 原 城 管 局 长 涉 嫌 受 贿 178 万 受 审 5 33.23 31.73 30.06 长 沙 副 处 级 官 员 贪 污 7000 余 万 被 小 三 情 妇 揭 发 6 31.64 30.13 28.79 新 疆 乌 苏 公 安 局 长 被 指 包 养 双 胞 胎 当 地 纪 委 调 查 7 30.91 29.86 29.04 太 原 市 公 安 局 局 长 被 停 职 网 传 其 子 涉 醉 驾 殴 打 交 警 8 30.07 28.63 27.94 湖 北 一 女 县 长 被 指 持 钞 票 炫 富 当 地 宣 传 部 门 否 认 9 28.10 27.06 25.95 广 西 桂 林 一 村 委 组 长 涉 嫌 贪 污 9 万 公 款 被 判 刑 8 年 10 26.68 25.31 24.37 广 州 一 城 管 队 长 受 贿 400 余 万 称 怕 得 罪 人 才 收 钱 11 26.63 25.02 23.88 中 纪 委 : 李 春 城 涉 嫌 严 重 违 纪 正 接 受 组 织 调 查 12 26.62 25.31 24.11 80 后 清 华 硕 士 任 副 局 长 后 受 贿 1600 万 被 判 无 期 13 26.48 24.98 24.00 山 西 价 值 2 亿 煤 矿 37 万 贱 卖 当 地 纪 委 介 入 调 查 14 25.61 24.61 23.50 国 家 能 源 局 回 应 局 长 被 举 报 : 纯 属 污 蔑 造 谣 正 报 案 15 25.47 23.88 22.84 湖 北 通 山 31 岁 女 县 长 8 年 6 次 破 格 提 拔 被 疑 潜 规 则 16 25.10 24.07 23.35 山 东 临 沂 一 副 县 级 干 部 贪 污 19 万 受 贿 217 万 余 元 被 判 刑 17 25.05 23.80 22.93

靳 锐 等 : 中 文 公 众 事 件 信 息 熵 计 算 方 法 长 沙 市 规 划 局 原 高 官 拥 16 套 房 女 儿 过 生 日 给 20 万 18 24.72 23.49 22.88 北 京 原 朝 阳 副 区 长 刘 希 泉 之 子 受 贿 诈 骗 拆 迁 款 477 万 获 刑 20 年 19 23.72 22.75 21.93 中 国 党 政 机 关 255 人 因 公 务 用 车 问 题 被 处 分 20 22.46 21.35 20.41 重 庆 南 川 人 民 医 院 骨 科 主 任 受 贿 逾 356 万 获 刑 11 年 21 21.36 20.60 19.86 涪 陵 艳 照 门 事 件 当 事 者 为 执 法 干 部 监 察 局 立 案 调 查 22 17.33 16.71 15.87 我 们 根 据 上 表 的 数 据 排 序 给 出 趋 势 图, 熵 值 1 列 项 为 纵 坐 标, 可 以 看 到, 得 到 了 一 个 趋 势 性 的 单 调 关 系, 趋 势 线 表 明 了 我 们 计 算 方 法 的 合 理 性, 与 理 论 分 析 4.4 中 单 调 性 证 明 的 结 论 相 符 合, 是 计 算 方 法 科 学 性 的 体 现. 我 们 看 到, 其 中 最 小 的 熵 值 事 件 为 涪 陵 艳 照 门 事 件 当 事 者 为 执 法 干 部 监 察 局 立 案 调 查, 值 为 17.33, 这 是 因 为 其 文 本 事 件 描 述 很 短, 处 于 事 件 的 爆 发 初 期, 内 容 所 包 含 的 信 息 较 少 的 缘 故 ; 熵 值 最 大 的 事 件 为 街 道 党 工 委 书 记 受 贿 被 审 :732 万 买 景 德 镇 瓷 器, 因 为 事 件 已 经 调 查 完 毕, 并 且 已 经 由 法 院 给 出 了 详 细 的 判 决, 其 文 本 内 容 包 含 详 细 的 内 容, 所 以 其 信 息 量 较 大, 这 与 我 们 的 直 觉 接 近. Fig.4 The verification of the calculation method rationality 图 4 计 算 方 法 的 合 理 性 验 证 5.3 信 息 抽 取 方 法 对 计 算 结 果 的 影 响 熵 的 计 算 值 必 然 受 到 信 息 抽 取 方 法 的 影 响, 为 了 获 得 更 为 合 理 的 计 算 值, 往 往 需 要 对 信 息 抽 取 项 进 行 以 下 两 步 处 理. 1) 重 复 项 过 滤 : 这 个 过 程 主 要 是 过 滤 掉 内 容 重 复 抽 取 的 信 息, 计 算 结 果 如 表 4 中 熵 值 2 列 项 所 示. 2) 共 指 消 解 : 过 滤 之 后, 进 一 步 进 行 共 指 消 解 处 理, 消 除 掉 具 有 共 指 关 系 的 冗 余 信 息 抽 取 项, 计 算 结 果 如 表 4 中 熵 值 3 列 项 所 示. 图 4 显 示 的 是 进 行 信 息 抽 取 后 的 计 算 结 果, 当 进 行 重 复 项 过 滤 与 共 指 消 解 后 实 验 结 果 对 比 如 图 5 所 示, 熵 值 比 较 接 近 的 事 件 排 序 有 些 许 的 变 化, 但 计 算 结 果 的 单 调 性 函 数 状 态 保 持 良 好.

6 结 Fig.5 The experiment of contrast 图 5 对 比 试 验 实 验 结 果 表 明, 经 过 滤 与 共 指 消 解 处 理 后, 对 不 同 类 型 事 件 的 计 算 结 果 影 响 类 似, 熵 值 一 定 幅 度 上 有 所 减 小. 束 语 本 文 应 用 香 农 信 息 论 和 最 大 熵 理 论, 给 出 了 一 个 合 理 而 且 可 行 的 计 算 方 法, 解 决 了 互 联 网 公 众 事 件 信 息 熵 的 定 量 化 计 算 问 题. 文 中 所 提 到 的 计 算 方 法 是 最 大 熵 理 论 在 社 会 计 算 中 的 一 个 直 接 应 用, 对 于 解 决 其 他 社 会 计 算 定 量 化 问 题, 应 该 有 一 定 的 借 鉴 意 义. 文 中 所 使 用 的 计 算 方 法, 仍 然 基 于 当 前 的 社 会 计 算 理 论 基 础, 为 了 获 得 更 加 合 理 的 计 算 结 果, 后 续 的 研 究 工 作 可 以 探 讨 带 有 加 权 值 的 社 会 计 算 方 法, 这 部 分 内 容 留 待 后 续 工 作 中 单 独 进 行 阐 述, 并 探 讨 社 会 计 算 的 公 理 化 体 系 问 题 [21], 也 希 望 其 他 的 研 究 人 员 关 注 该 问 题, 共 同 促 进 这 一 领 域 的 研 究 工 作 进 展. 致 谢 在 此, 我 们 向 对 本 文 的 工 作 给 予 支 持 和 建 议 的 学 者, 尤 其 是 北 京 邮 电 大 学 的 方 滨 兴 院 士, 您 提 出 的 建 议 使 我 在 寻 找 单 调 函 数 的 工 作 中 得 到 了 启 发, 最 终 得 以 完 成 了 本 文 的 工 作, 在 此 表 示 感 谢. References: [1] Arab Spring,https://en.wikipedia.org/wiki/Arab_Spring. [2] public opinion, http://en.wikipedia.org/wiki/public_opinion. [3] Valdimer Orlando Key Jr. Public Opinion and American Democarcy. New York,John Wiley,June 9, 2012. [4] Mueller, John E, War, presidents, and public opinion.wiley. New York. 1973. [5] Kevin Lerman, Ari Gilder and Mark Dredze, Fernando Pereira. Reading the Markets:Forecasting Public Opinion of Political Candidates by News Analysis. Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008), pages 473 480 Manchester, August 2008. [6] Cuneyt Gurcan Akcora, Murat Ali Bayir,Murat Demirbas. Hakan Ferhatosmanoglu. Identifying Breakpoints in Public Opinion. 1st Workshop on Social Media Analytics (SOMA 10), July 25, 2010,Washington, DC, USA. Copyright 2010 ACM978-1-4503-0217-3. [7] Li Juan,Zhou Xueguang,and Chen Bin. Research on Analysis and monitoring of Internet Public Opinion. Proceedings of the 2012 International Conference of Modern Computer Science and Applications Advances in Intelligent Systems and Computing Volume 191, 2013, pp 449-453. [8] Social computing. http://en.wikipedia.org/wiki/social_computing. [9] E.T.Jaynes Information and statistical mechanics.[j]physical Review.1957,32(1).3-7. [10] D. Lazer, A. Pentland, L. Adamic, et al. SOCIAL SCIENCE:Computational Social Science. Science,2009, vol. 323,no. 5915:721-723, 2009.

靳 锐 等 : 中 文 公 众 事 件 信 息 熵 计 算 方 法 [11] H. Chen, F.-Y. Wang and D. Zeng. Intelligence and Security Informatics for Homeland Security: Information,Communication, and Transportation. IEEE Transactions on Intelligent Transportation Systems, 2004, vol. 5, no.4:329-341. 附 中 文 参 考 文 献 : [12] 王 飞 跃. 从 社 会 计 算 到 社 会 制 造 : 一 场 即 将 来 临 的 产 业 革 命. DOI 10.3969/j.issn.1000-3045.2012.06.002. 中 国 科 学 院 战 略 与 决 策 研 究. 北 京,2012. [13] 王 飞 跃, 曾 大 军, 曹 志 冬. 网 络 虚 拟 社 会 中 非 常 规 安 全 问 题 与 社 会 计 算 方 法. doi 10.3981/j.issn.1000-7857.2011.12.001. 科 技 导 报. 北 京.2011. [14] 王 飞 跃. 社 会 计 算 与 数 字 网 络 化 社 会 的 动 态 分 析. [ 文 章 编 号 ] 1000-7857( 2005) 09-0004- 03. 科 技 导 报. 北 京.2005. [15] 王 飞 跃, 曾 大 军, 毛 文 吉. 社 会 计 算 的 意 义 发 展 与 研 究 状 况.e-Science 2010 年 7 月. [16] 陈 昱, 张 慧 琳. 社 会 计 算 在 信 息 安 全 中 的 应 用. 清 华 大 学 学 报.2011:51-10. [17] Raymond W.Yeung,Information( 加 拿 大 ). Theory and Network Coding. 信 息 论 与 网 络 编 码. 高 教 出 版 社. 北 京.2011. [18] 李 宪 东. 基 于 最 大 熵 原 理 的 确 定 概 率 分 布 的 方 法 研 究, 硕 士 学 位 论 文. 华 北 电 力 大 学 ( 北 京 ).2008. [19] 马 尔 利 姆 沃 特 斯 (Malcolm Waters) ( 澳 大 利 亚 ). 译 者 : 杨 善 华. 现 代 社 会 学 理 论. 华 夏 出 版 社. 北 京. 2000. [20] 谭 红 叶. 中 文 事 件 抽 取 关 键 技 术 研 究. 博 士 论 文. 哈 尔 滨 工 业 大 学.2008. [21] 赵 鑫 珊. 我 对 人 类 社 会 公 理 的 敬 畏. 人 文 素 养 读 本.2006.