基于 BERT 深度语言模型的智慧政务文本挖掘应用 1

目录 1 绪论... 4 1.1 智慧政务文本挖掘的意义... 4 1.2 智慧政务文本挖掘的目标... 4 1.3 语言智能的里程碑技术 :BERT 深度语言模型介绍... 5 1.4 本文的总体框架... 7 1.5 本文主要的创新之处... 8 2 基于 BERT 模型的留言自动分类... 8 2.1 任务介绍与实验数据集... 8 2.2 实验流程... 9 2.3 BERT 分类效果及其与其他模型的对比分析... 10 3 基于语义相似度与 BERT 命名实体识别的热点问题挖掘... 13 3.1 任务介绍与实验数据集... 14 3.2 无须预设聚类数目的 AP 聚类算法介绍... 14 3.3 热点问题总体挖掘流程... 15 3.4 热度评价指标 L 设计... 18 3.5 实验结果分析... 19 4 多特征融合的答复意见质量评价... 20 4.1 任务介绍与实验数据集... 20 4.2 答复意见的质量评价指标... 21 4.3 实验结果分析... 22 5 结语... 23 参考文献... 24 2

摘要 : 本文基于近年来语言智能的里程碑技术 :BERT 深度语言模型, 围绕智慧政务文本挖掘的主题, 完成了 (1) 留言自动分类 ( 2) 热点问题挖掘 (3) 答复意见质量评价 3 项工作在任务 (1) 上,BERT 模型在测试集上的 F- score 达到了 92.89%, 明显优于基线模型 LSTM 与 Fasttext 在任务(2) 上, 我们创新提出了基于 Affinity Propagation 的算法对留言进行初步聚类, 再通过命名实体识别进一步过滤异常值的策略并结合话题时长留言数留言的点赞与反对数共 3 类因素, 综合评价了每个问题的热度值在任务 (3) 上, 我们从相关性可解释性完整性等角度出发, 提出了 9 项特征, 综合评价答复意见这有助于客观全面反映答复意见的质量, 提高政府工作人员的办事水平与群众的满意度关键词 :BERT 深度模型 ; 智慧政务 ; 文本分类 ;AP 聚类 ; 命名实体识别 ; 热点挖掘 ; 答复质量评价 Abstract: Based on the milestone technology in language intelligence: BERT, focused on the topic government administration Intelligence, this paper completed 3 tasks: (1)automatic message classification, (2) hot spots mining,(3) evaluating the quality of reply. For task (1), the F-score of BERT on test set reached 92.89%, which is superior to baseline LSTM and Fasttext model. For task(2), we put forward a new strategy which firstly did message clustering using Affinity Propagation algorithm, then further excluded outliers through Named Entity Recognition. We combined 3 features: duration, the number of messages, and the number of like and dislike votes, thus evaluating the degree of heat of every topic. For task(3), taking correlation, interpretability and integrity into consideration, we put forward 9 features to assess each reply. This system is helpful to reflect the quality of each reply objectively and completely, and improve the working level of civil servants and the satisfaction of people. Key words: BERT deep model; government administration Intelligence; text classification; AP clustering; Named Entity Recognition; hot spots mining; the evaluation of reply 3

1. 绪论 1.1 智慧政务文本挖掘的意义近年来, 随着互联网 + 政务服务的推进, 市长信箱民意留言板阳光热线等网络问政平台逐步成为政府已经成为政府了解民情听取民声体察民意汇聚民智的一个重要桥梁同时, 随着大数据云计算人工智能特别是语言智能等技术的不断突破, 建立起基于自然语言处理 (Natural Language Processing, NLP) 技术的智慧政务系统, 已成为社会治理创新发展的迫切需求与新趋势如何运用 NLP 技术, 批量智能高效地处理海量的政务文本, 进而建立智能化的电子政务系统, 是服务型政府建设中的一个重要子课题这对于提升政府的施政效率与治理水平, 增强人民群众的幸福感, 促进社会和谐, 都具有重大的积极意义 1.2 智慧政务文本挖掘的目标智慧政务文本挖掘的目标主要包含 3 部分, 分别是 (1) 群众留言的自动分类 ;(2) 群众留言的热点话题发现 ;(3) 留言答复意见的质量评价 (1) 群众留言的自动分类许多网络问政平台, 每天都会接收大量的群众留言平台的工作人员首先按照预先设置的分类体系, 对留言进行归类这便于将数目浩繁的留言分派至相应的职能部门处理, 对症下药目前, 大部分政务系统的群众留言, 还依赖于人工凭直觉分类不仅工作量大效率低, 而且差错率高因此, 利用自然语言处理中的文本分类 (Text classification) 技术实现留言自动分类, 能极大地减轻政务工作人员的负担 (2) 群众留言的热点话题发现在海量的群众留言中, 存在着许多反映共同问题表达共同诉求的留言对它们进行针对性地处理, 有利于分清民情诉求的轻重缓急, 提升政府服务的质量与效率这属于 NLP 中的话题检测与跟踪 (Topic Detection and Tracking, TDT) 的课题范畴因此, 我们需要探索如何从大量留言中, 自动发现某一时段内群众集中反映的热点问题 4

(3) 留言答复意见的质量评价对于每一条群众留言, 政府工作人员会对其答复, 回应问题的处理情况, 告知相关政策规定, 或提供建议意见等自动地评价答复意见的质量, 有助于将群众的诉求落到实处, 改善政府的办事水平因此, 在论文的第四章, 我们将融合 9 项指标, 从相关性完整性可解释性条理性等角度, 自动地综合评价答复意见的质量 1.3 语言智能的里程碑技术 :BERT 深度语言模型介绍基于神经网络架构的深度学习算法由于其能自动提取数据特征, 以及其强大的拟合泛化能力, 已经在计算机视觉 (CV) 自然语言处理(NLP) 机器人 (robotics) 推荐系统(recommendation system) 等多个人工智能领域取得了重大突破自从 2013 年谷歌的 Mikolov 团队提出词汇语义表示模型 word2vec [1] 后, 海量文本中的每一个词都被表示为一个稠密低维的实值向量, 自然语言处理领域也进入了深度学习时代近年来,NLP 界以 ELMo [2] BERT [3] 代表的预训练深度语言模型 (Pre-trained Language Model) 在以往神经网络模型的基础上, 进一步改善了文本语义表示的效果, 并在文本分类命名实体识别信息抽取人机对话机器翻译阅读理解等 NLP 各项下游任务中取得了重大突破, 频繁且大幅度刷新了之前地最好结果例如 2018 年 Google 团队发布的 BERT 模型, 在 11 项不同的 NLP 测试中, 均表现出最佳效果, 将通用语言理解评估 (GLUE) 基准提升至 80.4%, 超出以往最佳模型 7.6% [4] 以 BERT 为代表的深度语言模型已经成为 NLP 里程碑式的技术预训练深度模型应用于下游任务, 主要分为两种策略 : 一是基于特征的 (feature based) 策略, 即固定的语言特征向量从模型中提取出来服务于后续任务, 以 ELMo 模型为代表二是微调 (Fine-tuning) 策略, 即在模型顶部添加着眼于具体任务的分类层, 并且模型所有的参数也随着下游任务的训练适度优化微调策略实质上是一种迁移学习 (Transfer Learning), 可以充分利用已训练的深度模型, 迁移到新的任务上与从零开始训练模型相比, 微调不仅节省了大量的计算开销, 也显著提高了 5

模型的精度而 BERT 模型就是采用微调策略的预训练模型的代表 [3] BERT (Bidirectional Encoder Representations from Transformers) 是一种基于 Transformer 架构的预训练深度学习语言模型, 其结构主要如图 1 所示 : 图 1 BERT 模型基本架构以中文的 BERT 预训练模型为例, 图 1 的 E1,E2, EN 表示在首尾分别添加 [CLS] 和 [SEP] 标记的中文字符它们依次经过 12 或 24 层双向的 Transformer(Trm) 编码器, 就可以得到文本字符语境化的向量表示 (Contextual Embedding) Transformer 是一个基于自注意力 (self-attention) 机制的编码 - 解码器 [5] 最底层的 Transformer 编码器的输入为字符向量字符位置向量与句子片段向量之和模型内每一层均由多头自注意力 (Multi-head Self-attention) 和前馈神经网络 (Feed-forward Neural Networks) 两部分构成, 前者使编码器在给每个字符编码时, 能关注到周围其他字符的信息 ; 后者用于增强模型的拟合能力模型的每一层经过一个相加与归一化 (add & norm) 操作后, 生成新的字符向量, 作为下一层编码器的输入顶层编码器输出的 [CLS] 标记的向量 T1, 可以视为整个句子的语义表征 ; 而顶层编码器输出的向量 T2,T3 则分别是字符 E2,E3 语境化的向量表示它们为文本分类命名实体识别等后续任务提供了重要支撑另外, 为增强语义表示的能力,BERT 提出了两个预训练的目标任务 : 遮罩语言模型 (Masked LM, MLM) 和下句预测 (Next Sentence Prediction, NSP) MLM 实质是一个完型填空任务, 中文语料中 15% 的字会被选中, 其中的 80% 被替换为 6

[MASK],10% 被随机替换为另一个字, 剩下的 10% 保持原字模型需要根据句中的其他字, 生成被选中字位置的向量, 经由一个线性分类器, 预测被选中的字被选中的 15% 的字之所以没有全部替换为 [MASK], 是因为该遮罩标记在实际下游任务的语料中并不存在出于与后面任务保持一致的考虑,BERT 需按一定的比例在预测的字的位置放置原字或者某个随机字, 使得模型更偏向于利用上下文信息预测被选中字在下句预测任务中, 模型选择若干句子对, 其中有 50% 的概率两句相邻,50% 的概率两句不相邻模型通过上述两个目标任务, 能够较好地学习到文本中字词和句间的语义信息考虑到 BERT 模型在语言智能领域的显著优势, 本文拟将该模型运用到智慧政务文本挖掘之中采取微调 (Fine-tuning) 的迁移学习策略, 在文本分类文本聚类命名实体识别 (Named Entity Recognition, NER) 等具体任务上, 充分 1 发挥 BERT 中文模型的功效 1.4 本文的总体框架本文的总体组织框架如下 : 第 1 章绪论介绍智慧政务文本挖掘的意义和总体目标 ; 介绍本文主要采用的深度语言模型 BERT 的原理 ; 介绍本文的总体框架与主要创新点第 2 章基于 BERT 模型的留言自动分类首先, 介绍该任务的目标与实验数据集 ; 第二, 设计基于 BERT 模型的留言自动分类算法 ; 最后, 对比分析 BERT 模型 LSTM 模型 FastText 模型在文本分类上的效果 ( 各类的 F1 值与整体的 F-score) 第 3 章基于语义相似度与 BERT 命名实体识别的留言热点问题挖掘首先, 介绍该任务的目标与实验数据集 ; 第二, 基于 BERT 模型, 将每条留言的语义向量与命名实体 2 (Named Entity) 作为特征表示 ; 第三, 利用基于图的 Affinity Propagation(AP) 聚类算法, 实现留言的无监督自动聚类 ; 1 原始的 BERT 中文模型, 由谷歌公司在海量的中文维基百科数据上训练而成 2 命名实体 (Named Entity) 指文本中的人名地名机构名时间等专有名词命名实体识别 (NER) 是自然语言处理领域的一项重要任务 7

最后, 对于每个聚类后的话题 ( 问题 ), 综合考虑 (1) 话题时长 (2) 话题包含的留言数量 ;(3) 每条留言的点赞数与反对数 3 项指标, 设计话题热度评价体系并予以实现第 4 章多特征融合的答复意见质量评价首先, 介绍该任务的目标与实验数据集 ; 第二, 根据答复意见的长度答复的及时性关键词覆盖率答复与留言的相关性答复的专业性等 9 项特征指标, 综合评价答复意见的质量最后, 在程序上实现质量评价系统, 并进行效果分析第 5 章结语总结本文的工作, 展望今后的改进方向 1.5 本文主要的创新之处 (1) 将语言智能领域最新的 BERT 深度模型应用于政务文本挖掘基于 BERT 的留言分类模型明显优于前人的 LSTM 模型与 Fasttext 模型 (2) 针对以往热点话题聚类模型健壮性 (Robustness) 差效果不佳的问题, 提出了利用命名实体识别 (NER) 任务增强留言区分度的策略, 进而显著改善了留言无监督聚类的效果 (3) 针对以往无监督聚类任务不知如何预设聚类数量的问题, 采用了基于距离的 Affinity Propagation(AP, 亲和力传播 ) 的聚类算法使得自动确定聚类数量成为可能, 节省了大量的试错成本 (4) 从内容丰富度答复相关度答复专业性答复时效性等角度, 提出了 9 项合一答复意见质量的评测方法更加全面地反映了政府工作人员反馈群众留言的水平 2. 基于 BERT 模型的留言自动分类 2.1 任务介绍与实验数据集该任务属于自然语言处理中的文本分类任务附件 2 包含了 9210 条群众在网 8

络平台上发布的留言, 分为城乡建设环境保护交通运输教育文体劳动和社会保障商贸旅游卫生计生共 7 类每条留言均包含留言主题留言详情的字段我们将数据集打乱顺序后, 按照 8:1:1 的比例, 分别划分训练集验证集和测试集包括 BERT 在内的所有模型, 均在相同的训练集验证集上进行训练调整超参数, 并在相同的测试集上进行测试 2.2 实验流程在输入的文本方面, 考虑到 BERT 模型允许单一文本的最长长度为 512 个字符, 加之有 Sun(2019) [6] 等人的相关实验表明, 长文本截取前 512 个字符, 已能在 BERT 模型中取得理想的分类效果, 我们拼接了每一条留言的主题文本与详情文本, 截取前 512 个字符作为模型的输入在超参数设置方面, 我们参考 Sun(2019) [6] 等人在 BERT 上的文本分类经验, 如下设置超参数 : 学习率 lr=2e-5, 衰变因子 ξ=0.95 此外, 训练遵循早停 (early stopping) 原则, 当模型的损失在验证集上不再下降, 就视为模型在验证集上已经收敛, 可以停止训练这能够有效地避免过拟合 (Overfitting) 问题, 保证模型的泛化能力以及在测试集上的表现如 1.3 节所述, 对于文本分类任务,BERT 模型提取顶层的符号 [CLS] 的特征向量 v(768 维 ), 作为整个文本的特征表示, 再后接一个 768*n 的全连接层 (Fullyconnected layer)w(n 为文本类别数 ), 最后通过 softmax 函数归一化, 输出一个文本分别属于各个类别 c 的概率 : P(c v) = softmax(w v) 其中 softmax 函数 : softmax(x c ) = exp (x c ) n i=1 exp (x i ) 在训练过程中, 模型会调整全连接层 W 以及 BERT 12 层模型的参数, 使得每个文本的正确类别所对应的概率最大化 9

0.21 0.205 0.2 0.195 0.19 0.185 0.18 epoch1 epoch2 epoch3 BERT 模型在验证集上的 loss 图 2 BERT 模型在验证集上的损失变化图如图 2 所示, 当 BERT 模型在训练第 3 轮 (epoch) 时, 在验证集上的损失开始上升 0.938 0.936 0.934 0.932 0.93 0.9344 0.9366 0.928 0.926 0.9268 epoch1 epoch2 epoch3 BERT 模型在验证集上的 accuracy 图 3 BERT 模型在验证集上的 accuracy 随训练轮数的变化情况图 3 关于 BERT 模型在验证集上的正确率 (accuracy) 变化情况也表明, 在第 2 轮训练时, 分类的正确率较前一次明显提升约 0.76%; 但第 3 轮训练的 accuracy 提升已不明显因此, 综合模型在验证集上的损失与正确率, 根据早停 (early stopping) 原则, 我们认为第 2 轮训练结束后的 BERT 分类模型已经收敛, 可以作为最终模型 2.3 BERT 分类效果及其与其他模型的对比分析最终收敛的 BERT 模型在测试集上测试的结果如表 1 所示 : 10

留言类别查准率 P 查全率 R F1 值城乡建设 95.68% 88.50% 91.95% 卫生计生 89.77% 96.34% 92.94% 商贸旅游 88.19% 91.80% 89.96% 劳动和社会保障 96.89% 94.92% 95.90% 教育文体 95.63% 96.84% 96.23% 交通运输 82.61% 91.94% 87.02% 环境保护 96.77% 95.74% 96.26% 表 1: BERT 模型在测试集上的各类分类效果为证明 BERT 模型在留言分类任务上的良好能力, 我们将基于字向量的 LSTM(Long Short-Term Memory) [7] 和基于 Fasttext [8] 的 2 个文本分类模型作为基线 (baseline) 模型, 比较 BERT 与基线模型的效果 LSTM 模型作为循环神经网络 (RNN) 的变种, 是一种基于时间序列的链式结构它克服了传统 RNN 模型梯度消失的缺陷, 成为近年来 NLP 领域应用较广泛的特征提取器我们使用的 LSTM 模型为加入了 dropout 机制的通用改良版本 [9] dropout 机制能有效避免 LSTM 模型的过拟合问题与基于 BERT 的文本分类模型类似, 输入的文本经过 LSTM 隐层后, 通过 softmax 归一化层, 对 LSTM 隐层传递来的信息进行学习, 并计算出待分类文本属于各类别的概率 [10] Fasttext 模型是 2017 年 Facebook 公司 AI 团队提出的一种快速文本分类的模型其基本架构如图 4 所示, 它包含 3 个部分 :input layer 输入层 hidden layer 隐藏层和 output layer 输出层首先 ; 输入层的 x1,x2,,xn 1,xN 表示一个文本中的 N 个 n-gram 向量其次, 隐藏层将向量特征求和取平均, 并采用单层神经网络学习最后在输出层, 通过一个线性分类器, 输出一个文本分别属于各类别的概率 [8] 图 4 Fasttext 文本分类模型的基本结构 11

LSTM 文本分类模型隐藏层节点数 :128 Fasttext 文本分类模型字向量维度 :100 维优化算法 :Adam 学习率 :0.1 batch_size:4 增强语义的 N-gram 类型 :2-gram 表 2: LSTM 与 Fasttext 模型的超参数设置情况 LSTM 和 Fasttext 模型超参数设置情况如表 2 所示 BERT 模型与上述两个基线模型均使用相同的训练验证测试集文本分类通用评价指标为查准率 (Precision, P) 查全率(Recall, R) 与 F1 值如表 3 所示, 各模型在测试集上预测了每条留言所属的类别后, 可以得到一个分类结果的混淆矩阵 : 真实的类别预测的类别预测为正类预测为负类真实为正类 TP( 真正类 ) FN( 假负类 ) 真实为负类 FP( 假正类 ) TN( 真负类 ) 表 3 分类结果混淆矩阵已知每一类的混淆矩阵后, 该类的查准率查全率如下两式计算 : 查准率 P= TP TP+FP 查全率 R= TP TP+FN F1 值综合了上述两个指标, 是它们的调和均值 : F1 = 2 P R P+R 如果要评测一个模型在综合的分类能力, 可用 F-Score 衡量 : F-score = 1 n 2P i R i n i=1 P i +R i 其中 n 为类别数量,P i 是第 i 类查准率 ;R i 是第 i 类的查全率我们先观察三个模型在测试集上的 F1 值, 如图 5 所示 : 12

100.00% 95.00% 90.00% 85.00% 80.00% 75.00% BERT LSTM Fasttext 图 5 三个模型在测试集各类上的 F1 值对比如图 5 所示, 在 7 类留言文本中,BERT 在 6 类上的分类 F1 值均取得了最佳效果仅在交通运输这一类上,Fasttext 的分类效果略优于 BERT 衡量各模型综合分类能力的 F-score 分数如表 4 所示 : BERT 92.89% LSTM 81.21% Fasttext 91.03% 表 4 各分类模型的 F-score 可以看出, 基于 BERT 的留言文本分类算法取得了最佳效果, 其 F-score 高出 LSTM 模型约 11.6%, 也高出广泛应用的文本分类模型 Fasttext 约 1.8% BERT 深度语言模型高达 92.89% 的 F-score 证明了它在政务留言文本分类任务上优越性与实用性 3. 基于语义相似度与 BERT 命名实体识别的热点问题挖掘 13

3.1 任务介绍与实验数据集从大量群众留言中及时发现热点问题, 有助于政府工作分清轻重缓急, 相关部门能有针对性地处理, 提升服务效率附件 3 包含了 4326 条群众的留言, 每条留言均包括留言编号留言用户留言主题留言时间留言详情反对数点赞数一共 7 个字段首先, 我们需要根据语义相似度, 尽可能将描述同一问题的留言聚为一类再设计合理的热度评价指标, 计算每一类问题的热度值并排序 3.2 无须预设聚类数目的 AP 聚类算法介绍在该任务中, 我们将对 4326 条群众留言进行无监督聚类由于我们预先不知道留言大致的类别数量, 如果采用诸如 K-means 等需要预设聚类数目的算法, 将会消耗大量的人力与计算开销, 试错成本较高因此, 经过权衡比较之后, 我们采用一种无须预设聚类数目的 Affinity Propagation 聚类 ( 简称 AP 聚类 ) 算法本节将概述 AP 聚类的基本原理 AP 聚类是 2007 年 Frey 等人在著名科学杂志 science 上提出的算法 [11] 它根据 N 个数据点之间的相似度进行聚类 AP 算法不需要事先指定聚类数目, 而是将所有的数据点都作为潜在的聚类中心, 称之为 exampler N 个数据点之间的相似度, 就组成一个 N*N 的相似度矩阵 S, 并以对角线上的值 S(i,i) 作为第 i 个数据点能否成为聚类中心 k 的评判依据, 该值越大, 表明该数据点成为聚类中心的可能性也就越大 S(i,i) 也称之为参考度 p(preference) AP 算法中传递两种类型的信息 : 一是吸引度 (responsibility)r(i, k) 它表示从点 i 发送到聚类中心 k 的数值信息, 反映出 k 点作为 i 点聚类中心的合适程度二是归属度 (availability)a(i, k) 它表示从聚类中心 k 发送到 i 的数值信息, 反映出 i 点选择 k 点作为聚类中心的合适程度可以看出, 吸引度和归属度越强, 则 k 点作为 i 点聚类中心的可能性就越大 AP 算法就是通过多次迭代, 更新每一个点的吸引度和归属度信息当已经历最大迭代次数, 或数值收敛, 则对于任意点 i, 计算它与所有样本的吸引度与之和, 14

那么 i 点的聚类中心 k 点如下式选择 : k = argmax(a(i, k) + r(i, k)) k 如上所述,AP 聚类的核心, 就是吸引度 (responsibility) 归属度 (availability) 两个信息量交替更新的流程吸引度 r(i,k) 的迭代更新公式 : r(i,k) = S(i,k) max {a(i, k`) + S(i, k`)} k`,k` k 上式表示 r(i,k) 由点 i 与点 k 的相似度, 减去点 i 和其他点的相似度与归属度之和的最大值归属度 a(i,k) 的迭代更新公式 : if i k: else: a(i,k) = min{0,r(k,k)+ i`,i` {i,k} max {0, r(i`, k)} } a(k,k) = i`,i` {i,k} max {0, r(i`, k)} AP 聚类具有如下优势 :(1) 不需要事先指定聚类的数量聚类的数量, 由参考度 (preference) S(i,i) 的初始值与数据的分布共同决定 ;(2) 聚类的结果不会多次运行而随机变化这比通用的 k-means 聚类更加稳定 ;(3) 适用于非对称与稀疏的相似性矩阵 [12] 3.3 热点问题总体挖掘流程留言热点问题自动挖掘的总体流程如图 6 所示 : 15

图 6 留言热点话题自动挖掘的总体流程第一步 :BERT 模型增量训练, 使之学习到留言的句法语义信息如前文 1.3 节所述,BERT 使用了两个训练任务来增强语义表示的能力 : Masked Language Model 遮罩语言模型 (MLM) 与 Next Sentence Prediction 下句预测 (NSP) 前者是一个完形填空任务, 让模型根据上下文去预测被遮住的词语 ; 后者是根据前一句话, 预测下一句话的内容 [3] 我们以每条留言的主题与详情拼接, 作为输入文本, 在 MLM 与 NSP 任务上对 BERT 模型进行增量训练这使得 BERT 中文模型能更好地适用于我们的语料数据第二步 : 获取留言的语义向量, 利用 AP 聚类算法初步聚类利用增量训练的 BERT, 获取每条留言的语义向量表示利用无须预设聚类数目的 AP 聚类算法, 将 4326 条留言初步聚为 701 类关于 AP 聚类的基本原 16

理, 我们在 3.2 节中已作阐述第三步 : 基于 BERT 模型, 识别留言中的命名实体设置条件集合 R, 过滤异常值由于聚类是一种无监督任务, 在留言数据量较大, 内容较为复杂的情况下, 留言之间往往缺少区分度例如表 5 所示, 在第二步初步聚合而成的 701 类中, 有 5 条留言被聚集成了一类 : 留言编号留言主题留言详情 289834 A7 县文体中心乒羽中心何时能建成开放? 请问 A7 县文体中心乒羽中心何时能正式对外开放 281722 建议 A7 县文体中心乒乓球馆尽快对外开放 A7 县东六路的文体中心乒乓球馆消防整改几个月了, 192043 A7 县文体中心乒羽中心何时能建成开放? 请问 A7 县文体中心建成好几年了, 一直听闻建有乒羽中心, 258902 异常成员请问非电力局的人能否在 A 市电力局的体育馆内打球? 您好!C 市电力局建了一高大上的室内体育馆, 234468 异常成员 A 市贺隆体育馆是否有启用的计划安排? 贺隆体育馆总是闲置在那里也不是个事吧表 5 AP 聚类算法初步聚类后的某一类示例可以看出, 编号为 289834 281722 192043 的留言反映的是同一类问题, 都是关于 A7 县文体中心的开放问题而编号为 258902 234468 的留言, 本来反映的问题与 A7 县文体中心无关, 但由于它们也涉及了体育馆的内容, 所以单纯按照语义向量的相似度, 它们就容易与前 3 条留言混为一类对于留言聚类于热点挖掘任务而言, 它们实际上是异常值考虑到陈述一个热点问题, 往往会涉及人名地名机构名等专有名词, 我们提出一种基于 BERT 模型命名实体识别的留言聚类异常值过滤方法命名实体识别 (Named Entity Recognition,NER), 就是指计算机从文本中自动识别出人名地名机构名等专有名词的过程具体的程序实现, 参考在 NLP 领域广泛运用的 python 工具包 HanLp 3 工具包提供了基于 BERT 模型的 NER 实现接口我们利用 HanLp 工具包, 识别了每条留言主题和详情中的命名实体后设定过滤条件集合 R, 在已完成 AP 初步聚类的留言中, 凡是满足以下 3 个条件之一的留言, 都将从所属类别中被筛除掉 3 https://github.com/hankcs/hanlp 17

三个过滤条件的集合 R: 条件 (1): 留言的命名实体数量为 0 条件 (2): 留言所拥有的命名实体, 在所属类别的全部命名实体集合中, 都仅出现了 1 次条件 (3): 留言所属类别最高频的 3 个命名实体, 在该留言中均未出现在具体实现上, 对于留言中的市县一级地名, 如 A 市 A7 县 A3 区, 由于其出现频繁, 降低了留言之间的区分度, 我们不把它们纳入本任务的考虑之中, 只在下文 3.5 节中生成热点问题表时使用仍以表 5 的留言为例, 表 6 显示了它们命名实体识别的结果, 以及之后的过滤结果 : 留言编号留言主题 289834 A7 县文体中心乒羽中心何时能建成开放? 281722 建议 A7 县文体中心乒乓球馆尽快对外开放 192043 A7 县文体中心乒羽中心何时能建成开放? 258902 请问非电力局的人能否在 A 市电力局的体育馆内打球? 234468 A 市贺隆体育馆是否有启用的计划安排? 留言详情略识别出的命名实体 ( 不含市县 ) 文体中心乒羽中心过滤结果 3 条件均不满足, 保留略文体中心 3 条件均不满略文体中心乒羽中心足, 保留 3 条件均不满足, 保留略电力局满足条件 (2), 筛除略贺隆体育馆满足条件 (2), 筛除表 6 基于留言命名实体的异常值过滤示例如表 6 的示例, 根据命名实体的过滤条件集合 R, 聚类数据得到了清洗, 许多聚类的异常值被筛除, 类别中成员的一致程度大大提高 3.4 热度评价指标 L 设计在筛除了异常值之后, 我们设计了一套热点问题评价指标 L, 针对清洗后数据中的每一个类别, 分别计算其热度指标热度评价指标主要考虑了如下 3 类因素 : (1) 某聚类类别下的留言数量 n 同问题下的留言数量, 是该问题热度的重要表现 18

(2) 某聚类类别下, 最早留言日期与最晚留言日期的间隔天数 m 热点问题往往在较短时间内集中产生 (3) 每条留言的点赞数 a 与反对数 b 留言的点赞或反对数越多, 也反映出更多的关注度 n i=1 则某聚类类别的热度 L (10+a+b 5 ) = 1 + log 2 (m+5) 3.5 实验结果分析我们用 python 语言实现了 3.4 节所述的问题热度评价指标得到了热度前 5 位的热点问题 ( 详表请参见提交的文件表 1- 热点问题表.xls ), 如表 7 所示其中的地点 / 人群字段, 由 3.3 节所述的 BERT 模型识别各条留言中的命名实体所得问题描述字段, 则通过抽取该热点问题下点赞 + 反对数最高的留言的主题内容, 稍加润色所得热度排名热度指数地点 / 人群 1 70.37 A4 区 p2p 公司 A4 区 58 车贷诈骗案问题描述 2 59.02 A 市 A5 区五矿万境 K9 县 A 市 A5 区汇金路五矿万境 K9 县存在一系列问题 3 42.33 A4 区绿地海外滩小区长赣高铁渝长厦高铁 A4 区绿地海外滩小区距长赣高铁最近只有 30 米不到, 合理吗? 4 31.29 A6 区月亮岛路关于 A6 区月亮岛路沿线架设 110kv 高压线杆的投诉 5 23.18 A 市富绿物业丽发新城暮云街道 A 市富绿物业丽发新城强行断业主家水表 7 热度前 5 位的热点问题表以热度排名第 4 位的月亮岛路沿线架设 110kv 高压线杆的问题为例, 经上述的 AP 聚类与过滤异常值的步骤, 该问题下的留言明细如表 8 所示限于篇幅, 表 8 仅展示每条留言的编号与主题详表请参见提交的文件表 2- 热点问题留言明细表.xls 19

留言编号留言主题 262052 关于 A6 区月亮岛路沿线架设 110kv 高压线杆的投诉 272089 关于 A6 区月亮岛路 110kv 高压线的建议 218442 A6 区月亮岛路架设高压电线环评造假, 谁为民众做主 225849 反映 A 市金星北片 110kv 及以上高压线的现状和规划的几个问题 254865 关于 A6 区月亮岛路沿线架设 110kv 高压电线杆的投诉 200480 关于 A 市金星北片 110kv 及以上高压线的现状和规划的几个问题 268250 关于 A6 区月亮岛路沿线架设 110KV 高压电线杆的投诉 234885 A6 区月亮岛路 11 万伏高压线没用地埋方式铺设 231773 反对 A6 区月亮岛路架设高压电线, 强烈要求重启环境评估 4 表 8 热度位居第 4 的热点问题留言明细的示例由表 8 的示例可以看出, 对于月亮岛路沿线架设 110kv 高压电线的热点问题, 留言聚类的效果良好,9 条留言中没有异常值, 具有较高的一致性 4 多特征融合的答复意见质量评价 4.1 任务介绍与实验数据集针对群众在网络问政平台上发布的留言, 相关部门对留言反映的问题予以处理, 并对留言进行答复自动地全面地评价答复意见的质量, 有利于督促政府工作人员提高办事效率与水平, 提高人民群众的满意程度附件 4 共包含 2816 条记录, 每条记录包含留言编号留言用户留言主题留言时间留言详情答复意见答复时间共计 7 个字段我们拟选取多方面的特征, 设计一套答复意见自动评价方案 4 详表请参见提交的文件表 2- 热点问题留言明细表.xls 20

4.2 答复意见的质量评价指标答复意见的质量评价指标, 将综合参考答复与留言的相关性答复的完整性答复的可操作性答复的条理性等维度为此, 我们提出了如下 9 项特征除了答复的时效程度为扣分机制, 其余 8 项各自的满分均为 100 分, 再按照不同的权重进行加权求和 (1) 留言中的命名实体, 在答复中的覆盖率 ( 权重 20%) 满分 100 分如第三章所述, 人名地名机构名等命名实体, 是留言所反映问题的重要特征答复意见对这些命名实体的覆盖率, 也反映了答复与留言的相关程度 (2) 答复与留言的语义向量相似度 ( 权重 20%) 满分 100 分答复与留言都针对的是同一个问题, 因此或多或少在语义上会有一定的相似度该指标可以防止答非所问离题万里的情况发生 (3) 答复的长度 ( 权重 20%) 答复意见的长度, 能一定程度上反映答复的细致程度与全面性长度过短的答复必然质量不高例如附件 4 数据集中, 编号为 6556 的留言询问了打狂犬疫苗报销比例是多少, 这本是一个事实性的问题, 然而答复却仅仅有已收悉 3 个字我们规定, 答复的长度若低于 30 字, 计 0 分 ; 超出的字数超出的字数按 30 + 计分满分为 100 分 10 (4) 答复中关键词的覆盖率 ( 权重 20%) 满分 100 分基于对数据的观察, 我们发现, 质量较高的答复通常含有较多的关键词这些关键词中, 有的反映出政府部门对问题高度重视的态度 ; 有的则反映出政府部门采取的积极措施行动我们归纳总结的 91 个关键词如表 9 所示答复依法咨询收悉调整保证及时反映办理处理解决通知开展电话拨打详询询应该支持商议改造监督理解督促规定工作建议意见尽快核实建设鉴定调查查研究积极加强力度确保要求论证确认贯彻落实查处整改办理核查执法整治检查指导根据提供务必跟进检测按照核定行动查处严格把关保障巡查重视规划调查查明部门行政协议处置妥善请求报告争取按照请示获批受理统筹会商建设解释劝诫责令热线联系取缔打击表 9 答复的关键词表 21

(5) 答复中相关法律法规政策文件的出现与否 ( 权重 5%) 针对群众反映的医疗交通劳动与社会保障商贸环境卫生等问题, 提供相关的政策文件法律法规, 有助于提升答复的专业程度与可信度这可以由答复中有无书名号来判断, 若有, 记为满分 100 分 ; 若无, 记为 0 分 (6) 答复中联系方式的出现与否 ( 权重 5%) 答复中若含有相关部门的电话号码联系方式, 就为群众进一步咨询与处理问题提供了渠道这也反映出工作人员广开言路的良好作风答复中若出现电话号码, 记为满分 100 分 ; 若无, 记为 0 分 (7) 答复中相关网址链接的出现与否 ( 权重 5%) 这为留言群众提供了相关的参考资料, 或是进一步解决问题的手段答复的文本中若出现 http 或 https 的字符串, 记为满分 100 分 ; 若无, 记为 0 分 (8) 回答的条理性 ( 权重 5%) 若答复文本中出现了诸如一二三 ( 一 ) ( 二 ) ( 三 ) (1) (2) (3) 1. 2. 3. 的序列标志, 或包含首先下一步最后等关键词, 记为 100 分, 否则记为 0 分上述 8 项指标的权重之和为 100%, 再考虑第 9 项指标 : 答复的及时性 (9) 答复的间隔时长这反映出答复的及时程度留言发布的 15 天内答复, 不扣分, 超出的每 1 天扣 0.2 分 4.3 实验结果分析我们使用 python 语言, 实现了上述 9 项合一的评价指标, 分别对 2816 条留言质量进行了计算如图 7 所示 5 : 5 详表请参看提交的文件 06 答复意见质量评价结果.xls 22

图 7 答复质量评价结果示例以获得最高得分 81.6217 的答复留言为例, 其答复的全文如下 : 网友 : 您好! 您于 2019 年 1 月 22 日咨询的关于投诉 A7 县宁华置业星湖湾 ( 洋房 ) 二期未达标且强行交房的问题, 我局已收悉, 经核实, 现回复如下 : 一关于您提出的楼间距设计不达标的问题 : 根据已批复的 K8 县星湖湾二期总平面图, 该小区 1# 与 7# 8# (https://baidu.com/xxxx) 楼间距为 19.5m, 满足 A 市城市规划管理技术规定 2009 版 ⅱ 类地区居住建筑平行布置 1.1h 建筑间距要求 ; 二关于您提出的走廊过道施工不达标的问题 : 已要求建设单位联系原设计院和施工单位共同到现场查看, 出具书面报告情况, 根据书面报告再做进一步处理 ; 三关于您提出的 3 号栋与电梯相邻卧室起居室未做隔音处理问题 : 已责令建设单位进行整改 ; 四关于您提出的开发商各栋 1 楼大厅入户门截止 2019 年 1 月 15 日未完工, 消费水管未通水, 绿化未完成, 涉嫌走不正当程序拿到了完成竣工验收, 甚至拿到了不动产证的问题 : 该项目于 2018 年 12 月 21 日由五方责任主体对 1 2 3 8 9 栋及商业 s01 s02 栋进行了竣工验收根据建设工程质量管理条例第十六条规定 : 建设单位收到建设工程竣工报告后, 应当组织设计施工工程监理等有关单位进行竣工验收, 并签署质量合格文件后, 视为验收合格其绿化景观等室外附属设施也已完成, 能够保证户主的正常入住如有其它问题需要咨询, 建议拨打 0000-00000000 感谢您对我们工作的理解和支持!2019 年 1 月 29 日图 8 质量分数最高的答复意见如图 8 所示, 该答复意见内容详实 ; 答复共分为四点, 条理清楚 ; 说理时引用了相关的条理规定, 说服力和专业性强 ; 提供了相关网址链接作为参考资料 ; 最后还留下了联系热线, 供用户进一步的咨询经人工评价, 它确实属于质量较高的答复意见 5. 结语本文基于近年来语言智能的里程碑技术 :BERT 深度语言模型, 围绕智慧 23

政务文本挖掘的主题, 完成了留言自动分类热点问题挖掘和答复意见质量评价 3 项工作在留言自动分类任务上,BERT 模型的 F-score 达到了 92.89%, 高出基线 LSTM 模型约 11.6%, 也高出 Fasttext 模型约 1.8% 这证明了 BERT 模型在政务留言文本分类任务上优越性与实用性在留言热点问题挖掘任务上, 我们创新提出了首先基于 Affinity Propagation 的算法对留言进行初步聚类, 再通过命名实体识别进一步过滤类别异常值的策略这不需要事先预设聚类数目, 且类中成员的一致性得到了显著提高我们结合了话题时长留言数留言的点赞与反对数共 3 类因素, 实现了综合评价每个问题 ( 话题 ) 的热度值在答复意见评价任务上, 我们设计了 9 项特征综合评价答复意见 : 答复与留言的相似度答复长度命名实体的覆盖率关键词覆盖率法律法规分条理分网址链接分联系方式分扣除的时效分多特征融合的评价体系有助于客观全面反映答复意见的质量, 促进政府工作人员改进工作态度, 增强为人民群众排忧解难的能力在未来的工作中,(1) 在留言自动分类任务上, 我们将分析留言分类中的分类有误的例子, 分析模型可能失误的原因重点观察 F1 值在各个模型上都普遍不高的商贸旅游类留言以总结规律, 进一步改进留言分类模型 (2) 在留言热点问题挖掘任务上, 我们将尝试调整 AP 聚类算法的 preference 超参数, 以尝试发现更优的聚类效果 (3) 在答复意见评价任务上, 我们考虑引入 NLP 的自动句法分析 (parsing) 或语义分析技术, 衡量答复意见的语句通顺与语义连贯 (coherence) 程度参考文献 [1] Mikolov T, Sutskever I, Kai C, et al. Distributed Representations of Words and Phrases and their Compositionality[J]. Advances in Neural Information Processing 24

Systems, 2013,26:3111-3119. [2] Peters M E, Neumann M, Iyyer M, et al. {Deep contextualized word representations}[j]. arxiv e-prints, 2018:1802-5365. [3] Devlin J, Chang M, Lee K, et al. {BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding}[J]. arxiv e-prints, 2018:1810-4805. [4] Google. TensorFlow code and pre-trained models for BERT[EB/OL]. https://github.com/google-research/bert. [5] Vaswani A, Shazeer N, Parmar N, et al. {Attention Is All You Need}[J]. arxiv e- prints, 2017:1706-3762. [6] Sun C, Qiu X, Xu Y, et al. {How to Fine-Tune BERT for Text Classification?}[J]. arxiv e-prints, 2019:1905-5583. [7] Hochreiter S et al. Long Short-term Memory[J]. Neural Computation, 1997(9(8)):1735-1780. [8] Joulin A et al. Bag of Tricks for Efficient Text Classification: 15th Conference of the European Chapter of the Association for Computational Linguistics, EACL 2017, 2017[C]. [9] Zaremba W, Sutskever I, Vinyals O. {Recurrent Neural Network Regularization}[J]. arxiv e-prints, 2014:1409-2329. [10] 邓三鸿, 傅余洋子, 王昊. 基于 LSTM 模型的中文图书多标签分类研究 [J]. 数据分析与知识发现, 2017,1(07):52-60. [11] Brendan J. Frey D D. Clustering by Passing Messages Between Data Points[J]. Science, 2007,315(5814):972-976. [12] 刘晓勇, 付辉. 一种快速 AP 聚类算法 [J]. 山东大学学报 ( 工学版 ), 2011,41(04):20-23. 25

基于 BERT 深度语言模型的 智慧政务 文本挖掘应用 1

基于 BERT 深度语言模型的智慧政务文本挖掘应用 1