基于大数据技术的政府财政收入预测

Similar documents
护国运动时期云南都督府的“拥护共和”奖功制度

一次辽宁暴雨过程的诊断及风场反演分析

左下肢多发软组织肿瘤二次术后复发伴梗阻性黄疸一例诊治

Microsoft Word - ED-774.docx

果葡糖浆中5-HMF生成影响因素及其去除方法

Microsoft Word tb 赵宏宇s-高校教改纵横.doc

Microsoft Word - GJPHV3N2-4.doc

Microsoft Word - 2.v3n1.gjtm.docx

% GIS / / Fig. 1 Characteristics of flood disaster variation in suburbs of Shang

心理学译名:原则与方法

Template

准北春晖油田油气勘探快速突破的三点启示

% % * ~ 14 % 15~ 64 % 65 %

<4D F736F F D20B169B74FC5EF2020A8E2A9A4B0EABB79B1D0ACECAED1A56AA8E5B8D6BA71BFEFBFFDA4A7ACE3A8732E646F63>

% 30% % % % %

南華大學數位論文

第六篇


Oates U

法務部廉政署新聞稿

Microsoft Word 谢雯雯.doc

基于因子分析的敦煌莫高窟游客满意度研究

标题

University of Science and Technology of China A dissertation for master s degree Research of e-learning style for public servants under the context of

《培养一个真正的人》( )

Microsoft Word - 贺小凤,王国胜.doc

1556 地 理 科 学 进 展 30 卷 他 关 于 农 村 住 房 结 构 与 抗 震 性 能 的 研 究, 则 多 是 从 工 程 抗 灾 的 角 度, 研 究 某 种 构 造 类 型 的 房 屋, 力 图 找 到 传 统 房 屋 的 结 构 失 误 和 新 建 房 屋 中 存 在 的 问 [

Microsoft Word - P085003

Fig. 1 1 The sketch for forced lead shear damper mm 45 mm 4 mm 200 mm 25 mm 2 mm mm Table 2 The energy dissip

非营利组织专职人员专业化问题研究

UDC Empirical Researches on Pricing of Corporate Bonds with Macro Factors 厦门大学博硕士论文摘要库

中国消费者网上购书意向模型与影响因素实证研究

引言

259 I

84 針 藥 併 施 治 療 偏 頭 痛 次 發 作 症 狀 為 左 顳 側 頭 脹 痛, 多 為 夜 間 發 作 影 響 睡 眠 或 工 作, 頻 率 為 一 天 發 作 一 次, 持 續 一 至 二 小 時, 疼 痛 指 數 7 分 (0 分 為 不 痛, 最 痛 為 滿 分 10 分 ), 需

天 主 教 輔 仁 大 學 社 會 學 系 學 士 論 文 百 善 孝 為 先? 奉 養 父 母 與 接 受 子 女 奉 養 之 態 度 及 影 響 因 素 : 跨 時 趨 勢 分 析 Changes in attitude toward adult children's responsibilit

业 务 与 运 营 社 交 网 络 行 为 将 对 网 络 流 量 造 成 较 大 影 响 3) 即 时 通 信 类 业 务 包 括 微 信 QQ 等, 该 类 业 务 属 于 典 型 的 小 数 据 包 业 务, 有 可 能 带 来 较 大 的 信 令 开 呼 叫 建 立 的 时 延 销 即 时


~ ~

Journal of Arid Meteorology Vol. 28 No. 4 Dec a

j.sjbm

Microsoft Word - 专论综述1.doc


临床路径管理模式下医疗服务流程的关键环节分析

32 戲劇學刊 A Study of Beijing Opera s Jing Actors and Their Vocal Accents in the Early Twentieth Century Using Two Operas, Muhuguan and Yuguoyuan, as Exa

5期xin

( ) t ( ) ( ) ( ) ( ) ( ) t-

66 臺 中 教 育 大 學 學 報 : 人 文 藝 術 類 Abstract This study aimed to analyze the implementing outcomes of ability grouping practice for freshman English at a u

(Microsoft Word - 22\264\301\261\306\252\ \247\271\246\250.doc)

續論

Microsoft Word - ChiIndexofNHE-03.doc

Scoones World Bank DFID Sussex IDS UNDP CARE DFID DFID DFID 1997 IDS

,7 8,9 10,11 (1) (2) (3)

Corpus Word Parser 183


%

Microsoft Word 聂雪梅.doc

经 济 与 管 理 耿 庆 峰 : 我 国 创 业 板 市 场 与 中 小 板 市 场 动 态 相 关 性 实 证 研 究 基 于 方 法 比 较 视 角 87 Copula 模 型 均 能 较 好 地 刻 画 金 融 市 场 间 的 动 态 关 系, 但 Copula 模 型 效 果 要 好 于

Shanghai International Studies University THE STUDY AND PRACTICE OF SITUATIONAL LANGUAGE TEACHING OF ADVERB AT BEGINNING AND INTERMEDIATE LEVEL A Thes

TI 3 TI TABLE 4 RANDBIN Research of Modern Basic Education

Microsoft Word - A _ doc

Transcription:

Statistics and Application 统计学与应用, 016, 5(4), 373-379 Published Online December 016 in Hans. http://www.hanspub.org/journal/sa http://dx.doi.org/10.1677/sa.016.54040 Government Revenue Forecast Based on Big Data Technology Taking Guizhou Province as an Example Man Luo, Qun Wang, Yiling Yang, Junlei Mei Guizhou Education University, Guiyang Guizhou Received: Nov. 9 th, 016; accepted: Dec. 1 th, 016; published: Dec. 3 rd, 016 Copyright 016 by authors and Hans Publishers Inc. This work is licensed under the Creative Commons Attribution International License (CC BY). http://creativecommons.org/licenses/by/4.0/ Open Access Abstract In this paper, combined with the content and the structure characteristics of fiscal revenue in Guizhou, using the R software, the data were collected and analyzed. The key factors affecting the local fiscal revenue were found out. Also, using traditional time series analysis and multiple regression analysis method, we established a more complete local fiscal revenue forecast model to forecast the fiscal revenue of Guizhou province in 015-016. Keywords Multiple Regression Analysis, Holt Exponential Smoothing Prediction, Prediction Model 基于大数据技术的政府财政收入预测 以贵州省为例 罗慢, 王群, 杨伊玲, 梅俊雷 贵州师范学院, 贵州贵阳 收稿日期 :016 年 11 月 9 日 ; 录用日期 :016 年 1 月 1 日 ; 发布日期 :016 年 1 月 3 日 文章引用 : 罗慢, 王群, 杨伊玲, 梅俊雷. 基于大数据技术的政府财政收入预测 [J]. 统计学与应用, 016, 5(4): 373-379. http://dx.doi.org/10.1677/sa.016.54040

摘要 本文结合贵州财政收入的构成内容和结构特点, 利用 R 软件, 对收集的数据进行整理分析, 找出影响地方财政收入的关键影响因素, 使用传统时间序列和多元回归分析方法相结合, 建立较为完整的地方财政收入预测模型, 对贵州省 015~016 年的财政收入进行预测 关键词 多元回归分析,Holt 指数平滑预测, 预测模型 1. 研究目的构建贵州省历史财政收入数据与同期社会经济发展相关的数据库, 梳理影响财政收入关联指标, 分析 识别出影响财政收入的关键因素 ; 研究各影响因素与财政收入的相关性, 精选出财政收入评价指标, 研究并建立贵州省 015~016 年财政收入预测的参考模型. 数据整理.1. 数据预处理数据来源于中国统计年鉴 (http://www.nianjianku.com/), 初步选取贵州省财政收入相关的指标变量 14 个, 在 EXCEL 中对选取的指标数据进行整理 样本数据预处理中出现了缺失值, 如 004 年,005 年, 006 年的税收收入的数据是缺失的, 如表 1 所示.1.1. 缺失值处理在贵州财政收入的数据中出现明显的缺失值现象, 出现缺失值的可能原因有 : 第一 统计局没有录入数据 ; 第二 国家政策有所改动 ; 第三 数据的丢失 因此对于丢失的数据我们用数据挖掘中的一些方法进行处理 在此我们要研究税收收入与相应关联指标的影响, 因此我们需要的是缺失指标的一个趋势, 且国家的财政收入指标是缓慢变化的, 因此第一和第二种缺失值不会出现剧增或者剧减, 因此可以采用数据处理方法求出缺失值 常用的求缺失值的方法有平均法 移动平均法 时间序列推测和加权调整 对历年的税收收入做简单的散点图, 发现该序列随时间呈线性指数关系, 对缺失数据列采用时间序列分析, 我们利用了霍尔特 (Holt) 两参数指数平滑法 [1] 推算缺失值序列, 结果如表.1.. 数据标准化处理由于数据存在不同的量纲, 采用 Z-Score 值标准方法对数据进行标准化处理 设数据为 ( x1, x,, x p ), 其均值为 x, 标准差为 σ, 标准化公式如下 : x i xi x = σ 3. 模型的建立与求解 3.1. 回归模型的建立设响应变量与解释变量之间有线性关系, 则多元线性回归模型 [] 为 : 374

Table 1. Partial missing values of the original data 表 1. 原始数据的部分缺失值 年份 税收收入 全社会固定资产投资 地区生产总值 就业人数 农林牧渔业总产值 工业总产值 1999 61.1 333.9 937.5 183.5 407.1 551.93 000 77.43 40.5 109.9 1866.8 41.97 631.6 001 67.0 533.74 1133.7 068.01 418.61 696.63 00 89. 63.44 143.43 106.14 431.39 797.9 003 93.44 754.13 146.34 145 466.7 977.64 004 869.5 1677.8 186 54.64 1394.91 005 1018.5 005.4 1944.9 571.84 1690.4 006 1197.68 338.98 1953.4 601.54 066.77 007 11.85 1488.8 884.11 187.64 697.01 50.36 注 : 红色代表缺失值 Table. Predicted value of missing value (100 million yuan) 表. 缺失值的预测值 年份 预测值 004 101.7671 005 110.4691 006 119.1711 其中 β 是 p 1 ( x, x,, x ; y )( i = 1,,, n) i1 i ip i p i= 1 ( ) y = β0 + βixi + ε ε ~ N 0, σ (1) + 个未知参数, β 0 是回归常数, β i 为回归系数, p 是解释变 量的个数, ε 代表随机误差项 设是 ( j, ) x y 的 n 组解释变量的观测数据, 线性回归模型用矩阵表示为 : ( σ ) () 式中 Y 是 n 维变量的观测向量 ( 响应变量 ), ( ) T Y = Xβ + ε ε ~ N 0, In () Y = y1, y,, yn, X 是一个 n ( p+ 1) 阶设计矩阵, 其形式为 1 x11 x1 x1 p 1 x1 x3 x p X = 1 xn 1 xn xnp β 是估计参数向量 ( 回归系数向量 ), ( ) T β = β0, β1,, βp ;ε 是服从正态分布 N ( 0, σ n ) ε = ( ε ε ε ) T, 由最小二乘法原理求得回归参数 β 的估计值为 ( ) 1,,, n 1 β = XX XY I 的 n 维随机向量, 求得回归方程之后, 进一步对回归模型进行检验 3.. 回归模型的求解与分析首先绘制财政总收入与各指标变量之间的散点图, 初步剔除对财政总收入影响不显著的变量由图 1 375

Figure 1. Scatter diagram 图 1. 散点图 可看出, 就业人数和卫生机构数这两个解释变量的分布情况可知, 分布点没有规律并且不呈现任何趋势 ; 说明就业人数和卫生机构数对财政总收入影响不显著, 所以我们可以初步剔除这两个变量 初步建立回 14 归模型 Y = β X 进行回归分析 本文选用 Backward 法逐步回归进行线性回归,R 软件运行结果如 i= 0, j= 1 i j 图 从图 可以看出, 逐步回归之后, 最终筛选出影响贵州省财政总收入的主要影响因素 7 个, 在此基础之上, 建立多元线性回归预测模型对贵州省的财政总收入进行预测 以财政总收入作为响应变量, 选取的解释变量如表 3 所示 利用以上指标建立多元回归预测模型对财政总收入进行预测, 建立的回归预测模型为 : Y = 413.150016 + 0.474371X1 + 0.61038X 0.60741X3 0.015845X4 + 0.431707X5 0.94878X 0.07006X 6 7 3.3. 回归模型的拟合优度和显著性检验 4 从图 看出, 决定系数 R = 0.9999, 调整后的 R = 0.9999, 检验统计量 F =.14 10, 16 P值 =. 10 < 0.05 ; 由决定系数和 F 检验来看, 回归方程高度显著, 说明 X1, X, X3, X4, X5, X6, X 7, 整体上对 Y 有高度显著的线性影响 从回归系数的显著性检验来看, 解释变量 X1, X, X3, X4, X5, X6, X 7对 Y 均有显著影响, 其中 X 1 个人储蓄存款的 P 值 = 0.04983 最大, 但仍然在 5% 的显著性水平上对 Y 高度显著, 这说明在多元线性回归中不能仅凭简单相关系数的大小来决定指标变量的取舍 376

Figure. The results of regression analysis 图. 回归分析结果 Table 3. The main influencing factors of the total fiscal revenue in Guizhou Province 表 3. 贵州省财政总收入的主要影响因素 相应变量 Y 解释变量 X X 1 : 税收收入 X : 地区生产总值 Y: 财政总收入 X 3 : 农林牧渔业总产值 X 4 : 货运量 ( 万吨 ) X 5 : 建筑业总产值 X 6 : 社会消费品零售总额 3.4. 模型诊断由图 3 中红线的分布可知, 各残差值基本在 0 轴水平线附近随机波动, 途中的曲线与残差的 0 轴水平线没什么差异, 也接近于直线, 因此, 财政总收入与其他变量之间的线性关系假定成立, 各指标变量间线性不相关 图 4 可以看出, 各个点基本上在直线周围随机分布, 没有固定模式, 因此, 在财政总收入与其他变 量的线性模型中, ~ N ( 0, ) ε σ, 关于随机误差项均值为零 同方差的正态性假定基本成立 3.5. 结果分析对各指标变量的预测值建立数据框, 利用多元回归预测 015~016 年贵州省财政总收入, 在 95% 的置信水平下,R 运行的结果如表 4 从表 4 中看出,015 年财政总收入在 95% 的置信水平下预测值为 [308.76,373.757] 亿元,016 年财政总收入额度为 [500.07, 604.] 亿元 377

Figure 3. Residual diagnostic chart 图 3. 残差诊断图 Figure 4. Normal diagnosis 图 4. 正态性诊断图 378

Table 4. Total fiscal revenue of Guizhou Province in 015-016 (100 million yuan) 表 4. 贵州省 015~016 年财政总收入 年份预测值预测下限预测上限 015 341.59 308.760 373.757 016 55.13 500.07 604.0 4. 模型的作用回归分析研究的主要对象是客观事物变量间的统计关系, 它是建立在对客观事物进行大量实验和观察的基础上用来寻找隐藏在那些看上去是不确定的现象中统计规律性的统计方法 基于影响财政收入的因素分析 [3] 作为回归模型的一个重要作用 多元回归模型对影响财政收入变量之间的关系作出了度量, 从模型的回归系数可以发现财政收入变量间的结构关系, 给出财政预测的一些量化依据 通过建立财政收入的宏观预测模型就可以对未来作出预测 5. 总结通过以上对 1999 年到 014 年贵州财政收入相关的经济指标的分析, 以定性与定量相结合的方法建立地方财政收入预测模型, 预测贵州省 015 年到 016 年财政收入, 为贵州省 015~016 年财政计划提供参考, 对其他地方政府建立财政收入预测提供了一定的参考价值 对模型预测方法进行比较, 回归模型表现比较稳定, 能够弥补 ARIMA 模型对结构变化不敏感的缺陷, 但是, 回归模型的限制条件较多, 实际运用过程中有一定的难度, 达不到理想状态 本文将两种模型结合起来, 能降低模型预测的误差, 整体表现良好 致谢本课程是我与同伴在指导老师梅老师的亲切关心和悉心指导下完成的, 老师经常询问我们研究的进度, 并为我们解惑, 帮助我们开拓思路, 指导论文写作结构 在此谨向梅老师致以诚挚的感谢和崇高的敬意 基金项目 015 年省级大学生创新培育项目 ( 项目编号 :015143035) 参考文献 (References) [1] 王燕. 时间序列分析 基于 R [M]. 北京 : 中国人民出版社, 015. [] 王国丽, 陈晓飞, 刘刊, 姜国勇. 回归分析在水科学中的应用综述 [J]. 中国农村水利水电, 004(11): 40-44. [3] 韩仁月. 我国财政支出规模的影响因素研究 [D]: [ 硕士学位论文 ]. 济南 : 山东大学, 008. 379