第 卷第 期 年 月 地球信息科学学报! " #$ $ %&' & 基于周期表的时空关联规则挖掘方法与实验 柴思跃 苏奋振 周成虎 中国科学院地理科学与资源研究所资源与信息系统国家重点实验室 北京 中国科学院研究生院 北京 ( 摘要 地理现象的周期性往往掩盖了许多地学规律 这也是地学数据挖掘的一个主

Similar documents
南京气象学院学报第 卷

é ê



地球信息科学学报 年 系数据库的关联规则挖掘 在空间关联规则挖掘中考虑空间自相关 国内外学者提出了很多方法 如引入空间权重矩阵 空间自相关和空间关联的度量函数 并结合空间数据的地理位置构造 #$ $/$, 图 '%+3/+7 图 通过直观的方法来发现 空间关联规则 或者将空间信息泛化后转化成属性关系

,, 1 :,, ( ), (, [ ], ),,, : (, [ ], ),,,, (, ), ( ),,,,,,,,,,,,,,,,,,,,,,,?,,,,,,,,,, 1,,,,, :,,, ( :,,, ),,,,,,,,,, (, ),,,,,



第 期 房建成等 动态定位的强跟踪卡尔曼滤波研究




不对称相互依存与合作型施压 # # ( # ( %

数字带通 带阻 高通滤波器的设计 把一个归一化原型模拟低通滤波器变换成另一个所需类型的模拟滤波器, 再将其数字化 直接从模拟滤波器通过一定的频率变换关系完成所需类型数字滤波器的设计 先设计低通型的数字滤波器, 再用数字频率变化方法将其转换成所需类型数字滤波器


,,,,,,, ;,, ;, ;, (, / ),, ;,,.,,,,,,,,,,,,,,,,, ;,,,,,,, 1, :,,, ;,,,, (, ),,,,, 1,,, (,, )

( ),, :1 : : ( ), 2 :, 3 : ( ), 4 : 5 : :, 6 :,,,,,,,,, :,,,.....,,,, 1, ;2,

! " # " " $ % " " # # " $ " # " #! " $ "!" # "# # #! &$! ( % "!!! )$ % " (!!!! *$ ( % " (!!!! +$ % " #! $!, $ $ $ $ $ $ $, $ $ "--. %/ % $ %% " $ "--/

» ¼ ½ ¾» ¼ ½ ¾

PowerPoint 演示文稿

第一章三角函数 1.3 三角函数的诱导公式 A 组 ( ) 一 选择题 : 共 6 小题 1 ( 易诱导公式 ) 若 A B C 分别为 ABC 的内角, 则下列关系中正确的是 A. sin( A B) sin C C. tan( A B) tan C 2 ( 中诱导公式 ) ( ) B. cos(


数据和方法 研究区概况 机载高光谱数据收集 样地冠层光谱数据收集

课程设置—国民经济学


GeomaticsandInformationScienceofWuhanUniversity Vol.38No.4 Apr.2013 : (2013) :A 1 1,2 1 (1, 129,430079) (2, 129,430079)

% %


SDK 概要 使用 Maven 的用户可以从 Maven 库中搜索 "odps-sdk" 获取不同版本的 Java SDK: 包名 odps-sdk-core odps-sdk-commons odps-sdk-udf odps-sdk-mapred odps-sdk-graph 描述 ODPS 基

( 一 ) 外来农民进入城市的主要方式, %,,,,,, :., 1,, 2., ;,,,,,, 3.,,,,,, ;,,, ;.,,,,,,,,,,,,,,,,,,,,,, :,??,?? ( 二 ) 浙江村 概况.,,,,,, 1,, 2,, 3

气象 第 卷 第 期 对流不稳定度

对利益冲突问题及其危害性有比较清晰的认识 坚持政企分开原则 禁商为主旋律 适用对象的范围逐渐扩大


第 05 期 董房等 : 一种卫星遥测在线状态监测及分析系统的设计 WEB 1 2 总体功能及组成 2.1 总体功能 1 2 3Web 2.2 结构组成 Web WEB WEB 2.3 系统各模块接口关系

山西医科大学 2017 级英语 学年第三学期周教学进度表 学院 系 ( 部 ): 外语系年级 / 专业 :2017 级英语 ( 医学英语 ) 班级 : (2) 人数 :64 人实习分组 : 序号 课程名称 总学时 理论课 实验

第 期 高克宁等 网站分类体系包装器

第 卷 第 期 年 月 半 导 体 学 报! " # $%&'%' $!&' #% #$1 /#1 $'! / ?/ ?/ / 3 0,?/ ) * +!!! '!,!! -. & ' $! '! 4% %&1)/1(7%&)03 (% )

! %! &!! % &

Fig1 Theforceappliedtothetrainwhenrunning :w = w j +w q (3) :w = w = w 0 +w j (4) w i 121 基本阻力 w r = 600 R ( N/kN) (8) :R : [2] w s [3] w s =0

山西医科大学 2016 级一系 学年第五学期周教学进度表 学院 系 ( 部 ): 第一临床医学院年级 / 专业 :2016 级一系班级 : (10) 人数 : 315 实习分组 : 序号 课程名称 总学时 理论课 实验

网络民族主义 市民社会与中国外交 & 一 中国网络民族主义所涉及的公共领域 特征与性质 ( & (!! # # ) #

贸易一体化与生产非一体化

猫腻的做法 无用的伎俩 中国异教徒尤其擅长 如下文将讨论到的 阿辛 西岩


78 云 芝 79 五 加 皮 80 五 味 子 81 五 倍 子 82 化 橘 红 83 升 麻 84 天 山 雪 莲 85 天 仙 子 86 天 仙 藤 87 天 冬 88 天 花 粉 89 天 竺 黄 90 天 南 星 91 天 麻 92 天 然 冰 片 ( 右 旋 龙 脑 ) 93 天 葵

43081.indb

一 天 吃 两 顿, 从 不 例 外 我 上 班 就 是 找 一 个 网 吧 上 网 上 网 的 内 容 很 杂, 看 新 闻, 逛 论 坛, 或 者 打 打 小 游 戏 如 果 没 钱 上 网, 我 会 独 自 一 个 人 到 一 个 偏 僻 的 地 方, 静 静 地 坐 着 发 呆 这 也 是




序 1995 年 我 走 进 了 朝 阳 区 将 台 乡 五 保 老 人 院, 如 今 17 年 后, 十 分 欣 喜 有 机 会 为 这 本 流 金 岁 月 小 集 作 序 在 多 年 陪 伴 孤 单 老 人 的 过 程 中, 我 深 深 地 体 会 到 每 位 老 人 的 生 命 里 其 实 都


工 造 价 15 邗 江 南 路 建 设 工 一 标 市 政 公 用 6000 中 机 环 建 集 团 有 限 公 胡 美 娟 16 邗 江 南 路 建 设 工 二 标 市 政 公 用 品 尊 国 际 花 园 1# 2# 3# 4# 7# 9# 10# 11# 楼 地 库 C 区 工

第一篇 建置区划

untitled

31 121

ǎà

; ~ : ; [1] : 327

98

¼ ½ ¾ ¼ ½ ¾


1 线性空间 基 维数和坐标 3 子空间 4 线性空间的同构 5 线性映射 6 线性映射的像与核 7 线性变换 8 不变子空间 厦门大学数学科学学院网址 :gdjpkc.xmu.edu.c; IP://

论文,,, ( &, ), 1 ( -, : - ), ; (, ), ; ;, ( &, ),,,,,, (, ),,,, (, ) (, ),,, :. : ( ), ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ), ( ),,,, 1 原译作 修补者, 但在英译版本中, 被译作

39 3 : ( )TR μ ( A B; ) - ( )TR σ O A B= U F O (O UO F)U O O ( ) F O TR φ TR φ (τ)=τ Q O U F : O = U F Q : =U F Q O 1= ( )τ Q O-UO 2=O-FO 12=O-(



自然科学版 预处理 视盘粗定位 视盘垂直坐标的粗定位 视盘水平坐标的粗定位

香港社會的特徵1b


曲周县 2018 年公开招聘中小学教师笔试成绩及拟进入面试人员名单 考场考号报考科目笔试成绩是否进入面试 第一考场 01 初中语文 67 是 第一考场 02 初中语文 0 第一考场 03 初中语文 63 是 第一考场 04 初中语文 63 是 第一考场 05 初中语文 58 第一考场 06 初中语文

中 国 公 路 学 报 年



第 期 曹 源 等 形式化方法在列车运行控制系统中的应用

第 32 卷 第 5 期 2012 年 5 月 中 南 林 业 科 技 大 学 学 报 Journal of Central South University of Forestry & Technology Vol. 32 No. 5 May 2012 Apriori 算法在园林信息系统中的应用

水晶分析师


01

南京大学地理与海洋科学院二年级 (17 级 ) 地理信息科学专业 学年第二学期 课程名称 课程类型 学 分 合计 授课计划及课表 ( 仙 ) 周学时 讲课 实验 习题 修读 人数 合班上课 专业及年级 人数 任课教师 大学体育 ( 四 ) B 1 17 概率论与数理统计 A 3

帝国CMS下在PHP文件中调用数据库类执行SQL语句实例

数理逻辑 I Mathematical Logic I

人类学理论与实践

C++ 程序设计 告别 OJ1 - 参考答案 MASTER 2019 年 5 月 3 日 1



!!

33 5 Vol.33,No JournalofHebeiUniversityofScienceandTechnology Oct.2012 : (2012) /,, ( 河北科技大学机械工程学院, 河北石家庄 ) : 利用计算流体



:,,?,?,,,,,,, 1 ( ) (. ) ( ) :,?? :,,,,, ( ) (. ) : (. ) ( ),,, ( ) ( ), (. ), ( ) ( ) - (. - ) (. ) ;, (. ) ( ),, ( ),,, : ( - ), ( - - ) ( ) (. ),,,

数学分析(I)短课程 [Part 2] 4mm 自然数、整数和有理数

未标题-4

外国文学研究 年第 期

英美特殊关系 文化基础与历史演变

年 月

第 期 等 乙腈 碳酸氢钠溶液混合物电嫁接叔丁氧羟基 乙二胺 7B7! " # $% # &'#! "% #!! #& (& )&# &#&# #*$% + %!, # $% "( ( # ( # "! #-.& #% & (& %" & %& & #& (& & )&# &#& # & "%&/

第 期 王雪丽等 重建最佳关联的翻译

日军慰安妇政策在华北地区的实施 # %% & & # # # #


,,, (, ),, ( ),,, :,,,,,,.,.,, (, ),., : (, ),,.. ( ),.,,,, ;,,,,,,

Transcription:

第 卷第 期 年 月 地球信息科学学报!"#$$ %&'& 基于周期表的时空关联规则挖掘方法与实验 柴思跃 苏奋振 周成虎 中国科学院地理科学与资源研究所资源与信息系统国家重点实验室 北京 中国科学院研究生院 北京 ( 摘要 地理现象的周期性往往掩盖了许多地学规律 这也是地学数据挖掘的一个主要内容 本文以周期表设计了一种时空层次关联规则挖掘方法 '/!,1 模型利用周期表的表现形式对时空数据进行组织 并通过两步挖掘过程发现具有 遥相关 地理事物间的变化模式 模型算法分为 个步骤 过滤周期表内无序数据 逐行地提取多周期内时空状态的频繁项 生成新的时空频繁状态表 基于向下闭合引理 对时空频繁状态表中的对象进行时空拓扑匹配 得到时空关联规则候选集 对于候选数据集进行时空拓扑验证 得到时空关联规则集 为证明模型算法的可靠性 应用 $ 提供的 年 %1&-2 海表面温度遥感反演数据集和国家气象科学院提供的南京地区降水逐日数据资料 研究大洋暖池与南京降水间的时空关联规则 实践表明 这种挖掘方法具有以下特点 算法基于面向对象思想 对地理对象状态进行独立描述 因此 所得时空关联规则与时空粒度无关 并能够挖掘出时空粒度不一致的地物间的关联关系 算法使用笛卡尔积得到在时空拓扑阈值内匹配的时空候选集 并可以发现时域 空域均不邻接的事物间的时空关联规则 即时延不确定的地理现象的相互关联 关键词 数据挖掘 关联规则 时空数据 层次挖掘 周期表 #)) 引言 时空数据是地理现象在时空维度上的采样 包含时间 空间 属性 个基本特征 是地理信息系统 # 的基本成分 由于缺少强有力的数据处理工具理解历史数据 近年来遥感和 # 技术的广泛使用所积累的大量时空数据并不能被现有 # 系统有效利用 因此 数据挖掘技术被引入到地理学领域 旨在从海量地学数据中发现其中隐含的模式与知识 关联规则挖掘作为数据挖掘技术的重要组成部分 从地理数据向真实世界反馈 " 形式的知识 而时空关联规则挖掘 是关联规则的子领域 能够寻找包含了时间空间拓扑关系的关联规则 规则形如 生活在加拿大西北部的驯鹿群大部分时间不迁徙 仅在一定区域内活动 规则也可形如 若台湾东北部海域的盐度从 )3/ 上升至 )3/ 则下个月台湾东北部海域的海水温度将从 4 上升至 4 时空关联规则的表述是多样的 其复杂性由现实世界中已知的或所需的知识所决定 时空关联规则中 时间是首先被考虑的问题 这里引用, 等文中的实例来证明时间对于规则的重要性 存在煎蛋 咖啡 支持度 56 置信度 56 的规则 这说明 6 的消费者同时购买煎蛋和咖啡 并且买了煎蛋的消费者中有 6 的人同时购买了咖啡 然而 在现实数据中 煎蛋 咖啡 消费模式大部分出现在早上 点至上午 点的时间段内 在这段时间内 规则具有 6 以上的支持度 然而在其他时间段 该规则的支持度小于 )6 可以看出 时间范围的界定有助于提高规则被发现的概率 同理 空间范围在规则挖掘中同样具有限定功能 然而 现有关联规则挖掘方法大都将时间数据与空间数据割裂开进行处理 这些方法或只能挖掘序列规则或只局限于利用事物空间关系挖掘静态空间关联 对于时空关联规则却无能为力 目前 对于统一时间与空间维度的联合数据挖掘方法的 研究尚不成熟 另一方面 在地理现象中 存在具有远距离相互关联的模式 尤其是大气科学中 遥相关 收稿日期 修回日期 作者简介 柴思跃 () 男 北京人 硕士 研究方向 时空数据挖掘 *+,'-.+,/0'1,/+--

) 地球信息科学学报 年 "'-&-2,& 被定义为描述不同地区间大气异常环流的相关的概念 反相位或同相位 是大气环 流的重要模态之一 例如 厄尔尼诺与南方涛动之间存在典型的遥相关关系 因此 广义角度上 遥相关 是存在一定距离的地物间可能存在的系 ( 统性相关关系 目前 在数据挖掘领域 对于这类具有 遥相关 关系的关联规则挖掘方法研究尚处于起步阶段 但面对时空数据的日益增长 我们迫切地需要一种方法来发现这种事物间的关联关系 为更深入地研究地理现象 以及地球系统过程提供时空关联规则指引 本文设计了一种基于周期表的时空关联挖掘模式 并且应用 $ 提供的 ( 年末至 年初共 年的海表面温度遥感反演数据集和同时间内的南京地区降水数据逐日资料为数据基础 挖掘大洋暖池与南京降水间的时空关联规则 时空关联规则挖掘的相关研究与问题 相关研究频繁模式与关联规则挖掘的命题最先于 (( 年由 1+7+' 提出 经过十几年发展 多种关联规则挖掘方法被设计出来 目前 挖掘算法可以分为 大类 根据频繁模式与关联规则挖掘根据数据类型的不同可分为布尔型与数量型 根据规则涉及的数据维数的不同分为单维与多维 根据规则集所涉及的抽象层次的不同分为单层关联规则与多层关联规则 根据模式与规则间的 相互关系分为完全 最大 闭合型 从关联规则的意义出发 大量研究致力于从数据库中挖掘具 有时间或空间拓扑关系的关联规则 因此 关联规则也可以分为 大类 时间关联规则挖掘 空间关联规则挖掘 时空关联规则挖掘 时间关联规则挖掘是关联规则挖掘中的重要组成 用于挖掘包含时间信息或序列信息的知识 例如 购买了佳能数码照相机的顾客很可能在一个月内购买 彩色打印机 时间关联规则包含挖掘序列模式 相同时间序列集和时间规则 类 这些方法在对于时间的表示上 可以分为时间戳与时间段两种方式 经典的序列关联规则挖掘算法是 # ( 和 # 目前 时间关联规 则挖掘 大都考虑局限于利用 ' 提出的时间拓 扑关系作为挖掘约束条件 时间规则挖掘算法中 8 等利用事物的周期重复特点设计的周期表挖掘方法可以显著提升规则支持度 从而发现更 隐蔽的规则 例如 规则 购买火鸡的顾客会同时购买南瓜饼 会出现于 月 6 的天数中 空间关联规则挖掘研究在于发现空间实体间的相互作用关系 例如 (6 靠近海滩的房子价格都高 其中 空间实体间的相互作用 空间依存 因果或共生等模式 空间关联规则挖掘利用 # 空间分析方法对数据进行空间维度的拓扑计算 在特定邻域内搜索与发现空间依赖模式 ) 对于同时挖掘数据的时空信息 还没有成熟的算法!,/ 等利用序列挖掘应用在带有时刻和 ( 空间描述的数据库中寻找关联规则 对具有时空特性的移动对象的路径轨迹进行挖掘 获取移动对象的时间模式 其实质就是带有地理坐标的 序列挖掘 "+& 等简略表述了时空关联规则 提出了用 如果事物在 时间内 而后在 时间 事物出现于 表示时空关联 记作 并应用贪婪算法和!$# 技术加速 %1., 和 $.+7'+ 基于移动对象时空数据库对移动对象在空间区域之间的移动时空关联规则进行挖掘 探索其间的关联模式 完善了 的思想 将时空关联规则表达形式完善为 #" %1., 的方法用源通路汇集地三种状态描述空间格网 主要针对群体目标事物的移动规律 但存在对于非连通路径和异常斑块无法解释的问题 + 等学者以 挖掘方法为基础 提取了台湾附近海域相邻时间点内不同空间上的海盐与温度关联规律 得到时空过程规则 但该实验将空间描述设定为以台湾岛为中心 将空间描述固化为海面温度的一个属性 既没有体现出空间变化 同时时间属性的限定性也有限 存在的问题首先 我们回顾 1+7+' 对关联规则的定 义 设存在项的集合 对于相关数据库中存储的各个行的集合 存在 其中每个事务 都有一个唯一标识符 " 存在事务集 并且 5 满足给定支持度阈值 *,/3 与置信度阈值 *,-&9 后

期柴思跃等 基于周期表的时空关联规则挖掘方法与实验 ) 同时发生的概率!*,/3! *,-&9 称 为一条关联规则 关联规则已成熟应用于购物篮分析中 然而 地理知识纷繁复杂 地理数据的类型也并不统一 这种复杂性造成时空关联规则挖掘与购物篮分析具有显著差异性 这首先表现在时空关联规则中包含的时空拓扑关系决定了时空关联规则具有独特的表达特点 其次 时空数据库中数据结构的异质性 造成时空数据类型既包含一般数据库表结构数据 同时又包含影像数据 再次 与商业关联规则相比 时空关联规则的生成与验证都要更加复杂 可以说 时空关联规则挖掘的难点在于以下 个方面 如何表达复杂 多样的时空关联规则 如何在数据操纵过程中 保持时空一致性 对于海量数据事物在时间空间中的多种形态 如何发现其中存在的频发状态 如何匹配事物发生的时空顺序 并验证时空关联规则的拓扑关系 使其具有合理的地学意义 基于周期表的时空关联规则挖掘方法与实验分析 周期表与时空状态的描述地理现象总是存在周而复始的特点 在事物运动周期中 总是表现出相同或相似的变化规律 即在多个周期中 地理事物在特定的时间段上会表现出相同或相似的状态 而这些状态集则是地理规则的基础 例如 在强南极涛动 年 中国长江流域夏季降水偏多 中国北方的沙尘天气和太平 洋台风发生频数较少 事例的前半句结论说明 在 年份长江流域夏季降水多于多年夏季降水平均值的现象是频繁出现 因此 利用地理现象的周期性特点 我们可以从时空状态入手 对时空关联规则加以描述 定义 时空状态 也就是地理事件 是指特定时间在特定地点的地理事物的属性状态 定义 周期 是指事物运动完成一次重复所需的时间 定义 时间分辨率是指在同一区域进行的相邻两次采样的最小时间间隔 在现有的地理信息数据库中 地理事件按照采 样时间按顺序记录为二维表结构 每条地理事件存放着描述时间 空间 属性信息 且每条记录存在一个唯一标识 但由于顺序记录数据 造成对数据时间信息解读异常困难 图 在图 中 我们以大洋暖池平均温度与面积大小两种属性为例 可以发现两种属性的震荡规律并不明显 因此 顺序记录的方式并不能完全表现数据中存在的时空知识 图 事物属性序列均一化示例图,:+*3'-.+12&9+21,;2/2,+'+2+ 9&1/&*&;-2/ 定义 设顺序采样集为 "###$ 包含周期个数为 $ 在相同采样频率时 每个周期内采样点数量为 周期表定义为矩阵! $ 且周期表内元素 #$% $% 矩阵! $ 形如 因此 我们引入周期表的定义 通过周期表将顺序记录的地理对象集 & & & 转换为周期表集的形式!!&! 这使得原先数据库中以序列方式记录的时间信息 空间信息与属性信息被转化为对象化周期表记录集 这种转化不但使得数据的存储与管理易于管理 而且使得数据在周期中的时间信息具有了固定的二维坐标 实现了数据表现形式与概念形式的统一 另一方面 空间数据结构的不一致性是数据挖掘前期必须克服的障碍 空间数据库中存储的影像信息需要被统一转化为二维表结构 而这种转化的过程是提取地理对象的时空信息的记录过程 在此仅以图表为例 加以展示 如图 表 周期表结构的行向量存储了各个周期的数据 这些行向量包含了地理对象周期性变化的数据 在特定行内 存在一些经常出现的状态 叫做频繁出现的时空状态 这些状态正是形成时空关联规则的基础 表

) 地球信息科学学报 年 图 海表面温度场反演数据的大洋暖池提取示例图,:+*3'-.+12&9+1*&&':21+-2,&1/'291&*/+/19+-2*31+21,1/,&+2+ 表 大洋暖池时空信息提取结果!"#$! #%!&#!'"$!! " 最高温度 中心经度 中心纬度 平均温度 4 面积 * 时间 年 月 ) )() ( ))) ( ( )) ( () ( ( ( ) ( ( ( ( )) ( ) ( ( (( ) ( )( 表 大洋暖池数据周期表集 以平均温度距平数据集为例 % "$!"'# "(!)!!$! "*+ 第一周第二周第五十二周 ( ( ( (( ) ( ) ) ) ( ) ) () ( ) ) ) ) 表 南京旬降水距平数据表 降水量单位 * % "$!"'# "(!)!&#$,#-#)* 第一旬第二旬 第三十六旬 ( ( ( ( ) ( ( )( ) () ( ) ( 针对问题 为快速搜索并发现时空关联规则 我们引入向下封闭引理 &77+1$'&/1 **+ 若闭集不频繁出现 则必定存在集的 ) 任意非空子集是不频繁的 其中 频繁 一词是指中元素出现的频率大于一定阈值 我们将引理进行推广 使集合中的元素包含时间与空间信息 则存在 时空关联规则中的频繁出现的时空状态必定是频繁的 时空关联规则存在于由时间拓扑约束频繁集与空间拓扑约束频繁集的交集中 这说明 时空关联规则中存在的状态一定是频繁出现的时空状态 也说明时空关联规则可以表示为空间规则规范下的时间规则或时间规则规范下的空间规则 在这里 需要强调的是只有同时满足支持度和置信度的规则才称为强关联规则."' #! 挖掘方法设计通过对时空关联规则的定义 我们设计了 '/!,1 挖掘方法用于挖掘时空关联规则 下文将对 '/!,1 进行详细介绍 挖掘策略 '/!,1 采用递进式挖掘时空关联的模式 分阶段解决归纳知识 即先寻找时空频繁状态 再对状态集进行连接与验证 得到时空关联规则 应用 31,&1, 挖掘算法实现时空频繁状态提取处理 但对于时空关联规则的生成与验证使用匹配技术 以事物发生的时空顺序组织频繁出现的时空状态 以此来反映时空关联模式 并使之具有合理的地学意义 在语义学中 频繁出现的时空状态通

期柴思跃等 基于周期表的时空关联规则挖掘方法与实验 )( 常是描述知识的主体结构 例如 北京夏季降水占年降水量的 )6 但这种表述只能描述单一事物 另一方面 利用时空拓扑关系是时间拓扑与空间拓扑的耦合结果的特点 通过分布挖掘时态规则与空间规则 才能达到挖掘时空关联规则的目的 一般来说 ' 模型常用于表达时间拓扑关系 而九交模型则用于表达空间关联关系 时空关 联规则的种类是时间关联规则与空间关联规则的笛卡尔积 时空关联规则挖掘流程 '/!,1 可分为 个主要步骤 图 数据准备 频繁出现的时空状态的挖掘 时空关联规则挖掘 图 '/!,1 挖掘流程图,'&7-.+12&9'/!,131&-// 首先 进行数据清洗工作 填充数据中的缺失值 并进行数据的分类与编码 为更好地衡量数据状态 我们采用时间段内多年平均值的距离作为统 计值 并以平均值与标准差为分类体系 对各个周期表内数据进行分类 例如 对平均温度距平数据表中第九周数据进行分类 得到阈值表 表 / 平均温度距平分类阈值 /% "$&"'$&#0!'0"# "(!)!!$! " 类别 公式 下限 上限 <!+#% )!+#%<!+#% ) )!+#% <!+=#% ) )!+=#%<!+=#% ) ) ) <!+=#% ) 初级数据挖掘在整个数据库内进行 依照历史周期表结构 在表内进行初步挖掘得到各个时间段内 地理对象的单一属性的频繁状态 例如 (((((((((()(( 年的第九旬中 大洋暖池的分布面积大致为 (((* 或 (((((((((( 年的第九旬 大洋暖池的平均温度约为 (4 利用向下闭合引理 只有在一个时段内全部属性都频繁的事 物 才记录一条频繁出现的时空状态 经过初级挖掘 汇总频繁的时空状态 得到频繁状态数据集 表 ) 其中 各年份中的数值为各属性频繁状态叠加后结果 简单来讲 即是多年内事物反复出现了相同状态 例如 ((((((((( 年的第九旬中 大洋暖池的分布状态相似 其面积大致为 (((* 平均温度约为 (4 且重心位置在本时段多年平均重心的东北部 即位于巴布

地球信息科学学报 年 亚新几内亚以东海域 > 反映在表 ) 中 若标注出现这种状态的年份为 " 反之标注为 因此 在同 一时段内可能出现多种运动状态 但由于本文数据所限 这种多态性在表 ) 中并没有表现出来 表 1 大洋暖池频繁状态集 1% "$$!#'''$! " 时间段 面积类型 ( ( 重心方位偏移距平 平均温度距平类别 支持度 6 置信度 6 第二十一周 ) 东南 ) 第九周 ) " 东北 ) 第三十五周 ) 不变 ) 第十三周 ) " 东北 ) ) 第四十二周 ) 西北 ) ) 第四十四周 ) 东 ) ) 第四十一周 ) 北 第五十一周 ) 东北 ) 数据挖掘中的第 步 通过给定时空拓扑关系构建时空关联候选集 表 构建方法是将所有满足时空拓扑关系并且频繁出现的时空状态进行笛 表 时空关联规则挖掘候选集 #'$'!"'&#!"' 卡尔积运算 生成时空关联规则候选集 挖掘过程则是在时空候选集中寻找满足给定时空拓扑关系下时空支持度与时空置信度的规则 暖池 暖池时间段 暖池面积类别 暖池 ( 暖池 ( 暖池 重心方位偏移距平 平均温度距平类型 降水 降水时间段 降水类别 降水 ( 降水 第九周 ) " 东北 ) 第一旬 " " 第三十五周 ) 不变 ) 第一旬 " " 第九周 ) " 东北 ) 第二旬 第三十五周 ) 不变 ) 第二旬 第九周 ) " 东北 ) 第六旬 第三十五周 ) 不变 ) 第三十六旬 " " 时空关联规则挖掘是一个交互 复杂 反复的过程 挖掘方法的选取和挖掘效果都会由于问题的不同 数据组织的不同而存在一定的差异 整个挖掘过程是由一系列前后紧密相连的阶段构成 每个阶段的结果均作为下一个阶段的输入 因此 当前阶段结果的好坏直接影响下一个阶段的操作 最终会影响最后的挖掘结果 时空关联规则挖掘实验与结果分析实验选用 $ 提供的 % 传感器的海洋表面温度再分析数据 影像大小为? 像元 数据周期为 天 时空覆盖度为 年 数据起始时间为 ( 年 月 我们从中提取大洋暖池的时空信息 分别用时空 重心经度 重心纬度 平均温度 覆盖面积描述 对于另一地理 对象中国南京地区逐日降水资料 降水量单位为 ** 且经度误差小于 ** 由于两数据在时空尺度上存在差异 因此 依据大气学中旬降水量的概念将降水资料进行转换 尽量减小两套数据间的时空尺度差异 阈值设定为 状态支持度为 6 状态置信度为 6 在实验中时空拓扑关系为 年后 时空支持度为 6 时空置信度为 6 挖掘结果如表 本文以第一条规则为例 可以解释为 若暖池在第九周 月 日 时出现位置比往年偏东北方向 面积比往年显著增大 即面积大于 ( * 且平均温度高于旬多年平均温度 4 则次年的第六旬 月 日 南京地区降水出现显著小于多年旬平均值 即降水量小于旬多年均值 )** 其支持度为 6 置信度为 6

期柴思跃等 基于周期表的时空关联规则挖掘方法与实验 表 时空关联规则挖掘结果.'"'$."'#! #3+2,&"*3&1+'//&-,+2,&'/ #"/3 #"-&9 第 ( 周 平均温度 4 东北 面积 (*@+1+21 +, 第 旬 降水距平 )**5 "1 第 ( 周 平均温度 4 东北 面积 (*@+1+21 +, 第 旬 降水距平 **5 "1 第 ( 周 平均温度 4 东北 面积 (*@+1+21 +, 第 旬 降水距平 **5 "1 第 ( 周 平均温度 4 东北 面积 (*@+1+21 +, 第 旬 降水距平 ** 且降水距平 **5 "1 ) 第 ) 周 平均温度 ))4 东北 面积 *@+1+21 +, 第 ( 旬 降水距平 )**5 "1 第 ) 周 平均温度 ))4 东北 面积 *@+1+21 +, 第 旬 降水距平 **5 "1 对比关联规则 中所对应的数据 由于位置关系是以非数值型数据表示方位 图 ) 因此 不将其纳入数值型数据分析中 通过距平均值较远的特征出现的概率大于所定义的 6 面积 平均温度也出现此特征的条件概率大于 6 即对两组数据在方差的时空分布上出现同步特征 通过观察图 ) 可以发现 (( (((((((((( 年中 两曲线均处于高点 同时 在 (((((((((( 年的第九周时 暖池中心偏离多年平均中心位置 且都处于多年平均中心的东北方向 由于数据量有限 其余年份的点上并没有表现出明显的同步特征 结合大洋暖池状态图 我们可以发现在 ((((((((( 年大洋暖池的分布状态相似 其面积大致为 (((* 平均温度约为 (4 较 年年均面积 ((* 高 6 较 年平均温度 ((4 高 )6 这五年中心位置均处于 A))A# 左右 位于 年平均中心位置 AA# 东北部的巴布亚新几内亚以东海域 其时空状态见图 在暖池状态基础上加入了南京地区第 旬降水均一化统计 面积与平均温度处在相关 而第 旬降水 与暖池数据出现很好的反向规律 即暖池数据为峰值时 降水数据出现波谷 依据先验知识给定的大洋暖池与降水间的时空拓扑关系 如果将第 旬降水量向右移动一个刻度 则暖池与降水间 会出现相似的趋势 而时空关联规则 恰恰说明了在暖池出现位置比往年偏东北方向 面积处于峰值且平均温度也处于峰值时 则次年的第 旬 降水出现谷值 其支持度为 6 置信度为 6 数据表明 大洋暖池分别在 (((( (((( 年 年中出现 比往年偏东北方向 面积比往年显著增大且平均温度比往年显著升高 且在第二年即 (((((()((( 年三月初 均出现南京地区降水量显著小于平均值的现象 结论 基于面向对象的方法论 引入周期表的概念作为数据挖掘基本数据组织方式 分为时空对象状态搜索 时空搜索两个步骤对数据进行处理 其思路 引入周期表的概念 解决了时空语义与数据操作的一致性问题 定义了频繁出现的时空状态概念 同时将时空关联规则定义为具有时空拓扑频繁出现的时空状态模式 利用向下闭合引理 使用 31,&1, 算法发现频繁集并进行剪枝 以达到快速抽取状态的目的 设计了 '/!,1 用于从频繁出现的时空状态中挖掘时空关联规则 时空关联规则挖掘实际上是对海量数据认知的过程 我们将海量数据作为信息的输入 设定一系列的处理规则 得到结果 而这些结果正是与真

地球信息科学学报 年 图 图 时空状态状态示例图 ) 大洋暖池属性结合降水属性均一化统计图,:+*3'-.+12/&9+1*&&'/2+2/,)#2+2,/2,-+':+*3'-.+12&9/3+2,&2*3&1+' +//&-,+2,&1'& 实世界中存在的 并可被人类理解的关联规则信息 时空关联信息分段式挖掘时空关联规则的过程是一个逐层归纳 综合信息的过程 实践证明 所得时空关联规则与时空粒度无关 并能够挖掘出时空粒度不一致的地物间的关联关系 算法使用笛卡尔积得到在时空拓扑阈值内匹配的时空候选集 并可以发现时域 空域均不邻接的事物间的时空关联规则 即事物间的 遥相关 参考文献 %1.,+$.+7'+#!,,#3+2,&2*3&1+'+2 21/,;-2!&;,',20+2+;+//+2+!,,+ B&7',/-&10) +@B+&+#+/9,-,2!,, &9#+',,20+ "*31+21 //&-,+2,& '/91&* +2+:312#0/2*/ 7,2. 33',-+2,&/ ) )(,@,/-&1,$+'+1;+/"*3&1+'/ /&-,+2,&'/+2+ C B&7',1, ( B+',/!+*&',/+D+,1+/#,/-&1,!&,$'/21/,#3+2,&2*3&1+'+2++-/,#3+2,+'+"*3&1+'+2+;+//) )"$.@ +$$ 3!,,1 2"1+-2&10+21/,#3+2,+'2*3&1+'+2+;+// 9&1*+2,& #-,-/(( + +0B "*3&1+'!&, +21!,,9&1&-+2,&;+/#1,-&1+' &9#0/2*/+#&927+1 ( #E.&$0%@+#.,+2+*,,331&+-.2& 21*,2.#3+2,&2*3&1+''+

期柴思跃等 基于周期表的时空关联规则挖掘方法与实验 2,&/.,3;27,1&*2+'+-2&1/+,/.,/21, ;2,&-&'&,-+'!&', 孙建奇 袁薇 高玉中 阿拉伯半岛北太平洋型遥相关及其与亚洲夏季风的关系 中国科学 辑 地球科学 ) ( 张雪伍 苏奋振 石忆邵 等 空间关联规则挖掘研究进展 地理科学进展 ( 1+7+'+#1,+2+/2'&1,2.*/9&1!,, //&-,+2,&'/2. 2$&9%10+1+ 2+D+//#+2,+&$.,'$.,'$,2/1(( +,+7,+B+*;1!+2+!,,$&-32/ + "-.,/!#+ 1+/,/-&$#!&1+B+9*+ 刘君强 潘云鹤 挖掘空间关联规则的前缀树算法设计与实现 中国图象图形学报 辑,+1&+&,-!'& 1,2.*9&1,/-&1,,-.1'+2,"*3&1+'//& -,+2,&'/91&* 21+';+/ +2++2+ C B&7',1, ( $.$/+!,/-&1,"1/ +'+2,&/.,3/+*&'/+2+;+/+: 312#0/2*/33',-+2,&/1&-,/()( )@$.+,7+D+B 0B!,,"*3&1+' 21+''+2,&+''/ 91&*"*3&1+'+2+&1+'&9#0/2*/+#&92 7+1()) +;+/+1,*'+!+*+-.+1+*#+#&- $!"!,,!,, "*3&1+' //&-,+2,& '/". 21+2,&+'#0*3&/,* &+1+''+,/21,;21&-//, 7,2. 33',-+ 2,&/# +". 21+2,&+'$&91 -& 2',21+/,$&*32, $ D+;&9"210++1#3+2,+'+2+!2.&/+%+,&/ &.#2331&+-. 33',#&92$&*32,) "++1+3#%/2,*+2,&&9!,//,1-,3,2+2, & -&1/ 21+2, #19+- 213&'+2,& "-.,/+ #3+2,&2*3&1+' //&-,+2,& '/ &1+'&901&,9&1*+2,-/( (E+,!#9,-,2'&1,2.*9&1!,, 12#-/!+-.,+1, +1,B+2+!,,"-.,/!,1/,2,/ 1// '!+,2+,,B&7'+;&2"*3&1+' 21+'/$&**,-+2,&/&9$!(,+@+#!,,8801,&,- //&-,+2,&'/+2+ C B&7',1,) 8D+*+/7+*0#+#,';1/-.+28$0-',- //&-,+2,&'/2. 21+2,&+'$&91-& +2+,1,1'+& #(( D*;,+0;,/,!,,#3+2,+'//&-,+ 2,&'/7,2.&,/2+-+1+*21$2',2 9&1*+2,&1&-//,+ ;!,,(( ) )33,-D1+1,!$-,!+!+'1;+!,, +,'21,!'2,''#3+2,+'//&-,+2,&'/7,2. #&+2,&/&9 2',2#0/2*/) ) $.+ "+ <!,,#3+2,+'//&-,+2,& '/7,2.&/2+2,/2,-/1&-,/&92. 2. 21+2,&+'#0*3&/,* & #3+2,+' --1+-0 //// *2, +21+' /&1-/+,1&*2+'#-, -/ +$.@/'&1,2.*2& *31& 2.9-2,//&9 //&-,+2,& '/!,, +1;, +1;, /2,22 "-.&'&0 ;',/.1/ ) B+-+1+$,-', B,/-&1,880#3+2,+' //&-,+2,&'/1&-#( &, (!,/+,!,,//&-,+2,&'/,#3+ 2,&2*3&1+'+2+1&-&92.2. 2'$&9& &-&*32+2,& "+&@B&',&/$&/,,,++3+,+/ #3+2,&2*3&1+'1+2,&/,#2-./ 2. 21+2,&+'$&91-&+2+,1, 1+7+'*,',/,"+#7+*,!,,//& -,+2,&'/;27#2/&92*/,+1+2+;+// $!#!-&1(( 薛峰 王会军 何金海 马斯克林 高压和澳大利亚高压的年际变化及其对东亚夏季风降水的影响 科学通报 ( +++B$21+'&12.$.,+1-,3,2+2,& +/-&/21-291&*2.,0+/20#,+'&92. 2+1-2,-2*&/3.1,-/-,'+2,&&3.0/,-+' /+1-.21/)

地球信息科学学报 年 +B++2+1-2,-/-,'+2,&+2./2 +2.11-0, &12.$.,+&3.0/,-+' /+1-.21/ )"+,'&"+8,-$.++ 21/;0$&/21+,,2.'&9*;,-21 &2/,$&*321#-,-() 王秀荣 王维国 刘还珠 等 北京降水特征与西太副高关系的若干统计 高原气象 (!D!,1!,, -*;#;!"'!"2'&#."'##) $ #,0 #8. E$.. '&()$#*$+$ $$ $ $(,-.))$)$#/( ()).0$- 0.$',#(1$+0.$)# )$) $- (0.$ 2'!&/31,&,-+'&1+3.,-+'3.&*+-&1'&2/&91'/&1+3.,-+2+*,,31&,/+7+0 2&9,&2/-.1'/2.,/3+31++'&1,2.*-+''/!,1,//,;+/&31,&2+;'2& *,/3+2,&2*3&1+'+//&-,+2,&1'//,2.,/*,,*&'/3+2,&2*3&1+'+2+711&1+,8 91&*/2,+'+2+/22&31,&2+;'/2/3+2,&2*3&1+'+//&-,+2,&1'/7.,-./-1,;2.2' -&-2*&*2*&'&927&&1*&1&;-2/-+;&22.1&.2.1/23/,'21,,/&1 1+2+,31,&2+;'7:21+-2/3+2,&2*3&1+'912/2+2/,+-.1&7+/2&1/-./2+2/,2& /3+2,&2*3&1+'912,2*/2!+2-.,&;-2/,2.,2*/2;+/&&77+1-'&/1'**+ +/3+2,&2*3&1+'2&3&'&07*+2-.2.&;-2/,&112&-1+22./3+2,&2*3&1+'+//&-,+2,&-+,+2/2%1,90,2.-+,+2/21/3+2,&2*3&1+'2&3&'&02&9,2.1'/7.,-..+2& /+2,/902./3+2,&2*3&1+'/33&12+/3+2,&2*3&1+'-&9,-2.9,+'1'/+12./3+2,&2* 3&1+'+//&-,+2,&1'/"&-.-2.+',+2,&&92.+'&1,2.*7/0+1/%1&-2 7.,-.,//+/19+-,1/,&2*31+21+2+31&,;0$+2./+*31,&1-&1/&9 +,/+,'031-,3,2+2,&31&,;0+2,&+'-+*0&9!2&1&'&,-+'#-,-/2&*,2.2' -&-2,&1'/;27+/21 &-++/21+-,9,--++1*&&'++,/31-,3, 2+2,&".1/'2//.&72.,/*,,*&'.+/2.9&'&7,-.+1+-21,/2,-/2.,/+'&1,2.*,/&;-2 &1,2+2+-+/-1,;&1+3.,-+'/2+2/,32'0"./2.9,+'/3+2,&2*3&1+'+//&-,+2,& 1'/+1&2-&11'+27,2./3+2,+'/-+'&12*3&1+'/-+'".-+,+2,2*/2,/-1+2;0$+12 /,+31&-2+,2-+131/2-&*3',-+2/3+2,&2*3&1+'2&3&'&0;27&;-2/2./3+2,& 2*3&1+'2&3&'&0-+;/2*++'0/&+/2&9,2.+//&-,+2,&&9&++-2&;-2/,/3+2,&2* 3&1+',*/,&/921/2,/3+2,&2*3&1+'2&3&'&0/3+2,&2*3&1+'+//&-,+2,&1'/-+;*, ++',+291&*-+,+2/22.9,+'1'/&&;-2/912/2+2/,/-&*;,7,2.+&2.1 &;-2/912/2+2/7,2.,/3+2,&2*3&1+'2&3&'&0"./2.+//&-,+2,&&9&;-2/7,2.-1 2+,2,*'+-+;:21+-2 34!'+2+*,,+//&-,+2,&1'//3+2,&2*3&1+'+2+.,1+1-.,-+'/21-2131,&2+;'