第 29 卷摇第 9 期摇摇摇摇摇摇摇摇摇摇摇摇摇 2010 年 9 月 情摇报摇杂摇志 摇摇摇摇摇摇摇摇摇摇摇摇摇 JOURNAL OF INTELLIGENCE Vol. 29 摇 No. 9 Sep. 摇 2010 不同内容网络信息资源的半衰期比较研究 A Comparative Study of Half-life of Network Information Resources with Different Contents 朱梦娴摇许鸿翔摇高摇静 ( 武汉大学信息管理学院摇武汉摇 430072) 摘摇要摇比较不同内容网络信息资源半衰期, 有利于进一步研究网络信息资源的老化规律, 使信息价值最大化 以 delicious 网站一天中更新的 80 622 条书签为研究对象, 根据用户标注的标签进行内容分类, 测度其被引半衰期并进行比较分析, 验证了不同内容网络信息资源半衰期不同 : 社会和生活类网页的半衰期较长, 而以计算机技术和娱乐的相关网页半衰期较短 最后, 提出了此研究在网络广告和挖掘网页价值中的应用 关键词摇网络信息资源摇分类方法摇半衰期中图分类号摇 G350 摇摇摇摇摇摇摇文献标识码摇 A 摇摇摇摇摇摇文章编号摇 1002-1965(2010)09-0029-04 摇摇网络信息技术的飞速发展使得信息量剧增的同时, 也使大量信息迅速被淹没, 使得价值不能得到有效利用, 特别是近几年来 Web2. 0 的普遍推广和深度应用 网络信息资源的信息价值随着信息内容的不同而具有差异性, 测量不同内容类型网络信息资源的半衰期有利于我们深入了解它们的老化机理和影响因素, 从而利用老化规律延长其半衰期, 减缓其老化, 以使其资源价值最大化 笔者对网络信息资源按内容进行分类, 并对不同类型的资源进行半衰期测度, 以作比较研究 1 摇国内外研究现状国外学者 W. Koehler 在 2002 年的研究中指出, 和网站一样, 网页在稳定性和持久性方面表现出显著的差异 他经过一项为期四年的研究发现, 网页的寿命是由其类别和用途相互复杂作用的结果, 且提出不同学科 不同域名 不同领域的网络信息的半衰期各不相同 [1] Taylor and Hudson(2000) 研究了印刷的传记后的 URL 和网站列表, 发现不同的域名类型和主题领域, 半衰期不同 [2] 在 2006 年, 美国 Notre Dame 大学的阿尔伯特 拉斯洛 巴拉巴斯和匈牙利学者一起计算出了网络新闻阅读的半衰期为 36 个小时, 并同时指出半衰期随网站类型不同而不同 [3] 国内学者主要对网络信息老化的原因 特征以及测度方法有所探讨, 但却未对不同类型的网络信息做分类研究 对于网络信 息的分类, 仍处于初级阶段, 还很不成熟 目前国内外学术界对网络信息资源的分类还缺乏一个完善的体系, 且对于不同内容网络信息资源的半衰期也没有深入的比较分析 对网络信息老化的测度仅局限于物理层面, 而没有从网络信息对于网络管理 [ 4 者和用户的利用价值的角度去研究 ] 2 摇研究对象及数据来源本文选择社会书签网站 Delicious 为研究对象,De 鄄 licious 是 Web2. 0 的典型代表 随着网络的不断发展, 传统的分类体系以及其关键词表已经不能准确地表达用户的思想 而 Delicious 社区中, 用户的协作标注则 [ 5 是一个知识组织和资源发现的工具 ], 用户使用的标签为网络环境下的分类提供了很好的依据, 便于我们对 Web 2. 0 网站上充足的网络资源进行合理地分类组织, 以便进一步对不同类型网络信息资源的半衰期进行比较研究 笔者用自行开发的程序抓取 delicious. com 上 2009 年 11 月 14 日这一天完整的 Recent 数据为研究对象,Recent 数据是指 Delicious 中最新被收藏的书签, 该数据每分钟更新一次, 所以把采集数据时程序抓取时间间隔设为 1 分钟 经过去重等数据处理后, 我们得到 80 622 条最近更新的数据, 即 80 622 条当天被收藏的书签 本研究中用到的数据项 数据说明及数据来源如 收稿日期 :2010-03-22 摇摇摇摇修回日期 :2010-05-17 作者简介 : 朱梦娴 (1989-), 女, 本科, 研究方向为信息组织 ; 许鸿翔 (1988-), 男, 本科, 研究方向为信息检索 ; 高摇静 (1986-), 女, 硕士研究生, 研究方向为网络信息生命周期
30 摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇情摇报摇杂摇志摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇第 29 卷 表 1 所示 数据项 ID URL DATE 表 1 摇 DATEPAST TOTAL 3 摇研究方法 研究中的数据项及相关说明 说明 该书签在 delicious. com 系统中的编号 该书签指向的 URL 该书签的首次创建时间 DATEPAST = 观测时间 - 创建时间 书签被收藏总数 摇 3. 1 摇网络信息资源分类方法摇对网络信息资源有 很多种分类方法, 如按资源形式 Web1. 0 与 Web2. 0 功能类型等, 在此笔者按内容的不同对网络信息资源 进行分类研究 不同内容的资源就如同日常生活中人 们所处的不同社区, 每个社区所呈现出来的状态特征 不一样, 因此需要对不同社区的性质进行研究, 以便对 不同社区进行合理的规划和管理 对网络信息资源的 分类管理亦是如此 笔者通过研究维基百科分类索引 [ 6 ] 互动百科分 [ 7 ] [ 8 ] 类树以及 Google 分类目录等方法发现, 网络信 息资源在分类过程中不同类别之间有很大的交叉性, 不能按照传统的分类方法进行研究 首先, 笔者选择 标签作为网络信息资源分类的关键词 Veres 在 2006 年证实了 不同用户的概念认知在某种程度上具有一 致性冶 [ 9 ], 且协作标注系统这种基于个人兴趣的结构 可以促进内容检索和导航 其次, 笔者在本研究中选 择了四个常用的大类, 即计算机技术 社会 生活和娱 乐, 这四个大类涵盖了人们生活中大部分常用网络信 息资源, 且交叉性较小, 如表 2 所示 鉴于每个大类下 又有丰富的小类内容, 本研究采用了主辅关键词表来 对网络信息资源进行内容类型划分 类别 计算机技术 社会 生活 娱乐 表 2 摇 四大类别 涵盖内容 硬件 软件 计算机语言 网络等 文化 历史 宗教 教育 经济 政治 法律 家庭 环境等 购物 健康 食物 旅游 住房 交通等 音乐 电影 视频 游戏 图片 戏剧等 摇摇本研究采用以下步骤对网络信息资源进行分类 : a. 建立主辅关键词表 由幂律分布可知, 在 Deli 鄄 cious 网站上, 少数标签被多次使用, 大部分标签被少 数用户使用 [8] 因此少数的热门标签能够表达大多数 用户的思想, 所以笔者从热门标签着手来建立关键词 表 笔者首先对热门标签进行人工判断来归类, 适当 添加常用词汇以保证覆盖每个类别的内容, 形成了初 始的主辅关键词表 ; 接着笔者再将这些关键词放在 Delicious 里面去搜索相关关键词, 从相关关键词里再 抽取能反映出此类别的关键标签, 添加到主辅关键词 表中, 形成每个大类最相关的主辅关键词表 一个大类的主关键词是指当一个 URL 的标签里 含有此关键词时, 就直接归为此类 ; 而辅关键词是指当 出现了此关键词时, 只是可能属于此类, 还需要进一步 判断 在反复测试和完善之后, 笔者确定了最终的四个 大类的关键词表, 如表 3 所示 计算机技术 Technology 社会 society 娱乐 Entertainment 生活 Life 表 3 摇 主辅关键词表 hardware,cpu,computer,software,freeware,linux,unix,mi 鄄 crosoft,windows,. net,ajax,c#,java,jquery,php,sql,visu 鄄 alstudio,html,seo,web,internet,browser,protocol,interface cache, driver, engine, opensource, program, framework, mac,office,msdn,beta,chrome,drupal,wordpress,ui,c, network,google,http,research,webkit,spdy culture,civilization,cultural,history,religion,religious,edu 鄄 cation,school,educate,teach( teacher),student,economy, economic,business, commerce, commercial, financial, poli 鄄 cy, politic, law, family, child, parent, environment, pollu 鄄 tion,climate art, design, historical, faith, Christian ( ity ), Buddhism (Buddhist),Moslemism,Islam,instruct( ing),train( ing), study,learn( ing),trade,finance,government,polity,legis 鄄 lation,copyright,legal,household,housewife,greenhouse Music,song, concert, hiphop, audio, rhyme, Film, movie, cinema,comedy,vedio,media,game,picture,photo,image, drama mp3,playlist, sound, youtube, mp4, actionscript, tv, televi 鄄 sion,show,flash,gaming,free,download,resource,trend shopping,price, store, health, fitness, diet, nutrition, nutri 鄄 tious, food, drink, travel, holiday, vacation, hotel, home, house,traffic shop, product, grocery, clothes, exercise, fruit, vegetable, wine,beer,flight,accommodation,guide,d 佴 cor,decoration, furniture,garden,bus,train,plane 摇摇 b. 筛选书签 由二八原则和幂律分布可知, 少数 热门标签被多次使用 [1 0 ], 在 Delicious 网站中, 排名前 三位的 Tags 被大多数用户所标注, 基本上就能决定此 URL 属于何种类别 所以笔者根据每个 URL 被标注 数最多的 3 个标签, 结合上面的主辅关键词表, 对 URLs 按内容进行筛选 在英语词汇中, 一些复杂的概念需要多个单词的 组合才能表达, 例如 jobsearch 冶, mycomments 冶等 ; 且 据研究表明, 为了避免将一个概念拆成多个标签, 在 Delicious 中超过 10% 的标签中出现了特殊符号, 如 Peking-University 冶, Devel / C + + 冶等等 [1 1 ] 故笔者 在筛选的过程中, 选用 Excel 表格中 包含冶进行关键 词选择, 来将 80 622 条数据依据以上建立的关键词表 进行归类, 分别得出四大类的 URLs 集合
摇第 9 期摇摇摇摇摇摇摇摇摇摇摇朱梦娴, 等 : 不同内容网络信息资源的半衰期比较研究 31 摇 3. 2 摇半衰期测度方法摇在本文中, 我们的研究基于 Delicious 网站上的数据, 对网络信息半衰期进行分类测度 Delicious 是一个数据量大 信息来源广和数据更新快的网站 因此, 我们的测度方法必须要适合于该网站的数据特征 在此, 将主要利用网络信息被引用半衰期来进行研究 网络信息的被引半衰期是指某一站点的某一时间段内被引用或被链接的所有信息中较新的一半是在最 [1 2 近多长时间内发表的 ] 网络信息被引半衰期的测度是通过 URLs 被引用的变化情况来判断的 由于在 Delicious 网站中, 网页的收藏是基于标签的, 因此, 我们可以将被引半衰期理解为某一观测时间内,Delicious 系统中一类信息被收藏的书签中较新的一半是在最近多长时间创建的, 即观测时间与创建时间的跨度距离 该段时间即可作为这一类信息的被引半衰期 根据以上半衰期测度方法, 笔者分别将四个大类的 URLs 数据根据字段 DATEPAST( 即观测时间与创建时间的跨度距离 ) 进行升序排列, 取总体数据一半时的 DATEPAST 值作为该大类的半衰期 由于选取的每个大类中包括的数据量太大, 且包含了很多不同的小类别, 为了使研究更为深入, 笔者决定在每个大类里选取三个小类分别按上述同样的方法提取数据, 计算半衰期, 分析各小类的半衰期与总体大类半衰期的关系以及各个小类之间半衰期的联系及区别 的半衰期 分析其原因, 笔者认为主要有以下三点 :a. CNNIC2009 年 7 月发布的中国互联网络发展状况统计报告显示, 网民在网络娱乐这个应用中使用率是最高的, 超过 50% 以上的网民上网都使用网络音乐 视频 [1 3 和游戏等进行娱乐 ], 这使得网络娱乐类的信息更新迅速, 半衰期较小 ;b. 计算机和娱乐类信息的活跃程度较高, 其更新的速度比较快, 从而导致在我们所采集的数据当中, 其较新的数据所占有的比重偏大, 半衰期则较小 ;c. 从信息的价值方面来看, 对于信息用户来说, 社会和生活类的信息在比较长的一段时间内都是具有利用价值的, 而计算机和娱乐方面, 由于现代技术的日新月异和经济的迅速发展, 许多相关信息的淘汰速率比较大, 最终形成了这种现状 为了确定数据的准确性, 我们做了以下的研究 Golder 和 Huberman 在 The Structure of Collaborative Tagging System 冶一文中指出 : 被标注 100 次之后, 标签 [1 4 占标签集合总体的比重会呈现出稳定状态 ] 考虑到非稳定状态中根据标签判断书签所指向的网页的内容可能出现偏差, 笔者又对数据增加 标签被标记数 (TOTAL) 逸 100 冶这一条件进行筛选, 并重新测度四个大类的半衰期, 如图 2 所示 4 摇数据分析 摇 4. 1 摇计算机技术 娱乐 社会和生活四大类半衰期对比摇采用上述方法可得 80 622 条数据中属于四大类别的数据条数分别为 : 计算机技术类 15 514 条, 社会类 6 470 条, 娱乐类 9 737 条, 生活类 5 528 条 对于不同类别的所有数据, 按照半衰期测度方法, 测得其半衰期如图 1 所示 图 1 摇计算机技术 娱乐 社会和生活四大类半衰期从图 1 中可以看到, 四大类的半衰期分别为 : 计算机类 557 天, 社会类 755 天, 娱乐类 582 天, 生活类 788 天 ; 社会和生活类的半衰期远远大于计算机与娱乐类 图 2 摇计算机技术 娱乐 社会和生活四大类半衰期 (TOTAL> = 100) 与图 1 相比, 在图 2 中四大类半衰期的整体趋势是一样的, 但是对于每个单类别来说, 半衰期都有一定程度上的增加 这可能是标签数大于等于 100 的网页更具有权威性, 因而有相对比较多的用户去关注, 故半衰期要比全部数据中同内容类型的网页半衰期要长 由于两张图的趋势大致一样, 说明使用两种数据分析差别不大 在以下的分析研究中, 笔者为了采用更加全面的数据, 仍然选择采用全部数据进行分析研究 摇 4. 2 摇四大类中各小类半衰期对比摇笔者在计算机技术类中选取软件 计算机语言及网络, 在社会类中选取环境 教育及经济, 在娱乐类里选取音乐 电影及图片, 而在生活类中选取购物 健康及旅游三个小类 测得半衰期数据结果如图 3 所示
32 摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇情摇报摇杂摇志摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇第 29 卷 摇摇从图 3 可以看出, 四个大类中小类的半衰期都是在大类半衰期上下浮动 根据信息价值和人们关注程度的不同, 每个小类的半衰期会有所差异 对于计算机技术这个大类来说, 计算机语言和网络的半衰期大致持平, 均远小于软件类的半衰期, 可见软件类的网页内容相对更新较慢, 且用户持久关注 ; 对于社会这个大类来说, 可以看到, 经济类的半衰期远远小于其他两类和整个大类的半衰期, 我们认为, 这是由于经济现象本身的复杂性决定的, 经济信息受政策 环境 发展水平等影响较大, 信息的时效性要求较高, 信息很快过时, 因此半衰期较短 由此我们可以推出, 现在人们对环境的关注度也比较高, 而对于教育这个类别来说, 教育这个话题是不容易随着时间的推移发生快速的变更, 如教育文件 教育方法等常常来说是非常稳定的, 不会引起人们过多的关注, 此类的信息往往很有价值, 不易衰老 ; 对于生活中的三个小类, 可以看到, 购物类和旅游类的网页半衰期较长, 在如今网络高速发展的时代, 网络购物的用户规模在金融危机中逆势上扬, 且网上酒店 / 旅行预订的增长是大趋势, 故此类信息得到用户的持续关注, 半衰期相对较长 ; 在娱乐的三个小类中, 网络音乐一直是排名最靠前的网络应用, 人们习惯于在网上下载和听音乐, 早已摒弃了磁带 CD 等介质, 网络音乐的快捷 方便以及多资源等属性使得它受到人们持久不断的关注, 并且目前其使用率还在继续攀升, 这促使了音乐小类的半衰期大于其他两者 图 3 摇四大类中小类半衰期对比 5 摇结束语根据对不同类型网页半衰期进行测度可以得出, 以社会和生活为主的购物 旅游及教育等类型网页的半衰期较长, 而以计算机技术和娱乐为主的计算机语言 网络 经济及图片等类别的网页半衰期较短 此结论可应用到如下两个方面 :a. 网络管理者可根据网络广告的种类, 选择将网络广告投放在合适类别中半衰期较长的内容页面上, 能使网络广告拥有更多的关注者, 延长网络广告的生命周期, 使之价值发挥到最大化 ;b. 将不太受关注的页面链接到半衰期较长的内容页面中, 以此延长网页半衰期, 加大网页价值, 并根据需求来改善网络信息资源 本文的创新之处在于对不同类型的网页资源进行合理分类的过程, 这有利于今后对网络信息资源进行深入分析研究, 但是由于方法的局限性和数据量大小的限制, 很多地方还有待进一步完善 笔者将在扩大数据集并进行自动化处理上做进一步研究, 同时研究用户行为对不同类型网络信息资源半衰期的影响 参考文献 [1] 摇 Koehler W. A longitudinal Study of the Web Page Continued: A report after Six Years [ J]. Information Research,2004,9(2):174-180 [2] 摇 Taylor M K, Hudson D. Linkrot 冶 and Usefulness of Web Site Bibliographies[ J]. Reference & User Services Quarterly,2000,39 ( 下转第 40 页 )
摇第 9 期摇摇摇摇摇摇摇摇摇摇摇朱梦娴, 等 : 不同内容网络信息资源的半衰期比较研究 33 蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚 ( 上接第 32 页 ) World / Chinese _ Simplified / 摇 摇 (3):273-276 [9] 摇 Veres C. Concept Modeling by the Masses: Folksonomy Structure [3] 摇 研究称网络新闻半衰期为 36 个小时, 急需提高质量 [ EB / OL]. [2010-01 - 13 ]. http: / / tech. sina. com. cn / i / 2006-07 - 11 / 14001031330. shtml HYPERLINK " http: / / tech. sina. com. cn / i / 2006-07-11 / 14001031330. shtml" and Interoperability [ J]. Lecture Notesin Computer Science, 2006 (b) 325-338 [10] Halpin H, Robu V,Shepard H. The Dynamics and Semantics of Collaborative Tagging [ EB / OL]. [2008-04 - 24]. http: / / www. [4] 摇 夏永红. 网络信息的生命周期实证研究 [ D]. 武汉 : 武汉大学, 2009 santafe. edu / events / workshops / images / 2 / 2e / Sf _ csss06 _ halpin _ et _ al. pdf [5] 摇 Macgregor G, McCulloch E. Collaborative Tagging as a Knowledge [11] 隆摇 捷. 基于标签的互联网自由分类法研究 [D]. 北京 : 北京大 Organization and Resource Discovery Tool [ J / OL]. Library Re 鄄 学,2007 view, 2006(55):291-300 [12] 张摇 瑞. 网络信息半衰期测度研究述评 [ J]. 图书情报知识, [6] 摇 维基百科分类索引 [ EB / OL]. http: / / en. wikipedia. org / wiki / Main _ Page 2009(1):97-100 [13] CNNIC. 中国互联网络发展状况统计报告 [R]. 2009 [7] 摇 互动百科分类树 [ EB / OL]. http: / / www. hudong. com / category / treemanage. jsp [14] Golder S, Huberman B. The Structure of Collaborative Tagging System[ J]. Journal of information science,2006, 32(2):198-208 [8] 摇 Google 分类目录 [ EB / OL ]. http: / / www. google. com / Top / ( 责编 : 王平军 )