NSTL 十年专刊 http: // 小语种文献数字化对网络文 献集成揭示的实践意义 施明红 / 机械工业信息研究院北京 摘要 : 文章通过对小语种文献数据处理解决方案的研究与应用回顾, 展示了国家科技图书文献中心 (NSTL) 在小语种文献加工及多语种数

Similar documents
深圳市太光电信股份有限公司章程

第 03 期 刘高军等 : 基于 CNONIX 的 XML 与 EXCEL 相互转换技术研究 XML XML CNONIX XML EXCEL EXCEL EXCEL EXCEL CNONIXEXCEL XML EXCEL CNONIX XML EXCEL CNONIX 1 CNONIX 数据元分析

indd

ZS.indd

2013_2_4.indd

ABBYY® FineReader 11 用户指南

图书馆与读者 季刊 刊首语 图书馆动态 图书馆提服务 志愿者在行动...2 图书 馆元 旦假 日 馆长 坐堂 贴 近读 者创 新 服务...3 图书 馆 档案 馆开 展全 员消 防安 全教 育培 训 年第1期 总第29期 图书 馆2012级 论 文写 作与 文献 检索 专 题 培训

论文,,, ( &, ), 1 ( -, : - ), ; (, ), ; ;, ( &, ),,,,,, (, ),,,, (, ) (, ),,, :. : ( ), ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ), ( ),,,, 1 原译作 修补者, 但在英译版本中, 被译作


Construction of Chinese pediatric standard database A Dissertation Submitted for the Master s Degree Candidate:linan Adviser:Prof. Han Xinmin Nanjing

创业板投资风险提示:本次股票发行后拟在创业板市场上市,该市场具有较高的投资风险

X UDC A Post-Evaluation Research on SINOPEC Refinery Reconstruction and Expanding Project MBA 厦门大学博硕士论文摘要库

Microsoft Word 年第三期09

第 05 期 董房等 : 一种卫星遥测在线状态监测及分析系统的设计 WEB 1 2 总体功能及组成 2.1 总体功能 1 2 3Web 2.2 结构组成 Web WEB WEB 2.3 系统各模块接口关系

一 专 业 名 称 专 业 名 称 : 会 计 二 入 学 要 求 与 基 本 学 制 入 学 要 求 : 初 中 毕 业 生 基 本 学 制 : 三 年 ; 其 中 前 二 年 为 在 校 学 习 时 间, 最 后 一 年 为 企 业 实 习 时 间 层 次 : 中 职 三 培 养 目 标 本 专

视 频 公 开 课 3 门, 省 级 精 品 资 源 共 享 课 15 门, 省 级 人 才 培 养 模 式 创 新 实 验 区 5 个, 省 级 大 学 生 校 外 实 践 教 学 基 地 8 个, 省 级 实 验 教 学 示 范 中 心 8 个 2013 年, 学 校 秉 承 改 革 创 新 精

实 践 探 讨 高 丽 : 从 少 数 民 族 大 学 生 的 阅 读 需 求 看 民 族 院 校 图 书 馆 的 资 源 建 设 有 区 域 性 和 民 族 性 很 强 的 传 统 学 科 特 色 学 科 及 优 势 学 科, 因 此 图 书 馆 的 资 源 建 设 也 要 顺 应 这 一 特 性

CH01.indd

a b


35期

复 变 函 数 与 积 分 变 换 常 微 分 方 程 数 值 分 析 数 值 分 析 课 程 实 习 微 分 方 程 数 值

作 之 重 要 据 点 在 教 学 与 实 务 发 展 方 面, 强 调 传 统 法 学 领 域 的 深 化 发 展, 规 划 开 设 新 兴 科 技 相 关 法 律 课 程, 如 智 能 财 产 权 电 子 商 务 生 物 科 技 网 络 科 技 医 疗 等 相 关 法 律 ; 建 立 与 法 律

国 家 图 书 馆 年 鉴 2015 重 要 文 件 选 编 一 馆 发 文 件 目 录 关 于 陈 荔 京 等 3 人 职 务 试 用 聘 任 的 通 知 国 图 人 发 号 国 家 图 书 馆 关 于 辛 璐 等 33 人 职 务 聘 任 的 通 知 国 图 人 发


陶艳.doc


2013_6_3.indd

<4D F736F F D20B1B1BEA9D5E6CAD3CDA8BFC6BCBCB9C9B7DDD3D0CFDEB9ABCBBECAD7B4CEB9ABBFAAB7A2D0D0B9C9C6B1D5D0B9C9CBB5C3F7CAE9A3A8C9EAB1A8B8E C4EA3034D4C23136C8D5B1A8CBCDA3A92E646F63>

CHINA SCIENCE AND TECHNOLOGY DEVELOPMENT REPORT

任子行网络技术股份有限公司2014年年度报告全文


44 深 圳 信 息 职 业 技 术 学 院 学 报 第 10 卷 业 实 际 进 出 口 单 证 样 本 的 演 示 与 讲 解, 导 致 学 生 在 学 校 看 到 的 都 是 过 时 的 单 据 演 练 的 陈 旧 的 工 作 流 程, 走 上 工 作 岗 位 后, 一 旦 遇 到 实 际 问

F4

北 京 大 学

θ 1 = φ n -n 2 2 n AR n φ i = 0 1 = a t - θ θ m a t-m 3 3 m MA m 1. 2 ρ k = R k /R 0 5 Akaike ρ k 1 AIC = n ln δ 2

國立暨南國際大學圖書館


Microsoft Word - 1-招股说明书.doc

ERP ERP ERP ERP ERP 13

标题

如 语 言 研 究 型 数 据 库 那 样 成 熟, 但 可 为 构 建 华 文 教 材 数 据 库 提 供 借 鉴 此 类 数 据 库 中 有 代 表 性 的 有 北 京 语 言 大 学 的 对 外 汉 语 教 材 检 索 数 据 库, 中 央 民 族 大 学 的 国 际 汉 语 教 学 国 别


j.si


240 ( )

Mechanical Science and Technology for Aerospace Engineering October Vol No. 10 Web SaaS B /S Web2. 0 Web2. 0 TP315 A

数 字 图 书 馆 论 坛 案 例 课 堂 形 不 成 精 品 ; 在 信 息 流 通 方 面, 由 于 开 发 报 道 不 够, 致 使 馆 藏 资 料 利 用 率 低, 造 成 馆 藏 空 间 管 理 人 员 等 多 方 面 的 浪 费 如 何 在 保 证 信 息 安 全 的 前 提 下, 摆

<4D F736F F D20CAB5D1E9CAD2B9DCC0EDC6BDCCA856342E315FD1A7C9FAD3C3BBA7B2D9D7F7D6B8C4CF2E646F63>

豐佳燕.PDF

标题

Microsoft Word 記錄附件

信 息 化 的 整 合 过 程 要 分 为 若 干 阶 段 来 实 现 1. IDC 建 设 阶 段 最 初 需 要 建 设 的 是 一 个 全 校 统 一 的 数 据 中 心, 将 运 行 的 设 备 和 管 理 环 境 进 行 简 单 的 物 理 合 并, 这 样 做 的 好 处 在 于 降 低

endnot


<%DOC NAME%> (User Manual)

水利期刊网页制作格式说明

IT 36% Computer Science Teachers Association, CSTA K K-12 CSTA K-12 K-12 K-6 K6-9 K STEM STEM STEM

indd

<4D F736F F D20CDA8D3C3B9E6B7B6BABAD7D6B1ED5FB0B4B1E0C2EBC5C5C1D05F2E646F63>

银川一职服装设计与工艺专业教学计划

務 相 關 的 約 點 及 內 容 / 托 嬰 契 約 (2) 居 家 托 育 人 員 在 中 心 托 育 人 員 2. 瞭 解 契 約 ( 到 ) 宅 托 兒 契 約 一 天 的 工 作 重 的 意 義 (3) 契 約 的 意 義 分 點 及 內 容 法 律 效 類 自 由 與 限 制 及 2.

一 登录 crm Mobile 系统 : 输入 ShijiCare 用户名和密码, 登录系统, 如图所示 : 第 2 页共 32 页

UDC Hainan Airlines Investment Valuation Analysis (MBA) 厦门大学博硕士论文摘要库

< FBDC5BFEBC6F2B0A15FC3D6C1BEBAB8B0EDBCAD5FC3E2B0A3BFEB2E706466>

西南民族大学学报 人文社会科学版 年第 期 二 西康省早期藏文报纸的共同特征 三 西康省早期藏文报纸诞生的原因 一 四川省新一批少数民族文字报纸的创办



非营利组织专职人员专业化问题研究

Microsoft Word doc

, [3 ] Petri, 25 7, 500, [4,5 ], 3, (2), 2003, [ 6 ],,, ,, [7 ], 569, 26, ( ) : 2 ; 3 ; 4, ; 5, : (a) ( ) :,,

5 2. 过程与方法 情感 态度与价值观 三 知识结构图 四 教学内容和教学要求 课 程 教学要求 课时安排

Microsoft Word - chnInfoPaper6

<4D F736F F D2031A1A2C8ABB9FAD6B0D2B5BDCCD3FDB9A4D7F7BBE1D2E9D4DABEA9D5D9BFAA2E646F63>

untitled

石油炼化会后刊邮件版



填 写 要 求 一 以 word 文 档 格 式 如 实 填 写 各 项 二 表 格 文 本 中 外 文 名 词 第 一 次 出 现 时, 要 写 清 全 称 和 缩 写, 再 次 出 现 时 可 以 使 用 缩 写 三 涉 密 内 容 不 填 写, 有 可 能 涉 密 和 不 宜 大 范 围 公

<%DOC NAME%> (User Manual)

科 研 信 息 化 技 术 与 应 用,2015, 6 (1) of identity and the framework of identity management, this paper analyses the development trend of Identity Management

資訊教育總藍圖(公聽會草案)

CHINA SCIENCE AND TECHNOLOGY DEVELOPMENT REPORT ()


1.2 资 金 的 管 理 1.1 权 利 义 务 来 源 MOU 1.3 数 据 的 使 用 和 保 护 2 国 际 空 间 站 资 源 分 配 方 案 54

[1] Liu Hongwei,2013, Study on Comprehensive Evaluation of Iron and Steel Enterprises Production System s Basic Capacities, International Asia Confere

STEAM STEAM STEAM ( ) STEAM STEAM ( ) 1977 [13] [10] STEM STEM 2. [11] [14] ( )STEAM [15] [16] STEAM [12] ( ) STEAM STEAM [17] STEAM STEAM STEA

Office Office Office Microsoft Word Office Office Azure Office One Drive 2 app 3 : [5] 3, :, [6]; [5], ; [8], [1], ICTCLAS(Institute of Computing Tech

ebook204-2

发 展 战 略 油 机 关 机 构 如 何 进 行 调 整, 无 论 是 在 石 油 工 业 部 时 期, 还 是 在 总 公 司 集 团 公 司 时 期, 战 略 和 政 策 研 究 一 直 得 到 领 导 重 视 中 国 石 油 总 部 机 关 始 终 明 确 有 战 略 和 政 策 研 究 归

电力信息化2013年第1期.indb

Simpson Yetts Simpson Freer Gallery Maryon Plenderleith Aitchison

Microsoft Word tb 谢涛.doc

untitled

CL-S10w

强迫症毁灭天才

untitled

<4D F736F F D20D2BDD1A7CDBCCAE9B9DDCDA8D1B6>

西南民族大学学报 人文社科版 第 期本刊网址

2 3. 1,,,.,., CAD,,,. : 1) :, 1,,. ; 2) :,, ; 3) :,; 4) : Fig. 1 Flowchart of generation and application of 3D2digital2building 2 :.. 3 : 1) :,

Transcription:

小语种文献数字化对网络文 献集成揭示的实践意义 施明红 / 机械工业信息研究院北京 100037 摘要 : 文章通过对小语种文献数据处理解决方案的研究与应用回顾, 展示了国家科技图书文献中心 (NSTL) 在小语种文献加工及多语种数据处理方面的技术成果 该方案的实施, 进一步提升了 NSTL 网络服务系统的功能, 使得 NSTL 在国内文献服务领域率先解决了小语种文献的数字化加工和网上文献服务的多语种显示 检索等问题, 对于网络服务系统多语种信息集成揭示具有重要的实践和示范意义 关键词 : 数据处理, 小语种文献加工,OCR 识别, 字符集编码, 网络信息服务 DOI:10.3772/j.issn.1673 2286.2010.10.015 1 概述 国家科技图书文献中心 (NSTL) 科技文献网络服务系统自 2000 年 12 月开通以来, 通过其不断丰富的信息资源 方便检索的文摘数据库和快捷的原文传递系统, 为广大用户提供了全新的获取国内外最新科技文献的服务模式, 从而真正实现了科技文献的资源共享 目前,NSTL 网络服务系统已经为更多的读者所认知和利用, 业内影响不断扩大 全新改版上线的 3 期系统暨国家科技数字图书馆, 各类文献的数据总量近 1.2 亿条, 成为国内最大的文献信息网络服务平台 在 NSTL 十年来的发展建设中, 中心领导始终意识到新技术的应用和升级进步, 是保持网络服务系统生命力的重要手段, 并通过 2 期和 3 期的改造, 不断完善和提升了网络系统的服务功能 与此同时, 网络系统揭示的外文资源, 也从初期的单一英文语种, 扩展到英 法 日 德 俄等主要语种, 既丰富了资源内容, 也更好地满足了科技工作者的文献检索需求 2 需求的提出 2000 年 6 月 NSTL 成立后, 经过近 3 年的发展, 到 2002 年底中心各成员单位订购的外文期刊及会议文献已经达到了一万余种, 其中小语种占有一定比例, 主要为德 法 日 俄等工业发达国家的原语种文献 毫无疑问, 这些原文文献对我国的科研发展和技术进步有着重要参考借鉴作用, 但当时在同一系统环境下实现多语种文献的全面揭示和整合利用在国内还是空白, 技术上存在一定困难, 致使这类文献未能在 NSTL 网络服务系统得到充分揭示, 影响了用户的利用 如何尽快解决小语种文献的加工和网上揭示服务成为 NSTL 面临的一个紧迫问题 为此,2003 年初, 中心领导决定开展小语种文献数据加工解决方案的可行性研究, 并成立了由各成员单位业务及技术人员组成的课题组, 力争半年内拿出切实可行的操作方案, 并在试点单位试运行 课题组的初步调研结果显示, 虽然许多国家都在积极探索多语种文献的数字化加工揭示方法, 但尚没有一种被广泛采纳的成熟解决方案, 参考文献也很匮乏 此时, 我们感到了很大压力, 也深感责任重大 3 研究原则与目标 3.1 坚持实用性原则 70

面对这个当时业内的共同难题, 课题组的同志们并没有退缩, 大家的共识是以融合并充分利用各种适用技术为主要思路, 努力寻求在现有中英文环境下适用的集成解决方案 2003 年 3 月, 在 NSTL 袁海波主任主持下, 课题组在前期调研基础上, 经过认真讨论, 确定了坚持实用性的研究原则和阶段目标 3.2 目标策略 3.2.1 从易到难, 分阶段实施充分利用和借鉴 NSTL 现有英文数据处理模式和成熟方法, 既考虑加工, 更要考虑用户应用的可操作性, 从易到难, 分阶段解决, 逐步实施推广 3.2.2 操作要简便易用重点从加工方法的易用性 操作系统与应用系统平台对现有环境及字符集的可支持性 用户检索的便捷性等方面入手进行研究, 提出可操作的实施方案 4 研究方法 明确了方便实用 可操作的原则和目标, 课题组根据从现状调研 方案构建 模拟测试 分析论证 调整完善 实地运行的计划步骤, 重点进行了国内外小语种文献数据处理状况调研, 数据加工流程与文本获取方式分析, 解决方案与可操作加工环境构建, 实际模拟加工测试等几方面工作 调研的内容主要包括小语种文献数据处理的方式 层次深度 系统平台 软件环境 数据处理的标准规范 检索与输入方式 时效与成本投入等 4.1 技术应用状况针对国内外小语种文献数据处理技术及应用状况, 我们首先查询了相关主题的国内外文献 由于可借鉴的参考文献很少, 课题组主要采用了调查走访的方式, 调研了国内较知名的多家图书馆 文献服务机构和应用系统 结果表明, 国内对小语种文献的数据处理主要应用于图书馆馆藏文献编目, 但在数据输入 时, 仍需挂接相应语种的输入法来处理小语种文献的母体数据, 并未见用于小语种文摘数据处理的应用 4.1.1 国外应用国外主要国家的大型文摘检索系统和数据库, 如日本的科技文献速报 俄罗斯的文摘杂志 英国的科学文摘 美国的化学文摘 医学文摘 工程索引等, 多年来一直采用其本国母语报道世界各国科技期刊文献中发表文章的文摘信息 对非母语的文章, 或者选择有英文篇名 摘要的收入揭示, 或者将相关信息翻译成母语, 更多是取其发音的拉丁音译, 并通过英文关键词 主题词标引等辅助手段揭示其主题内容 这种方法周期较长, 投入很大 4.1.2 国内应用国家图书馆启用的 ALEPH 500 系统, 为引进以色列开发的图书馆集成管理系统, 支持 UNICODE 字符集, 但当时没有进行小语种文献数据处理 ; 高校 CALIS 系统中, 仅有北京农业大学成员馆对日语文献编目的输入法应用做过有关研究 ; 深圳图书馆开发的 ILAS 图书馆自动化集成管理系统, 支持 UNICODE 字符集, 能够处理少数民族文字, 但对小语种文献的加工仅限于书目级别的采编功能, 数据量较小且应用并不广泛, 不能提供对文摘级别大数据量处理的实际应用 4.2 调研结果分析上述这些单位均为国家级大型文献服务机构, 或在文献信息处理方面技术较成熟, 但仍未较好地解决小语种文献深度加工的数据处理问题 调研结果表明, 对小语种国外科技文献的数字化加工处理和网络数据库建设, 当时在国内基本还是空白, 也未见到哪个系统能在同一平台环境提供小语种文献信息服务的, 这对我们来说既是挑战, 也是机遇 5 技术路线与难点 5.1 流程描述 71

NSTL 各成员单位采用的英文数据加工流程虽不尽 相同, 但大致可分为以下几个环节 : 1. 录入 校对 2. 扫描 OCR 识别 纠错 3. 数据导入 获取文本数据过程 加工系统整合数据 输出 转换 TFORM 数据 6 方案的确定与测试 经过对德 法 日 俄等小语种文献数据反复进行实际操作测试及可行性分析, 课题组确定了在 Windows 系统平台下进行小语种数据加工的解决方案, 并在各成员单位构建了加工测试所需的软件环境, 分别进行了可操作性测试 网上服务用户检索 中心网站加载装库 质检纠错数据上传 6.1 方案描述 图 1 数据加工流程示意图图 1 中斜体字表示的框为获取文本数据的过程, 主要有录入 扫描识别 数据导入三种方式 它处于加工流程的最前端, 可在加工系统平台外部完成文本的获取, 而不受该加工系统对不同语种字符集支持与否的影响 5.2 技术难点分析文本的正确识别 获取, 与 OCR 软件的功能和性能密切相关, 它也是小语种文献数据处理流程的主要环节 通过对加工流程各环节的分析, 我们发现, 只要找到相应语种文本数据获取的工具或方法, 并解决各语种专用字符集的同平台显示和索引问题, 小语种文献数据处理的主要难点就可以克服 参照 NSTL 各成员单位应用系统环境和英文数据加工的经验, 课题组对加工流程中影响小语种文献处理的主要因素进行了认真分析, 认为主要的技术难点是如何获取相应语种的文本数据, 并能够支持同一操作系统平台环境所应用的字符集 该方案的主要思路是在各单位应用的英文数据加工系统环境下, 通过相应语种的 OCR 扫描识别软件, 对小语种文献加工数据进行图形 文本转换, 获取其可编辑的文本数据, 同时利用 Word 2000 支持 UNICODE 字符集的特性, 将获取的含有各语种专用字符集的文本数据转换为国标 GBK 字符集的文本数据, 以满足现行中英文加工系统的字符显示及排序要求, 实现按原语种进行数据加工的目的 6.2 加工环境构建加工环境的搭建由客户端系统环境和配套的各种应用软硬件组成 6.2.1 系统环境客户端系统环境采用 Windows XP 或 Windows 2000 Pro, 由于对小语种文本数据的 OCR 识别 提取和校对处于整个数据加工流程的前端, 即需要在导入加工系统前, 在外部完成对小语种数据的文本处理, 故对原有英文加工系统程序的运行环境没有特殊要求 5.3 技术路线 6.2.2 软硬件配置与应用环境 解决方案立足于流程加工的可操作性, 以短期内可实现应用 对系统运行环境影响最小为目标 基于此, 我们认为在中英文 Windows 系统环境下, 利用中文 GBK 字符集支持日 俄文语种字符的编码及显示功能, 将获取的小语种原编码文本数据转换为 GBK 字符编码是最简便可行的办法, 经过实际测试, 结果证明基本上是可操作的 (1) 理光 1035 高速扫描复印机 (2) 美国 ABBYY 公司 FineReader 7.0 Professional Edition OCR 识别软件 (3) 日本 A.I. SOFT, Inc. 公司 KOKO 9.0 日文 OCR 扫描识别软件 (4) 沈阳格微软件公司 日语一点通 及中日文输入平台 (5)Office 2000 72

(6)Adobe 公司 Acrobat 6.0 版 (7)NSTL 数据加工系统及 TFORM 转换系统 (8)NSTL 数据加工质检系统 6.3 文本获取步骤 文本获取主要分为四个步骤 : (1) 利用相应语种 OCR 软件对小语种扫描数据文档进行识别 (2) 文本转换, 将经过纠错后的文本数据传送到 Word 2000, 实现各语种专用字符集到中文 GBK 字符集的自动转换 (3) 校对过程中选择应用相应语种输入法 (4) 提取完成校对加工的数据, 转换为 TFORM 格式, 并经质检软件检查无误后上传中心网站 6.4 OCR 识别效果测试 图 3 OCR 文本校对窗口 俄文俄语种文献的实际模拟加工, 并成功进行了符合中心网站数据加载要求的 TFORM 格式数据转换, 通过了 NSTL 质检程序检验 数据上传 网管中心试验库加载等测试 在利用 OCR 获取文本的识别测试中, 各语种 OCR 的识别效果在原件质量良好的情况下, 用 300DPI 以上分辨率扫描, 识别率能够达到 99% 以上 OCR 识别样例如图 2-3 所示 6.5 WEB 端用户查询方式由于加工中获取的文本数据已经是 GBK 字符集, 在现有中英文系统平台能够正常显示和排序,WEB 端用户可利用 Windows 配置的常用中文输入法, 选择对应语种的软键盘输入检索词 日文汉字可用中文全拼输入法或支持 GBK 的中日文输入法输入, 无需考虑字符集的问题 由于通常需输入的检索词字符不多, 软键盘输入方式对读者是否熟悉相应语种字符的输入影响并不大, 只要在帮助页面中对输入方法加以说明即可 7 研究解决的主要问题 7.1 建立小语种记录唯一标识生成规则 图 2 框选识别区域 日文识别步骤与加工英文数据基本相同, 但在处理识别错误时, 需在 OCR 的文本结果窗口进行双窗口对比校对, 无法像处理英文时, 可利用字典的辅助提示功能 在切换相应的输入法输入正确字符时相对稍慢, 加工速度与英文相比有一定差别 以上加工流程的各个环节, 均经过德 法 日 在方案测试中我们也遇到了大大小小的不少问题, 主要问题是要解决小语种记录唯一标识的生成策略, 以便于质检程序进行查重 此前, 在西文文摘数据上载到 NSTL 网络系统后台数据库的流程中, 质检程序提供了数据查重功能, 避免冗余数据, 排除重复上载 其规则是依据国家科技图书文献中心连续出版物及其文献标识创建细则, 通过篇名单词首字母 ISSN 母体刊名及页码段等数据 73

组合的算法生成唯一记录标识 由于日 俄文数据篇名字符的特殊性, 原质检程序因未建立相应的字符对应规则, 无法生成准确的唯一记录标识 (SICI) 为此, 课题组分析了日 俄文等不同小语种字符集的特点, 提出了以 中国机读目录格式使用手册 附录的 日文假名罗马字拼音表 及 俄语字母和拉丁字母音译对照表 映射到西文字符的解决办法 2003 年 10 月上述解决方案通过了中心组织的专家组评审, 其后经过机械工业信息研究院 中国农业科学院图书馆 中国化工信息中心等三家成员单位对试用系统 3 个月的运行实践, 进一步总结了经验, 完善了实施方案 8.1 研究中取得的主要成果 7.2 质检程序改造在上述规则确立后, 课题组依据新的对照规则, 编写了小语种记录唯一标识生成程序, 并对原有质检系统进行了优化改造, 使其完全兼容了对多语种数据的质检处理 7.3 解决的主要难题经过广泛 深入的技术调研, 在系统研究国内外关于小语种文献数字化加工和网络信息服务成果基础上, 课题组对加工流程 输入方式 字符集应用进行充分分析和反复试验, 比较 分析和评测各种方案的可操作性, 解决了日 俄语等不同语种文献加工所需 OCR 识别软件的遴选 文本输入及校对 流程优化 集成配套应用等一个个难题, 按时提出了在中文 Windows 系统环境下实现小语种文献数据处理的解决方案 8 研究成果 (1) 配套制定了小语种文献相关数据项的加工细则和质检规则 ; (2) 日俄文小语种字符对照表及唯一识别符 (SICI) 的生成规则 ; (3) 优化完善了记录唯一标识生成程序和小语种文献专用质检软件 ; (4) 培养了一批小语种文献数据加工业务骨干 8.2 方案实施在小语种文献数据加工系统试运行取得良好结果的基础上,2004 年初, 课题组对各成员单位的数十名加工人员进行了小语种数据加工的专项培训 至此, NSTL 全面启动了小语种文献的数据加工工作 8.3 页面展示图 6- 图 11 为 NSTL 网络服务 3 期系统中小语种检索页面展示 图 6 日文检索页面 图 8 日文检索结果文摘页面 图 7 日文检索结果题录页面 74

NSTL十年专刊 图9 俄文检索页面 图11 俄文检索结果文摘页面 图10 俄文检索结果题录页面 9 结语 载 为读者提供更加丰富的外文文献信息 小语种文献数据处理解决方案的实施应用 实现 2010年6月12日 在NSTL成立10周年之际 新的 了对多语种文献资源的集成加工揭示 进一步提升了 网络服务系统3期平台已经成功开通上线 截至目前 NSTL网络服务系统的功能 使得NSTL在国内文献服 上载到后台数据库中的日文期刊文摘数据已近120万 务领域率先解决了小语种文献的数字化加工和网上文 条 俄文期刊文摘数据近48万余条 德 法文文摘数 献服务的多语种显示 检索等问题 对于网络服务系 据由于按西文字符处理 直接装入西文期刊库 我们 统多语种信息集成揭示具有重要的实践和示范意义 期待着NSTL小语种会议文献文摘数据能够早日启动上 作者简介 施明红 1958- 现任机械工业信息研究院情报研究所副所长 NSTL资源工作组副组长 多年从事外文文献的采集 编目管理以及数据库建设等工 作 研究方向 数字图书馆发展 文献数据库建设 数据处理技术 通讯地址 北京百万庄大街22号 机械工业信息研究院 100037 E-mail: smh@mail. machineinfo.gov.cn The Practical Significance of Non-English Original Language Digital Processing for Network Integration Showing Shi Minghong / China Machinery Industry Information & Publication, Beijing, 100037 Abstract: This paper introduces the Non-English original language digital processing solution's research and application process, and shows the achievement of National Science and Technology Library (NSTL) in the multilingual data processing field. The implementation of this program further improved the capability of NSTL network service system, and for the first time solved the problems of Non-English original language digital processing, as well as multilingual display and data retrieval in the network services system. It is good practice and exemplary case to show multilingual information integration of network service system. Keywords: Data processing, Non-English original language data processing, OCR recognition, Character set encoding, Network information services 收稿日期 2010-08-30 75 2010年第10期 总第77期