随着我国IT技术在各方面领域的广泛应用,数字档案馆自2001年列入诸多城建档案馆的目标工作中。综观当前国内上所进行的许多数字档案馆研究计划,每个计划的主体和方向,可以说是上至天文,下至地理,无所不包。而馆藏内容更是包罗万象,多彩多姿。这些分散于不同平台、不同系统的馆藏资料,如果能够依据内容的主题和方向来建立彼此之间的联系,充分整合,一定更能发挥数字档案馆在使用、服务功能上的价值。
本研究主要是提出运用WEB服务技术来搜索、管理数字城建档案馆资源的概念,尝试通过互联网来整合一个地区不同单位的城建档案资料,使各单位目录中心协同运作,为查询者提供有用的城建资料;建立城建资料的搜索与管理机制,为该地区提供一个完整的城建档案资料服务系统。在设计系统的同时,我们要对分散式网络运算架构加以考虑,使得不同平台上的软件可以互相运行,以加强软件系统的功能与弹性。
一、实现方法
庞大的全球互联网及其背后所隐藏的形形色色的资源是一个充满商机与希望的奇幻世界。对现代人而言,互联网正逐渐地融入每个人的生活,并将成为未来人们生活中不可或缺的一项重要资源。如何将互联网技术运用到城建档案管理中是一项富有重要和长远意义的研究工作。
从1994年起,美国国家科学基金会(NSF),美国国防部高等研究计划机构(DARPA)以及美国太空总署(NASA)就宣布开始数字档案馆研究计划。之后,加拿大、欧盟各国、日本及俄罗斯等国家也纷纷提出国家型数字档案馆研究计划。2000年,我国深圳作为国家试点也开始数字档案馆的研究计划,目前一期工程已经完成。
城建档案工作起步较晚,档案分布叫分散。武汉的城建档案资料主要分散在城建档案馆、规划局档案室、房产局档案室以及市政、桥梁、煤气公司等。由于各单位有不同的行政隶属关系,使得各单位各自为阵,给查询者带来了诸多不便。针对这种现象,我们计划建立武汉城建档案目录中心,这是社会发展的必然趋势,也是档案资源社会需求的必然结果。在建设中如果我们集中存储,用户可以检索到所有的城建档案目录,但同时存在一些不可回避的问题:目录中心极有可能出现瓶颈拥塞,资源的可用性不高;资源管理和维护的任务集中到目录中心的管理机构,这需要一个庞大的组织机构来承担,需要大量资金来配置中心的硬件设备,维护其日常运转。
另外,可以采用网络目录中心技术,但也会遇到如下问题:第一,各个单位目录中心采用的平台可能不一致;第二,所有目录中心所采用的编程语言和数据库可能不一致;第三,分散在各单位的城建档案资料室中的资料有一部分不为人所知。因此,在目前开放式的网络环境里,如何克服上述问题,使得分散于不同平台上的、采用不同数据库的目录中心能够顺利互连互通,是这个论题的关键。采用WEB服务(Web Services)技术来实现多重目录中心程序,上述问题将迎刃而解,因为Web Services提供一致性的数据传递方式与数据整合服务。
Web Services是一种基于开放式与标准式的新一代分布式运算技术。它的基本原理是利用标准的Web通讯协议HTTP来传递数据之间的呼叫信息和回应信息,以避免被企业互联网(Internet)上的防火墙所阻挡;所有传输的信息则是利用标准的数据交换格式XML来定义,可避免系统的开发受限于某种平台或数据库。归纳起来有以下几点特性:
- 模块化和可合成——由单独元素构成,这些元素要合并成统一的服务;可调整为独立工作或相互协作。
- 常规用途——不知道或不关心它们在什么地方运行,或者是谁在调用它们。
- 基于标准——既不知道、也不关心它们是在单一厂商的平台上运行,还是在来自多个厂商的平台上运行。
- 联盟——管理、控制或故障都不存在一个中心点,允许合作伙伴相互协作,同时不必明确地相互信任
我们可以简单地把位于多重目录中心群里的所有目录中心,依据彼此之间的关系,分为数据提供者(城建档案数据服务器)、数据使用者(调用城建档案终端)与数据中介者(数据转换服务器)三种角色。而他们之间的联系和整合问题,我们可以采用WEB服务种的三项关键技术:SOAP(Simple Object Access Protocol)、WSDL(Web Services Description Language)及 UDDI(Universal Description, Discovery and Integration)来解决。其中SOAP提供目录中心之间的交换通信协议;WSDL来描叙提供功能的规格;UDDI提供统一描述、发现和集成协议,这样,我们可方便、迅捷地发现已存的或潜在的目录中心。
在WEB上自动处理城建档案是一件技术性很强的事情,因为在WEB上的任何事物都是电脑可以读取的,但不表示电脑可以理解这些东西。为了解决这样的问题,我们可采用RDF来规范城建档案目录中网络资源元数据(metadata)的标准,以帮助服务器能够理解这些WEB资源,进而自动处理查阅者的请求。
RDF 模型的基础要素是三种类型的对象。
1. 资源对象标识实际的以网络为基础的资源,比如网页和网络应用程序。统一资源标识符(URIs)用来标识资源。每一个URI指向一个特定的网页或网络应用程序。你可以用RDF模型里的URIs来指向被描述的资源。
2. 特性(property)指定特定资源的属性或特性。特性包含相关资源描述的实际元数据。每个特性表述相关资源的单个元数据属性。
3. 申明(Statement)是资源和特性的下一级延伸。附上特性的资源组合创造了申明。申明就是描述特定资源的集合。
RDF表达式为[{特性,资源,申明}] ,例如: 汉口利济北路道路工程用RDF表达为[{道路,利济北路,汉口}],服务器可以通过对RDF的理解,自动在网络中搜索相对应的目录。
随着城建资料的日渐增多,我们还要面对如何从这么多的资料中迅速的找到自己所需要的资料,这就要求我们还要建立一套简单而完善的查询系统,过去我们在手工和初级数字化时期采用的是分类目录的方式。可是要管理WEB上动态的档案资料时,分类目录有如树状结构的特性将无法及时反映类别的改变和类别之间在关系上的调整。所以我们采用主题式的检索方法,建立一个友善且带有向导的检索界面。我们检索关键字为:工程名称、工程地点、建设单位、施工单位等,查询者可以方便的通过其中一个关键字,用模糊查询方式找到相对应的城建档案资料。
二、存在的问题
数字化城建档案馆的工作是一项长期的工作,需要分阶段实施,目前,我们在WEB服务技术的研究中发现安全性问题与服务品质的保证是上使用WEB服务的最大隐患。
1、数字化城建档案的原始性、可靠性、保密性及法律地位等问题是城建档案计算机管理核心问题。虽然计算机及网络技术的出现极大地推动了档案计算机管理的发展,但同时也带来了许多实际问题,因为不管是纸质档案还是电子档案,都应具有城建档案的特性,即原始性、真实性、保密性、综合性、成套性、动态性、地方性等,否则即使利用最现代化的手段保存下来的数字化档案也失去了它应有的价值。目前在电子文件的输入、存储、传输和提供利用过程中都存在数据丢失、数据失控、数据窃取、病毒侵犯、人为破坏等不安全因素,也正是由于数字档案的易改性等原因,如何确定数字档案的法律地位也是未来档案计算机管理急需解决的问题。
2、网络安全将是推进城建档案计算机管理网络化的主要障碍。尽管档案网络化管理是当今社会发展的必然趋势,但档案法中规定档案部门、档案工作者的基本职能和历史使命是“维护档案的完整和安全,方便社会各方面的利用”。在方便利用和维护档案安全两者间,城建档案安全应更为重要。但城建档案信息上网后,面临着外部“黑客”攻击、“电子邮件炸弹”的轰炸、计算机病毒的感染、内部网络上合法用户的越权操作等不安全因素。虽然目前可采用防火墙技术、网络安全检测、电子身份认证系统、数据加密技术等措施来保证网络安全,但都很难达到彻底的安全。在城建档案网络化管理中,利用与安全既是矛盾也是机遇和挑战。
3、处理好城建档案的上网利用和保密关系。数字化城建档案馆的建成对城建档案的保密工作是个挑战。城建档案信息具有一定的机密性,在网上档案资源的开发利用中必须有必要的限制。一般说来,与国家安全和利益,与社会秩序有关的档案,或与集体、个人秘密有关的城建档案,因其合法权益受到法律的保护,均属于限制利用的范围。因此急需制定政策,制订法律规程确定城建档案的上网等级。如可根据城建档案的保密等级(绝密、机密、秘密、内部)划分出一定的开放范围,规定一级(地下管网、人防工程、重要建筑、大型桥梁、隐蔽工程等)保密的档案不能上网,二级保密的档案上内部网,三级保密的档案才可上Internet网。对于二级保密的档案可提供一部分的普通信息、目录信息,以不造成泄密、经济损失和损害技术人员的设计,同时又能吸引别人来查阅档案为原则。如果一点不介绍,一点目录没有也是不行,别人不知道,就会成为“死档”,有了档案目录信息,就会使“死档案”变为活信息。另外,我们可以对现存档案定期进行鉴定,争取到该保密的一定要保密,该开放的要及时解密开放,并及时通过媒体向社会公布解密档案信息目录。
三、推广价值
WEB服务技术在城建档案管理利用方面的的使用主要思想可总结为:数据的分布存储,资源的集中共享。网络目录中心为用户提供一个覆盖本地区所有最新城建档案的强大检索系统,可以方便的查询到所需要的档案资料存放的位置。通过对本网络的检索,就可以实现对不同单位目录的检索,并且可以实现和各单位目录中心目录的同步更新,达到资源共享的目的。网络目录中每一个提供城建档案资料信息的站点都是目录中心的一个节点,存储实际城建档案资料的物理资源,资源节点之间基于一定的信任授权关系进行资源互访,资源元数据信息与目录中心进行目录信息同步,从而最终实现网络内资源的分布式存储、分布式管理,并提供基于共享的资源信息服务体系。
1. 根据国家要求,“十五”期间,我国档案管理将“跑步前进”,数字化档案必将成为今后档案的主要存在形式。在中心城市建设一批示范性数字档案馆,开展公众网上查询档案信息服务,以满足数字化时代社会各界人士对档案服务日趋提高的要求。数字化档案馆将成为档案馆发展的新方向。WEB服务技术使城建档案资料中的资源孤岛互连互通,实现网络资源的共享访问,网络建设是数字档案馆的重要组成部分,WEB技术在城建档案方面的研究和应用实施对档案馆的信息化进展能起到有力的推动作用,实现跳越式发展。
2.WEB技术能够将各自为阵的分散城建档案信息连接为具有共享互访功能的资源网络,打破地域界限与行政隶属关系的束缚,使城建档案资料最为广泛的利用成为可能,方便查阅者。在今后,还可以在有条件的城市之间形成城市间的联网。
随着我国IT技术在各方面领域的广泛应用,数字档案馆自2001年列入诸多城建档案馆的目标工作中。综观当前国内上所进行的许多数字档案馆研究计划,每个计划的主体和方向,可以说是上至天文,下至地理,无所不包。而馆藏内容更是包罗万象,多彩多姿。这些分散于不同平台、不同系统的馆藏资料,如果能够依据内容的主题和方向来建立彼此之间的联系,充分整合,一定更能发挥数字档案馆在使用、服务功能上的价值。
本研究主要是提出运用WEB服务技术来搜索、管理数字城建档案馆资源的概念,尝试通过互联网来整合一个地区不同单位的城建档案资料,使各单位目录中心协同运作,为查询者提供有用的城建资料;建立城建资料的搜索与管理机制,为该地区提供一个完整的城建档案资料服务系统。在设计系统的同时,我们要对分散式网络运算架构加以考虑,使得不同平台上的软件可以互相运行,以加强软件系统的功能与弹性。
一、实现方法
庞大的全球互联网及其背后所隐藏的形形色色的资源是一个充满商机与希望的奇幻世界。对现代人而言,互联网正逐渐地融入每个人的生活,并将成为未来人们生活中不可或缺的一项重要资源。如何将互联网技术运用到城建档案管理中是一项富有重要和长远意义的研究工作。
从1994年起,美国国家科学基金会(NSF),美国国防部高等研究计划机构(DARPA)以及美国太空总署(NASA)就宣布开始数字档案馆研究计划。之后,加拿大、欧盟各国、日本及俄罗斯等国家也纷纷提出国家型数字档案馆研究计划。2000年,我国深圳作为国家试点也开始数字档案馆的研究计划,目前一期工程已经完成。
城建档案工作起步较晚,档案分布叫分散。武汉的城建档案资料主要分散在城建档案馆、规划局档案室、房产局档案室以及市政、桥梁、煤气公司等。由于各单位有不同的行政隶属关系,使得各单位各自为阵,给查询者带来了诸多不便。针对这种现象,我们计划建立武汉城建档案目录中心,这是社会发展的必然趋势,也是档案资源社会需求的必然结果。在建设中如果我们集中存储,用户可以检索到所有的城建档案目录,但同时存在一些不可回避的问题:目录中心极有可能出现瓶颈拥塞,资源的可用性不高;资源管理和维护的任务集中到目录中心的管理机构,这需要一个庞大的组织机构来承担,需要大量资金来配置中心的硬件设备,维护其日常运转。
另外,可以采用网络目录中心技术,但也会遇到如下问题:第一,各个单位目录中心采用的平台可能不一致;第二,所有目录中心所采用的编程语言和数据库可能不一致;第三,分散在各单位的城建档案资料室中的资料有一部分不为人所知。因此,在目前开放式的网络环境里,如何克服上述问题,使得分散于不同平台上的、采用不同数据库的目录中心能够顺利互连互通,是这个论题的关键。采用WEB服务(Web Services)技术来实现多重目录中心程序,上述问题将迎刃而解,因为Web Services提供一致性的数据传递方式与数据整合服务。
Web Services是一种基于开放式与标准式的新一代分布式运算技术。它的基本原理是利用标准的Web通讯协议HTTP来传递数据之间的呼叫信息和回应信息,以避免被企业互联网(Internet)上的防火墙所阻挡;所有传输的信息则是利用标准的数据交换格式XML来定义,可避免系统的开发受限于某种平台或数据库。归纳起来有以下几点特性:
- 模块化和可合成——由单独元素构成,这些元素要合并成统一的服务;可调整为独立工作或相互协作。
- 常规用途——不知道或不关心它们在什么地方运行,或者是谁在调用它们。
- 基于标准——既不知道、也不关心它们是在单一厂商的平台上运行,还是在来自多个厂商的平台上运行。
- 联盟——管理、控制或故障都不存在一个中心点,允许合作伙伴相互协作,同时不必明确地相互信任
我们可以简单地把位于多重目录中心群里的所有目录中心,依据彼此之间的关系,分为数据提供者(城建档案数据服务器)、数据使用者(调用城建档案终端)与数据中介者(数据转换服务器)三种角色。而他们之间的联系和整合问题,我们可以采用WEB服务种的三项关键技术:SOAP(Simple Object Access Protocol)、WSDL(Web Services Description Language)及 UDDI(Universal Description, Discovery and Integration)来解决。其中SOAP提供目录中心之间的交换通信协议;WSDL来描叙提供功能的规格;UDDI提供统一描述、发现和集成协议,这样,我们可方便、迅捷地发现已存的或潜在的目录中心。
在WEB上自动处理城建档案是一件技术性很强的事情,因为在WEB上的任何事物都是电脑可以读取的,但不表示电脑可以理解这些东西。为了解决这样的问题,我们可采用RDF来规范城建档案目录中网络资源元数据(metadata)的标准,以帮助服务器能够理解这些WEB资源,进而自动处理查阅者的请求。
RDF 模型的基础要素是三种类型的对象。
1. 资源对象标识实际的以网络为基础的资源,比如网页和网络应用程序。统一资源标识符(URIs)用来标识资源。每一个URI指向一个特定的网页或网络应用程序。你可以用RDF模型里的URIs来指向被描述的资源。
2. 特性(property)指定特定资源的属性或特性。特性包含相关资源描述的实际元数据。每个特性表述相关资源的单个元数据属性。
3. 申明(Statement)是资源和特性的下一级延伸。附上特性的资源组合创造了申明。申明就是描述特定资源的集合。
RDF表达式为[{特性,资源,申明}] ,例如: 汉口利济北路道路工程用RDF表达为[{道路,利济北路,汉口}],服务器可以通过对RDF的理解,自动在网络中搜索相对应的目录。
随着城建资料的日渐增多,我们还要面对如何从这么多的资料中迅速的找到自己所需要的资料,这就要求我们还要建立一套简单而完善的查询系统,过去我们在手工和初级数字化时期采用的是分类目录的方式。可是要管理WEB上动态的档案资料时,分类目录有如树状结构的特性将无法及时反映类别的改变和类别之间在关系上的调整。所以我们采用主题式的检索方法,建立一个友善且带有向导的检索界面。我们检索关键字为:工程名称、工程地点、建设单位、施工单位等,查询者可以方便的通过其中一个关键字,用模糊查询方式找到相对应的城建档案资料。
二、存在的问题
数字化城建档案馆的工作是一项长期的工作,需要分阶段实施,目前,我们在WEB服务技术的研究中发现安全性问题与服务品质的保证是上使用WEB服务的最大隐患。
1、数字化城建档案的原始性、可靠性、保密性及法律地位等问题是城建档案计算机管理核心问题。虽然计算机及网络技术的出现极大地推动了档案计算机管理的发展,但同时也带来了许多实际问题,因为不管是纸质档案还是电子档案,都应具有城建档案的特性,即原始性、真实性、保密性、综合性、成套性、动态性、地方性等,否则即使利用最现代化的手段保存下来的数字化档案也失去了它应有的价值。目前在电子文件的输入、存储、传输和提供利用过程中都存在数据丢失、数据失控、数据窃取、病毒侵犯、人为破坏等不安全因素,也正是由于数字档案的易改性等原因,如何确定数字档案的法律地位也是未来档案计算机管理急需解决的问题。
2、网络安全将是推进城建档案计算机管理网络化的主要障碍。尽管档案网络化管理是当今社会发展的必然趋势,但档案法中规定档案部门、档案工作者的基本职能和历史使命是“维护档案的完整和安全,方便社会各方面的利用”。在方便利用和维护档案安全两者间,城建档案安全应更为重要。但城建档案信息上网后,面临着外部“黑客”攻击、“电子邮件炸弹”的轰炸、计算机病毒的感染、内部网络上合法用户的越权操作等不安全因素。虽然目前可采用防火墙技术、网络安全检测、电子身份认证系统、数据加密技术等措施来保证网络安全,但都很难达到彻底的安全。在城建档案网络化管理中,利用与安全既是矛盾也是机遇和挑战。
3、处理好城建档案的上网利用和保密关系。数字化城建档案馆的建成对城建档案的保密工作是个挑战。城建档案信息具有一定的机密性,在网上档案资源的开发利用中必须有必要的限制。一般说来,与国家安全和利益,与社会秩序有关的档案,或与集体、个人秘密有关的城建档案,因其合法权益受到法律的保护,均属于限制利用的范围。因此急需制定政策,制订法律规程确定城建档案的上网等级。如可根据城建档案的保密等级(绝密、机密、秘密、内部)划分出一定的开放范围,规定一级(地下管网、人防工程、重要建筑、大型桥梁、隐蔽工程等)保密的档案不能上网,二级保密的档案上内部网,三级保密的档案才可上Internet网。对于二级保密的档案可提供一部分的普通信息、目录信息,以不造成泄密、经济损失和损害技术人员的设计,同时又能吸引别人来查阅档案为原则。如果一点不介绍,一点目录没有也是不行,别人不知道,就会成为“死档”,有了档案目录信息,就会使“死档案”变为活信息。另外,我们可以对现存档案定期进行鉴定,争取到该保密的一定要保密,该开放的要及时解密开放,并及时通过媒体向社会公布解密档案信息目录。
三、推广价值
WEB服务技术在城建档案管理利用方面的的使用主要思想可总结为:数据的分布存储,资源的集中共享。网络目录中心为用户提供一个覆盖本地区所有最新城建档案的强大检索系统,可以方便的查询到所需要的档案资料存放的位置。通过对本网络的检索,就可以实现对不同单位目录的检索,并且可以实现和各单位目录中心目录的同步更新,达到资源共享的目的。网络目录中每一个提供城建档案资料信息的站点都是目录中心的一个节点,存储实际城建档案资料的物理资源,资源节点之间基于一定的信任授权关系进行资源互访,资源元数据信息与目录中心进行目录信息同步,从而最终实现网络内资源的分布式存储、分布式管理,并提供基于共享的资源信息服务体系。
1. 根据国家要求,“十五”期间,我国档案管理将“跑步前进”,数字化档案必将成为今后档案的主要存在形式。在中心城市建设一批示范性数字档案馆,开展公众网上查询档案信息服务,以满足数字化时代社会各界人士对档案服务日趋提高的要求。数字化档案馆将成为档案馆发展的新方向。WEB服务技术使城建档案资料中的资源孤岛互连互通,实现网络资源的共享访问,网络建设是数字档案馆的重要组成部分,WEB技术在城建档案方面的研究和应用实施对档案馆的信息化进展能起到有力的推动作用,实现跳越式发展。
2.WEB技术能够将各自为阵的分散城建档案信息连接为具有共享互访功能的资源网络,打破地域界限与行政隶属关系的束缚,使城建档案资料最为广泛的利用成为可能,方便查阅者。在今后,还可以在有条件的城市之间形成城市间的联网。