试谈地层数据库的基本结构及规范化问题
第7卷第2期1993年6月现代地质GEOS(:I正NCEJournalOfGraduateSchool,ChinaUniversityOfGeosciencesVol。7NO.2)unc1993试谈地层数据库的基本结构及规范化问题。李翔(中国地质大学,北京)提要地层数据库的主要内容、对象是岩石地层剖面.分层描述的地层单元具有多种地层属性,它们均可统一在一个数据库系统之中。地层数据库总体上具层次结构。人们习惯于分地区或分时代阐述地层发育,但在地层数据库应用中以时代划分为基础的方法不太适用,而将地质时代视为地层单元的一个属性予以处理。本文提出的地层数据库基本结构方案适用于地层典或区域地层表。地层数据库的规范化一方面要求效据模型的规范化,另一方面要求数据使用的规范化或标准化。地层数据库应建立地层数据辞典,以作为名词术语标准的基础。关键词地层学数据库数据模型规范化地层学是地质科学中的一门基础学科。可以说地层是所有地质学分支学科研究的共同对象,只是各学科研究地层的目的、方法和手段有所不同而已。在地质学200多年来的发展史中,地层学与地质学的其它重要领域一样,已取得了巨大的成就,积累了丰富的资料,从理论到方法都形成了一整套的体系。积累的一大批实际资料构成了人类知识宝库的重要部分。解放后,我国开展了大规模的区域地质调查工作,特别是系统的二十万分之一和五万分之一区域地质填图,为我国的地质工作发展奠定了强有力的基础。近年来,各省、市、自治区的区域地质志和地层表相继问世。目前,随着电子计算机的应用和普及,电子地层数据库也耢露头角,它具有巨大的优势和潜力,将成为今后地质研究工作中的一个重要手段。在我国,现在尚未有形成一个通用的、有共识基础的地层数据库系统,地层数据库工作还是分散和较零星的,介绍和理论探讨性文章也甚少。本文根据在中国地质大学(北京)近年来开展{多重信息地层数据库系统》研究的体会,拟就地层数据库的基本结构和使用中的有关规范化问题,谈些简浅的认识,以资交流。地层数据库的基本结构地层学印分支学科目前可大致划分为。传统地层学。和。现代地层学。。传统地层学一般指岩石地层学、生物地层学和年代地层学;现代地层学包括磁性地层学、地震地层学、化学地层学、定量地层学、月翠地层学、事件地层学、生态地层学及构造地层学等。最近发展起来的层序地层学则是结合了传统地层学、地震地层学及沉积学等多学科而形成的一门收稿日期:1992年1月20日.。地质行业羞金资助项目.一直45——重要的综合性学科(王鸿祯,1989)。从传统地层学的角度看,岩石地层学、年代地层学和生物地层学是地层学研究的三大支柱,它们具同等重要的意义。但是,生物地层学不具有独立的、严格的分类体系,在一定程度上只是年代地层研究的一种重要手段,生物化石可以作为地质产物(沉积物)的内容与岩石地层中的岩性一并考虑。各类地层单位的主次关系可以用。双重地层分类。的观点,即按地层学的两项基本目的和任务加以分别,将地层单位从最根本上分为两类;一类是以建立局部地层系统为目的,以区域性特征为依据的岩石地层单位;另一类是以建立作为局部地层系统对比标准的全球性年代地层系统,它们各自都有独立的系统分类和级别体系(王鸿祯,1989)。根据这一观点,地层数据库建立的立足点应是岩石地层单位,而全球性的年代地层单位则可作为一种普遍标准起到参照基准的作用。1.亚地层信息的特点;在数据库的应用中有两种类型的数据,第一种是文献信息(Bibliographical information),第二种是数值测量信息(Numericalmeasurementinformation)。为区别起见,将第一种称为信息(information),常见于图书馆管理中的文献信息系统;第二种称为数据(Data),以此建立的数据库管理着实际应用中的数据和资料,称之为资料性数据库。在实际应用中,这两种类型数据的区分非常重要。资料性地层数据库要求存储的地层资料丰富多样,即所谓多重信息。这些信息的内容包括岩石的、生物的、地球化学的、地球物理的以及构造地质的等等。为了合理地组织地层信息在数据库中的结构形式。有必要对地层信息的特点作一简单的分析。根据地层学本身的特性,地层信息有如下特点:(工)与生产实践密切相关地层研究是许多地质生产工作的基础。在矿区开采及石油天然气的勘探与开发中,地层分析是必不可少的。目前,世界各大石油公司都建有自己的石油钻井数据库,记录了大量的测井和钻井剖面资料。国外的许多商用地质数据库软件也已投入市场。但由于种种原因,这些软件不能为我们直接使用。(2)信息量大,内容复杂地层数据库应包括的内容很广,除了最基本的岩石地层内容外,还包括生物的、物理的、化学的内容;而就地层本身性质说,在时间和空间上延伸都很广,任何一个地区的地层内容是该区上十亿年的地质演化历史的记录,而各个不同地区的地质记录一般来讲是各具特点的。·(3)区域变化大,名词使用复杂地层的区域变化是很复杂的。由于不同地区在大地构造、区域构造上所处的位置不同,地质发展历史及其物质记录也不相同;即使在地质发展历史相似的地区,也由于横向的相变而形成差异。这些差异,直接导致物质记录一地层性质的不同,由于这些复杂的变化,也使人们对其认识产生了差异,从而导致新的名词术语和划分体系的不断出现,久而久之,造成了地质名词和系统使用上的庞杂和繁琐。因此地层数据库的建立在一定程度上为形成统一的名词术语体系作出贡献。当然在具体实施上应考虑与专家系统的建立相适应。.(4)大多具有层次和级别结构在数据库理论中所谓的层次结构,即可用树来表示实体之间的相互联系。实体与实体之间为“一对多”关系(1一M关系),表示1的实体位于上方(称为文结点),表示M的实体位于下方(称为子结点),整个结构象一棵倒立的树。地层学的分类系统本身就是一个具层次和级别结构的体系。岩石地层单位、年代地层单位和——]46——\ t`地质年代单位都是分层构成的。在岩石地层单位中,群由组组成,组由段组成、段由层组成;地质年代单位中,宙、代、纪、世、期,年代地层单位中,宇、界、系、统、阶都具有严格的级别系统关系。在地层分区中大区、区、小区也有这一特点。因此在设计地层数据库时,必须考虑到地层信息所具有的这种层次特点。(5)地层划分与对比关系的不断更新由于人们对地层划分和性质的认识是一个不断提高和完善的过程,所以地层划分与对比更新也是不断变化和发展的。地层数据库的设计必须能适应这种变化。·1.2地层数据库的基本结构体系·地层数据库是一种信息系统。按照一般的理解,信息系统是“可用于处理各种类型信息的一系列计算机程序或软件包”(Sutterlin,1981)。因此,一个信息系统有两项最基本的任务:①获得信息资源。在大多数情况下,这是一个人工作用过程,计算机技术对之影响不大;②信息处理。随着信息量的增加,信息处理需要大量的时间和劳力,这就要求合理组织或“构造”信息,即形成合理有效的数据库。对于一般的数据库管理系统的设计,涉及到两个大的方面,即结构特性的设计和行为特性的设计。“结构特性”,即数据库的框架或数据结构。需要汇总各种用户视图,尽量减少冗余,实现数据共享,从而设计出一个包含各种用户视图的统一的数据模型;“行为特性”,即各种应用程序的设计。在大多数情况下,用户直接接触到的往往是应用程序。对于地层数据库而言,其结构特性即是各种地层属性之间的相互关系的概括和实现,这些属性包括岩性、厚度、分层、接触关系、物理特征、化学特征、生物特征、时代归属和区域归属等等;其行为特性则是向用户提供的各种便于对地层数据库进行存取的应用程序,如形成柱状图、平面图和各种等值图,查询某一特定的地层单位的空间变化和横向对比,对地层数据库中存储的地质资料进行分析和处理等。地层资料一般分为原始剖面和综合剖面两类。前者是在某一特定点上或某一小的区域所获得的对地层发育的最原始的记录,如地区性地层研究报告,区域地质调查报告,钻井资料等,一般以实测剖面的形式出现;后者则是经过总结了各个地点的相同时代地层的发育特征后,提出的对一个地区综合性的概括,如区域地层表,地层典等。地层信息分以下三类:①地质信息:②地理信息;⑧年代信息。其中①可包括岩性、构造、生物、化学等信息。由于地层剖面是由上至下或由下至上分层描述的,因此地层信息最直观的表示就是首先按岩石地层系统将地层剖面划分为连续的单元,然后将各种地层属性分单元记录。前已述及,地质年代和地理信息也是具有层次结构的,所以可得如图1、2所示的关系。每一层次后面的省略号表明该层次虽被分解为与下一层次的1一M关系,实际上它们是M—M关系。为了用关系型数据结构来描述,我们将每一个结点的各种属性组成一个关系,每一关系与其上下层次之间可用指针相连。这实际上是关系型数据库设计的规范化问题,最底层的省略号即表示为了达到一定的规范化要求而进行的关系模式分解,如此分解下去,直达到设计要求,例如3NF(第三范式)。图1所示结构实际上与区域地层典相似,即首先按不同的区域划分地层资料,然后又将每一区域的地层分时代进行描述。稍加分析即可发现,如果将层次1和层次2互调形成图2,则同样可以满足要求。进一步分析,地质年代信息可以被视为地层单元的一个属性,一方面地质年代信息是可以穷举而地理位置信息则是不可以的,另一方面地层的纵向描述.i咖归 t47——-靴:/上:/1分居1分层2/1/6旺l屑住2同性卜/.属乙年代1/I\ jQl点1 jgl点2地点3./I\分层1分层2分居3,,./I\屑住1屑住2周住3…/1\图1区域地层典地层剖面数据结构图2断代地层剖面数据结构Fig·1Data structure o{stratigraphic section inFig·2Data structure ofdating regional stratigraphicdictionary stratigraphiesection比其横向描述更为方便,于是得出如图3所示结构。图3虽然不能直观地表现年代地层单位的划分,但通过设计应用软件,可将数据库内存储的信息表示成年代地层单位的体系结构,这是优选方案。尽管如此,在编制大区域乃至全国的地层表或地层典时,采用图1和图2的方案可以更直观而清晰地表达地质工作者的认识。以上是从传统地层学的要求来考虑地层数据库的构成。现代地层学强调多重地层划分,在数据库中必须考虑其应用的位置,但这并不需要对数据库的结构进行大的调整。以图3的方案,只需在第三层次增加一个属性,如增加磁性地层特征、层序地层特征等,然后在第四层次以下进一步规范化。(剖面)/3\分层1分层2分层3属性厂屑土。乙性。属性卜/:届土卜二届性2地层数据库的规范化问Iii层次l“标准化”一般指国家有关部门及决策者提出的规定,具有法定意义,非本文所指的习用规范。这里所指的规范化包括两个方面:一是指数据结构模式的规范化, s仄。二是指数据使用本身的规范化,亦即使用标准化的数据。—.前已述及,数据结构的规范化是非常重要的,它直一一·接影响整个数据库系统的运行、资源的合理使用等,其 e~:6-,中最重要的就是减少冗余。因此要求对各种数据之间的关系进行全面、综合的分析。,数据的规范化要求输入的是经过审查合格的高质量图3优选的地层剖面数据结构的数据,此外数据的输入必须采取一般可接受的格式及Fig·3Pre/ereddat。structureof科学的描述,如名词必须是标准用语。这里一方面要求 stratigraphicsection数据库忠实地记录原始资料,而另一方面又要求名词体‘系必须规范化,即必须有适当的加工整理。为了解决这个矛盾,可以建立类似辞典的规范化的名词体系数据库,于是地层数据库在记录原始数据的同时,也记录其相应的标准形式。这一工作已用于许多方面,如地层描述中的岩性描述、———148———。睁靴鄘㈣驰\\分\层\吨结构、构造、地层分区、年代归属等,都是可以穷举的,因而可以建立一个统一的标准。采用标准形式不但可以节省资源,还有利于不同系统间的数据交换。建立在中国地质大学(北京)的《多重信息地层数据库系统》有以下规范化内容:地层描述的规范化地层描述常因人而异,·因地区而异,用不同的语言则有不同的描述习惯。规范化的地层描述采用编码加规则的形式;即岩性、结构构造、成分、颜色等名词统一规定标准代码(字符型或数值型),而组合方式等动、介词则用标点符号表示,两者以一定的规则结合起来即构成地层描述。这样做既方便了查询又可避免查询中可能产生的多义性及不确定性,另外,不同的语言描述的内容可以由机器来进行翻译,达到国际交流的目的。地层分区和构造分区的规范化由于地层分区和构造分区的界线仍时有争议,应选择一个当前多数人可以接受的方案。《多重信息地层数据库系统》以王鸿祯教授的划分方案作为标准地层分区和构造分区编码,其它划分按其实际含义在标准方案中查明编码。地质年代划分的规范化;地质年代的划分,特别是前寒武纪和统以下的划分,是目前尚未统一的领域。最近国际地层委员会发布了全球地层表(CowieandBassett,1989),Hardland等也出版了新版地质时代表(1989)。王鸿祯等在此基础上,结合我国情况编印了全球地层时代对比表(1990)。全球地层表和地质时代表在显生宙的划分方面是相同的,而界限年龄的数据略有不同。中国地层时代表提出了前寒武纪的新划分方案,显生宙划分相同,界限年龄稍有简化。因此,在《多重信息地层数据库系统》中,前寒武纪部分选用中国地层表的方案,显生宙部分对中国及国际的分阶分统则对照使用。一切区域性的地质时代划分均以此为准。这对合理使用地层数据库是十分重要的。关键词的规范化关键词对于检索数据库起着关键的作用,其规范化问题直接涉及到能否并快速地查询和更新数据库的内容。如关键词使用不当,有可能造成数据库中有记录但却查询不到的情况。从地层数据库的应用来看,关键词可分为:与时代、科目及地点有关的三类关键词。无论何种类型的关键词,都必须规范化,才能使数据库得到有效的应用。写作过程中,王鸿祯教授仔细审阅了全文并提出修改意见,在此遵致衷心的感谢。参考文献1王鸿祯.地层学的分类体系和分支学科一对修改中国地层指南的设想.地质论评,1989,35(3):271~2762王鸿祯,李光岑.国际地层时代对比表.北京:地质出版社,冯玉才.数据库系统基础.武汉t华中工学院出版社.SutterlinPG.ThefutureO(5nfOrmationsystemin'heearthsciences,in:FGMerriam(ed)COmpurerApplicationin the earth sciences,an updateOfthe70s.1981帕—·;149—嘲-