我國已先后建成一批國家級計算機信息化網(wǎng)絡(luò)科學(xué)數(shù)據(jù)中心和規(guī)模不等的數(shù)據(jù)庫,其內(nèi)容基本覆蓋了科學(xué)技術(shù)的各個領(lǐng)域。同時,積極采用計算機信息網(wǎng)絡(luò)化手段,進行科學(xué)數(shù)據(jù)的采集、積累及數(shù)字化加工工作,實現(xiàn)了范圍和程度不等的數(shù)據(jù)共享。
為推動我國科學(xué)數(shù)據(jù)信息共享的全面發(fā)展,促進預(yù)防醫(yī)學(xué)科學(xué)研究的進步、我們對國家職業(yè)衛(wèi)生管理規(guī)范及標(biāo)準(zhǔn)體系實施了計算機化與信息網(wǎng)絡(luò)研究,建立了科學(xué)數(shù)據(jù)信息共享機制,研究了科學(xué)數(shù)據(jù)信息共享標(biāo)準(zhǔn)(電子版數(shù)據(jù)提交標(biāo)準(zhǔn)、元數(shù)據(jù)定義、數(shù)據(jù)集命名標(biāo)準(zhǔn)、變量名命名標(biāo)準(zhǔn)等),開發(fā)了國家職業(yè)衛(wèi)生管理規(guī)范及標(biāo)準(zhǔn)體系科學(xué)數(shù)據(jù)信息共享平臺(國家職業(yè)衛(wèi)生管理規(guī)范及標(biāo)準(zhǔn)體系檢索光盤、國家職業(yè)衛(wèi)生管理規(guī)范及標(biāo)準(zhǔn)體系共享服務(wù)網(wǎng)站),以向社會提供國家職業(yè)衛(wèi)生管理規(guī)范及標(biāo)準(zhǔn)體系數(shù)據(jù)信息的共享服務(wù)。
一、技術(shù)路線
以Web技術(shù)為基礎(chǔ),采用成熟和先進的計算機網(wǎng)絡(luò)技術(shù)、衛(wèi)星通信技術(shù)、多媒體技術(shù)和協(xié)同計算技術(shù),系統(tǒng)建設(shè)成可擴展、安全可靠、按需服務(wù)的國家職業(yè)衛(wèi)生管理規(guī)范及標(biāo)準(zhǔn)體系——計算機化與信息網(wǎng)絡(luò)(數(shù)據(jù)網(wǎng)絡(luò)、信息網(wǎng)絡(luò)和知識網(wǎng)絡(luò)),該數(shù)據(jù)共享技術(shù)平臺能夠?qū)β殬I(yè)衛(wèi)生管理規(guī)范及標(biāo)準(zhǔn)體系數(shù)據(jù)進行管理、檢索,實現(xiàn)異地數(shù)據(jù)訪問、遠程服務(wù),并根據(jù)數(shù)據(jù)的密級采用不同的技術(shù)以保證數(shù)據(jù)安全。
二、數(shù)據(jù)集內(nèi)容
國家職業(yè)衛(wèi)生管理規(guī)范及標(biāo)準(zhǔn)體系數(shù)據(jù)集包含了我國加入WTO以后,開展的WTO與我國職業(yè)衛(wèi)生工作對策的研究內(nèi)容、職業(yè)衛(wèi)生標(biāo)準(zhǔn)體系和其他國家相關(guān)標(biāo)準(zhǔn)體系的異同與融合、工作場所職業(yè)危害管理、建設(shè)項目職業(yè)衛(wèi)生管理、職業(yè)衛(wèi)生技術(shù)服務(wù)機構(gòu)管理等研究成果,還包含了我國針對職業(yè)衛(wèi)生管理頒布的各類法規(guī)與標(biāo)準(zhǔn)。數(shù)據(jù)類型則包括文本、數(shù)表、圖片、視頻等。
三、數(shù)據(jù)整合方法
1.數(shù)據(jù)顆粒度:數(shù)據(jù)顆粒度是數(shù)據(jù)庫中極其重要的概念。數(shù)據(jù)的綜合程度不同,數(shù)據(jù)量將相差很大。數(shù)據(jù)顆粒度越小,信息細節(jié)越多,數(shù)據(jù)量越大;而數(shù)據(jù)顆粒度越大,則忽略了越多的細節(jié),數(shù)據(jù)量越小。數(shù)據(jù)的綜合程度還會影響數(shù)據(jù)的用途。對于多維查詢來說,可能使用的是細節(jié)數(shù)據(jù),例如果回答“1978/3/21號國家頒布的職業(yè)衛(wèi)生標(biāo)準(zhǔn)”這樣的問題,細節(jié)數(shù)據(jù)非常合適,而綜合數(shù)據(jù)則因使細節(jié)信息丟失不可能回答。但如果要回答“1978-2002年間的職業(yè)衛(wèi)生標(biāo)準(zhǔn)”這樣綜合程度較高的問題,用細節(jié)數(shù)據(jù)將需進行統(tǒng)計運算后才能回答,這將增加用戶的等待時間,而使用綜合數(shù)據(jù)則可以迅速地回答這個問題。細節(jié)數(shù)據(jù)和綜合數(shù)據(jù)用途上和代價上的差異,應(yīng)為數(shù)據(jù)系統(tǒng)建設(shè)考慮的要點。
綜合程度不同的數(shù)據(jù)其用途不同,數(shù)據(jù)庫中多重的數(shù)據(jù)顆粒度都是必不可少的。但由于數(shù)據(jù)庫的主要目的是反映整體信息和決策支持系統(tǒng)(DSS)分析并回答綜合程度較高的問題,于是對細節(jié)數(shù)據(jù)和綜合數(shù)據(jù)采用了不同的策略。粒度的再一種形式是針對數(shù)據(jù)挖掘。數(shù)據(jù)挖掘使用復(fù)雜算法(如神經(jīng)元網(wǎng)絡(luò)),計算復(fù)雜度較高,若對巨量數(shù)據(jù)直接運算,則計算時間和空間過高,系統(tǒng)難以承受。因此,要進行數(shù)據(jù)挖掘,對數(shù)據(jù)進行抽樣。粒度的此種形式系指抽樣蓋率,即對數(shù)據(jù)庫中的數(shù)據(jù)以一定的抽樣率進行抽樣后得到一個樣本數(shù)據(jù)庫,數(shù)據(jù)挖掘?qū)⒃跇颖緮?shù)據(jù)庫上進行。挖掘過程:細節(jié)數(shù)據(jù)→樣本數(shù)據(jù)庫→數(shù)據(jù)挖掘算法等進行數(shù)據(jù)挖掘。
2.數(shù)據(jù)的分割:數(shù)據(jù)的分割是數(shù)據(jù)庫中的又一重要概念。由于數(shù)據(jù)庫中的數(shù)據(jù)量極大,使用起來會遇到很多問題,例如歷年頒布的標(biāo)準(zhǔn)放在一張表中,一次查詢則需要檢索整張表,而如果范圍只在2001年內(nèi),則僅需檢索2001年的信息即可。對于一個數(shù)據(jù)量很大的系統(tǒng),上述兩種策略的效率相差很多。所謂數(shù)據(jù)分割是指將數(shù)據(jù)分割到各自的物理單元中,以便能夠獨立處理,提高數(shù)據(jù)處理的效率。數(shù)據(jù)分割標(biāo)準(zhǔn)尚待研究,分割方法可以按時間、地點、業(yè)務(wù)領(lǐng)域劃分。國家職業(yè)衛(wèi)生管理規(guī)范及標(biāo)準(zhǔn)體系研究項目的數(shù)據(jù)庫系按照時間進行了分割,符合數(shù)據(jù)庫隨時間變化的特點,分割后的數(shù)據(jù)分布比較均勻,更容易索引、監(jiān)控和掃描且重組簡單。
3.聯(lián)機分析處理(on-line analytical processing,OLAP)展現(xiàn)方式:OLAP針對特定的主題進行聯(lián)機數(shù)據(jù)訪問、處理和分析,通過直觀的方式從多個維度、多種數(shù)據(jù)綜合程度將應(yīng)用系統(tǒng)展現(xiàn)給用戶。我們在開發(fā)中引入“維”概念,維量與某一事件相關(guān)的因素在關(guān)系模型的抽象,如時間、地理、類型等。維的層次性對應(yīng)于數(shù)據(jù)的粒度,維存在著層次問題。比如時間用“日”作單位刻度,地理用縣、市、省作單位刻度等。維度的層次描述了人們觀察數(shù)據(jù)的細致程度。
4.地理維層次:OLAP的展現(xiàn)方式有C/Sweb、瘦客戶機方式,“國家職業(yè)衛(wèi)生管理規(guī)范及標(biāo)準(zhǔn)體系”研究項目選用了OLAP的Web方式,隨著Web應(yīng)用的發(fā)展,OLAP的前端展現(xiàn)方式也向著Web方式發(fā)展,由于Web有著極佳的跨平臺性,故可以展現(xiàn)豐富多彩的信息。
5.體系數(shù)據(jù)共享協(xié)議、標(biāo)準(zhǔn):國家職業(yè)衛(wèi)生管理規(guī)范及標(biāo)準(zhǔn)體系是由一系列職業(yè)衛(wèi)生管理規(guī)范和標(biāo)準(zhǔn)組成。依照標(biāo)準(zhǔn)化原理,將該體系分為基礎(chǔ)通用標(biāo)準(zhǔn)、信息共享技術(shù)標(biāo)準(zhǔn)和信息管理與服務(wù)標(biāo)準(zhǔn),其中基礎(chǔ)通用標(biāo)準(zhǔn)主要包括術(shù)語標(biāo)準(zhǔn)、元數(shù)據(jù)標(biāo)準(zhǔn)、信息分類與代碼標(biāo)準(zhǔn)、產(chǎn)品標(biāo)準(zhǔn)以及相關(guān)標(biāo)準(zhǔn),技術(shù)標(biāo)準(zhǔn)主要包括信息交換標(biāo)準(zhǔn)、質(zhì)量控制和質(zhì)量評價標(biāo)準(zhǔn) 、互操作協(xié)議標(biāo)準(zhǔn)等,管理與服務(wù)標(biāo)準(zhǔn)主要包括用戶分類分級標(biāo)準(zhǔn)、管理標(biāo)準(zhǔn)以及數(shù)據(jù)安全、保密分級標(biāo)準(zhǔn)等。
(1)體系數(shù)據(jù)集(DBZ00)及命名規(guī)則:根據(jù)體系中的規(guī)則和國家相關(guān)標(biāo)準(zhǔn),對體系數(shù)據(jù)集中數(shù)據(jù)的各種屬性及命名規(guī)則進行了約定。
?。?)體系數(shù)據(jù)集(DBZ00)中分類號命名規(guī)則:編碼方法:層次編碼法;編碼構(gòu)成;共分4層。第1層;屬性,一位字母。L(Law)——法規(guī),GBZ、GBZ/T——標(biāo)準(zhǔn),O(Ordinance)——條例,H(Harvest)——成果。第2層:級別,兩位字母。GB——國家級,WS——行業(yè),DF——地方。第3層:地域,兩位數(shù)字。11——北京,22——吉林。第4層:年份,四位數(shù)字——YYYY。
?。?)體系數(shù)據(jù)集(DBZ00)的代碼庫(DBCode)。
根據(jù)上述思想,我們制作了國家職業(yè)衛(wèi)生管理規(guī)范及標(biāo)準(zhǔn)體系檢索光盤,建立了國家職業(yè)衛(wèi)生管理規(guī)范及標(biāo)準(zhǔn)體系網(wǎng)站、國家職業(yè)衛(wèi)生管理規(guī)范及標(biāo)準(zhǔn)體系數(shù)據(jù)共享服務(wù)軟件平臺、國家職業(yè)衛(wèi)生管理規(guī)范及標(biāo)準(zhǔn)體系數(shù)據(jù)共享硬件平臺,為國家職業(yè)衛(wèi)生管理規(guī)范及標(biāo)準(zhǔn)體系數(shù)據(jù)共享安全的保障和可持續(xù)發(fā)展機制奠定了基礎(chǔ)。