- 模糊語義個性化信息推薦
- 牟向偉
- 3237字
- 2020-11-29 00:09:22
2.1 信息集成與管理理論
信息技術(shù)的發(fā)展為社會帶來了前所未有的變革,它是繼工業(yè)革命后的又一次技術(shù)飛躍[21]。隨著計算機互聯(lián)網(wǎng)和通信技術(shù)的快速發(fā)展,以信息技術(shù)的大規(guī)模發(fā)展、滲透、擴張和利用為基本內(nèi)容的社會信息化活動已經(jīng)成為推動一個國家和社會發(fā)展的最活躍的因素之一[22]。信息技術(shù)的飛速發(fā)展已經(jīng)影響了社會各行業(yè)的環(huán)境,并將持續(xù)發(fā)生更加深刻的變化,只有適應(yīng)這種變化,才有生存和發(fā)展的空間。在過去的30年中,不同行業(yè)不同領(lǐng)域都進(jìn)行了不同程度的信息化建設(shè),在這些早期的系統(tǒng)中,信息往往只支持業(yè)務(wù)過程系統(tǒng)的獨立性、離散性,難以體現(xiàn)各環(huán)節(jié)之間的關(guān)系,形成信息孤島或信息斷層,造成企業(yè)生產(chǎn)經(jīng)營、決策過程的堵塞和不聯(lián)系性[23]。信息的管理者和使用者都面臨海量的、分布的、異構(gòu)的信息。人們獲取相關(guān)信息的能力在信息化進(jìn)步的今天反而更顯艱難和無奈,因此人們開始關(guān)注如何將不同環(huán)境中的異構(gòu)的信息資源集成化,不僅要提供信息資源的集成環(huán)境,而且要能夠提供更加友好的用戶使用環(huán)境。
2.1.1 信息集成理論
在眾多復(fù)雜的系統(tǒng)中,將浩瀚的信息進(jìn)行集成需要通過一定理論來指導(dǎo)具體的實踐[24][25],國內(nèi)外指導(dǎo)信息集成的基礎(chǔ)理論包括系統(tǒng)論、信息集成原則、信息集成模式、知識組織理論等。
(1)系統(tǒng)論。系統(tǒng)論把對象以系統(tǒng)的形式加以觀察,以系統(tǒng)的角度指導(dǎo)信息化建設(shè)實踐過程,從關(guān)聯(lián)性、整體性和優(yōu)化性進(jìn)行考察。使得由各具體資源整合而成的信息的集成體系以系統(tǒng)論為指導(dǎo)。系統(tǒng)論作為理論基礎(chǔ)具有重要的現(xiàn)實意義[26]。
(2)知識組織理論。知識組織理論旨在揭示知識的本質(zhì)和知識間關(guān)系;知識組織通過元數(shù)據(jù)格式對信息進(jìn)行描述,整合異構(gòu)數(shù)據(jù),以實現(xiàn)不同資源和系統(tǒng)間的資源共享,并發(fā)掘具有內(nèi)在關(guān)聯(lián)的信息鏈、知識鏈和知識內(nèi)涵;優(yōu)化知識庫結(jié)構(gòu),以加強知識利用和創(chuàng)新能力;在知識發(fā)現(xiàn)技術(shù)的基礎(chǔ)上,知識組織可以實現(xiàn)更多功能,如提取、轉(zhuǎn)換、過濾、整合等對異構(gòu)數(shù)據(jù)的操作;在智能知識抽取和處理過程中,信息資源按特定的方式表示并以知識內(nèi)容特性進(jìn)行聚集等。不論從何種角度(技術(shù)、形式、組織對象、組織方式)來看,所有一切都表明數(shù)字資源整合應(yīng)該建立在知識組織理論的基礎(chǔ)之上[27]。
(3)信息資源整合過程的指導(dǎo)原則包括:保證資源集成的發(fā)展性和不間斷性的連續(xù)性原則;保持資源對象學(xué)科的完整性和整體性原則;強調(diào)集成的目的是滿足特定用戶的需求的針對性原則[26];運用技術(shù)手段和方法優(yōu)化組織結(jié)構(gòu)和功能的優(yōu)化性原則;強調(diào)集成的結(jié)構(gòu)性和多維性的層次性原則;針對集成對象、內(nèi)容、方式的科學(xué)性的科學(xué)性原則[28]。
(4)信息的集成模式包括:關(guān)聯(lián)模式按信息內(nèi)容間的相鄰性將有關(guān)信息集成在一起;組織模式使用結(jié)構(gòu)特性將信息組織在框架內(nèi)結(jié)構(gòu);綜合模式將相關(guān)內(nèi)容從信息中提取出來并重新組織為新的信息;分析模式對原始信息進(jìn)行分析并利用一系列定量或定性分析模型得出結(jié)論性或咨詢性信息[29];基于數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的信息集成模式在數(shù)據(jù)倉庫的基礎(chǔ)上,利用知識發(fā)現(xiàn)技術(shù)、數(shù)據(jù)庫轉(zhuǎn)換技術(shù)和基于多平臺異構(gòu)數(shù)據(jù)整合方法與標(biāo)準(zhǔn),為高層管理提供決策支持[21]。此外,針對圖書館資源的集成提出的多元集成模式,如CNKI的完全集成式;中國數(shù)字圖書館的元數(shù)據(jù)集中、對象數(shù)據(jù)分散的集成式;以網(wǎng)絡(luò)虛擬方法連接各信息資源進(jìn)行數(shù)字化信息資源建設(shè)、管理、服務(wù)為主要任務(wù)的集成式;以各單位信息資源建設(shè)為主的集成模式[30]。
還有些研究探討了相關(guān)因素的集成問題。如:從宏觀環(huán)境的角度出發(fā),提出的基礎(chǔ)設(shè)施、應(yīng)用軟件和信息標(biāo)準(zhǔn)的三位一體信息集成環(huán)境[31]。這個環(huán)境應(yīng)該是交互的、開放的、柔性的、動態(tài)有界的,并具有良好的組合、公共、互操作、兼容、可擴展等特性。不同部門逐步地分別地對異構(gòu)或異質(zhì)的信息資源進(jìn)行描述、組織、開發(fā)和管理;從微觀環(huán)境角度出發(fā),集成環(huán)境或集成標(biāo)準(zhǔn)化問題是由信息加工、分析工具和用戶服務(wù)界面三者有機結(jié)合組成的[29]。信息集成是資源開發(fā)、信息資源組織、信息管理的重要目標(biāo),并且實現(xiàn)這一目標(biāo)的關(guān)鍵是標(biāo)準(zhǔn)化;信息集成的重要環(huán)境因素還包括了人的主觀因素、集成系統(tǒng)的結(jié)構(gòu)等。信息應(yīng)該被看作是一種戰(zhàn)略資源,我們應(yīng)該以重視需求、系統(tǒng)地、創(chuàng)新的可持續(xù)發(fā)展觀念進(jìn)行系統(tǒng)集成,在進(jìn)行系統(tǒng)集成的同時還要進(jìn)行相對應(yīng)的改進(jìn)管理機制,改善服務(wù)結(jié)構(gòu),并進(jìn)行人員和相關(guān)業(yè)務(wù)的調(diào)整[32~34]。
2.1.2 信息集成技術(shù)方法
近年信息集成技術(shù)方法研究比較側(cè)重于系統(tǒng)集成的分布式服務(wù)構(gòu)架、智能化及自動化方法[35~37]。最新的研究熱點內(nèi)容包括面向Web服務(wù)的SOA(Service Oriented Architecture)信息集成框架模式、基于Ontology本體論的信息集成方法和基于Agent理論的信息集成方法和中間件技術(shù)等。
(1)面向服務(wù)的信息集成框架模式(Service Oriented Architecture, SOA)。SOA是一種利用組合Web Service進(jìn)行分布式應(yīng)用集成的架構(gòu),SOA服務(wù)架構(gòu)的基礎(chǔ)是各種業(yè)界的標(biāo)準(zhǔn)規(guī)范,如OASIS(Organization for the Advancement of Structured Information Standards)、W3C(World Wide Web Consortium)和OGC(Open Geospatial Consortium)的Web服務(wù)相關(guān)規(guī)范。其中OASIS的BPEL工作流給出了關(guān)于組合服務(wù)的規(guī)范指導(dǎo),OGC是一種互操作規(guī)范,包括CSW、WFS、WCS、WMS、WPS等,對數(shù)據(jù)及其元數(shù)據(jù)的服務(wù)協(xié)議制定了規(guī)范,W3C的SOAP(Simple Object Access Protocol)協(xié)議與WSDL(Web Services Description Language)協(xié)議是Web Service的基礎(chǔ)協(xié)議。此外,在上述基礎(chǔ)標(biāo)準(zhǔn)規(guī)范的基礎(chǔ)上,國際標(biāo)準(zhǔn)化組織提出了系列補充協(xié)議以適應(yīng)SOA智能化發(fā)展的要求,補充協(xié)議包括Web Authority Service、Web Service Policy、Web Service Addressing與Web Security Service。
(2)本體論(Ontology)。信息表達(dá)上的語義異構(gòu)是由于描述信息沒有采用統(tǒng)一的語法描述格式造成的,系統(tǒng)中語義異構(gòu)的主要表現(xiàn)如下:不同的信息源中同一術(shù)語表達(dá)不同的含義;多種術(shù)語在不同的信息源中表示同一概念;一些概念間的隱含聯(lián)系由于各信息源的分布自治性而不能體現(xiàn)出來。信息集成要解決系統(tǒng)間信息在系統(tǒng)間交換和理解的問題,實現(xiàn)包括信息的統(tǒng)一表示與信息轉(zhuǎn)換以及基于信息理解的智能化檢索等。目前本體被認(rèn)為是解決語義集成的有效的手段之一[38][39]。基于本體的信息集成研究始于人工智能及知識工程領(lǐng)域,主要解決知識重用和共享問題[40~42]。目前的應(yīng)用研究有:Stanford大學(xué)的SKC(Scalable Knowledge Composition),解決了信息系統(tǒng)(包括Web)中的語義異構(gòu)問題,并實現(xiàn)異構(gòu)系統(tǒng)的互操作;Ariadne項目著眼于開發(fā)能夠抽取、查詢和集成Web信息源的智能Agent; Observer項目使用不同的本體來表達(dá)不同的信息源,并建立本體間的映射集合。Picsel系統(tǒng)定義了一個基于知識中間層來連接用戶和相同領(lǐng)域內(nèi)的若干信息源,處理用戶的查詢并將查詢結(jié)果返回給用戶[43]。
(3)Multi-Agent System(MAS)以Agent理論為基礎(chǔ),注重系統(tǒng)集成行為研究。其原理是:Agent成員并不能限制其他Agent的目標(biāo)和行為,Agent相互之間的矛盾和沖突通過競爭和磋商等手段來解決,因此Agent個體不能夠解決的大規(guī)模復(fù)雜問題可以通過Agent團體的交互式協(xié)調(diào)來求解[44]。通過Agent個體以及群體的活動規(guī)則的建立來提高系統(tǒng)的智能化水平和適應(yīng)環(huán)境的能力。Jennings[45]等人開發(fā)了一個基于Agent的集成框架ADEPT,將各個子系統(tǒng)視為一個個智能代理,系統(tǒng)集成是通過這些智能代理之間的交互來實現(xiàn)的。
(4)中間件技術(shù)。中間件是一種獨立的系統(tǒng)軟件或服務(wù)程序,分布式應(yīng)用軟件借助這種軟件在不同的技術(shù)之間共享資源。中間件位于客戶機/服務(wù)器的操作系統(tǒng)之上,管理計算機資源和網(wǎng)絡(luò)通信,它是連接兩個獨立應(yīng)用程序或獨立系統(tǒng)的軟件[46]。相連接的系統(tǒng),即使它們具有不同的接口,但通過中間件相互之間仍能交換信息。執(zhí)行中間件的一個關(guān)鍵途徑是信息傳遞。通過中間件,應(yīng)用程序可以工作于多平臺或操作系統(tǒng)環(huán)境。
最早具有中間件技術(shù)思想及功能的軟件是IBM的CICS,但由于CICS不是分布式環(huán)境的產(chǎn)物,因此人們一般把Tuxedo(1984年由貝爾實驗室開發(fā)完成)作為第一個嚴(yán)格意義上的中間件產(chǎn)品。IBM的中間件MQSeries也是20世紀(jì)90年代的產(chǎn)品,它的許多中間件產(chǎn)品也是在近幾年才作為成熟的產(chǎn)品來使用的。中國的中間件軟件產(chǎn)品起步較早,與國外技術(shù)差距不大。如:北京東方通科技發(fā)展有限責(zé)任公司1993年推出第一個產(chǎn)品TongLINK/Q,與IBM、Oracle在我國市場形成三足鼎立的局面,根據(jù)賽迪顧問、計世資訊、易觀國際等咨詢機構(gòu)的市場分析報告,東方通中間件的市場占有率在國內(nèi)企業(yè)中名列首位。在國內(nèi)的科研院校中,中科院軟件所早在1995年就開始利用“對象技術(shù)中心”的技術(shù)基礎(chǔ)研究中間件。與此同時,國內(nèi)還有國防科技大學(xué)、北京航空航天大學(xué)等研究機構(gòu)也對中間件技術(shù)進(jìn)行了同步研究。