官术网_书友最值得收藏!

1.4 從PC時代的數(shù)據(jù)庫,過渡到云時代的信息中樞

近年來,業(yè)界普遍意識到數(shù)據(jù)挖掘技術(shù)是對未來人類產(chǎn)生重大影響的新興技術(shù)之一。由于計算機和數(shù)據(jù)庫的廣泛應用,日益膨脹的數(shù)據(jù)量導致了“數(shù)據(jù)豐富而信息貧乏”的現(xiàn)象,數(shù)據(jù)挖掘技術(shù)以一種全新的概念,改變?nèi)祟惱脭?shù)據(jù)的方式,可望開發(fā)出大容量數(shù)據(jù)的利用價值。但是,現(xiàn)階段數(shù)據(jù)挖掘技術(shù)面臨許多“鴻溝”,主要是:應付多源異構(gòu)數(shù)據(jù)和數(shù)據(jù)庫、應付海量數(shù)據(jù)的效率和運算力、應付數(shù)據(jù)規(guī)格化和大規(guī)模協(xié)同作業(yè)、挖掘結(jié)果的可用性和表達能力以及數(shù)據(jù)安全和隱私等。這些鴻溝制約了數(shù)據(jù)挖掘的廣泛應用。本書就是在這樣的背景條件下,提出了一套切實可行的信息中樞整體解決方案。

在個人電腦時代,我們發(fā)明一種工具,稱為數(shù)據(jù)庫軟件,用于完成數(shù)據(jù)處理任務,使得不懂計算機的人也可以完成數(shù)據(jù)采集和查詢。過去30年來,互聯(lián)網(wǎng)上的應用網(wǎng)站基本上沿用客戶端/服務器(C/S)的數(shù)據(jù)庫操作模式。數(shù)據(jù)庫的內(nèi)容以數(shù)據(jù)和文字為主,僅僅從存儲器中查詢歷史記錄,目標是獲取信息。對所有用戶統(tǒng)一編排,封閉式操作。隨著網(wǎng)站規(guī)模擴大,常見的方法是,用高性能服務器集群取代單一電腦,即硬件解構(gòu),繼續(xù)保留單一的數(shù)據(jù)庫應用軟件。這一模式成功運作了30年。實際上,當前不論哪家數(shù)據(jù)庫軟件,其核心無非是三要素“建表”、“建索引”和“建關(guān)聯(lián)”。本書認為,數(shù)據(jù)庫軟件不是目的,只是手段。數(shù)據(jù)庫把用戶功能限制在一套軟件中,該軟件又把用戶規(guī)模限制在一套計算機硬件中。當用戶需求的功能和規(guī)模猛增,就引發(fā)了復雜的軟件和硬件結(jié)構(gòu),成為發(fā)展瓶頸。本書從結(jié)構(gòu)上打破這種軟硬件限制,用信息中樞取代傳統(tǒng)數(shù)據(jù)庫軟件,讓開發(fā)者直接面對原始信息,在不增加軟硬件復雜度的前提下,無限擴展信息中樞的功能和規(guī)模。

1.為什么要解構(gòu)傳統(tǒng)數(shù)據(jù)庫?

多媒體內(nèi)容是最大的不確定因素,潛在的數(shù)據(jù)量造成難以預測的壓力,必然限制和拖累數(shù)據(jù)庫的發(fā)展。另外,同樣的多媒體內(nèi)容,可能解讀出不同的信息。因此,只有通過特殊算法,將多媒體內(nèi)容提煉成精簡信息后,才能參與信息深度挖掘,以及數(shù)據(jù)可視化。只有提升信息價值,才能高效解決大多數(shù)人的共同問題,即社會有序化問題。由此可見,精簡信息是確保大規(guī)模信息中樞限制在可控范圍,并且方便使用的必要手段。

數(shù)據(jù)挖掘是一項多學科交叉的領(lǐng)域,但是,業(yè)界對數(shù)據(jù)挖掘的定位不清,導致研究人員難以聚焦。實際上,原因在于對數(shù)據(jù)、信息和知識的基本概念模糊不清。本書認為,數(shù)據(jù)(data)是傳輸和存儲的載體(包括記錄),數(shù)據(jù)的承載對象是信息和多媒體內(nèi)容。其中信息屬于知性內(nèi)容;多媒體主要帶來舒適的感受,屬于感性內(nèi)容,當然,可以包含知性成分。只有信息(information),或者說知性內(nèi)容,才是知識的載體(有意義的消息)。從信息發(fā)現(xiàn)角度看,感性內(nèi)容屬于冗余數(shù)據(jù),應該事先濾除。實際上,信息本身只是描述事實(或現(xiàn)象),只有把許多信息聯(lián)系起來,形成一個模型,才能提升到知識(knowledge)境界,用于指導人類活動。

2.如何解構(gòu)傳統(tǒng)數(shù)據(jù)庫?

就是從數(shù)據(jù)庫中剝離多媒體內(nèi)容。本書認為,數(shù)據(jù)挖掘?qū)嶋H上包含兩個過程:首先,從數(shù)據(jù)中發(fā)現(xiàn)信息;然后,從信息中發(fā)現(xiàn)知識。但是,當前的數(shù)據(jù)倉庫和數(shù)據(jù)挖掘基本上都是從傳統(tǒng)數(shù)據(jù)庫發(fā)展而來,因此,大部分關(guān)于數(shù)據(jù)挖掘的著作,都把這兩個過程混為一談,導致許多研究工作迷失方向。

關(guān)于從信息中發(fā)現(xiàn)知識的過程,相對有章可循,經(jīng)過數(shù)十年努力,目前已經(jīng)具備較完整的數(shù)學模型和方法,至少已經(jīng)有了比較明確的研究方向,大部分數(shù)據(jù)挖掘的著作中都有類似的描述。關(guān)于從數(shù)據(jù)中發(fā)現(xiàn)信息的過程,取決于數(shù)據(jù)的類型。實際上,每一種數(shù)據(jù)類型都是一門獨立的學問,其中,傳統(tǒng)數(shù)據(jù)庫所處理的“結(jié)構(gòu)化”數(shù)據(jù)已經(jīng)成熟。但是,除此之外,例如:從文本、網(wǎng)站和多媒體內(nèi)容中提取信息,還遠未成熟。尤其是面對視頻內(nèi)容,如何提取有效信息尚屬起步階段,連發(fā)展方向都不清楚。這些領(lǐng)域其實與信息庫無關(guān)。這項任務可以分配給專門的算法引擎,甚至可用人工輔助實現(xiàn)。也就是說,將不同算法引擎提煉后的信息,統(tǒng)一充實到已有的運行中的信息庫。有效應對理論研究與實際應用之間的時間差。在數(shù)據(jù)倉庫和數(shù)據(jù)挖掘領(lǐng)域,還面臨數(shù)據(jù)規(guī)格化和大規(guī)模協(xié)同作業(yè)的難題。我們知道,傳統(tǒng)數(shù)據(jù)庫不具備普遍性,即便使用同一家公司的數(shù)據(jù)庫軟件和SQL語言,但是,變量定義只在特定的數(shù)據(jù)庫中有效。也就是說,只有數(shù)據(jù)庫的原始開發(fā)人員,才能充分使用該數(shù)據(jù)庫的內(nèi)容。

本書提出信息中樞概念,首先把傳統(tǒng)數(shù)據(jù)庫解構(gòu)為信息庫、多媒體內(nèi)容庫、代碼字典和用戶操作模塊。消除信息庫中的冗余信息,然后,通過開放的跨平臺數(shù)據(jù)結(jié)構(gòu)和神經(jīng)網(wǎng)絡系統(tǒng)整合傳統(tǒng)數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的全部功能。最終,完成大規(guī)模協(xié)同作業(yè)的信息中樞。本書所述的信息中樞,只要一本代碼字典、一份埋藏信息的地圖和統(tǒng)一的神經(jīng)元傳導協(xié)議,任何人用任何工具,包括軟件或可編程硬件,只要在局部授權(quán)的前提下,可以使用信息中樞指定范圍內(nèi)的信息,開發(fā)任意應用業(yè)務,包括信息挖掘和輔助決策。

3.為什么要建設(shè)信息中樞

隨著社會信息化深入,伴隨兩大矛盾:信息集中與分散,信息開放與安全。從人類社會進步角度,信息資源應該集中,打破地區(qū)和行業(yè)壁壘,避免各自為政,同時面向兩大類人群:①水平管理,以信息寫入或更改維護為主;②垂直使用,以信息查詢和支持決策為主。但是,信息集中可能會受到傳統(tǒng)勢力和現(xiàn)行管理體系的阻力,好在信息極易復制,可以化解大部分不利因素。

同樣從人類社會進步角度,信息資源應該開放,為每一個公民服務,實現(xiàn)信息價值最大化。然而,過度防范導致使用價值受損,過度開放危及信息安全。在現(xiàn)實社會中,不可控的開放必然導致濫用,因此,開放必須有度。我們不能因為擔心信息安全而因噎廢食。理想情況是,該開放的就開放,該封閉的就封閉,對于不同對象有不同的開放程度。每次接觸信息都留下記錄,并且隨時設(shè)定每個人和每臺設(shè)備的操作權(quán)限。但是,如此精確可控信息資源的最大障礙是當前無數(shù)個疏于管理的數(shù)據(jù)庫和混亂的網(wǎng)絡秩序,或者說,脆弱的安全體系。

本書提出,化解上述兩大矛盾的有效途徑是建設(shè)社會信息中樞。如前所述,信息中樞首先分離多媒體內(nèi)容,然后通過壓縮冗余數(shù)據(jù),提取有效裸信息,最后建立精簡并無限擴展的信息庫。實際上,信息庫就是原始信息本體,建立信息庫對應了傳統(tǒng)數(shù)據(jù)庫的第一要素“建表”過程。信息中樞的信息庫包含很多子庫,例如個人身份信息庫、社團法人(企業(yè))信息庫、客戶資源信息庫、電子商務網(wǎng)店信息庫等,這些信息庫分散在許多獨立的神經(jīng)元中。傳統(tǒng)數(shù)據(jù)庫的第二要素“建索引”就是定義信息存放地址,信息中樞跨介質(zhì)數(shù)據(jù)結(jié)構(gòu)對應了建索引過程,這種數(shù)據(jù)結(jié)構(gòu)隱含在所有神經(jīng)元中。傳統(tǒng)數(shù)據(jù)庫的第三要素“建關(guān)聯(lián)”,實際上就是如何使用信息的題目,這是一個千變?nèi)f化的過程,決定了整個系統(tǒng)的價值。信息中樞將此功能交給獨立神經(jīng)元完成,不同神經(jīng)元執(zhí)行不同的關(guān)聯(lián)。實際上,分工細化有利于提高信息價值,這是社會信息化的象征和必然趨勢。

隨著信息中樞應用積累,常用的關(guān)聯(lián)都可在已有的神經(jīng)元找到。信息中樞永遠向符合條件的用戶開放自定義的神經(jīng)元,執(zhí)行包括數(shù)據(jù)倉庫和數(shù)據(jù)挖掘在內(nèi),任意可想象的信息加工任務。另外,信息中樞允許任意多開發(fā)團隊,同時開發(fā)不同的信息加工任務,并且面向無限量的用戶群。值得指出,對于無限擴展的信息中樞,每個神經(jīng)元的復雜度可以維持不變,可以自由定義任意新結(jié)構(gòu)。也就是說,消除了軟件和硬件的發(fā)展瓶頸。最后,本書提出的信息中樞具備免疫和自愈能力,杜絕病毒黑客攻擊。信息中樞像生物體那樣生長和新陳代謝,或者說,能夠在系統(tǒng)運行過程中,定義不斷變化的新任務,完成升級和擴容。

如上所述,信息中樞的用戶操作模塊主要面向四大類遠程用戶群:按功能分為信息采集者和信息使用者,按介入深度分為低級用戶和高級用戶,所述的信息采集者泛指人工信息登錄,或自動信息抓取,包括第三方數(shù)據(jù)庫吸納、媒體內(nèi)容搜索、多媒體內(nèi)容識別。所述的信息使用者泛指通過鏈接、挖掘、推理等手段,從信息中提煉知識,進一步指導決策。信息使用者還泛指多媒體內(nèi)容點播,包括電子商務、電子教育、娛樂性內(nèi)容消費。所述的低級用戶泛指常用服務套餐的用戶;所述的高級用戶泛指開發(fā)定制功能的用戶。當然,所述的每大類用戶群還可以進一步細分具體功能。實際上,信息中樞包含并超越傳統(tǒng)數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的全部功能。

4.如何建設(shè)信息中樞

從數(shù)據(jù)庫過渡到信息中樞,或者說,從知性的信息服務過渡到感性的全方位網(wǎng)絡體驗,主要實現(xiàn)多方位拓展。

(1)內(nèi)容拓展。過去二十多年來,數(shù)據(jù)庫的內(nèi)容以數(shù)據(jù)和文字為主。信息中樞保留原有的數(shù)據(jù)和文字,把主要著眼點拓展到視、音、圖等非文字領(lǐng)域,由此勢必引起傳統(tǒng)數(shù)據(jù)庫的變革。

主要差別表現(xiàn)在,原有的存儲器容量將擴大千萬倍,原有的搜索手段已不能有效地獲取所需信息。因此,必須創(chuàng)立全新搜索體系,包括建立標準分類碼、自定義關(guān)鍵詞、獨立于元媒體的索引表等。

(2)時間拓展。過去二十多年來,數(shù)據(jù)庫的工作模式僅僅是從存儲器中查詢歷史記錄。信息中樞將查詢內(nèi)容拓展到同步信息源,如傳感器、面對面影視信息、現(xiàn)場直播等領(lǐng)域。

(3)能力拓展。過去二十多年來,數(shù)據(jù)庫的目標是獲取信息。信息中樞將此目標拓展到獲取服務,包括模式識別、機器翻譯、計算力、存儲空間、視音頻資料共享等領(lǐng)域。

將一組游戲機放在網(wǎng)絡服務中心,面向一個用戶群提供共享的游戲點播服務,將大大降低用戶游戲機硬件成本,防止軟件盜版,減少消費者購買游戲軟件的投資,形成硬件、軟件和消費者三贏局面。

同理可推廣至家用人工智能領(lǐng)域。例如:一位學者可以發(fā)明某項特殊算法,并將執(zhí)行此功能的設(shè)備托管在網(wǎng)絡服務中心,索尼(Sony)生產(chǎn)的家用機器人或電子寵物可以將原始數(shù)據(jù)上傳至服務中心,按需調(diào)用各類算法,然后下載結(jié)果。這樣一來,一個很便宜的低功耗裝置就能變得無限“聰明”,只要適當支付一點“聰明費”即可。

提供服務的手段可以用電腦,也可以用人腦。例如,通過合理有效地調(diào)配人工資源,實現(xiàn)人工輔助、同聲翻譯、網(wǎng)絡律師、網(wǎng)絡秘書、面對面認證等更具人性化的服務,以補償電腦能力的不足。

(4)目標拓展。過去二十多年來,數(shù)據(jù)庫內(nèi)容對所有用戶統(tǒng)一編排。信息中樞將個人信息與普通內(nèi)容有機結(jié)合,為不同用戶群,甚至單個用戶提供個性化目錄和服務。

(5)經(jīng)營拓展。過去二十多年來,數(shù)據(jù)庫大多是封閉式操作,作為面向內(nèi)部不收費的資料查詢系統(tǒng),不能有效地管理面向社會的超大型廣義網(wǎng)絡數(shù)據(jù)庫。

信息中樞提供一種全方位協(xié)同作業(yè)環(huán)境,允許任意多遠程聯(lián)網(wǎng)團隊,同時開發(fā)不同的信息加工任務,并且面向無限量用戶群。這些獨立開發(fā)任務橫跨多個不相關(guān)領(lǐng)域,很難由少數(shù)幾個團隊完成,例如:不同信息鏈接和挖掘需求,分析解讀不同類型多媒體內(nèi)容,對應不同聰明程度的各種人工智能算法等。

信息中樞創(chuàng)立了以大一統(tǒng)網(wǎng)絡為基礎(chǔ)的資源共享體系,創(chuàng)立了多個經(jīng)營角色之間(供應商、零售商、運營商)的界面,創(chuàng)立了各自獨立的收費系統(tǒng),創(chuàng)立了具備良性循環(huán),可持續(xù)發(fā)展的開放性商業(yè)模式。

主站蜘蛛池模板: 汤原县| 金秀| 吉木乃县| 英吉沙县| 新野县| 抚松县| 揭西县| 玉田县| 盈江县| 盐城市| 华宁县| 松桃| 磐安县| 太湖县| 巧家县| 屏边| 霍林郭勒市| 金门县| 岑溪市| 泸水县| 东乡族自治县| 瑞昌市| 合江县| 长顺县| 灌南县| 平定县| 堆龙德庆县| 三原县| 从化市| 长乐市| 宁都县| 岳普湖县| 南陵县| 舞钢市| 土默特左旗| 丽江市| 邹平县| 长汀县| 明星| 聂拉木县| 东莞市|