書名: 人工智能技術(shù)與大數(shù)據(jù)作者名: (印度)阿南德·德什潘德 馬尼什·庫(kù)馬本章字?jǐn)?shù): 4171字更新時(shí)間: 2021-04-09 20:43:43
1.4 兩全其美
人工智能正在尋找并利用人腦與“電子大腦”這兩者的優(yōu)點(diǎn)來增強(qiáng)人類的能力。將人腦的復(fù)雜性和效率與計(jì)算機(jī)的蠻力結(jié)合在一起,可以產(chǎn)生智能機(jī)器,解決人類面臨的一些最具挑戰(zhàn)性的問題。屆時(shí),人工智能將補(bǔ)充人類的能力,并通過促進(jìn)集體智能,向和諧社會(huì)邁進(jìn)一步。人工智能的例子有流行趨勢(shì)預(yù)測(cè)、基于DNA采樣和分析的疾病預(yù)防、自動(dòng)駕駛汽車、在危險(xiǎn)環(huán)境下工作的機(jī)器人,以及為不同能力的人提供的機(jī)器助手等。
在機(jī)器學(xué)習(xí)和人工智能領(lǐng)域中,采用統(tǒng)計(jì)和算法處理數(shù)據(jù)已經(jīng)流行了很長(zhǎng)一段時(shí)間。然而,直到有了大量的可用數(shù)據(jù)和海量的處理速度(即大數(shù)據(jù)),其功能和適用場(chǎng)景才得以拓展。1.4.1節(jié)將介紹一些大數(shù)據(jù)的基礎(chǔ)知識(shí)。大數(shù)據(jù)的可用性加快了人工智能和機(jī)器學(xué)習(xí)應(yīng)用的發(fā)展和演變。人工智能在大數(shù)據(jù)出現(xiàn)前后的對(duì)比如表1-1所示。
表1-1 人工智能在大數(shù)據(jù)出現(xiàn)前后的對(duì)比

人工智能的主要目標(biāo)是在機(jī)器中實(shí)現(xiàn)類似人類的智能,并創(chuàng)建收集數(shù)據(jù)的系統(tǒng),對(duì)數(shù)據(jù)進(jìn)行處理,創(chuàng)建模型(假設(shè)),預(yù)測(cè)或影響結(jié)果,最終改善人類生活。以大數(shù)據(jù)為金字塔的核心,可以實(shí)時(shí)獲得來自不同來源的海量數(shù)據(jù)集。這將為真正增強(qiáng)人類能力的人工智能打下一個(gè)堅(jiān)實(shí)的基礎(chǔ),如圖1-2所示。

圖1-2 以大數(shù)據(jù)為核心的金字塔
1.4.1 大數(shù)據(jù)
“我們沒有更好的算法,只有更多的數(shù)據(jù)。”
——皮特·諾維格(Peter Norvig),谷歌研究總監(jiān)
在字典中,數(shù)據(jù)被定義為收集在一起以供參考和分析的事實(shí)與統(tǒng)計(jì)數(shù)字。存儲(chǔ)機(jī)制在人類進(jìn)化過程中有了很大的發(fā)展,如雕刻、在葉子上手寫的文字、穿孔卡片、磁帶、硬盤、軟盤、CD、DVD、SSD、人類DNA等。每種新媒介的出現(xiàn)使人們能夠在更少的空間中存儲(chǔ)更多的數(shù)據(jù),這是朝著正確的方式轉(zhuǎn)變。隨著互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的出現(xiàn),數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng)。
數(shù)據(jù)量呈爆炸式增長(zhǎng),過去兩年間創(chuàng)造的數(shù)據(jù)比人類整個(gè)歷史上的還要多。
“大數(shù)據(jù)”一詞用來表示不斷增長(zhǎng)的數(shù)據(jù)量。除了數(shù)據(jù)量大,這個(gè)詞還包括高速、多樣和價(jià)值這3個(gè)屬性。
(1)大量。這代表了呈指數(shù)級(jí)增長(zhǎng)的數(shù)據(jù)量。現(xiàn)在人們通過越來越多人造物和自然物體之間的接口收集數(shù)據(jù)。例如,一位病人的日常就診現(xiàn)在能產(chǎn)生MB級(jí)別的電子數(shù)據(jù),一位普通的智能手機(jī)用戶每天至少產(chǎn)生幾GB的數(shù)據(jù),一次點(diǎn)到點(diǎn)的飛行能產(chǎn)生半TB的數(shù)據(jù)。
(2)高速。這代表了數(shù)據(jù)產(chǎn)生的速度,以及對(duì)某些關(guān)鍵操作進(jìn)行準(zhǔn)實(shí)時(shí)數(shù)據(jù)分析的需要。人們用傳感器收集來自自然現(xiàn)象的數(shù)據(jù),將數(shù)據(jù)進(jìn)行處理后用來預(yù)測(cè)颶風(fēng)或地震。醫(yī)療保健是關(guān)于數(shù)據(jù)生成速度一個(gè)很好的例子,分析和行動(dòng)是關(guān)鍵,如圖1-3所示。

圖1-3 持續(xù)增長(zhǎng)的數(shù)據(jù)量與速度
(3)多樣。這代表了數(shù)據(jù)格式的多樣。在歷史上,大多數(shù)電子數(shù)據(jù)集都是結(jié)構(gòu)化的,并且適合數(shù)據(jù)庫(kù)表(列和行)。然而,現(xiàn)在我們生成的超過80%的電子數(shù)據(jù)集不是結(jié)構(gòu)化的,如圖像、視頻和語(yǔ)音數(shù)據(jù)文件。有了大數(shù)據(jù),我們就可以分析絕大多數(shù)結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)集。
(4)價(jià)值。這是大數(shù)據(jù)最重要的方面。數(shù)據(jù)只有產(chǎn)生可操作的洞見時(shí)才有價(jià)值。記住結(jié)果金字塔的結(jié)論——行為導(dǎo)致結(jié)果。毫無疑問,數(shù)據(jù)是這種可操作的洞見的關(guān)鍵。然而,系統(tǒng)需要快速地發(fā)展,以便能夠分析數(shù)據(jù)、理解數(shù)據(jù)中的模式,并基于情境背景的細(xì)節(jié),提供最終能夠產(chǎn)生價(jià)值的解決方案。
1.4.2 從遲鈍機(jī)器進(jìn)化到智能機(jī)器
存儲(chǔ)和處理這些海量數(shù)據(jù)的機(jī)器與機(jī)制隨時(shí)間發(fā)生了巨大的變化。下面簡(jiǎn)要地看看機(jī)器(簡(jiǎn)單地說就是計(jì)算機(jī))的發(fā)展。在大部分發(fā)展進(jìn)程中,計(jì)算機(jī)都是遲鈍機(jī)器,而不是智能機(jī)器。計(jì)算機(jī)的基本構(gòu)件是中央處理單元(Central Processing Unit,CPU)、隨機(jī)存儲(chǔ)器(臨時(shí)內(nèi)存)和磁盤(持久存儲(chǔ))。CPU的核心組件之一是算術(shù)邏輯單元(Arithmetic and Logic Unit,ALU)。這個(gè)組件能夠執(zhí)行數(shù)學(xué)計(jì)算的基本步驟和邏輯操作。有了這些基本能力,傳統(tǒng)計(jì)算機(jī)就有了更強(qiáng)大的處理能力。然而,它們?nèi)匀皇菦]有任何內(nèi)在智能的遲鈍機(jī)器。這些計(jì)算機(jī)非常擅長(zhǎng)使用蠻力執(zhí)行預(yù)定義的指令,并為未定義的場(chǎng)景拋出錯(cuò)誤或異常。這些計(jì)算機(jī)程序只能回答它們要解決的特定問題。
盡管這些機(jī)器可以處理大量的數(shù)據(jù)并執(zhí)行繁重的計(jì)算任務(wù),但總是被限制在它們被設(shè)計(jì)要做的事情上。例如,自動(dòng)駕駛汽車就存在很大的局限。如果計(jì)算機(jī)程序按照預(yù)定義的指令工作,那么通過編寫程序的方式來讓汽車處理所有的情況幾乎是不可能的。要想在所有路況下駕駛汽車,就需要花費(fèi)大量時(shí)間去編寫程序。
傳統(tǒng)計(jì)算機(jī)對(duì)未知或非編程情況的響應(yīng)能力有限,這導(dǎo)致了一個(gè)問題:機(jī)器能被開發(fā)得像人類一樣思考和進(jìn)化嗎?需要記住的是,人們?cè)趯W(xué)習(xí)開車的時(shí)候,只是在一些特定的情況和特定的道路上駕駛它。人腦能非常快速地學(xué)會(huì)對(duì)新情況做出反應(yīng),并觸發(fā)各種操作(休息、轉(zhuǎn)彎、加速等)。這種好奇心促進(jìn)了傳統(tǒng)計(jì)算機(jī)向人工智能機(jī)器的進(jìn)化。
傳統(tǒng)上,人工智能系統(tǒng)的發(fā)展是以創(chuàng)建專家系統(tǒng)為目標(biāo)的,這些專家系統(tǒng)展示智能行為,并在每一次交互和結(jié)果中學(xué)習(xí),類似于人腦。
1956年,“人工智能”這個(gè)詞被創(chuàng)造出來。盡管在這個(gè)過程中有一些大大小小的發(fā)展,但20世紀(jì)的最后10年才標(biāo)志著人工智能技術(shù)的顯著進(jìn)步。1990年,出現(xiàn)了一些機(jī)器學(xué)習(xí)算法,這些算法的原理包括基于案例的推理以及自然語(yǔ)言理解與翻譯。1997年,當(dāng)計(jì)算機(jī)“深藍(lán)”擊敗當(dāng)時(shí)的世界象棋冠軍加里·卡斯帕羅夫(Gary Kasparov)時(shí),機(jī)器智能的發(fā)展來到了一個(gè)重要的里程碑。此后,人工智能系統(tǒng)又取得了很大的進(jìn)步,以至于一些專家預(yù)言人工智能最終將在所有方面擊敗人類。本書將著眼于構(gòu)建智能系統(tǒng)的細(xì)節(jié),并了解核心手段與可用的技術(shù)。我們將共同參與人類歷史上最偉大的革命之一。
1.4.3 智能
從根本上說,智能,尤其是人類智能,是一個(gè)不斷進(jìn)化的現(xiàn)象。當(dāng)應(yīng)用于感官輸入或數(shù)據(jù)資產(chǎn)時(shí),智能通過4個(gè)“P”進(jìn)行演化:感知(Perceive)、處理(Process)、持久化(Persist)和執(zhí)行(Perform)。為了開發(fā)人工智能,需要用同樣的循環(huán)方法為機(jī)器建模,如圖1-4所示。

圖1-4 為機(jī)器建模的循環(huán)方法
1.智能的類型
以下是人類智能的一些大致分類。
(1)語(yǔ)言智能。能夠?qū)卧~與對(duì)象聯(lián)系起來,并使用語(yǔ)言(詞匯和語(yǔ)法)來表達(dá)意思。
(2)邏輯智能。能夠計(jì)算、量化和執(zhí)行數(shù)學(xué)運(yùn)算,并使用基本和復(fù)雜的邏輯進(jìn)行推理。
(3)人際關(guān)系和情感智能。能夠與他人互動(dòng),理解他人的感受和情緒。
2.智能任務(wù)的分類
智能任務(wù)的分類如下。
(1)基本任務(wù)。包括感知、常識(shí)、推理和自然語(yǔ)言處理。
(2)中級(jí)任務(wù)。包括數(shù)學(xué)和游戲。
(3)專家任務(wù)。包括金融分析、工程能力、科學(xué)分析和醫(yī)學(xué)分析。
人類智能和機(jī)器智能的根本區(qū)別在于處理基本任務(wù)和專家任務(wù)。對(duì)人類智能來說,基本任務(wù)很容易掌握,這種能力與生俱來;對(duì)于機(jī)器智能來說,感知、推理和自然語(yǔ)言處理是一些在計(jì)算上最具挑戰(zhàn)性和最復(fù)雜的任務(wù)。
1.4.4 大數(shù)據(jù)框架
為了從大量、在形式和結(jié)構(gòu)上多樣、生成速度不斷加快的數(shù)據(jù)中獲得價(jià)值,并基于對(duì)事件發(fā)生(數(shù)據(jù)生成)與數(shù)據(jù)可供分析和操作的時(shí)間差的考慮,出現(xiàn)了兩大類框架。
1.批處理框架
傳統(tǒng)上,數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中的數(shù)據(jù)處理管道需要提取(Extracting)、轉(zhuǎn)換(Transforming)和加載(Loading)用于分析和操作的數(shù)據(jù)(ETL)。隨著基于文件的分布式計(jì)算的新范式出現(xiàn),ETL處理順序發(fā)生了變化。現(xiàn)在需要對(duì)數(shù)據(jù)進(jìn)行多次提取、加載和重復(fù)轉(zhuǎn)換以進(jìn)行分析(ELTTT),如圖1-5所示。

圖1-5 對(duì)數(shù)據(jù)進(jìn)行分析
在批處理中,數(shù)據(jù)從不同來源收集到暫存區(qū)中,并按規(guī)定的頻率和時(shí)間表加載和轉(zhuǎn)換。在大多數(shù)使用批處理的用例中,沒有必要實(shí)時(shí)或準(zhǔn)實(shí)時(shí)地處理數(shù)據(jù)。例如,關(guān)于學(xué)生出勤數(shù)據(jù)的月報(bào)將在月末通過一個(gè)處理(即批處理)生成。這個(gè)處理過程從源系統(tǒng)中提取數(shù)據(jù),加載數(shù)據(jù),并將數(shù)據(jù)轉(zhuǎn)換為各種視圖和報(bào)告。Apache Hadoop是最流行的批處理框架之一。它是一個(gè)高度可伸縮的分布式/并行處理框架。Hadoop的主要構(gòu)建模塊是Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)。
顧名思義,這是一個(gè)封裝的文件系統(tǒng),以分布式的方式在Hadoop中的數(shù)據(jù)節(jié)點(diǎn)上存儲(chǔ)數(shù)據(jù)(結(jié)構(gòu)化/非結(jié)構(gòu)化/半結(jié)構(gòu)化)。對(duì)于數(shù)據(jù)的處理(而不是被處理的數(shù)據(jù))被發(fā)送到各個(gè)節(jié)點(diǎn)上。計(jì)算由每個(gè)單獨(dú)的節(jié)點(diǎn)執(zhí)行,結(jié)果由主進(jìn)程進(jìn)行合并。在這種數(shù)據(jù)計(jì)算本地化的范式中,Hadoop嚴(yán)重依賴于中間的硬盤I/O操作。因此,Hadoop以犧牲處理時(shí)間為代價(jià),以可靠的方式處理大量的數(shù)據(jù)。該框架非常適合于批量模式下從大數(shù)據(jù)中提取價(jià)值。
2.實(shí)時(shí)處理框架
雖然批處理框架適用于大部分?jǐn)?shù)據(jù)倉(cāng)庫(kù)用例,但是在數(shù)據(jù)生成后就立刻對(duì)其進(jìn)行處理并產(chǎn)生可操作的洞見也是十分急切的需求。例如,在信用卡欺詐檢測(cè)系統(tǒng)中,一旦記錄了惡意活動(dòng)的第一個(gè)實(shí)例,就應(yīng)該立即生成告警。如果在月末批處理后才得到可操作的洞見(如拒絕交易),則沒有任何價(jià)值。實(shí)時(shí)處理框架的思想是減少事件時(shí)間和處理時(shí)間之間的延遲。在理想系統(tǒng)中,事件時(shí)間和處理時(shí)間之間的期望差為0。然而,時(shí)間差是關(guān)于數(shù)據(jù)源輸入、執(zhí)行引擎、網(wǎng)絡(luò)帶寬和硬件的函數(shù)。實(shí)時(shí)處理框架依賴分布式的內(nèi)存計(jì)算,以最小的I/O實(shí)現(xiàn)低延遲。一些最流行的實(shí)時(shí)處理框架如下。
(1)Apache Spark。這是一個(gè)分布式執(zhí)行引擎,它依賴于內(nèi)存處理,這種內(nèi)存處理由一種稱為彈性分布式數(shù)據(jù)集(Resilient Distributed Dataset,RDD)的容錯(cuò)數(shù)據(jù)抽象實(shí)現(xiàn)。
(2)Apache Storm。這是一個(gè)分布式實(shí)時(shí)計(jì)算框架。Storm應(yīng)用程序易于處理無界流,這些流以非常高的速度生成事件數(shù)據(jù)。
(3)Apache Flink。該框架能夠高效、分布式地處理大量數(shù)據(jù)。Flink的關(guān)鍵特性是程序的自動(dòng)優(yōu)化。Flink為大規(guī)模迭代、計(jì)算密集型算法提供了原生支持。
隨著生態(tài)系統(tǒng)的發(fā)展,有更多的框架可用來進(jìn)行批處理和實(shí)時(shí)處理。回到機(jī)器智能的演化周期(感知、處理、持久化、執(zhí)行),我們將利用這些框架創(chuàng)建處理大數(shù)據(jù)的程序,采用算法過濾相關(guān)數(shù)據(jù),根據(jù)數(shù)據(jù)中的模式生成模型,并得出可操作的洞見和預(yù)測(cè),最終從數(shù)據(jù)資產(chǎn)中獲得價(jià)值。
1.4.5 大數(shù)據(jù)智能應(yīng)用
技術(shù)發(fā)展到這一階段,系統(tǒng)可以收集大量來自異構(gòu)數(shù)據(jù)源的數(shù)據(jù),并用越來越低的成本進(jìn)行存儲(chǔ),人們可從數(shù)據(jù)中獲得洞見并創(chuàng)造價(jià)值,進(jìn)而構(gòu)建智能機(jī)器改善人類生活。人們需要使用一種算法來處理手頭大量的數(shù)據(jù)和計(jì)算資產(chǎn)。利用人類智能、大量的數(shù)據(jù)和分布式計(jì)算能力,人們可以構(gòu)建專家系統(tǒng),這些系統(tǒng)將有利于引導(dǎo)人類走向更美好的未來。
AI領(lǐng)域
雖然我們還處于人工智能發(fā)展的初級(jí)階段,但下面這些基本領(lǐng)域也不乏重要研究和突破。
(1)自然語(yǔ)言處理。促進(jìn)計(jì)算機(jī)和人類語(yǔ)言之間的交互。
(2)模糊邏輯系統(tǒng)。這些系統(tǒng)基于真實(shí)的程度,而不是使用if/else邏輯為所有情況編寫程序。基于可接受的推理,這些系統(tǒng)可以控制機(jī)器和消費(fèi)品。
(3)智能機(jī)器人。這些機(jī)械裝置可以執(zhí)行日常的或危險(xiǎn)的重復(fù)性任務(wù)。
(4)專家系統(tǒng)。這些系統(tǒng)或應(yīng)用程序可以解決特定領(lǐng)域中的復(fù)雜問題。它們能夠基于知識(shí)庫(kù)和模型提供建議、診斷和預(yù)測(cè)結(jié)果。
- 智能制造系統(tǒng)中的建模與仿真:系統(tǒng)工程與仿真的融合
- 智能學(xué)習(xí)的未來
- Python元學(xué)習(xí):通用人工智能的實(shí)現(xiàn)
- 人工智能產(chǎn)品經(jīng)理:AI時(shí)代PM修煉手冊(cè)(修訂版)
- 親密人機(jī):AI浪潮下的生存美學(xué)與商業(yè)想象
- 聯(lián)邦學(xué)習(xí)實(shí)戰(zhàn)
- 為機(jī)器立心(通用人工智能的中國(guó)藍(lán)圖系列)
- 深度思考:人工智能的終點(diǎn)與人類創(chuàng)造力的起點(diǎn)
- 移動(dòng)機(jī)器人技術(shù)及其應(yīng)用
- 塊數(shù)據(jù)4.0:人工智能時(shí)代的激活數(shù)據(jù)學(xué)
- 智能控制:理論基礎(chǔ)、算法設(shè)計(jì)與應(yīng)用
- 深度學(xué)習(xí)之TensorFlow:入門、原理與進(jìn)階實(shí)戰(zhàn)
- 人類的終極命運(yùn)
- 搜索:開啟智能時(shí)代的新引擎
- 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí):基于TensorFlow框架和Python技術(shù)實(shí)現(xiàn)