官术网_书友最值得收藏!

1.2 人工智能

1.2.1 從感知到創造

人工智能(Artificial Intelligence,AI)在智能水平的劃分上,可主要歸納為兩大類別:弱人工智能(Narrow AI)與強人工智能(General AI)。弱人工智能聚焦于特定任務或狹窄領域,展示出高度專業化的智能形態。這類系統專為應對明確界定的問題設計,例如語音識別軟件及圖像解析系統,它們在各自的專業領域中能力出眾,但在處理非指定范圍的任務時,則顯得功能有限。反之,強人工智能則代表了一種普適性智能,旨在達到與人類相仿的認知能力。它不僅能夠跨領域作業,還擁有學習新知、理解復雜情境及靈活適應變化的能力,涵蓋了語言理解、邏輯推理、問題求解等諸多維度,力求復制人類心智的全貌。強人工智能的發展藍圖遼闊,寄托了對智能技術未來愿景的無限遐想,但同時也伴隨著更為艱巨的挑戰與深層次的復雜性,因為它需破除單一功能的局限,邁向真正意義上的通用智能境界。

研究者在此基礎上追求人工智能實現的路徑。三種不同的智能層次如圖1-3所示。

圖1-3

(1)計算智能:是人工智能的基礎支柱之一,是指計算機系統利用高級算法、精密的數學模型及大數據處理技術,執行復雜的運算任務和數據分析的能力。它不僅涵蓋快速準確的數值計算,還包括模式識別、數據挖掘、優化決策等高級應用,是支撐現代科技發展和眾多智能服務背后的強大引擎。通過不斷優化的算法設計,計算智能正不斷突破處理速度與效率的極限,為解決大規模、高復雜度問題提供可能。

(2)感知智能:進一步擴展了機器與現實世界的接口,使計算機能夠通過傳感器、攝像頭、麥克風等設備捕捉并解釋外部環境的各類信息。這一領域主要包括計算機視覺—讓機器“看見”并理解圖像和視頻內容,以及語音識別技術—使機器能夠準確辨識、轉錄并理解人類語言。此外,還有觸覺、嗅覺等其他感知方式的模擬研究,共同構建起機器全面感知外界的綜合體系,為實現更加自然和高效的交互體驗奠定基礎。

(3)認知智能:這一領域致力于模仿和實現人類的高級思維過程,使計算機不僅能處理數據,還能“理解”信息、學習新知識、進行邏輯推理、解決問題,乃至創新和決策。它涵蓋了機器學習、自然語言處理、知識圖譜構建等多個子領域,力圖通過深度學習等技術,讓計算機掌握語境理解、情感識別、抽象思維等能力,逐步縮小與人類智能的差距。認知智能的突破,將極大推動自動化決策支持系統、智能顧問、個性化教育等領域的進步,開啟人工智能服務社會生活各個層面的新篇章。

1.計算智能

計算智能,這一概念涵蓋了計算機系統高效的數據處理與龐大的存儲能力,是現代科技發展的關鍵要素。它不僅是關于速度和容量的追求,更是對信息時代基礎設施智慧化水平的衡量。

(1)GPU(Graphics Processing Unit,圖形處理單元):GPU作為高性能計算的杰出代表,專為密集型圖形與圖像數據處理而設計,其強大的并行處理能力、豐富的硬件加速特性和靈活的著色器編程功能,使其成為當代圖形處理領域不可或缺的核心組件。類似地,TPU(Tensor Processing Unit,張量處理單元)和ASIC(Application Specific Integrated Circuit,應用特定集成電路)也是為了特定領域內的極致性能而定制開發的高效能計算解決方案,它們在機器學習、加密貨幣挖掘等領域展現出非凡效能。

(2)分布式計算:分布式計算技術是另一項革命性進展,它通過將復雜的計算任務拆分為若干較小的子任務,并將這些子任務分發至多臺計算機上并行執行,有效提升了計算資源的使用效率和處理速度,是滿足大規模數據處理和復雜計算需求的強有力手段。

(3)SSD(Solid State Disk或Solid State Drive,固態硬盤):SSD作為存儲技術的重大革新,基于高速閃存介質,與傳統的機械硬盤(Hard Disk Drive,HDD)相比,顯著提高了數據讀/寫速度,縮短了訪問延遲,并增強了耐用性和可靠性,為現代計算系統提供了更為流暢的數據存取體驗。

計算智能是當今世界研究的重點之一。盡管計算智能,如NVIDIA(英偉達)公司不斷強化的GPU算力和Intel持續優化的CPU性能,確實是科技進步的顯著標志,但我們應認識到,單純的計算速度與存儲能力的提升并不直接等同于人工智能的實現。事實上,人類長期以來追求的不僅是計算機運算速度的極限突破。

自古至今,計算機在計算速度上早已超越人類,而今我們所探索的是如何在保證高效、低成本的同時,賦予計算機理解、學習、決策等更接近人類智能的特性,進而推動人工智能邁向更高階的發展階段。

2.感知智能

感知智能,這一概念核心在于賦予計算機系統對外界環境的敏銳識別與理解能力,是人工智能技術中至關重要的一環。

(1)計算機視覺:它作為感知智能的前沿陣地,旨在模仿并實現人類視覺認知機制,使得機器能夠處理、解析數字圖像與視頻資料,進而深入理解并詮釋視覺信息。通過復雜的算法與深度學習模型,計算機視覺技術不僅能夠識別物體、場景,還能分析動作、表情,乃至推斷情境意義,有效地模擬了生物視覺系統的復雜功能。

(2)語音識別技術:語音識別則是感知智能的另一大支柱,它賦予了計算機理解與響應人類語音指令的能力,為實現自然語言處理與語音交互系統奠定了堅實基礎。通過捕捉、轉換及解析音頻信號,該技術打破了傳統人機交互的壁壘,使無接觸式通信成為可能,極大地豐富了人機互動的形式與深度。

(3)感知技術:感知技術的范疇更廣,涵蓋了力反饋、觸摸感應、形變監測、溫度感知及紋理識別等多種傳感方式,這些技術協同工作,使得機器能夠模擬觸覺、感知物理形態變化、監測環境溫濕度變化及辨別材質特性,極大地增強了其對物理世界的理解與適應能力。

(4)其他傳感器技術:此外,激光雷達(LiDAR)、紅外傳感器、攝像頭、麥克風、氣味探測器等其他高精度傳感器技術的集成應用,進一步拓寬了機器感知的邊界,使其能夠精確測量距離、探測障礙物、識別生物體征、捕捉聲音信號乃至分析空氣質量,為實現全方位、多維度的環境感知與智能響應提供了強有力的硬件支持。

總之,感知智能在人工智能領域的核心地位不容小覷,它不僅是連接虛擬世界與現實世界的橋梁,更是實現智能體自主感知、理解并適應外部環境,進而有效互動與決策的關鍵。近年來,隨著這些技術的快速發展與普及應用,我們的社會生活發生了翻天覆地的變化,技術的每次飛躍都在為人類帶來前所未有的便捷與生活質量的顯著提升,預示著一個更加智能、互聯的未來正逐步成為現實。

3.認知智能

認知智能,這一高級別的智能形式旨在賦予計算機系統類似人類的思維與理解能力,使之能深度解析信息并提出富有洞察力的見解,模擬人類在認識與闡釋世界時所展現的認知過程。如圖1-4所示,這一過程中的若干關鍵技術節點構筑了認知智能的基石,其中包括但不限于控制論原理的應用、基于規則的決策引擎設計、自然語言處理技術的革新、計算機視覺領域的突破、深度學習架構的興起、強化學習策略的實施,以及生成對抗網絡的創新,這些技術的融合和迭代共同推進了智能系統向更高層次的發展與躍進。

(1)ChatGPT:一種基于深度學習技術的對話生成模型,其影響力日益顯著,廣泛滲透至對話系統、聊天機器人及智能客服等行業應用中,有效支撐了自動問答、日常對話交流、個性化建議提供乃至問題解決方案的即時生成,極大地擴展了人機交互的深度與廣度。

(2)Stable Diffusion:一種用于生成高質量圖像的技術,標志著圖像生成領域的一大飛躍,專注于創造高品質視覺內容,應用于圖像生成、編輯與重建等多個維度,為用戶提供了前所未有的圖像創作解決方案,展現了人工智能在創造性內容生產方面的巨大潛力。

圖1-4

自2022年下半年以來,以Stable Diffusion和ChatGPT為代表的新興技術,不僅引領了人工智能領域的全新風潮,更標志著認知智能邁向了一個新紀元—創造世界的合成數據與創造性結果生成。這一轉變,如同為機器安裝上了類似于人類大腦的引擎,極大地增強了其創造性和創新能力。

計算智能作為人工智能領域的基礎,支撐著這一系列技術革命;而感知智能,作為連接物理世界與數字理解的橋梁,通過分析數據并提供決策依據,扮演著“感官”角色,其背后的驅動力正是控制論、規則基礎的決策系統、自然語言處理、計算機視覺等關鍵技術,它們共同構成了人工智能的“視覺”與“聽覺”,使機器得以觀察、理解并響應周遭環境。

1.2.2 通用人工智能

1.觸類旁通

以往的人工智能系統在設計上并未展現出普遍適用的智能特質,即未能達到通用人工智能(Artificial General Intelligence,AGI)的標準,這是由于這些系統構建的模型和算法通常被優化來執行高度專門化的單一任務。例如,專為人臉識別設計的系統,盡管在精準辨認個體方面表現出色,但其功能卻嚴格限定于人臉的識別范疇,無法超越此特定領域。同樣,針對缺陷檢測定制的AI模型,雖然能高效識別某一預設類型的瑕疵,但在需檢測不同種類缺陷的新場景,除非經歷模型的替換或重新訓練,否則將難以適應并有效工作。

AlphaGo的案例尤為顯著,這款AI系統憑借其在圍棋對弈上的卓越表現贏得了全球矚目,但它的智能邊界清晰劃定于圍棋規則之內。這意味著,盡管AlphaGo在圍棋領域內達到了超凡的競技水平,但在面對五子棋等結構迥異的棋類挑戰時,卻無法直接遷移其戰略思維或游戲技能,暴露出傳統AI系統在處理非專項任務時的局限性。這系列實例共同凸顯了早期AI技術與理想中AGI愿景之間的差距,后者追求的是跨領域、自適應和泛化能力強的智能形態。

如圖1-5所示,隨著技術的不斷發展,像ChatGPT這樣的模型已經具備了觸類旁通的能力,即可以將在一個任務領域學到的知識應用于其他領域。這種能力被學術界描述為“涌現(Emergent)”,意味著模型可以在不同領域表現出類似的智能水平。當前,一個備受關注的研究熱點是多模態大模型,旨在開發一個可以處理多種媒體類型問題的統一模型。如果這一努力取得成功,則幾乎所有類型的數據都可以通過這個模型進行訓練,實現從一個數據類型到另一個數據類型的生成。例如,可以從劇本直接生成電影,從需求文檔直接生成可執行的應用程序,或者從口頭描述直接生成三維人物。基于這樣的邏輯,我們可以大膽地假設,凡是數據,都可以交給這個模型訓練,讓它學會如何從一個數據類型生成另一個數據類型。

圖1-5

盡管如此,要實現真正的AGI仍然面臨著許多未知因素和挑戰。當前的技術進展只是打開了探索之門,我們尚不清楚門后有什么,也不知道我們是否已經走上了正確的道路。然而,盡管存在諸多不確定性,我們依然可以思考AGI的出現將如何改變產業和個人生活。某些變化已在悄然發生,因此,我們需要深入思考AGI可能帶來的潛在影響,并做好準備,迎接未來的挑戰和機遇。

2.意義

假設AGI已經實現,這將引發一場信息技術界的革命,其影響不僅體現在提高生產效率、降低生產成本等方面,更在于對軟件系統本身的深遠影響。從這個角度來看,我們可以通過朝著實現AGI的方向推導出當前所需的技術發展方向。

一項技術是否具有革命性,通常可以通過以下標志來衡量:是否要求幾乎每個軟件系統都進行改造甚至重構。在過去,已經有一些技術滿足了這一標準,比如圖形界面、Web 2.0和移動互聯網。AGI也符合這個標準,因為它將重新定義軟件系統的“接口”。無論是用戶界面還是軟件系統之間的接口,AGI都將對其進行重新定義。

當前,人們需要通過理解計算機的能力、掌握各種軟件的操作方法,并將自己的意圖拆解為一系列操作軟件的步驟才能獲得所需結果。然而,AGI的出現改變了這一情況。人類將能夠通過“說話”的方式與計算機進行交互,當交流語言不方便時,可以轉而使用打字。如果打字過于煩瑣,只需“說”出所需結果,計算機即可呈現。用戶可以立即“說”出修改意見,系統會立即做出響應。在這種情況下,用戶界面的體驗將得到極大的提升,鼠標點擊和屏幕觸摸的頻率將會大幅降低。這一進步,提升了人類的工作效率,使人類的生活更加便利。

人類的定義通常包括兩個方面:會使用語言和會使用工具。AGI在解決了語言問題之后,下一步就是解決工具的選擇和使用問題。AGI的出現讓人類能夠更加便捷地使用計算機和軟件系統,進一步推動了信息技術的發展。

1.2.3 發展方向

如表1-1所示,當前大模型的探索和發展正聚焦于四大熱門方向,引領著AI領域的新一輪創新浪潮。

(1)預訓練:這一技術通過在海量文本數據上預先訓練模型,使得模型能夠學習到廣泛的語言結構和語境知識,為后續的特定任務應用打下堅實的基礎。預訓練模型如BERT(Bidirectional Encoder Representations from Transformers,來自Transformers庫的雙向編碼器表示)模型和GPT(Generative Pre-Trained,生成式預訓練)模型,已成為NLP(Natural Language Processing,自然語言處理)領域的基石,極大地拓寬了語言理解與生成能力的邊界。

(2)模型微調:作為預訓練模型實用化的重要步驟,它針對特定任務對預訓練模型進行調整優化。通過在少量任務相關數據上進行額外訓練,模型能夠“學會”執行情感分析、問答系統或文本生成等具體功能,展現了高度的靈活性與效能,使得大模型能夠更好地適應實際應用場景的需求。

(3)AI Agent:其概念是進一步拓展語言模型的功能,使之不僅能處理文本,還能在多模態環境中互動、決策和學習。這些智能體通過整合語言理解、環境感知及決策制定能力,能夠在復雜場景下輔助人類工作,參與社交對話,乃至在虛擬世界中執行任務,代表了向更全面人工智能形態邁進的關鍵一步。

(4)提示工程:近年來成為研究和應用的熱點,它強調通過精心設計的提示(Prompt,也稱提示詞)來引導模型輸出,以激發模型潛在的能力,甚至不需要額外的微調就能完成新任務。這包括但不限于創建具有啟發性的指令、構建Prompt模板及使用Prompt進行知識注入等策略。提示工程(Prompt Engineering,也稱Prompt工程)不僅降低了定制化AI解決方案的門檻,而且也為探索模型內在邏輯和泛化能力提供了新的視角。

預訓練、模型微調、AI Agent和提示工程共同構成了當前大模型發展的四大熱門方向,它們相互交織,不斷推進人工智能技術的前沿,塑造著更加智能、高效且人性化的數字未來。

表1-1 當前大模型的四大熱門方向

1.2.4 本書焦點

在AI的新紀元時代,大模型將被塑造為不可或缺的基礎設施,正如一日三餐、水和電在我們日常生活中的地位,成為支撐各種應用和創新的根基。然而,預訓練大模型的任務是艱巨且復雜的,其建設和維護通常由技術力量雄厚、資金充沛的少數企業來承擔。因此,本書并不聚焦于如何研發、訓練自己的大模型,而是專注于以下幾點。

1.焦點一:微調、本地化與提示工程

對大多數人而言,我們并非這些資源的創造者,而是使用者。因此,真正的挑戰在于如何最大限度地發揮大模型的作用,學會有效地使用這些大模型才是關鍵。

對于本書而言,第一步:充分利用大模型,即掌握模型的微調(Fine Tuning);第二步:深入駕馭大模型,即掌握提示工程。因此,本書優先對這兩個方面進行闡述。

大模型的高昂訓練成本無疑是微調的一個推動因素。由于大模型的參數眾多,全新的訓練不僅會消耗大量的計算資源,而且還需要承擔相應的經濟成本。考慮到性價比,讓每家公司都從頭開始訓練一個大模型顯然不是一個經濟實用的選擇。那么,選擇已經預訓練好的模型,進行目標任務的微調則是更為理智、高效且節約成本的策略。

提示工程為大模型的使用提供了一種效果明顯且簡單上手的方式,一個好的Prompt可以幫助我們挖掘到大模型的潛力邊界,充分發揮大模型的能力,但很多人并不清楚Prompt的編寫技巧。若細心閱讀本書,則能體驗到Prompt的編寫技巧。

本地化:我們不能忽視數據的隱私和安全性問題。特別是對于敏感數據,很多企業不希望或不能將其傳輸給第三方大模型服務。在這種情況下,擁有自己的模型并進行微調不僅能確保數據的安全性,還能針對特定需求優化模型性能。

2.焦點二:垂直領域與Agent應用開發

垂直領域與Agent應用開發也是目前的熱門方向,但提示工程和微調并不能解決所有的問題。

縱使提示工程為大模型的使用提供了一種簡單上手的方式,但它的缺點也顯而易見。具體來說:大模型在設計上對輸入序列長度有明確的限制,而提示工程往往會產生較長的Prompt。這樣的設計直接引發了兩個問題:

(1)推理成本會隨著Prompt長度的增加而急劇上升,尤其是當這種推理成本與Prompt長度的平方成正相關時。

(2)過長的Prompt容易被模型截斷,從而嚴重影響輸出的質量和準確性。

垂直領域中的企業往往有大量的自有數據,提示工程由于其局限性,效果達不到預期的效果。而基于自有數據的微調,也有其缺點—企業的自有數據往往是不斷更新的,而微調的成本雖然比預訓練模型要低,但微調的時間成本和算力成本不容忽視,微調的速度不可能與企業數據的更新頻率保持一致,因而存在信息的滯后性。這是本書能解決的一個重要技術問題。

主站蜘蛛池模板: 阜南县| 青川县| 平乡县| 东丽区| 东丽区| 安远县| 砚山县| 阿尔山市| 西华县| 南丹县| 石河子市| 霍山县| 石城县| 文成县| 威海市| 扶沟县| 讷河市| 大田县| 濉溪县| 万载县| 涟水县| 黔南| 肃宁县| 长顺县| 梅州市| 郎溪县| 密山市| 合作市| 久治县| 红原县| 大石桥市| 阿克| 四会市| 九龙城区| 南木林县| 许昌县| 讷河市| 玉树县| 尉氏县| 栖霞市| 凉山|