如何代理jdb电子游戏

書名：揭秘大模型：從原理到實戰
作者名：文亮江維
本章字數： 1496字
更新時間： 2025-04-17 18:46:14

1.4.2　如何實現無損壓縮

假設Alice需要把一個數據集（可能無限大）從遙遠的半人馬座星系傳輸給地球上的Bob，假設如下，圖1-15是傳輸編碼數據的示意圖。

● ，表示一個標記，詞表大小。

● Alice和Bob都有足夠的計算資源。

● 假設現在已經傳輸了，Alice會將下一個編碼為后傳輸給Bob。

● Alice希望最小化傳輸的數據量S，以比特數量來衡量。

先看一下基準傳輸方法。由于的可能性有256（詞表大小）種，所以可以表示為一個8比特的整數（1字節）。假如，編碼后用表示，這時需要傳輸的數據量為8比特（）。

圖1-15　傳輸編碼數據

另外，Alice要將上面的傳輸步驟寫成一份新的代碼，在傳輸數據之前給到Bob。這樣傳輸一個大小為n的數據集的代價可以表示為

　　（1-1）

接下來從信息論角度解釋一下基準的信息量。

基準方法對于的分布沒有先驗知識，因此其概率分布是一個離散均勻分布。此時信息量表示為

　　（1-2）

因此，可被看作信息量。

提示　信息論的創始人克勞德·艾爾伍德·香農（Claude Elwood Shannon）定義了信息量的概念，信息量被用來衡量一個離散隨機變量的不確定性。假設服從概率分布，且有一個詞匯表，那么的信息量就是用比特數來表示的，公式表示為

　　（1-3）

這意味著，一個“事物”的信息量取決于它出現的概率。

我們可以任意選擇一個詞匯表，比如二進制數據，它可以很容易地被分成8比特的字節。每字節有0～255，共256種可能的取值，所以需要用8比特來表示1字節。這里其實有一個隱含的假設：0～255每個取值出現的概率都是相等的，也就是滿足如下關系。

　　（1-4）

事實上，的最大值就是在是均勻分布時取到的。當是1字節時，比特。也就是說，如果不是均勻分布，那么可以用少于8比特的編碼來表示1字節。這就是各種“壓縮”算法的理論基礎。

在介紹了基準方法之后，接下來介紹基于神經網絡的無損壓縮方法。

假設我們想要利用一個自回歸神經網絡來實現壓縮，以如下場景為例。

Alice首先把一個自回歸神經網絡（如GPT）的訓練代碼發送給Bob。這個網絡的輸入是，輸出是下一個數據的概率分布。注意，網絡的“大小”是由決定的，但網絡的權重是由初始化并不斷訓練得到的。可以把網絡的參數看作的一個函數。圖1-16是概率分布的示意圖（縱坐標為概率，示意圖中的概率為參考示例，無實際意義）。