官术网_书友最值得收藏!

5.1 靜態(tài)數(shù)據(jù)采集

靜態(tài)數(shù)據(jù)是指采集的目標數(shù)據(jù)在網(wǎng)頁源碼中,而且是一次性加載在網(wǎng)頁中的。

例:采集某電商平臺商品頁面數(shù)據(jù)。

在亞馬遜網(wǎng)站,搜索“連衣裙”,如圖5-1所示。

圖5-1

打開Power BI,單擊“主頁”選項卡中的“獲取數(shù)據(jù)”下拉按鈕,在打開的下拉列表中選擇“Web”選項,如圖5-2所示。

圖5-2

彈出“從Web”對話框,將網(wǎng)頁鏈接復制到URL文本框,然后單擊“確定”按鈕,如圖5-3所示。

圖5-3

單擊“Web視圖”選項卡,再單擊“使用示例添加表”按鈕,如圖5-4所示。

圖5-4

打開“使用示例添加表”對話框,在“列1”的第1行,輸入價格“268.79”,選擇彈出的第一個參數(shù),如圖5-5所示。

圖5-5

按Enter鍵后,效果如圖5-6所示。

圖5-6

獲取商品的其他數(shù)據(jù)也使用同樣的操作,結(jié)果如圖5-7所示。

圖5-7

商品數(shù)據(jù)在“表視圖”選項卡的“自定義表[1]”的“表7”中,如圖5-8所示。

圖5-8

例:采集休斯敦火箭隊球員最新賽季的數(shù)據(jù),球員比賽數(shù)據(jù)如圖5-9所示。

圖5-9

在Power BI的“主頁”選項卡中,單擊“獲取數(shù)據(jù)”下拉按鈕,在打開的下拉列表中選擇“Web”選項獲取網(wǎng)站的數(shù)據(jù)。

彈出“從Web”對話框,在URL文本框中輸入網(wǎng)址,然后單擊“確定”按鈕,如圖5-10所示。

圖5-10

在打開的“導航器”對話框中通過“表視圖”選項卡可以看到“表1”是目標數(shù)據(jù)。勾選“導航器”對話框左側(cè)列表中的“表1”,如圖5-11所示,再單擊“轉(zhuǎn)換數(shù)據(jù)”按鈕進入Power Query編輯器。

圖5-11

進入Power Query編輯器后,發(fā)現(xiàn)有一列空列,在該列名上右擊,在彈出的快捷菜單中選擇“刪除”選項,如圖5-12所示,將空列刪除。

圖5-12

在“主頁”選項卡中單擊“將第一行用作標題”按鈕,如圖5-13所示。

圖5-13

篩選球員數(shù)據(jù),取消勾選“總計”“全隊數(shù)據(jù)”“對手數(shù)據(jù)”選項前的復選框,如圖5-14所示。

圖5-14

在Power Query編輯器的“主頁”選項卡中單擊“關閉并應用”按鈕,如圖5-15所示,將數(shù)據(jù)導入BI中。

圖5-15

加載后,表格中的數(shù)據(jù)如圖5-16所示。

圖5-16

例:批量采集球隊最新賽季的數(shù)據(jù),球隊名稱及英文縮寫如表5-1所示。

表5-1

將數(shù)據(jù)輸入Excel工作表之后,在Power BI Desktop界面的“主頁”選項卡中單擊“獲取數(shù)據(jù)”下拉按鈕,在彈出的下拉列表中選擇“Excel”選項,如圖5-17所示,將數(shù)據(jù)導入Power Query編輯器。

圖5-17

將數(shù)據(jù)導入Power Query編輯器后,創(chuàng)建URL,在“添加列”選項卡中單擊“自定義列”按鈕,如圖5-18所示。

圖5-18

圖5-19

在打開的“自定義列”對話框的“自定義列公式”文本框中輸入“="http://www.stat-nba.com/team/"&[縮寫]&".html"”,然后單擊“確定”按鈕,如圖5-19所示。

創(chuàng)建好URL后再次添加自定義列(在“添加列”選項卡中單擊“自定義列”按鈕),采集URL數(shù)據(jù)。

在彈出的“自定義列”對話框的“自定義列公式”文本框中輸入“=Web.Page(Web.Contents ([URL])){0}[Data]”,如圖5-20所示。

M函數(shù)說明

Web.Page:以網(wǎng)頁的方式加載數(shù)據(jù)。

Web.Contents:將網(wǎng)頁以二進制文件的格式下載。

{0}[Data]:打開網(wǎng)頁中的第一張表格,也就是打開本例的“Table 0”。

圖5-20

單擊“確定”按鈕后,如果是首次連接該域名,則會提示用戶進行數(shù)據(jù)隱私設置,選擇“忽略此文件的隱私級別檢查,忽略隱私級別可能會向未經(jīng)授權(quán)的用戶公開敏感數(shù)據(jù)或機密數(shù)據(jù)”復選框,如圖5-21所示。單擊“保存”按鈕即可采集數(shù)據(jù)。

圖5-21

展開所有列,空列可以直接取消勾選,并且取消勾選“使用原始列名作為前綴”復選框,如圖5-22所示。

圖5-22

圖5-23

展開球員數(shù)據(jù)后,分別取消勾選“總計”“全隊數(shù)據(jù)”“對手數(shù)據(jù)”復選框,如圖5-23所示。

按住“Ctrl”鍵,將不需要的列選中并右擊,在彈出的快捷菜單中選擇“刪除”選項,如圖5-24所示。

圖5-24

在Power Query編輯器的“主頁”選項卡中單擊“關閉并應用”按鈕。

加載好的數(shù)據(jù)如圖5-25所示。

圖5-25

主站蜘蛛池模板: 临潭县| 米林县| 丰台区| 大悟县| 汤阴县| 彰武县| 榆林市| 绵阳市| 湖北省| 福清市| 历史| 绥江县| 淄博市| 周宁县| 翁牛特旗| 饶河县| 新巴尔虎右旗| 桐庐县| 大化| 蓬莱市| 东光县| 双桥区| 民乐县| 中牟县| 濉溪县| 洱源县| 乌兰浩特市| 昌吉市| 平阴县| 双柏县| 博乐市| 阜平县| 新干县| 喜德县| 乌兰浩特市| 大埔县| 武胜县| 泸溪县| 洛南县| 广平县| 突泉县|