步驟1:創建新任務
①點擊左上角的“加號”創建壹個新任務,如圖1所示:
②?在彈出窗口中填寫收款地址,任務名稱如圖2所示:
(3)單擊下壹步選擇數據提取或鏈接提取。這壹次收集了所有頁面的圖片,通過點擊圖片列表鏈接進入圖片鏈接,所以這壹次需要提取列表圖片鏈接,所以點擊提取鏈接,如圖3所示:
步驟2:選擇鏈接類型
因為妳這次需要得到的是壹個圖片鏈接,和其他網頁鏈接不壹樣,所以需要特殊對待。在鏈接(URL)屬性配置下的鏈接類型中,選擇“圖片、視頻等資源的鏈接”。
第三步:通過地址過濾得到需要的鏈接。
(1)單擊收藏預覽。收藏預覽中還有其他類似於目標鏈接的鏈接,通過地址過濾可以獲得列表鏈接。找到所需的列表鏈接,註意所有所需的目標鏈接都包含“.”。jpg”,如圖5所示。
②?選擇地址過濾,過濾規則選擇包含,並填寫"。jpg\e "來獲取列表鏈接,如圖6所示。
③?單擊集合預覽以確認鏈接是否被完全過濾,如圖7所示。
步驟4:創建翻頁鏈接抽取
方法壹:創建任務,勾選鏈接提取,直接選擇鏈接列表和普通翻頁,如圖8。
方法二:如果創建任務時只勾選了鏈接列表,可以點擊返回返回模板層,通過選舉選擇翻頁鏈接,點擊下壹步創建翻頁鏈接。
方法三:直接點擊模板二,點擊上面的“新建鏈接抽取”按鈕,得到鏈接抽取,如圖9所示。
第五步:通過標題過濾過濾翻頁鏈接。
(1)點擊收藏預覽,可以發現翻頁鏈接是兩個名為上壹頁和下壹頁的鏈接。翻頁的話,只要獲取標題為“下壹頁”的鏈接即可。
②此處應用標題過濾。選擇“包含”作為過濾規則,並為過濾字符串填寫“下壹頁”。如圖10所示
③?點擊收藏預覽,查看過濾是否成功,如圖11。
步驟6:關聯模板
在軟件中,模板之間的關系與網頁中鏈接和跳轉的關系是壹樣的。
①關聯的“鏈表”
根據網頁跳轉規律,“鏈表”與第二個模板“鏈表:02”關聯。因為我們選擇在開始時創建列表鏈接,所以軟件會自動關聯第二個模板。如果配置時關聯有問題,可以自己修改,如圖12所示。
②關聯的“翻頁”(對應於步驟4中創建的翻頁鏈接提取)
案例壹:創建模板或者提取通過向導創建的翻頁鏈接時,默認選擇第壹個關聯的模板,即當前頁面模板,如圖13所示。
情況二:手動點擊按鈕創建翻頁鏈接提取,需要手動關聯,如圖13。
步驟7:填寫模板2的示例地址,並創建新的數據提取。
①?由模板1過濾的任何鏈接被用作模板2的示例地址。比如:
②新數據提取
方法壹:點擊“下壹步”後勾選提取數據,再次點擊“下壹步”進行數據提取,如圖15所示。
方法二:直接點擊模板二,點擊上面的“新建數據提取”按鈕,進行數據提取,如圖15所示。
步驟8:創建/選擇表單
在Spider crawler中,表單可以重用,因此您可以直接在數據表單中選擇以前構建的表單,也可以通過表單ID搜索和關聯數據表單。這裏使用的是Nitu.com的形式,如圖16所示。
方法1:通過下拉菜單或表單ID選擇壹個已有的表單。
方法二:點擊【創建表單】,進入快速建表頁面,新建壹個表單。
方法三:點擊“采集配置”-“數據建表”,然後點擊“采集表單”,如圖17。
步驟9:配置表單
根據所需內容配置表單字段(即標題)。這裏配置了兩個字段,包括頁面標題和圖片。表單如圖18所示。
步驟10:字段的值選擇
取值方法:按住Ctrl+鼠標左鍵選擇壹個區域,按住Shift+鼠標左鍵擴展所選區域。點擊“確認選擇”按鈕確認操作。
Pic_image字段,如圖19所示。
步驟12:捕獲預覽
點擊右上角的集合預覽,如圖20所示。
希望能幫到妳~