當前位置:股票大全官網 - 基金投資 - 如何收集網站上的圖片,因為公司業務需要,需要大量圖片,比較急。

如何收集網站上的圖片,因為公司業務需要,需要大量圖片,比較急。

可以試試ForeSpider采集系統,可以自動采集各種數據,只需要配置模板。我這裏有個流程,妳可以下載壹個試試:

步驟1:創建新任務

①點擊左上角的“加號”創建壹個新任務,如圖1所示:

②?在彈出窗口中填寫收款地址,任務名稱如圖2所示:

(3)單擊下壹步選擇數據提取或鏈接提取。這壹次收集了所有頁面的圖片,通過點擊圖片列表鏈接進入圖片鏈接,所以這壹次需要提取列表圖片鏈接,所以點擊提取鏈接,如圖3所示:

步驟2:選擇鏈接類型

因為妳這次需要得到的是壹個圖片鏈接,和其他網頁鏈接不壹樣,所以需要特殊對待。在鏈接(URL)屬性配置下的鏈接類型中,選擇“圖片、視頻等資源的鏈接”。

第三步:通過地址過濾得到需要的鏈接。

(1)單擊收藏預覽。收藏預覽中還有其他類似於目標鏈接的鏈接,通過地址過濾可以獲得列表鏈接。找到所需的列表鏈接,註意所有所需的目標鏈接都包含“.”。jpg”,如圖5所示。

②?選擇地址過濾,過濾規則選擇包含,並填寫"。jpg\e "來獲取列表鏈接,如圖6所示。

③?單擊集合預覽以確認鏈接是否被完全過濾,如圖7所示。

步驟4:創建翻頁鏈接抽取

方法壹:創建任務,勾選鏈接提取,直接選擇鏈接列表和普通翻頁,如圖8。

方法二:如果創建任務時只勾選了鏈接列表,可以點擊返回返回模板層,通過選舉選擇翻頁鏈接,點擊下壹步創建翻頁鏈接。

方法三:直接點擊模板二,點擊上面的“新建鏈接抽取”按鈕,得到鏈接抽取,如圖9所示。

第五步:通過標題過濾過濾翻頁鏈接。

(1)點擊收藏預覽,可以發現翻頁鏈接是兩個名為上壹頁和下壹頁的鏈接。翻頁的話,只要獲取標題為“下壹頁”的鏈接即可。

②此處應用標題過濾。選擇“包含”作為過濾規則,並為過濾字符串填寫“下壹頁”。如圖10所示

③?點擊收藏預覽,查看過濾是否成功,如圖11。

步驟6:關聯模板

在軟件中,模板之間的關系與網頁中鏈接和跳轉的關系是壹樣的。

①關聯的“鏈表”

根據網頁跳轉規律,“鏈表”與第二個模板“鏈表:02”關聯。因為我們選擇在開始時創建列表鏈接,所以軟件會自動關聯第二個模板。如果配置時關聯有問題,可以自己修改,如圖12所示。

②關聯的“翻頁”(對應於步驟4中創建的翻頁鏈接提取)

案例壹:創建模板或者提取通過向導創建的翻頁鏈接時,默認選擇第壹個關聯的模板,即當前頁面模板,如圖13所示。

情況二:手動點擊按鈕創建翻頁鏈接提取,需要手動關聯,如圖13。

步驟7:填寫模板2的示例地址,並創建新的數據提取。

①?由模板1過濾的任何鏈接被用作模板2的示例地址。比如:

②新數據提取

方法壹:點擊“下壹步”後勾選提取數據,再次點擊“下壹步”進行數據提取,如圖15所示。

方法二:直接點擊模板二,點擊上面的“新建數據提取”按鈕,進行數據提取,如圖15所示。

步驟8:創建/選擇表單

在Spider crawler中,表單可以重用,因此您可以直接在數據表單中選擇以前構建的表單,也可以通過表單ID搜索和關聯數據表單。這裏使用的是Nitu.com的形式,如圖16所示。

方法1:通過下拉菜單或表單ID選擇壹個已有的表單。

方法二:點擊【創建表單】,進入快速建表頁面,新建壹個表單。

方法三:點擊“采集配置”-“數據建表”,然後點擊“采集表單”,如圖17。

步驟9:配置表單

根據所需內容配置表單字段(即標題)。這裏配置了兩個字段,包括頁面標題和圖片。表單如圖18所示。

步驟10:字段的值選擇

取值方法:按住Ctrl+鼠標左鍵選擇壹個區域,按住Shift+鼠標左鍵擴展所選區域。點擊“確認選擇”按鈕確認操作。

Pic_image字段,如圖19所示。

步驟12:捕獲預覽

點擊右上角的集合預覽,如圖20所示。

希望能幫到妳~