當前位置:股票大全官網 - 財經資訊 - 如何用Python爬蟲抓取網頁內容?

如何用Python爬蟲抓取網頁內容?

爬蟲流程

其實把網絡爬蟲抽象開來看,它無外乎包含如下幾個步驟

模擬請求網頁。模擬瀏覽器,打開目標網站。

獲取數據。打開網站之後,就可以自動化的獲取我們所需要的網站數據。

保存數據。拿到數據之後,需要持久化到本地文件或者數據庫等存儲設備中。

那麽我們該如何使用 Python 來編寫自己的爬蟲程序呢,在這裏我要重點介紹壹個 Python 庫:Requests。

Requests 使用

Requests 庫是 Python 中發起 HTTP 請求的庫,使用非常方便簡單。

模擬發送 HTTP 請求

發送 GET 請求

當我們用瀏覽器打開豆瓣首頁時,其實發送的最原始的請求就是 GET 請求

import requests

res = requests.get('')

print(res)

print(type(res))

>>>

<Response [200]>

<class 'requests.models.Response'>