當前位置:股票大全官網 - 資訊化咨詢 - 如何抓取網站上的壹些信息?

如何抓取網站上的壹些信息?

兩種網站可以用不同的方式抓取。

首先,打開API的網站

如果壹個網站開放了它的API,就可以直接獲取它的json數據。判斷壹個網站是否開放了API有三種方法。

1.在站內找到API入口;

2.用搜索引擎搜索“壹個網站API”;

3.抓住包。有些網站雖然使用了ajax,但是仍然可以通過抓包的方式在XHR獲取json數據(可以用抓包工具抓包或者通過瀏覽器按F12抓包:F12-Network-F5刷新)。

第二,不開放API的網站

1.如果網站是靜態頁面,可以使用requests庫發送請求,然後使用HTML解析庫(lxml、parsel等。)來解析文本;的回應;解析庫強烈推薦Parsel。不僅語法類似於css選擇器,而且速度也相當快,這正是Scrapy所使用的。

2.如果網站是動態頁面,可以先用selenium渲染JS,再用HTML解析庫解析驅動的page_source。