首先,打開API的網站
如果壹個網站開放了它的API,就可以直接獲取它的json數據。判斷壹個網站是否開放了API有三種方法。
1.在站內找到API入口;
2.用搜索引擎搜索“壹個網站API”;
3.抓住包。有些網站雖然使用了ajax,但是仍然可以通過抓包的方式在XHR獲取json數據(可以用抓包工具抓包或者通過瀏覽器按F12抓包:F12-Network-F5刷新)。
第二,不開放API的網站
1.如果網站是靜態頁面,可以使用requests庫發送請求,然後使用HTML解析庫(lxml、parsel等。)來解析文本;的回應;解析庫強烈推薦Parsel。不僅語法類似於css選擇器,而且速度也相當快,這正是Scrapy所使用的。
2.如果網站是動態頁面,可以先用selenium渲染JS,再用HTML解析庫解析驅動的page_source。