接下來,我們必須考慮如何使用爬蟲抓取web數據:
1.首先,我們要明確網頁的三個特征:
1)每個網頁都有壹個唯壹的統壹資源定位符(URL)來定位;
2)網頁使用超文本標記語言(HTML)描述頁面信息;
3)網頁使用超文本傳輸協議(HTTP/HTTPS)來傳輸HTML數據。
2.確立爬蟲的設計思想:
1)首先確定要抓取的網頁的URL地址;
2)通過HTTP/HTTP協議獲取相應的HTML頁面;
3)從HTML頁面中提取有用的數據:
A.如果是需要的數據,保存它。
B.如果是頁面中的另壹個URL,請繼續第二步。
比如我們想爬上新浪資訊的數據內容,觀察到新浪首頁頂部有很多類別,比如新聞、財經、科技、體育、娛樂、汽車等。每個類別又分為許多子類別,如軍事、社會和國際。所以首先要從新浪首頁開始,找到各個類別的網址鏈接,然後在大類下找到小類的網址鏈接,最後找到各個新聞頁面的網址,按要求抓取文字和圖片。這是爬行整個資源站的想法。
3.爬行動物的方式
可以作為爬蟲的語言有很多,比如PHP、Java、C/C++、Python等等。...
目前,Python以其優美的語法、簡潔的代碼、較高的開發效率和眾多支持的模塊成為應用最廣泛的方式,其相關的HTTP請求模塊和HTML解析模塊非常豐富,擁有強大的爬蟲Scrapy和成熟高效的scrapy-redis分布式策略。另外,用python調用其他借口也很方便。