壹開始我建議妳從最簡單的urllib模塊開始學習,比如爬新浪主頁(聲明:此代碼僅供學術研究,並無攻擊意圖):
這樣就爬取了新浪首頁的源代碼,是整個網頁的信息。如果妳想提取妳覺得有用的信息,妳必須學會使用字符串方法或正則表達式。
平時多看看網上的文章和教程,很快就能學會。
還有壹點:上面使用的環境是python2。在python3中,urllib、urllib2和urllib3已經集成到壹個包中,並且不再有以這些單詞命名的模塊。