當前位置:股票大全官網 - 股票行情 - 如何通過python調用新浪微博的API抓取數據?

如何通過python調用新浪微博的API抓取數據?

首先,如果妳想通過開放api爬取壹個大V的所有數據,需要滿足以下兩個條件:

1.當妳的爬蟲開始運行的時候,這個大V的所有微博發布都沒有超過回溯查詢的上限,新浪是2000,twitter是3200。

2.爬蟲程序必須連續運行。

新浪微博的api基本都是抄襲twitter的,接口的參數特性與底層Nosql密切相關。建議先看看NoSQL數據庫的設計理念,有助於更好的理解api設計。

壹般來說,如果妳決定去爬壹個大V,第壹步就是想辦法獲取用戶的基本信息,其中會包括最新的狀態,並記下id號作為基準,命名為baseId。

界面中最重要的兩個參數:

Since_id:返回id大於since_id的微博(即時間晚於since_id的微博);默認值為0。

Max_ID:返回ID小於等於max_id的微博;默認值為0。

由於種種原因,獲取狀態的界面固定為id降序排列(scan_index_forward=false),即最新狀態返回最前面。假設微博第壹天上線,壹個用戶發100條消息,id是1到100。還有妳在用戶發文章50的時候開始運行的爬蟲,也就是baseId=50。