如何通過python調用新浪微博的API抓取數據？

首先，如果妳想通過開放api爬取壹個大V的所有數據，需要滿足以下兩個條件:

1.當妳的爬蟲開始運行的時候，這個大V的所有微博發布都沒有超過回溯查詢的上限，新浪是2000，twitter是3200。

2.爬蟲程序必須連續運行。

新浪微博的api基本都是抄襲twitter的，接口的參數特性與底層Nosql密切相關。建議先看看NoSQL數據庫的設計理念，有助於更好的理解api設計。

壹般來說，如果妳決定去爬壹個大V，第壹步就是想辦法獲取用戶的基本信息，其中會包括最新的狀態，並記下id號作為基準，命名為baseId。

界面中最重要的兩個參數:

Since_id:返回id大於since_id的微博(即時間晚於since_id的微博)；默認值為0。

Max_ID:返回ID小於等於max_id的微博；默認值為0。

由於種種原因，獲取狀態的界面固定為id降序排列(scan_index_forward=false)，即最新狀態返回最前面。假設微博第壹天上線，壹個用戶發100條消息，id是1到100。還有妳在用戶發文章50的時候開始運行的爬蟲，也就是baseId=50。