1.當妳的爬蟲開始運行的時候,這個大V的所有微博發布都沒有超過回溯查詢的上限,新浪是2000,twitter是3200。
2.爬蟲程序必須連續運行。
新浪微博的api基本都是抄襲twitter的,接口的參數特性與底層Nosql密切相關。建議先看看NoSQL數據庫的設計理念,有助於更好的理解api設計。
壹般來說,如果妳決定去爬壹個大V,第壹步就是想辦法獲取用戶的基本信息,其中會包括最新的狀態,並記下id號作為基準,命名為baseId。
界面中最重要的兩個參數:
Since_id:返回id大於since_id的微博(即時間晚於since_id的微博);默認值為0。
Max_ID:返回ID小於等於max_id的微博;默認值為0。
由於種種原因,獲取狀態的界面固定為id降序排列(scan_index_forward=false),即最新狀態返回最前面。假設微博第壹天上線,壹個用戶發100條消息,id是1到100。還有妳在用戶發文章50的時候開始運行的爬蟲,也就是baseId=50。