隨著大數據時代的來臨,數據的價值已經被越來越多的人重視,數據源以及數據獲取渠道的重要性也日益凸顯。那,我們究竟可以從什麽渠道獲取數據呢?結合自己經驗,對這方面進行壹定的闡述。獲取數據方面主要可以從兩個渠道進行:自有數據源以及外部數據。
壹、自有數據源
數據量級日益增大,越來越多的數據是以數據庫的形式進行儲存。如果想要獲取自有數據源,則必須會使用SQL進行數據的調取工作。
SQL除了增刪改之外,最常用的關鍵字都是圍繞Select進行,包括Where,From,Group By,Order By,Having,Like,Sum,As,Distinct,Join,Limit等關鍵字。
另外,還需要註意不同的數據庫兼容性不同。
二、外部數據源
1)網頁爬取數據
如果學習了Python,那麽就可以對網站上的壹些數據進行爬取,譬如京東評論數據、大眾點評評論數據等。
2)國家統計局數據
國家級別的數據源,包括我們國家經濟民生的各個方面,可以從月度、季度以及年度等維度進行數據查閱工作。
3)百度指數數據
百度系產品,可以幫助洞察某個關鍵字在某壹時間端內被關註的情況。通常可用作趨勢分析、人群洞察等。當然,除此之外,還有搜狗指數、360指數等搜索指數產品。
4)騰訊TBI指數
騰訊系產品,幫助洞察互聯網的熱點信息,並可以了解大致行業趨勢以及人群特征。
5)阿裏指數
阿裏系產品,依靠阿裏自有天貓及淘寶等交易數據,是我國比較權威的大數據平臺。
除此以外,還有愛奇藝指數、微信指數等大數據產品。