1.中國科學院自動化研究所中英文新聞語料庫中文新聞分類語料庫收集自鳳凰網、新浪、網易、騰訊等網頁。英語新聞分類語料庫是路透社的ModApte版本-21578。
2.搜狗的中文新聞語料庫包括搜狐的大量新聞語料庫和相應的分類信息。有不同大小的版本可供下載。
3.李榮祿的中文語料庫壓縮後的規模為240M。
4.譚老師的中文文本分類語料庫不僅包含大的類別,如經濟和體育,還包含特定的子類別,如籃球和足球。可以作為分層分類語料庫,非常實用。
5.網易分類文本數據包括體育和汽車等六個類別的4000條文本數據。
6.中文文本分類語料庫包括藝術、文學等類別的語料庫文本。
數據大廳裏有很多類似的資源。妳自己去找他們。