當前位置:股票大全官網 - 股票行情 - 自然語言處理文本分類學習系列(2)

自然語言處理文本分類學習系列(2)

回答1:平均文字長度872個字符,最小64個字符,最長7125個字符,大部分在1000以下。

數據集中標簽的對應關系如下:{ '科技':0,'股票':1,'體育':2,'娛樂':3,'時事':4,'社會':5,'教育':6,'財經':7,'家居':

回答二:可以看出,“體育”和“股票”占比最高,其次是“科技”和“娛樂”,品類分布不是很均衡。

回答三:最多的字符平均30次/篇,高頻字符大概是標點符號或者停用詞,需要過濾。

本章的家庭作業