微博新冠肺炎的舆论分析

1.微博数据的抓取

在抓取微博数据时,有几种选择方式,一是按照热度排名抓取微博,这种选择方式会造成抓取的微博数量过于少,1月份的微博数量只有几页;另一种选择方式是按照原创抓取,可能会更能反应民众的真实情绪,这个后续再加以讨论。

目前常用的分词方法主要有三种:

(1)基于字符串匹配的分词方法 该方法是基于词典进行匹配,将要进行处理的中文文本按照一定的规则进行切割和整理,并与词典中的词语对照查询。若查询成功则根据词典分词,若查询失败应重新调整选择,不断重复操作直至分词完成。最典型的方法有基于正向最大匹配、基于逆向最大匹配方法和双向匹配法。

(2)基于理解的分词方法 该方法主要是根据专家系统或者机器学习等方式仿照学习人类对语言的读取和理解能力。专家系统是根据专家学者对分词规则进行逻辑推理后总结经验产生的特征规则,且经过日积月累地补充优化。但是,该方法不仅增加了资源的消耗,而且提高了算法的复杂度。比较而言,机器学习的分词方法通过模型训练模拟人类语言理解能力,取得了不错的效果,但是模型训练的时间过长且容易出现过拟合等情况。

(3)基于统计的分词方法 基于统计模型的分词方法的主要思想是在给定大量已经分词的文本的前提下,利用统计方法来学习模型,从而实现对未知文本的切分。其中最典型的有基于最大熵模型的分词方法、基于隐马尔可夫模型和基于条件随机场模型的方法。

中文分词技术经过几十年来的发展后相对已经比较成熟,目前有很多种开放的、成熟的且具有商用价值的分词工具。典型的有 Jieba 分词、HanLPs 中文分词、中科院分词系统 NLPIR 、哈工大的语言云系统等工具。 本课题采用jieba分词,jieba分词系统小巧高效且支持python系统。

去除停用词(stop-word)-word),去除停用词有两种方式,一种是基于统计的的方式,另一种是基于停用词表的方式(哈工大停用词表、百度停用词表)。

聚类是一种无监督的学习方式,有按照层次的方法,调整的方法,动态的方法(不同的划分方式有不同的聚类方法)。距离函数和相似性度量是聚类中必须的,距离函数根据变量的类型有很多种,只要满足距离函数的性质即可。类间距离:最大距离、最小距离、平均距离、重心距离(?)。层次聚类方法一般是局部最优,缺少全局优化目标,合并时最终决策,而且所做的这些决策不可更改。基于样本距离的聚类方法只能划分球类的簇,基于密度的聚类方法可以划分任意形状的簇。

single pass算法?