小学一波_朴素贝叶斯算法
原理
$P(Y|X)=\frac{P(X|Y)P(Y)}{P(X)}$
应用在文本分类上
$P(属于某类|具有某特征)=\ \frac{P(具有某特征|属于某类)P(属于某类)}{P(具有某特征)}$
比如
$P(属于议论文|具有‘假设’这个词)=\ \frac{P(具有‘假设’这个词|属于议论文)P(属于议论文)}{P(具有‘假设’这个词)}$
其中:
$P(属于议论文)$即所有训练集文本中议论文占比
$P(具有‘假设’这个词)$即所有文本中假设这个词的出现次数除以词语总数
$P(具有‘假设’这个词|属于议论文)$即议论文中假设这个词的出现次数除以议论文的词的词数
关于重复出现的词语的一些处理
重复出现的词语一般分为两类:
首先是停用词,也就是没有实际意义的词,比如语气词,连接词等。
第二类是文本的关键词,需要引起重视。
因此现阶段在处理的时候,一般先建立一个停用词词典(可借鉴哈工大和川大的词典,网上能找到),使用此词典将文本中的停用词除去,然后对剩下的词采用多项式模型,即如果有重复的,那么就出现了多少次就记录多少次,然后代入公式去算。
当然,对于这种多次出现的词语,也有伯努利模型,也就是多次出现按照一次出现算的模型,暂时不表。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 AndrewLee!