原理

$P(Y|X)=\frac{P(X|Y)P(Y)}{P(X)}$

应用在文本分类上

$P(属于某类|具有某特征)=\ \frac{P(具有某特征|属于某类)P(属于某类)}{P(具有某特征)}$

比如

$P(属于议论文|具有‘假设’这个词)=\ \frac{P(具有‘假设’这个词|属于议论文)P(属于议论文)}{P(具有‘假设’这个词)}$

其中:

$P(属于议论文)$即所有训练集文本中议论文占比

$P(具有‘假设’这个词)$即所有文本中假设这个词的出现次数除以词语总数

$P(具有‘假设’这个词|属于议论文)$即议论文中假设这个词的出现次数除以议论文的词的词数

关于重复出现的词语的一些处理

重复出现的词语一般分为两类:

首先是停用词,也就是没有实际意义的词,比如语气词,连接词等。

第二类是文本的关键词,需要引起重视。

因此现阶段在处理的时候,一般先建立一个停用词词典(可借鉴哈工大和川大的词典,网上能找到),使用此词典将文本中的停用词除去,然后对剩下的词采用多项式模型,即如果有重复的,那么就出现了多少次就记录多少次,然后代入公式去算。

当然,对于这种多次出现的词语,也有伯努利模型,也就是多次出现按照一次出现算的模型,暂时不表。