原理

$P(Y|X)=\frac{P(X|Y)P(Y)}{P(X)}$

应用在文本分类上

$P(属于某类|具有某特征)=\ \frac{P(具有某特征|属于某类)P(属于某类)}{P(具有某特征)}$

比如

$P(属于议论文|具有‘假设’这个词)=\ \frac{P(具有‘假设’这个词|属于议论文)P(属于议论文)}{P(具有‘假设’这个词)}$

其中：

$P(属于议论文)$即所有训练集文本中议论文占比

$P(具有‘假设’这个词)$即所有文本中假设这个词的出现次数除以词语总数

$P(具有‘假设’这个词|属于议论文)$即议论文中假设这个词的出现次数除以议论文的词的词数

重复出现的词语一般分为两类：

首先是停用词，也就是没有实际意义的词，比如语气词，连接词等。

第二类是文本的关键词，需要引起重视。

因此现阶段在处理的时候，一般先建立一个停用词词典（可借鉴哈工大和川大的词典，网上能找到），使用此词典将文本中的停用词除去，然后对剩下的词采用多项式模型，即如果有重复的，那么就出现了多少次就记录多少次，然后代入公式去算。

当然，对于这种多次出现的词语，也有伯努利模型，也就是多次出现按照一次出现算的模型，暂时不表。