基于樸素貝葉斯自動(dòng)過(guò)濾垃圾廣告
貝葉斯定理
貝葉斯定理是關(guān)于事件A和事件B的條件概率。先認(rèn)識(shí)一下這幾個(gè)符號(hào):
P(A|B):表示在事件B發(fā)生的情況下事件A發(fā)生的概率
P(B|A):表示在事件A發(fā)生的情況下事件B發(fā)生的概率
通常在已知P(A|B)的情況下,計(jì)算P(B|A)的值,此時(shí)P(A|B)可以稱為先驗(yàn)概率,P(B|A)稱為后驗(yàn)概率。
這個(gè)時(shí)候貝葉斯定理就登場(chǎng)啦:
通過(guò)這個(gè)定理我們就可以計(jì)算出P(B|A)的值。舉個(gè)栗子:
一座別墅在過(guò)去的 20 年里一共發(fā)生過(guò) 2 次被盜,別墅的主人有一條狗,狗平均每周晚上叫 3 次,在盜賊入侵時(shí)狗叫的概率被估計(jì)為 0.9,在狗叫的時(shí)候發(fā)生入侵的概率是多少?
我們假設(shè) A 事件為狗在晚上叫,B 為盜賊入侵,則以天為單位統(tǒng)計(jì),P(A) = 3/7,P(B) = 2/(20*365) = 2/7300,P(A|B) = 0.9,按照公式很容易得出結(jié)果:P(B|A) = 0.9*(2/7300) / (3/7) = 0.00058
貝葉斯定理延伸
其實(shí)到這里只是貝葉斯定理的簡(jiǎn)單版,下面來(lái)看看它的一般版。一般事件B的發(fā)生不止有一個(gè)影響因素,比如事件B為早上是否吃早餐,那么事件A1可以為幾點(diǎn)起床,A2表示為早上是否有課,A3天氣是否寒冷,...An食堂早餐賣到幾點(diǎn),這n個(gè)事件共同影響事件B是否吃早飯的發(fā)生,此時(shí)各事件的概率就發(fā)生了變化:
P(A)=P(A1,A2,A3,...An)
P(A|B)=P(A1,A2,A3,...An|B)
假設(shè)A1,A2,A3,...An都有兩種結(jié)果,那么一共有2^n個(gè)結(jié)果,對(duì)應(yīng)需要的樣本數(shù)也是呈指數(shù)增加,這顯然是不合實(shí)際的,這時(shí),就提出了半樸素貝葉斯和樸素貝葉斯。
這兩個(gè)定理都有樸素二字,這二字什么意思呢?白話一點(diǎn)就是簡(jiǎn)化的意思,將A1,A2,A3,...An這n個(gè)事件的關(guān)聯(lián)切斷,假設(shè)它們是相互獨(dú)立的,即P(A)=P(A1,A2,A3,...An)=P(A1)P(A2)P(A3)...P(An);
P(A|B)=P(A1,A2,A3,...An|B)=
P(A1|B)P(A2|B)P(A3|B)...P(An|B)
這么一樸素,整個(gè)過(guò)程簡(jiǎn)單了不止一點(diǎn)點(diǎn)。但是事件A1可以為幾點(diǎn)起床和事件A2表示為早上是否有課真的一點(diǎn)關(guān)聯(lián)都沒(méi)有嗎?肯定是有關(guān)聯(lián)的,將相關(guān)性很高的一些事件提出,P(A)=P(A1,A2,A3,...An)=
P(A1)P(A2)P(A3)...P(An)P(A1A2);既不忽略事件的相關(guān)性,又擁有樸素的特性,這就叫半樸素貝葉斯。
半樸素貝葉斯
樸素貝葉斯分類的正式定義如下:
1、設(shè)
為一個(gè)待分類項(xiàng),而每個(gè)a為x的一個(gè)特征屬性。
2、有類別集合
3、計(jì)算
4、如果
則
基于屬性條件獨(dú)立性假設(shè),現(xiàn)在來(lái)計(jì)算P(y1|x),P(y2|x),...P(yn|x)。
對(duì)于所有類別來(lái)說(shuō)P(x)是相同的,因此只需計(jì)算分子部分。
在實(shí)際計(jì)算時(shí),為了避免下溢(小數(shù)點(diǎn)位數(shù)過(guò)高),一般會(huì)對(duì)等式兩邊同時(shí)進(jìn)行Ln變形,將*變?yōu)椋;這里ln為一個(gè)增函數(shù),因此可以保證不改變P(yn|x)的大小排序。
另一個(gè)需要注意的點(diǎn)是:樣本數(shù)是有限的,不可能包括所有的情形,這時(shí)會(huì)出現(xiàn)P(xn|yi)=0,但是這種情況不出現(xiàn)是不等價(jià)于不發(fā)生的,這是用到拉普拉斯修正進(jìn)行平滑:
P(xn|yi)=(N(結(jié)果yi發(fā)生的前提下xn發(fā)生的次數(shù))+1)/(結(jié)果yi發(fā)生的次數(shù)+屬性xn所有可能的取值)
數(shù)據(jù)預(yù)處理
上圖是這次要用到的原始數(shù)據(jù),一行代表一則廣告。ham代表有用的廣告,spam代表垃圾短信。預(yù)處理一共有三部:
第一步:將數(shù)據(jù)讀入進(jìn)來(lái)。
def read_txt():
file = 'C:/Users/伊雅/Desktop/bayes.txt'
with open(file, encoding='utf-8') as f:
con = f.readlines()
return con
第二步:廣告存到dataset中,分類結(jié)果存儲(chǔ)到txt_class中,得到一個(gè)詞匯表將dataset中的廣告用于split為一個(gè)一個(gè)的單詞,并將長(zhǎng)度小于1的單詞去掉(a)
def create_word_list(con):
reg = re.compile(r'W*')
dataset = []
wordlist = set([])
txt_class = []
for i in con[1:]:
dataset.a(chǎn)ppend(re.split(reg, i)[1:])
wordlist = wordlist | set(re.split(reg, i)[1:])
if re.split(reg, i)[0]=='ham':#有用的郵件
txt_class.a(chǎn)ppend(1)
else:#垃圾郵件
txt_class.a(chǎn)ppend(0)
wordlist=[i for i in wordlist if len(i)>2]
return dataset,wordlist,txt_class
第三步:對(duì)每一個(gè)廣告做循環(huán),通過(guò)函數(shù)words_vec輸入?yún)?shù)為每則廣告的單詞以及詞匯表wordlists,返回一個(gè)文檔向量,向量的每一個(gè)元素為0或1,分別表示詞匯表中的單詞在廣告次中是否出現(xiàn),如果出現(xiàn)該單詞的index則更新為1,否則則為0。
def words_vec(txt,wordlist):
returnvec=[0]*len(wordlist)
for word in txt:
if word in wordlist:
returnvec[list(wordlist).index(word)]=1
return returnvec
經(jīng)過(guò)這三步把單詞文本轉(zhuǎn)化為了數(shù)學(xué)向量,大大簡(jiǎn)化了計(jì)算。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
-
小米汽車研發(fā)中心重磅落地,寶馬家門口“搶人”
最新活動(dòng)更多
-
即日-9.1立即下載>> 【限時(shí)下載】ADI中國(guó)三十周年感恩回饋助力企業(yè)升級(jí)!
-
即日-9.16點(diǎn)擊進(jìn)入 >> 【限時(shí)福利】TE 2025國(guó)際物聯(lián)網(wǎng)展·深圳站
-
10月23日立即報(bào)名>> Works With 開(kāi)發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
推薦專題
- 1 阿里首位程序員,“掃地僧”多隆已離職
- 2 先進(jìn)算力新選擇 | 2025華為算力場(chǎng)景發(fā)布會(huì)暨北京xPN伙伴大會(huì)成功舉辦
- 3 宇樹(shù)機(jī)器人撞人事件的深度剖析:六維力傳感器如何成為人機(jī)安全的關(guān)鍵屏障
- 4 清華跑出具身智能獨(dú)角獸:給機(jī)器人安上眼睛和大腦,融資近20億
- 5 特朗普要求英特爾首位華人 CEO 辭職
- 6 踢館大廠和微軟,剖析WPS靈犀的AI實(shí)用主義
- 7 騰訊 Q2 財(cái)報(bào)亮眼:AI 已成第二增長(zhǎng)曲線
- 8 谷歌吹響AI沖鋒號(hào),AI還有哪些機(jī)會(huì)
- 9 蘋(píng)果把身家押在Siri上:一場(chǎng)輸不起的自我革命
- 10 共探合作新機(jī)遇!江門市新會(huì)區(qū)(深圳)“AI + 機(jī)器人” 產(chǎn)業(yè)對(duì)接會(huì)成功舉辦