如何用簡(jiǎn)單易懂的語(yǔ)言描述樸素貝葉斯分類(lèi)器?

韓平 8年前 (2018-01-30)

簡(jiǎn)單來(lái)說(shuō),它是基于出現(xiàn)概率進(jìn)行粗略的分類(lèi)

初次接觸到這個(gè)概念是在大學(xué)選修數(shù)據(jù)挖掘的時(shí)候,貝葉斯分類(lèi)基于貝葉斯定理,屬于分類(lèi)中的基本概念。

簡(jiǎn)單來(lái)說(shuō),它是基于出現(xiàn)概率進(jìn)行粗略的分類(lèi),比說(shuō),要將若干電影分類(lèi),一個(gè)電影出現(xiàn)親吻的鏡頭以及一男一女單獨(dú)的鏡頭概率大,就將此分為愛(ài)情片,如果打斗場(chǎng)面出現(xiàn)的概率大就將電影分為動(dòng)作片。聽(tīng)上去不太“靠譜”,但是分類(lèi)算法的比較研究發(fā)現(xiàn),樸素貝葉斯分類(lèi)法可以與決策樹(shù)和經(jīng)過(guò)挑選的神經(jīng)網(wǎng)絡(luò)媲美。用于大型數(shù)據(jù)庫(kù),貝葉斯分類(lèi)法也已表現(xiàn)出高準(zhǔn)確率和高速度。

樸素貝葉斯分類(lèi)法假定一個(gè)屬性值在給定類(lèi)上的影響?yīng)毩⒂谄渌麑傩缘闹?。這一假定稱(chēng)為類(lèi)條件獨(dú)立性。做此假定是為了簡(jiǎn)化計(jì)算,并在此意義下稱(chēng)為“樸素的”。

工作流程:

第一階段——準(zhǔn)備工作階段,這個(gè)階段的任務(wù)是為樸素貝葉斯分類(lèi)做必要的準(zhǔn)備,主要工作是根據(jù)具體情況確定特征屬性,并對(duì)每個(gè)特征屬性進(jìn)行適當(dāng)劃分,然后由人工對(duì)一部分待分類(lèi)項(xiàng)進(jìn)行分類(lèi),形成訓(xùn)練樣本集合。這一階段的輸入是所有待分類(lèi)數(shù)據(jù),輸出是特征屬性和訓(xùn)練樣本。這一階段是整個(gè)樸素貝葉斯分類(lèi)中唯一需要人工完成的階段,其質(zhì)量對(duì)整個(gè)過(guò)程將有重要影響,分類(lèi)器的質(zhì)量很大程度上由特征屬性、特征屬性劃分及訓(xùn)練樣本質(zhì)量決定。

第二階段——分類(lèi)器訓(xùn)練階段,這個(gè)階段的任務(wù)就是生成分類(lèi)器,主要工作是計(jì)算每個(gè)類(lèi)別在訓(xùn)練樣本中的出現(xiàn)頻率及每個(gè)特征屬性劃分對(duì)每個(gè)類(lèi)別的條件概率估計(jì),并將結(jié)果記錄。其輸入是特征屬性和訓(xùn)練樣本,輸出是分類(lèi)器。這一階段是機(jī)械性階段,根據(jù)前面討論的公式可以由程序自動(dòng)計(jì)算完成。

第三階段——應(yīng)用階段。這個(gè)階段的任務(wù)是使用分類(lèi)器對(duì)待分類(lèi)項(xiàng)進(jìn)行分類(lèi),其輸入是分類(lèi)器和待分類(lèi)項(xiàng),輸出是待分類(lèi)項(xiàng)與類(lèi)別的映射關(guān)系。這一階段也是機(jī)械性階段,由程序完成。

最后,記得關(guān)注微信公眾號(hào):鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(zhǎng)按識(shí)別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新

分享到