基于R-Grams文本相似度計算方法的文本聚類方法
大?。?/span>0.76 MB 人氣:0 2017-12-29 需要積分:1
標簽:聚類(14184)
針對傳統(tǒng)文本聚類中存在著聚類準確率和召回率難以平衡等問題,提出了一種基于R-Grams文本相似度計算方法的文本聚類方法。該方法首先通過將待聚類文檔降序排列,其次采用R-C rams文本相似度算法計算文本之間的相似度并根據(jù)相似度實現(xiàn)各聚類標志文檔的確定并完成初始聚類,最后通過對初始聚類結(jié)果進行聚類合并完成最終聚類。實驗結(jié)果表明:聚類結(jié)果可以通過聚類閾值靈活調(diào)整以適應不同的需求,最佳聚類閾值為15左右。隨著聚類閾值的增大,各聚類準確率增大,召回率呈現(xiàn)先增后降的趨勢。此外,該聚類方法避免了大量的分詞、特征提取等繁瑣處理,實現(xiàn)簡單。
?
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%