基于k-means的文本聚類算法的實(shí)現(xiàn).doc


約33頁DOC格式手機(jī)打開展開
基于k-means的文本聚類算法的實(shí)現(xiàn),基于k-means的文本聚類算法的實(shí)現(xiàn)realization of text clustering algorithm based on k-means1.78萬字33頁原創(chuàng)作品,已通過查重系統(tǒng)摘要 文本蘊(yùn)含了大量有價(jià)值的信息,開發(fā)價(jià)值很高,它作為信息的載體,有必要采取一種手段來挖掘數(shù)據(jù),這樣能方便、快捷地從文本中提取...


內(nèi)容介紹
此文檔由會(huì)員 馬甲線女神 發(fā)布
基于K-Means的文本聚類算法的實(shí)現(xiàn)
Realization of Text Clustering Algorithm based on K-Means
1.78萬字 33頁 原創(chuàng)作品,已通過查重系統(tǒng)
摘要 文本蘊(yùn)含了大量有價(jià)值的信息,開發(fā)價(jià)值很高,它作為信息的載體,有必要采取一種手段來挖掘數(shù)據(jù),這樣能方便、快捷地從文本中提取用戶想要的東西,文本聚類作為處理和組織大量文本數(shù)據(jù)的關(guān)鍵技術(shù),能夠在很大程度上解決信息爆炸和信息雜亂所帶來的問題,文本聚類依據(jù)著名的聚類假設(shè),同類文檔的相似度較大,而不同類文檔的相似度較小。文本聚類的目標(biāo)是將文本集合分成多個(gè)簇,使得在同一個(gè)簇中的文本內(nèi)容具有較高的相似度,而不同簇中的文本內(nèi)容差別較大。
論文的語料庫來源于搜狗語料庫,用搜狗語料庫文本來驗(yàn)證文本聚類效果。論文采用MManlyzer中文分詞器分詞,分詞以后對詞語進(jìn)行標(biāo)記,參照停用詞表將停用詞去除,計(jì)算詞語的tf 、idf、tf*idf值,將文本轉(zhuǎn)化為數(shù)據(jù)形式,建立向量數(shù)據(jù)模型。論文用向量余弦值來計(jì)算文本之間的相似度,用K-Means算法實(shí)現(xiàn)文本聚類,不斷對數(shù)據(jù)進(jìn)行迭代,達(dá)到收斂要求時(shí),終止迭代過程,從而達(dá)到文本聚類的效果,最后輸出聚類結(jié)果。系統(tǒng)實(shí)現(xiàn)由系統(tǒng)分析、目標(biāo)設(shè)計(jì)、預(yù)處理模塊、構(gòu)造向量模塊、K-Means文本聚類模塊組成。具體過程包括文本預(yù)處理、計(jì)算tf*idf權(quán)重值、文本向量表示和K-Means聚類算法等幾個(gè)方面。
關(guān)鍵詞: 文本聚類 聚類算法 K-Means算法
Realization of Text Clustering Algorithm ba
1.78萬字 33頁 原創(chuàng)作品,已通過查重系統(tǒng)
摘要 文本蘊(yùn)含了大量有價(jià)值的信息,開發(fā)價(jià)值很高,它作為信息的載體,有必要采取一種手段來挖掘數(shù)據(jù),這樣能方便、快捷地從文本中提取用戶想要的東西,文本聚類作為處理和組織大量文本數(shù)據(jù)的關(guān)鍵技術(shù),能夠在很大程度上解決信息爆炸和信息雜亂所帶來的問題,文本聚類依據(jù)著名的聚類假設(shè),同類文檔的相似度較大,而不同類文檔的相似度較小。文本聚類的目標(biāo)是將文本集合分成多個(gè)簇,使得在同一個(gè)簇中的文本內(nèi)容具有較高的相似度,而不同簇中的文本內(nèi)容差別較大。
論文的語料庫來源于搜狗語料庫,用搜狗語料庫文本來驗(yàn)證文本聚類效果。論文采用MManlyzer中文分詞器分詞,分詞以后對詞語進(jìn)行標(biāo)記,參照停用詞表將停用詞去除,計(jì)算詞語的tf 、idf、tf*idf值,將文本轉(zhuǎn)化為數(shù)據(jù)形式,建立向量數(shù)據(jù)模型。論文用向量余弦值來計(jì)算文本之間的相似度,用K-Means算法實(shí)現(xiàn)文本聚類,不斷對數(shù)據(jù)進(jìn)行迭代,達(dá)到收斂要求時(shí),終止迭代過程,從而達(dá)到文本聚類的效果,最后輸出聚類結(jié)果。系統(tǒng)實(shí)現(xiàn)由系統(tǒng)分析、目標(biāo)設(shè)計(jì)、預(yù)處理模塊、構(gòu)造向量模塊、K-Means文本聚類模塊組成。具體過程包括文本預(yù)處理、計(jì)算tf*idf權(quán)重值、文本向量表示和K-Means聚類算法等幾個(gè)方面。
關(guān)鍵詞: 文本聚類 聚類算法 K-Means算法
TA們正在看...
- db31-160-2005盒飯衛(wèi)生和營養(yǎng)要求.doc
- db31-359-2006足浴服務(wù)衛(wèi)生要求.doc
- db31405-2012上海市集中空調(diào)通風(fēng)系統(tǒng)衛(wèi)生管理規(guī)范.doc
- db33t1009-2001圓林綠化技術(shù)規(guī)程.doc
- db331055-2008環(huán)境照明工程技術(shù)規(guī)范.doc
- db33217.1-2007桑蠶種第1部分桑蠶種質(zhì)量.doc
- db33250.1-2006無公害臍橙第1部分苗木.doc
- db33250.4-2006無公害臍橙第4部分質(zhì)量安全要求.doc
- db33257.3-2005徑山茶第3部分質(zhì)量安全要求.doc
- db33261.4-2005筍竹兩用毛竹林第4部分筍質(zhì)量安全要...doc