日韩精品极品视频在线观看免费,天天夜碰日日摸日日澡性色AV,精品国产福利在线观看网址,亚洲第一区欧美国产综合

頻道

熱門頻道

用戶中心

豆知微信公眾號(hào)

微信二維碼

社會(huì)實(shí)踐報(bào)告范文大全

上傳

基于k-means的文本聚類算法的實(shí)現(xiàn).doc

約33頁DOC格式手機(jī)打開展開

基于k-means的文本聚類算法的實(shí)現(xiàn),基于k-means的文本聚類算法的實(shí)現(xiàn)realization of text clustering algorithm based on k-means1.78萬字33頁原創(chuàng)作品，已通過查重系統(tǒng)摘要文本蘊(yùn)含了大量有價(jià)值的信息，開發(fā)價(jià)值很高，它作為信息的載體，有必要采取一種手段來挖掘數(shù)據(jù)，這樣能方便、快捷地從文本中提取...
編號(hào):99-591628大小:994.00K
分類: 論文>計(jì)算機(jī)論文

內(nèi)容介紹

此文檔由會(huì)員馬甲線女神發(fā)布

基于K-Means的文本聚類算法的實(shí)現(xiàn)
Realization of Text Clustering Algorithm based on K-Means

1.78萬字 33頁原創(chuàng)作品，已通過查重系統(tǒng)

摘要文本蘊(yùn)含了大量有價(jià)值的信息，開發(fā)價(jià)值很高，它作為信息的載體，有必要采取一種手段來挖掘數(shù)據(jù)，這樣能方便、快捷地從文本中提取用戶想要的東西，文本聚類作為處理和組織大量文本數(shù)據(jù)的關(guān)鍵技術(shù)，能夠在很大程度上解決信息爆炸和信息雜亂所帶來的問題，文本聚類依據(jù)著名的聚類假設(shè)，同類文檔的相似度較大，而不同類文檔的相似度較小。文本聚類的目標(biāo)是將文本集合分成多個(gè)簇，使得在同一個(gè)簇中的文本內(nèi)容具有較高的相似度，而不同簇中的文本內(nèi)容差別較大。
論文的語料庫來源于搜狗語料庫，用搜狗語料庫文本來驗(yàn)證文本聚類效果。論文采用MManlyzer中文分詞器分詞，分詞以后對詞語進(jìn)行標(biāo)記，參照停用詞表將停用詞去除，計(jì)算詞語的tf 、idf、tf*idf值，將文本轉(zhuǎn)化為數(shù)據(jù)形式，建立向量數(shù)據(jù)模型。論文用向量余弦值來計(jì)算文本之間的相似度，用K-Means算法實(shí)現(xiàn)文本聚類，不斷對數(shù)據(jù)進(jìn)行迭代，達(dá)到收斂要求時(shí)，終止迭代過程，從而達(dá)到文本聚類的效果，最后輸出聚類結(jié)果。系統(tǒng)實(shí)現(xiàn)由系統(tǒng)分析、目標(biāo)設(shè)計(jì)、預(yù)處理模塊、構(gòu)造向量模塊、K-Means文本聚類模塊組成。具體過程包括文本預(yù)處理、計(jì)算tf*idf權(quán)重值、文本向量表示和K-Means聚類算法等幾個(gè)方面。

關(guān)鍵詞：文本聚類聚類算法 K-Means算法

TA們正在看...

相關(guān)文檔

幫助中心
呼吸機(jī)
幫助中心

官方微信

支付寶紅包

豆知網(wǎng) 教育科研學(xué)術(shù)文檔分享平臺(tái)

可信/實(shí)名雙認(rèn)證網(wǎng)站川公網(wǎng)安備 51010502011102號(hào)

豆知 . 豆知文庫版權(quán)所有 - 2008-2025 蜀ICP備2023009049號(hào)-1