日韩精品极品视频在线观看免费,天天夜碰日日摸日日澡性色AV,精品国产福利在线观看网址,亚洲第一区欧美国产综合

xml文檔檢索結(jié)果的聚類算法.doc

約27頁DOC格式手機打開展開

xml文檔檢索結(jié)果的聚類算法,27頁共計14304字摘要現(xiàn)有的搜索引擎得到的檢索結(jié)果,雖經(jīng)過相關(guān)度排序,仍包含較多與用戶查詢請求不相關(guān)的文檔。為提高檢索效率,需對檢索結(jié)果進行聚類??蓴U展標記語言xml是信息表達和數(shù)據(jù)交換的格式和標準,具有自描述性和可擴展性等特點,近年來廣泛應用于數(shù)據(jù)交換、web服務(wù)、內(nèi)容管理、web集成等領(lǐng)域。本文對web檢索結(jié)果...
編號:45-70819大小:394.50K
分類: 論文>計算機論文

內(nèi)容介紹

此文檔由會員 bfxqt 發(fā)布

27頁共計14304字
摘 要
現(xiàn)有的搜索引擎得到的檢索結(jié)果,雖經(jīng)過相關(guān)度排序,仍包含較多與用戶查詢請求不相關(guān)的文檔。為提高檢索效率,需對檢索結(jié)果進行聚類??蓴U展標記語言XML是信息表達和數(shù)據(jù)交換的格式和標準,具有自描述性和可擴展性等特點,近年來廣泛應用于數(shù)據(jù)交換、Web服務(wù)、內(nèi)容管理、Web集成等領(lǐng)域。
本文對Web檢索結(jié)果聚類和XML文檔聚類的國內(nèi)外研究現(xiàn)狀進行了深入分析,并綜合考慮了XML技術(shù)和文檔聚類等,對結(jié)果文檔(片段)采取了新的建模方法:用標簽路徑和元素特征來表示XML文檔的結(jié)構(gòu)語義、用文本中的關(guān)鍵詞來表示文檔的內(nèi)容信息,用標簽路徑、元素特征和文本內(nèi)容三個向量來表示XML文檔(片段)。同時用傳統(tǒng)的Cosine度量來計算相似度并以最小最大化原則初始化簇,對經(jīng)典k-means算法加以改進。實驗表明,聚類質(zhì)量較好,也有一定的穩(wěn)定性。
目 錄

1 引言 1
1.1 選題的意義 1
1.2 國內(nèi)外研究現(xiàn)狀 1
1.2.1 Web檢索結(jié)果聚類 1
1.2.2 XML文檔聚類 2
1.3 本實驗的目標與論文結(jié)構(gòu)安排 3
2 相關(guān)技術(shù)分析 3
2.1 XML技術(shù) 3
2.1.1 XML的發(fā)展歷史簡介 4
2.1.2 XML的特點 5
2.1.3 XML文檔的數(shù)據(jù)結(jié)構(gòu) 6
2.2 文檔聚類 7
2.2.1 聚類的概念 7
2.2.2 文檔聚類的概念、作用和應用 8
2.2.3 文檔聚類的體系結(jié)構(gòu) 8
2.2.4 文檔相似性矩陣 9
2.2.5 聚類算法 9
2.3 聚類效果的評價標準 12
2.3.1 熵 12
2.3.2 F標準 13
3 設(shè)計思想 13
3.1 XML檢索結(jié)果聚類 14
3.2 XML檢索結(jié)果文檔建模 14
3.3 XML文檔關(guān)鍵詞相關(guān)度的計算方法 15
3.4 相似性度量 15
3.5 聚類算法的偽代碼描述 16
4 開發(fā)實驗 17
4.1 實驗用的數(shù)據(jù)集、實驗環(huán)境 17
4.2 對結(jié)果的評價 18
5 總結(jié)與展望 20

【關(guān)鍵詞】XML;文檔檢索;建模;k-means聚類算法
參考文獻
[1] 王志梅,張俊林,李秋山. Web檢索結(jié)果快速聚類方法的研究與實現(xiàn). 計算機工程與設(shè)計, 2004, 25(12): 2231-2233, 2290
[2] 張健沛, 劉洋, 楊靜, 代坤. 搜索引擎結(jié)果聚類算法研究. 計算機工程, 2004, 30(5): 95-97
[3] 楊海濤. 一個基于搜索結(jié)果的個性化推薦系統(tǒng): [碩士學位論文]. 鄭州: 鄭州大學信息工程學院計算機應用技術(shù)專業(yè), 2006
[4] 閆利國, 賀飛. XML文檔結(jié)構(gòu)相似測度研究. 計算機應用研究, 2006, (3): 44-46
[5] 郝曉麗, 馮志勇. XML結(jié)構(gòu)聚類. 計算機應用, 2005, 25(6): 1398-1400
[6] 梁作鵬, 吳文明, 董逸生. 一種基于結(jié)構(gòu)信息總結(jié)樹的XML文檔聚類方法. 應用科學學報, 2005, 23(1): 71-74
[7] 陸翠明, 李芳. XML文檔相似性的仿真研究. 計算機仿真, 2005, 22(12): 300-302, 310
[8] 張丙奇, 白碩, 趙章界. XML數(shù)據(jù)相似度研究. 計算機工程, 2005, 31(11): 25-27, 126
[博士論文]. 北京: 中國科學院計算技術(shù)研究所, 2004
[9] 梁作鵬, 業(yè)寧, 董逸生. PBC:一種基于路徑的XML文檔聚類方法. 應用科學學報, 2005, 23(4): 399-403
[10] 丁躍潮, 張濤. XML實用教程. 北京: 北京大學出版社,2006
[11] Raymond T.Ng, Jiawei Han. Efficient and effective clustering methods for spatial data mining.Proc. of VLDB Conf, 1994,144-155
[12] Andreas Hotho, Steffen Staab, Gerd Stumme. Ontologies Improve Text Document Clustering. icdm, Third IEEE International Conference on Data Mining (ICDM'03). Melbourne, Florida, 2003. p541