日韩精品极品视频在线观看免费,天天夜碰日日摸日日澡性色AV,精品国产福利在线观看网址,亚洲第一区欧美国产综合

基于lucene的全文搜索引擎設計--畢業(yè)設計.doc

約50頁DOC格式手機打開展開

基于lucene的全文搜索引擎設計--畢業(yè)設計,基于lucene的全文搜索引擎設計--畢業(yè)設計摘 要web搜索引擎技術(shù)是當今網(wǎng)絡信息處理領(lǐng)域的一個熱點和難點。web可以看作是一個龐大的分布式網(wǎng)絡數(shù)據(jù)庫,對于這樣一個信息量飛速增長的數(shù)據(jù)庫,如果人工地去檢索和分類將是一項非常巨大的工程,而搜索引擎技術(shù)則能夠幫助我們更容易地從web中獲取所需信息。本文闡述了一個全文檢索系...
編號:45-155917大小:1.42M
分類: 論文>計算機論文

內(nèi)容介紹

此文檔由會員 bfxqt 發(fā)布

基于Lucene的全文搜索引擎設計--畢業(yè)設計


摘        要

Web搜索引擎技術(shù)是當今網(wǎng)絡信息處理領(lǐng)域的一個熱點和難點。Web可以看作是一個龐大的分布式網(wǎng)絡數(shù)據(jù)庫,對于這樣一個信息量飛速增長的數(shù)據(jù)庫,如果人工地去檢索和分類將是一項非常巨大的工程,而搜索引擎技術(shù)則能夠幫助我們更容易地從Web中獲取所需信息。
本文闡述了一個全文檢索系統(tǒng)的原理及其設計和實現(xiàn)過程。該系統(tǒng)基于B/S模式的JavaWeb平臺架構(gòu)實現(xiàn),使用MySQL作為系統(tǒng)的數(shù)據(jù)庫,并采用Heritrix,Lucene等優(yōu)秀的開源框架實現(xiàn)對某網(wǎng)頁手機產(chǎn)品信息的檢索。系統(tǒng)還利用Struts,Hibernate,Spring等流行的Java開發(fā)框架以及面向接口編程很好地實現(xiàn)了對系統(tǒng)的解耦合。在前端使用具備較強UI表現(xiàn)功能的Extjs作為輔助實現(xiàn)了Ajax應用。
本文首先介紹了課題研究背景,然后對系統(tǒng)涉及到的相關(guān)技術(shù)做了較為詳細的說明,最后根據(jù)軟件工程的開發(fā)方法逐步實現(xiàn)系統(tǒng)的功能。
關(guān)鍵詞:Web  搜索  手機  Lucene  框架  Ajax
目        錄
1 前言 1
1.1 研究目的和意義 1
1.2 課題研究的背景 2
1.3 國內(nèi)外研究概況 2
2 相關(guān)理論知識 3
2.1 Web爬蟲Heritrix介紹 3
2.2 Ajax(Asynchronous JavaScript and XML)技術(shù) 3
2.3 Struts介紹 4
2.4 Hibernate介紹 6
2.5 Spring介紹 7
2.6 分詞技術(shù) 8
3 概要設計 9
3.1 系統(tǒng)模塊圖 9
3.2 網(wǎng)頁爬蟲模塊 9
3.2.1 Heritrix的體系結(jié)構(gòu)圖 10
3.2.2 架構(gòu)分析 10
3.3 網(wǎng)頁分析與提取模塊 11
3.4 索引建立模塊 12
3.5 Web搜索模塊 14
4 詳細設計 15
4.1 Web爬蟲的配置和擴展 15
4.2 網(wǎng)頁的分析與數(shù)據(jù)提取 16
4.3 索引的建立與數(shù)據(jù)庫設計 20
4.3.1 實體對象設計 21
4.3.2 將數(shù)據(jù)文件轉(zhuǎn)化為對象 22
4.3.3 將對象持久化到數(shù)據(jù)庫 23
4.3.4 建立索引 24
4.4 Web系統(tǒng)模塊和搜索模塊設計 26
4.4.1 搜索模塊設計 27
4.4.2 Web系統(tǒng)模塊設計 28
5 用戶手冊以及測試結(jié)果 29
5.1 系統(tǒng)運行準備 29
5.2 使用Heritrix抓取網(wǎng)頁 29
5.3 網(wǎng)頁數(shù)據(jù)提取 34
5.4 建立索引和初始化數(shù)據(jù)庫 35
5.5 搜索 36
6 總結(jié) 39
6.1 系統(tǒng)存在的問題 39
6.2 開發(fā)過程出現(xiàn)的問題 40
6.3 心得體會 40
致    謝 42
參  考  文  獻 43
Abstract 44