畢業論文

打賞
當前位置: 畢業論文 > 計算機論文 >

網絡爬蟲的設計與實現+文獻綜述

時間:2017-04-19 22:12來源:畢業論文
論文從網絡爬蟲的應用出發,探討了網絡爬蟲在搜索引擎中的作用和地位,提出了網絡爬蟲的功能和設計要求。在對網絡爬蟲系統結構和工作原理所作分析的基礎上

摘要:隨著互聯網的高速發展,在互聯網搜索服務中,搜索引擎扮演著越來越重要的角色。網絡爬蟲是搜索引擎系統中不可或缺的組成部分,是一種自動搜集互聯網信息的程序,它負責從互聯網中搜集網頁,并將這些頁面用于建立索引從而為搜索引擎提供支持。通過網絡爬蟲不僅能夠為搜索引擎采集網絡信息,而且可以作為定向信息采集器,定向采集某些網站顯示的特定信息,如招聘信息,租房信息等。本文通過JAVA實現了一個基于廣度優先算法的爬蟲程序。本論文從網絡爬蟲的應用出發,探討了網絡爬蟲在搜索引擎中的作用和地位,提出了網絡爬蟲的功能和設計要求。在對網絡爬蟲系統結構和工作原理所作分析的基礎上,研究了頁面爬取、解析等策略和算法,并使用Java實現了一個網絡爬蟲的程序,并對其運行結果做了分析。通過這一爬蟲程序,可以搜集某一站點或多個站點的URL。連接外網后,可以爬取中國大部分大型主流門戶的網站,如:百度,新浪,網易等。7384
關鍵詞:搜索引擎;JAVA;廣度優先.
The Design and Implementation of
Distributed Web Crawler
Abstract: With the rapid development of Internet, search engines as the main entrance of the Internet plays a more and more important role. Web crawler is a very important part of the search engines, a program which can auto collect information form Internet,which is responsible to collect web pages from Internet. These pages are used to build index and provide support for search engines.  Spider can collect data for search engines ,also can be a directional information collector,collects specifically informations from some web sites,such as HR informations,house rent informations.In this paper,use JAVA implements a breadth-first algorithm Spider. The paper,discussing from the application of the search engine,searches the importance and function of Web Crawler in the search engine,and puts forward its demand of function and design.On the base of analyzing Web Crawler’s system strtucture and working elements,this paper also researches the method and strategy of multithreading scheduler,Web page crawling and HTML parsing.And then,a program of web page crawling based on Java is applied and analyzed.Through the crawler can collect a site or multiple site URL.Links outside the network,you can crawl most of China’s major large-scale portal sites,such as:Baidu , Sina , Netease.

源`自*六)維[論*文'網www.mmeqir.tw


 Keywords:Search Engine;JAVA;Breadth First Search
 
目錄
目錄    iii
1 緒論    1
1.1 課題開發背景    1
1.2 網絡爬蟲研究現狀    3
1.3 網絡爬蟲的工作原理    4
1.4 論文的組織結構    4
2 系統開發工具和平臺及相關技術介紹    5
2.1 程序開發工具    5
2.1.1 JDK    5
2.1.2 MYECLIPSE    5
2.1.3 TOMCAT    6
2.1.4 SERVLET原理及特點    7
2.2 解析HTML    8
2.3 網絡爬蟲常用搜索策略    8
2.3.1 寬度或深度優先搜索策略      8
2.3.2 寬度優先搜索算法    9
2.3.3 深度優先搜索    9
2.3.4 聚焦搜索策略    9
2.3.5 基于鏈接結構評價的搜索策略      10
3 系統分析    12
3.1 系統可行性分析    12
3.1.1 系統上的可行性    12
3.1.2 經濟上的可行性    12
3.1.3 管理上的可行性    12
3.2 需求分析    12
3.2.1 用戶需求     13
3.2.2 性能需求     13 網絡爬蟲的設計與實現+文獻綜述:http://www.mmeqir.tw/jisuanjilunwen/20170419/5324.html
------分隔線----------------------------
推薦內容
体彩22选5