RSS订阅 加入收藏  设为首页
澳门威尼斯人官网
当前位置:首页 > 澳门威尼斯人官网

澳门威尼斯人官网:“爬虫”如何抢低价票?借助超链接信息抓取网页

时间:2017-12-27 5:22:32  作者:  来源:  浏览:0  评论:0
内容摘要: “‘爬虫’技术是实现网页信息采集的关键技术之一,通俗来说,‘爬虫’就是一段用来批量、自动化采集网站数据的程序,几乎不需要人工干预。”北京理工大学网络科学与技术研究院副教授闫怀志告诉科技日报记者。闫怀志介绍,“爬虫”又称网页“蜘蛛”、网络机器人,它是一种按照一定规则自动抓取网页信...

  “‘爬虫’技术是实现网页信息采集的关键技术之一,通俗来说,‘爬虫’就是一段用来批量、自动化采集网站数据的程序,几乎不需要人工干预。”北京理工大学网络科学与技术研究院副教授闫怀志告诉科技日报记者。

闫怀志介绍,“爬虫”又称网页“蜘蛛”、网络机器人,它是一种按照一定规则自动抓取网页信息的程序或者脚本,通常驻留在服务器上。在Web网页中,既包含可供用户阅读的文字、图片等信息,还包含一些超链接信息。网络“爬虫”正是借助这些超链接信息来不断抓取网络上的其他网页。

“这种信息采集过程很像一个爬虫或蜘蛛在网络上漫游,网络‘爬虫’或网页‘蜘蛛’因此得名。”闫怀志说,“爬虫”最早应用在搜索引擎领域,比如谷歌、百度、搜狗等搜索引擎工具每天需要抓取互联网上数百亿的网页,它们需要借助庞大的“爬虫”集群来实现搜索功能。

当前,“爬虫”已被广泛用于电子商务、互联网金融等诸多领域。比如,“爬虫”可以抓取航空公司官网的机票价格,发现低价或紧俏机票后,“爬虫”可以利用虚假客源的真实身份信息实现抢先预订。再有,很多互联网浏览器都推出了自己的抢票插件,以高订票成功率来推广浏览器。

根据抓取任务和目标的不同,网络“爬虫”可大致分为批量型、增量型和垂直型。批量型“爬虫”的抓取范围和目标较为明确,可以是网页的设定数量,也可以是消耗时间的设定。增量型“爬虫”主要用于持续抓取更新的网页,以适应网页的不断变化。垂直型“爬虫”主要是用于特定主题内容或特定行业的网页。


相关评论

本类更新

本类推荐

本类排行

本站所有站内信息仅供娱乐参考,不作任何商业用途,不以营利为目的,专注分享快乐,欢迎收藏本站!
所有信息均来自:百度一下 (澳门威尼斯人官网)
浙ICP备10055187号-1