WEB数据采集系统

WEB 数据采集系统

一. 概述

面对互联网海量的信息,政府机关、企事业单位和研究机构都迫切希望获取 与自身工作相关的有价值信息,如何方便快捷地获取这些信息就变得至关重要 了。如果采用原始的手工收集方式,费时费力且毫无效率,面对越来越多的信息资源,劳动强度和难度可想而知。因此,现代的政府和企业都迫切需要一种能够 提供高质量和高效运作的信息采集解决方案。

本系统针对不同行业用户的应用需求,以抓取互联网为目的,实现在用户自定义规则下,从互联网中抓取指定信息。抓取的信息可存入数据库或直接入库发送至指定栏目,实现网站信息及时更新和数据量提升,从而使得搜索引擎收录量提升,扩大企业信息宣传推广力度。

二. 典型应用

1. 政府机关

● 实时跟踪、采集与业务工作相关的信息来源。 全面满足内部工作人员对互联网信息的全局观测需求。 及时解决政务外网、政务内网的信息源问题,实现动态发布。 快速解决政府主网站对各地级子网站的信息获取需求。 全面整合信息,实现政府内部跨地区、跨部门的信息资源共享与有效

沟通。

● 节约信息采集的人力、物力、时间,提高办公效率。

2. 企业

● 实时准确地监控、追踪竞争对手动态,是企业获取竞争情报的利器。 及时获取竞争对手的公开信息以便研究同行业的发展与市场需求。 为企业决策部门和管理层提供便捷、多途径的企业战略决策工具。 大幅度地提高企业获取、利用情报的效率,节省情报信息收集、存

储、挖掘的相关费用,是提高企业核心竞争力的关键。

● 提高企业整体分析研究能力、市场快速反应能力,建立起以知识管

理为核心的“竞争情报数据仓库”,是提高企业核心竞争力的神经中枢。

3. 新闻媒体

● 快速准确地自动采集数信息。 支持每天对数万条新闻进行有效抓取。 支持对所需内容的智能提取、审核。 实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。

三. 系统构架

工作过程描述

采集的目的就是把对方网站上网页中的某块文字或者图片等资源下载

到自己的站网上,这个过程需要做如下配置工作:下载网页配置,解析网页配置,修正结果配置,数据输出配置。如果数据符合自己要求,修正结果这步可省略。配置完毕后,把配置形成任务(任务以XML 格式描述) ,采集系统

按照任务的描述开始工作,最终把采集到的结果存储到网站服务器上。

工作流程图如下:

数据处理逻辑图:

四. 系统功能

根据用户事先配置好的规则(网页下载规则,网页解析规则等) ,进行数据采集。 当对方网站数据进行了更新,或者添加新数据时,系统自动会进行检测,并进行采集,然后更新到自己的数据库(或者别的存储方式) ,这个过程不再需要人工干涉。

五. 技术特点

1. 支持多种网页编码格式,也可以人工设置编码格式。支持各国语言的网站。

2. 支持图片,软件,音乐,视频,flash 等多种格式资源的下载。

3. 支持采集结果输出的多样性,可以使用不同输出插件进行输出,也可以自己开发输出插件。

4. 采集配置分为三个部分:网页爬虫配置,网页解析配置,采集任务配置。以上三者可以自由搭配,便于重复利用已设置完毕的配置。

5. 可定制的数据解析和抽取。可以自由配置要采集的网络元数据,并可以对每个网络元数据自定义字段名。便于后续信息处理。

6. 采集爬虫采用多任务、多数据源管理。

7. 每个任务下可以指定多个采集入口网站。

8. 采集条件设置,可以针对不同任务下的入口网站设置采集路径、重点页面、采集网址过滤等控制条件。控制条件采用正则表达式。

9. 运行配置,采集运行过程中使用的爬虫名称、个数、数据更新频度等均可以由用户进行配置。

10. 自动识别文本中的图片信息,并且自动下载到本地,并替换文本中的图片URL 为本地URL 。

11. 管理控制台可以监控采集过程的运行情况。

六. 系统优势

1. 精确度高

用户可以按照自身需要自行选择、设定监测的目标网站和特定信息源,实施24 小时不间断监测和采集,信息动态始终处于掌握之中。系统支持将网页中的

信息内容按日期、标题、作者、栏目进行提取,过滤网页中的无用信息。扩展抓 取采集范围可以精确到特定网站、特定栏目、特定页面、特定区域。

2. 易用性好

系统参数设置简单,一次设置多次使用。设置过程直观、便捷。

3. 灵活性强

系统具有很强的灵活性,可按需选择目标站点,并根据形势的变化,随时更 换目标站点。用户可直接到某一网站抓取用户想要的特定栏目下的信息,它仅仅 要求用户设定特定的抓取条件,用户需要的内容就会自动被抓取和保存下来,从 而实现由用户上网找信息转变为信息自动流向用户的方式。

4. 实施部署容易

系统用户界面友好,抓取服务器在任意浏览器下运行,实施部署过程简单, 即装即用。

5. 采集内容全面

适应网站内容格式的多变性,能完整地获取需要采集的页面,遗漏少,网页 采集内容的完整性在 99% 以上。

6. 抓取速度快

系统支持多线程处理技术,支持运行多条线程的同时抓取。可快速高效地对 目标站点或栏目进行信息采集,大大加快了信息的抓取速度,保证在同等单位时间内信息的抓取量成倍数增长。

七. 系统界面展示

西安网是科技发展有限公司——网站信息采集系统

http://www.wsxa.com

WEB 数据采集系统

一. 概述

面对互联网海量的信息,政府机关、企事业单位和研究机构都迫切希望获取 与自身工作相关的有价值信息,如何方便快捷地获取这些信息就变得至关重要 了。如果采用原始的手工收集方式,费时费力且毫无效率,面对越来越多的信息资源,劳动强度和难度可想而知。因此,现代的政府和企业都迫切需要一种能够 提供高质量和高效运作的信息采集解决方案。

本系统针对不同行业用户的应用需求,以抓取互联网为目的,实现在用户自定义规则下,从互联网中抓取指定信息。抓取的信息可存入数据库或直接入库发送至指定栏目,实现网站信息及时更新和数据量提升,从而使得搜索引擎收录量提升,扩大企业信息宣传推广力度。

二. 典型应用

1. 政府机关

● 实时跟踪、采集与业务工作相关的信息来源。 全面满足内部工作人员对互联网信息的全局观测需求。 及时解决政务外网、政务内网的信息源问题,实现动态发布。 快速解决政府主网站对各地级子网站的信息获取需求。 全面整合信息,实现政府内部跨地区、跨部门的信息资源共享与有效

沟通。

● 节约信息采集的人力、物力、时间,提高办公效率。

2. 企业

● 实时准确地监控、追踪竞争对手动态,是企业获取竞争情报的利器。 及时获取竞争对手的公开信息以便研究同行业的发展与市场需求。 为企业决策部门和管理层提供便捷、多途径的企业战略决策工具。 大幅度地提高企业获取、利用情报的效率,节省情报信息收集、存

储、挖掘的相关费用,是提高企业核心竞争力的关键。

● 提高企业整体分析研究能力、市场快速反应能力,建立起以知识管

理为核心的“竞争情报数据仓库”,是提高企业核心竞争力的神经中枢。

3. 新闻媒体

● 快速准确地自动采集数信息。 支持每天对数万条新闻进行有效抓取。 支持对所需内容的智能提取、审核。 实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。

三. 系统构架

工作过程描述

采集的目的就是把对方网站上网页中的某块文字或者图片等资源下载

到自己的站网上,这个过程需要做如下配置工作:下载网页配置,解析网页配置,修正结果配置,数据输出配置。如果数据符合自己要求,修正结果这步可省略。配置完毕后,把配置形成任务(任务以XML 格式描述) ,采集系统

按照任务的描述开始工作,最终把采集到的结果存储到网站服务器上。

工作流程图如下:

数据处理逻辑图:

四. 系统功能

根据用户事先配置好的规则(网页下载规则,网页解析规则等) ,进行数据采集。 当对方网站数据进行了更新,或者添加新数据时,系统自动会进行检测,并进行采集,然后更新到自己的数据库(或者别的存储方式) ,这个过程不再需要人工干涉。

五. 技术特点

1. 支持多种网页编码格式,也可以人工设置编码格式。支持各国语言的网站。

2. 支持图片,软件,音乐,视频,flash 等多种格式资源的下载。

3. 支持采集结果输出的多样性,可以使用不同输出插件进行输出,也可以自己开发输出插件。

4. 采集配置分为三个部分:网页爬虫配置,网页解析配置,采集任务配置。以上三者可以自由搭配,便于重复利用已设置完毕的配置。

5. 可定制的数据解析和抽取。可以自由配置要采集的网络元数据,并可以对每个网络元数据自定义字段名。便于后续信息处理。

6. 采集爬虫采用多任务、多数据源管理。

7. 每个任务下可以指定多个采集入口网站。

8. 采集条件设置,可以针对不同任务下的入口网站设置采集路径、重点页面、采集网址过滤等控制条件。控制条件采用正则表达式。

9. 运行配置,采集运行过程中使用的爬虫名称、个数、数据更新频度等均可以由用户进行配置。

10. 自动识别文本中的图片信息,并且自动下载到本地,并替换文本中的图片URL 为本地URL 。

11. 管理控制台可以监控采集过程的运行情况。

六. 系统优势

1. 精确度高

用户可以按照自身需要自行选择、设定监测的目标网站和特定信息源,实施24 小时不间断监测和采集,信息动态始终处于掌握之中。系统支持将网页中的

信息内容按日期、标题、作者、栏目进行提取,过滤网页中的无用信息。扩展抓 取采集范围可以精确到特定网站、特定栏目、特定页面、特定区域。

2. 易用性好

系统参数设置简单,一次设置多次使用。设置过程直观、便捷。

3. 灵活性强

系统具有很强的灵活性,可按需选择目标站点,并根据形势的变化,随时更 换目标站点。用户可直接到某一网站抓取用户想要的特定栏目下的信息,它仅仅 要求用户设定特定的抓取条件,用户需要的内容就会自动被抓取和保存下来,从 而实现由用户上网找信息转变为信息自动流向用户的方式。

4. 实施部署容易

系统用户界面友好,抓取服务器在任意浏览器下运行,实施部署过程简单, 即装即用。

5. 采集内容全面

适应网站内容格式的多变性,能完整地获取需要采集的页面,遗漏少,网页 采集内容的完整性在 99% 以上。

6. 抓取速度快

系统支持多线程处理技术,支持运行多条线程的同时抓取。可快速高效地对 目标站点或栏目进行信息采集,大大加快了信息的抓取速度,保证在同等单位时间内信息的抓取量成倍数增长。

七. 系统界面展示

西安网是科技发展有限公司——网站信息采集系统

http://www.wsxa.com


相关内容

  • WEB测试方法
  • 基于Web的系统测试与传统的软件测试既有相同之处,也有不同的地方,对软件测试提出了新的挑战.基于Web的系统测试不但需要检查和验证是否按照设计的要求运行,而且还要评价系统在不同用户的浏览器端的显示是否合适.重要的是,还要从最终用户的角度进行安全性和可用性测试.本文从功能.性能.可用性.客户端兼容性. ...

  • Web应用开发方法研究
  • 鹿旭东  万建成 山东大学计算机科学与技术学院   济南  250061 [摘要]目前,Web系统开发缺乏严格和系统的方法,大多数应用开发和管理实践在很大程度上依赖于开发人员个人的知识和经验,造成的后果是所开发的Web系统大多是低质量的产品.而传统的软件工程方法不能适应Web设计的要求,为此人们研究 ...

  • Web页面间信息传递方法的效果研究
  • 计算机系统应用 2008年第4期 Web页面间信息传递方法的效果研究 Research on theEffectofMethodstoTransferDatabetween Web Pages 杨育标徐炳文(广东岭南职业技术学院广东广州510301) 摘要:在Web应用系统的开发中,页面间的信息传递 ...

  • 毕业范文1
  • 襄樊职业技术学院(毕业)论文 我院计算机专业机房维护方案设计与实现 专业班级:计算机网络技术0701 学 生: 学 号: 指导教师: 教学单位:电子信息工程学院 毕 业 届: 2010届 2010年6月1日 襄樊职业技术学院 电子信息工程学院 毕 业 设 计(论 文)课 题 任 务 书 一. 毕业设 ...

  • 基于BS模式的海尔产品管理系统
  • 海尔产品管理系统 前 言 本文设计的海尔产品管理系统主要是用来解决海尔产品企业中的产品的采购管理.销售管理.库存管理和其它相关业务的应用系统.在该销售管理系统中,客户.供应商等企业外部人员通过B/S模式结构来实现分销通过互联网(Internet )对公司数据库中数据的访问.使用等操作:同时在企业内部 ...

  • Java软件开发工程师课程大纲及课程内容
  • 1.1 Java软件开发工程师课程大纲及课程内容 1.1.1 Java2语言核心技术 1.课程简介 Java以其独有的开放性.跨平台性和面向网络的交互性席卷全球,以其安全性.易用性和开发周期短的特点,迅速从最初的编程语言发展成为全球第二大软件开发平台.本课程是Java及J2EE 企业开发技术的入门课 ...

  • [电子商务]课程设计论文
  • <电子商务>课程设计论文 宠物之家 班 级:06计算机信息管理 姓 名:李姿楠 指导教师:张欣 2 009年01月 摘 要 本网站利用Internet网络电子商务新技术,采用Microsoft ASP.Net/sql网络数据库解决方案,实现了基于B/S模式的电子商务管理.凭借web服务器 ...

  • 健身中心管理系统说明书
  • 摘要:随着计算机技术的不断发展,许多企事业单位的管理都实现了办公自动化,这种 自动化管理方式不仅管理简单,而且效率非常高.健身房实行会员制已经非常流行,但是由于客户需要亲自到健身房所在地或制定地点进行注册,因此阻碍了健身房的发展.而网络会员注册系统通过互联网突破了时间和空间的限制,实现了便捷快速的注 ...

  • 网站安全解决方案模板
  • XXX网站 安全解决方案 杭州安恒信息技术有限公司 2013年4月 目 录 1 概述 ........................................................................................................... ...

  • 美容管理系统的设计毕业论文
  • 美容管理系统的设计毕业论文 目 录 目 录 ................................................................................................................................ ...