信息资源整合平台_爬虫

信息资源整合平台

二期开发应用解决方案

V3.0

拟 制 人______________________

审 核 人______________________

文档修改记录

1 概述

为了解决一期资源信息整合平台爬虫爬取资源准确,对在线视频资源爬取及对资源信息搜索引擎整改等问题,提出二次开发需求,满足对资源信息准确及快速。

为满足需求对如下栏目进行调整:

● 网站管理

● 爬取资源规则

● 资源分类规则

● 搜索配置管理

● 搜索引擎

● 文件类型管理

● 资源搜索服务(爬虫)

● 资源订阅管理

2 功能模块

2.1 网站管理

为了解决爬虫对FTP 站点的爬取资源问题,系统对FTP 站点管理及维护。

2.1.1 FTP 站点类型

???

2.1.2 FTP 站点管理

FTP 站点信息管理面向管理员提供全系统范围内站点资源的管理与维护功能。站点包括以下基本信息:

● FTP 站点名称

● FTP 站点类型

● 站点属性

● 是否搜索(未开启搜索选项的,爬虫程序在资源搜索时将忽略该站点)

● 站点地址(Web 站点为URL 、FTP 站点为IP 地址)

● 站点端口

● 站点账号

● 账号密码

● 站点说明

FTP 站点信息管理模块具体包括以下功能点:

● 新增FTP 站点

● 修改FTP 站点

● 删除FTP 站点

● 查询FTP 站点(按照站点名称、属性、类型进行条件查询)

2.1.3 FTP 资源管理

FTP 资源信息管理面向管理员提供全系统范围内资源的管理与维护功能。资源包括以下基本信息:

● 资源名称(文件名,含文件类型)

● 资源类型

● 原始地址

● 获取时间

● 资源大小

● 资源说明

● 资源路径

资源信息管理模块具体包括以下功能点:

● 查询资源(按照资源名称、类型、站点及来源进行条件查询) ● 上传资源

● 修改资源信息

● 删除资源

● 下载资源

2.2 模块自定义显示管理

为了便于在系统首页灵活切换模块显示,系统实现如下管理:

2.2.1 资源类别管理

资源类别管理和维护,通过资源类别实现对首页页面栏目模块展示控制。主要功能:

● 添加资源类别

● 删除资源类别

● 修改资源类别

● 修改资源排列

● 资源查看

资源类别主要显示信息:

● 资源类别父级

● 资源名称

● 资源是否在首页显示

2.2.2 首页

主要显示最高层资源类别(也包括最高层下子类别)下最新资源,按照文件类型显示最新资源,显示类别是通过后台的资源类别管理来控制。主要功能:

● 展示栏目模块

● 展示资源下载排行

● 展示文件类型模块

● 查询资源

主要显示内容:

● 资源名称

● 获取资源时间

● 资源分类

● 资源文件类型

2.3 搜索引擎

不清楚

2.4 资源搜索服务(爬虫)

为提高资源搜索服务的速度及准确进行如下调整:

2.4.1 资源信息乱码

为了解决爬虫爬取页面资源信息时不能识别编码、错误识别编码等问题,系统添加自动识别编码,从而提高资源准确性。

2.4.2 资源文件重复

为了解决下载链接有随机码而资源却是同一个资源文件的问题,系统添加了文件MD5码识别,每次爬虫爬取资源文件时对文件MD5码进行匹配,从而减少对同一资源文件多次下载的现象。

2.4.3 爬取网站二级域名识别

爬虫对爬取网站不能识别二级域名,减少了对网站爬取范围。为了解决此类问题,网站添加了对网站二级域名的管理和维护,但二级域名繁多并且工作量大,系统添加自动识别二级域名识别,减少对网站维护管理。

2.4.4 对FTP 站点的爬取

管理员通过FTP 站点管理对FTP 站点的地址、用户名、密码及端口的定义,实现对FTP 站点的资源进行爬取。

2.4.5 对Web 站点穿插FTP 站点的资源链接爬取

爬虫程序分为WEB 站点和FTP 站点,但实际中WEB 站点中穿插着FTP 链接的资源,为了满足爬取WEB 站点时也能下载FTP 站点资源信息的需求。爬虫爬取WEB 站点能切换到FTP 站点的资源爬取。

2.4.6 获取资源信息不下载资源文件

爬取资源时存在大量视频资源文件,资源文件大及下载耗时,影响爬虫性能同时占用大量空间。为了解决此内问题,爬虫根据定义的站点是否需要爬取资源文件内容,来判断文件是否下载。

2.4.7 对在线视频资源的识别

爬虫主要识别A 标签中Href 链接资源并不能识别特别标签。为了解决此类问题系统爬虫通过搜索配置信息进行解析。从而实现对在线资源的链接识别。

2.4.8 对JS 资源的识别

爬虫不能识别JS 命令,为了解决该问题,虫爬系统通过搜索配置添加JS 命令及Js 参数名称,实现查找资源链接,解决对JS 资源识

别。

2.5 搜索配置管理

搜索配置管理面向管理员用户,管理员可以针对爬取的网站配置在线视频参数、JS 命令参数。该信息提供给爬虫,解决爬虫对在线视频资源的爬取和JS 资源爬取问题。

主要功能有:

● 添加搜索配置

● 删除搜索配置

● 修改搜索配置

● 查看搜索配置

每一条搜索配置主要显示内容:

● 站点名称

● 站点地址

● 在线视频链接参数

● JS 命令

● JS 参数1(参数2,参数3…)

2.6 爬取资源规则

为了提高爬取资源精准性,减少爬虫对垃圾资源文件处理,减少垃圾数据,提高爬虫效率和系统运行稳定性。爬取资源规则面向管理员用户,管理员可以设定一系列需要资源规则,通过定义规则来判断

是否需要下载该资源文件。爬取资源规则主要功能:

● 添加资源规则

● 删除资源规则

● 修改资源规则

● 查看爬取资源规则

主要显示信息内容:

● 规则名称

● 站点

● 资源文件时间段(开始时间-结束时间)

● 文件类型

● 关键字

2.7 资源分类规则

资源分类规则管理面向管理员用户,管理员可以设定一系列分类规则,由爬虫搜索获取的资源将按照这些规则自动进行归类。资源分类规则包括以下功能点:

● 新增资源分类规则

● 修改资源分类规则

● 删除资源分类规则

● 启用资源分类规则

● 停用资源分类规则

● 查看资源分类规则

每一条资源分类规则包括以下内容:

● 规则名称

● 关键字(与资源名称匹配,可以填写多个关键字使用“,”连接)

● 文件类型(与资源文件类型匹配,可以选择多种文件类型) ● 优先级(1-5级,当一个资源可以匹配多条规则时,按照优先级最高的最新一条规则进行归类处理)

● 资源归类(从资源类型中选取,制定具体一种类别)

2.8 文件类型管理

为了解决客户对爬取具体的资源文件类型及订阅具体资源文件类型的需求,提高爬虫性能,添加文件类型管理模块,文件类型管理面向管理员用户,管理员可以设定文件类型,该文件类型提供爬虫系统需要处理文件类型。主要功能:

● 添加文件类型

● 修改文件类型

● 删除文件类型

● 查看文件类型

● 修改文件类型排列顺序

文件类型显示信息:

● 文件类型名称(视频、文档、演示文档、压缩文件、电子表格、其它)

● 文件扩展名(doc 、txt 、pdf 、xls …)

2.9 资源查询及详细内容页面

为了区分资源是链接和还是具体资源文件,系统提供资源的原始地址及下载。

2.9.1 资源查询列表

资源查询面向所有用户,用户通过关键字、资源类别及文件类型查找需要资源。主要功能:

● 查询资源

● 下载资源

● 查看资源原始地址

列表显示内容:

● 资源名称

● 资源类别

● 文件类型

● 文件大小

● 获取时间

● 资源来源

● 资源备注

● 下载

● 资源原始地址

2.9.2 资源详细内容

查看具体资源信息,显示资源相关资源,同时提供下载地址及查看原始页面地址。具体功能:

● 查询资源

● 下载资源

● 查看资源原始地址

资源具体显示内容:

● 资源名称

● 资源类别

● 文件类型

● 文件大小

● 获取时间

● 资源来源

● 资源备注

● 下载

● 资源原始地址

2.10 资源订阅管理

一条订阅可以匹配对多个关键字订阅及多个文件类型,解决多次添加订阅信息问题,订阅信息的具体内容包括:

● 资源类型

● 关键字(可以填写多个关键字,使用“, ”连接) ● 文件类型(可以选择多个文件类型)

信息订阅管理主要包括以下功能点:

● 新增订阅

● 订阅查看

● 修改订阅

● 删除订阅

● 订阅失效

● 订阅生效

信息资源整合平台

二期开发应用解决方案

V3.0

拟 制 人______________________

审 核 人______________________

文档修改记录

1 概述

为了解决一期资源信息整合平台爬虫爬取资源准确,对在线视频资源爬取及对资源信息搜索引擎整改等问题,提出二次开发需求,满足对资源信息准确及快速。

为满足需求对如下栏目进行调整:

● 网站管理

● 爬取资源规则

● 资源分类规则

● 搜索配置管理

● 搜索引擎

● 文件类型管理

● 资源搜索服务(爬虫)

● 资源订阅管理

2 功能模块

2.1 网站管理

为了解决爬虫对FTP 站点的爬取资源问题,系统对FTP 站点管理及维护。

2.1.1 FTP 站点类型

???

2.1.2 FTP 站点管理

FTP 站点信息管理面向管理员提供全系统范围内站点资源的管理与维护功能。站点包括以下基本信息:

● FTP 站点名称

● FTP 站点类型

● 站点属性

● 是否搜索(未开启搜索选项的,爬虫程序在资源搜索时将忽略该站点)

● 站点地址(Web 站点为URL 、FTP 站点为IP 地址)

● 站点端口

● 站点账号

● 账号密码

● 站点说明

FTP 站点信息管理模块具体包括以下功能点:

● 新增FTP 站点

● 修改FTP 站点

● 删除FTP 站点

● 查询FTP 站点(按照站点名称、属性、类型进行条件查询)

2.1.3 FTP 资源管理

FTP 资源信息管理面向管理员提供全系统范围内资源的管理与维护功能。资源包括以下基本信息:

● 资源名称(文件名,含文件类型)

● 资源类型

● 原始地址

● 获取时间

● 资源大小

● 资源说明

● 资源路径

资源信息管理模块具体包括以下功能点:

● 查询资源(按照资源名称、类型、站点及来源进行条件查询) ● 上传资源

● 修改资源信息

● 删除资源

● 下载资源

2.2 模块自定义显示管理

为了便于在系统首页灵活切换模块显示,系统实现如下管理:

2.2.1 资源类别管理

资源类别管理和维护,通过资源类别实现对首页页面栏目模块展示控制。主要功能:

● 添加资源类别

● 删除资源类别

● 修改资源类别

● 修改资源排列

● 资源查看

资源类别主要显示信息:

● 资源类别父级

● 资源名称

● 资源是否在首页显示

2.2.2 首页

主要显示最高层资源类别(也包括最高层下子类别)下最新资源,按照文件类型显示最新资源,显示类别是通过后台的资源类别管理来控制。主要功能:

● 展示栏目模块

● 展示资源下载排行

● 展示文件类型模块

● 查询资源

主要显示内容:

● 资源名称

● 获取资源时间

● 资源分类

● 资源文件类型

2.3 搜索引擎

不清楚

2.4 资源搜索服务(爬虫)

为提高资源搜索服务的速度及准确进行如下调整:

2.4.1 资源信息乱码

为了解决爬虫爬取页面资源信息时不能识别编码、错误识别编码等问题,系统添加自动识别编码,从而提高资源准确性。

2.4.2 资源文件重复

为了解决下载链接有随机码而资源却是同一个资源文件的问题,系统添加了文件MD5码识别,每次爬虫爬取资源文件时对文件MD5码进行匹配,从而减少对同一资源文件多次下载的现象。

2.4.3 爬取网站二级域名识别

爬虫对爬取网站不能识别二级域名,减少了对网站爬取范围。为了解决此类问题,网站添加了对网站二级域名的管理和维护,但二级域名繁多并且工作量大,系统添加自动识别二级域名识别,减少对网站维护管理。

2.4.4 对FTP 站点的爬取

管理员通过FTP 站点管理对FTP 站点的地址、用户名、密码及端口的定义,实现对FTP 站点的资源进行爬取。

2.4.5 对Web 站点穿插FTP 站点的资源链接爬取

爬虫程序分为WEB 站点和FTP 站点,但实际中WEB 站点中穿插着FTP 链接的资源,为了满足爬取WEB 站点时也能下载FTP 站点资源信息的需求。爬虫爬取WEB 站点能切换到FTP 站点的资源爬取。

2.4.6 获取资源信息不下载资源文件

爬取资源时存在大量视频资源文件,资源文件大及下载耗时,影响爬虫性能同时占用大量空间。为了解决此内问题,爬虫根据定义的站点是否需要爬取资源文件内容,来判断文件是否下载。

2.4.7 对在线视频资源的识别

爬虫主要识别A 标签中Href 链接资源并不能识别特别标签。为了解决此类问题系统爬虫通过搜索配置信息进行解析。从而实现对在线资源的链接识别。

2.4.8 对JS 资源的识别

爬虫不能识别JS 命令,为了解决该问题,虫爬系统通过搜索配置添加JS 命令及Js 参数名称,实现查找资源链接,解决对JS 资源识

别。

2.5 搜索配置管理

搜索配置管理面向管理员用户,管理员可以针对爬取的网站配置在线视频参数、JS 命令参数。该信息提供给爬虫,解决爬虫对在线视频资源的爬取和JS 资源爬取问题。

主要功能有:

● 添加搜索配置

● 删除搜索配置

● 修改搜索配置

● 查看搜索配置

每一条搜索配置主要显示内容:

● 站点名称

● 站点地址

● 在线视频链接参数

● JS 命令

● JS 参数1(参数2,参数3…)

2.6 爬取资源规则

为了提高爬取资源精准性,减少爬虫对垃圾资源文件处理,减少垃圾数据,提高爬虫效率和系统运行稳定性。爬取资源规则面向管理员用户,管理员可以设定一系列需要资源规则,通过定义规则来判断

是否需要下载该资源文件。爬取资源规则主要功能:

● 添加资源规则

● 删除资源规则

● 修改资源规则

● 查看爬取资源规则

主要显示信息内容:

● 规则名称

● 站点

● 资源文件时间段(开始时间-结束时间)

● 文件类型

● 关键字

2.7 资源分类规则

资源分类规则管理面向管理员用户,管理员可以设定一系列分类规则,由爬虫搜索获取的资源将按照这些规则自动进行归类。资源分类规则包括以下功能点:

● 新增资源分类规则

● 修改资源分类规则

● 删除资源分类规则

● 启用资源分类规则

● 停用资源分类规则

● 查看资源分类规则

每一条资源分类规则包括以下内容:

● 规则名称

● 关键字(与资源名称匹配,可以填写多个关键字使用“,”连接)

● 文件类型(与资源文件类型匹配,可以选择多种文件类型) ● 优先级(1-5级,当一个资源可以匹配多条规则时,按照优先级最高的最新一条规则进行归类处理)

● 资源归类(从资源类型中选取,制定具体一种类别)

2.8 文件类型管理

为了解决客户对爬取具体的资源文件类型及订阅具体资源文件类型的需求,提高爬虫性能,添加文件类型管理模块,文件类型管理面向管理员用户,管理员可以设定文件类型,该文件类型提供爬虫系统需要处理文件类型。主要功能:

● 添加文件类型

● 修改文件类型

● 删除文件类型

● 查看文件类型

● 修改文件类型排列顺序

文件类型显示信息:

● 文件类型名称(视频、文档、演示文档、压缩文件、电子表格、其它)

● 文件扩展名(doc 、txt 、pdf 、xls …)

2.9 资源查询及详细内容页面

为了区分资源是链接和还是具体资源文件,系统提供资源的原始地址及下载。

2.9.1 资源查询列表

资源查询面向所有用户,用户通过关键字、资源类别及文件类型查找需要资源。主要功能:

● 查询资源

● 下载资源

● 查看资源原始地址

列表显示内容:

● 资源名称

● 资源类别

● 文件类型

● 文件大小

● 获取时间

● 资源来源

● 资源备注

● 下载

● 资源原始地址

2.9.2 资源详细内容

查看具体资源信息,显示资源相关资源,同时提供下载地址及查看原始页面地址。具体功能:

● 查询资源

● 下载资源

● 查看资源原始地址

资源具体显示内容:

● 资源名称

● 资源类别

● 文件类型

● 文件大小

● 获取时间

● 资源来源

● 资源备注

● 下载

● 资源原始地址

2.10 资源订阅管理

一条订阅可以匹配对多个关键字订阅及多个文件类型,解决多次添加订阅信息问题,订阅信息的具体内容包括:

● 资源类型

● 关键字(可以填写多个关键字,使用“, ”连接) ● 文件类型(可以选择多个文件类型)

信息订阅管理主要包括以下功能点:

● 新增订阅

● 订阅查看

● 修改订阅

● 删除订阅

● 订阅失效

● 订阅生效


相关内容

  • 智慧物业整体规划方案0517V1.0
  • 智慧社区(物业)解决方案 一.智慧物业整体规划 建立"社区物业 + 社区住户 + 周边商家"之间的商务模式,并与多家大型超市联合,打造成"中国社区电子化运营商".是面向全国基于手机上的开放式智慧物业应用平台,包括物业管理系统.物业账单及缴费系统.短信服务系统. ...

  • 网络爬虫技术探究
  • JIU JIANG UNIVERSITY 毕 业 论 文 题 目 网络爬虫技术探究 英文题目 院 系 信息科学与技术学院 专 业 计算机科学与技术 姓 名 闻泽 班级学号 A081129 指导教师 二○一二年五月 信息科学与技术学院学士学位论文 摘 要 网络爬虫是一种自动搜集互联网信息的程序.通过网 ...

  • 内容网数据采集接口定义及自动处理流程
  • 数据采集及自动处理流程 1 概述 本文主要描述内容网库对外定义的数据采集接口以及对于这些采集数据的自动处理流程.通过对现速网的分析,我们认为对于数据的采集主要是通过手工方式,爬虫爬取方式进行的,对于其他的采集方式,网信虽然有提及,但是我们在现在的速网后台没有发现相应的模块,希望网信相关人员通过对该文 ...

  • 软件需求说明书模板
  • [项 目 名 称] 需求说明书 目录 1 引言 .............................................................................................................................. ...

  • 大数据在智慧城市中的应用_李光亚
  • Microcomputer Applications Vol. 30, No.12, 2014 文章编号:1007-757X(2014)12-0001-04 专家论坛微型电脑应用2014年第30卷第12期 大数据在智慧城市中的应用 李光亚,张敬谊,童庆 摘要:伴随智慧城市的发展,多源.异构.冗余的大 ...

  • 搜索引擎调查报告探测大众心中的秘密隐私
  • 二月初,珍妮·杰克逊(janet jackson)因为走光事件上升为yahoo搜索的人气冠军,其搜索请求达到总数的20%,创下了yahoo搜索关键词的历史最高记录。这一数字是艳星paris hilton曾经所创记录的60倍,是歌星小甜甜布莱妮的80倍。   互联网上的搜索引擎已经成为反映大众趣味和关 ...

  • 主题网络爬虫研究综述
  • 第24卷第10期计算机应用研究 Vol . 24No . 10 主题网络爬虫研究综述 刘金红, 陆余良 (解放军电子工程学院网络系, 合肥230037) 摘 要:首先给出了主题网络爬虫的定义和研究目标; 然后系统分析了近年来国内外主题爬虫的研究方法和技术, 包括基于文字内容的方法.基于超链分析的方法 ...

  • WEB数据采集系统
  • WEB 数据采集系统 一. 概述 面对互联网海量的信息,政府机关.企事业单位和研究机构都迫切希望获取 与自身工作相关的有价值信息,如何方便快捷地获取这些信息就变得至关重要 了.如果采用原始的手工收集方式,费时费力且毫无效率,面对越来越多的信息资源,劳动强度和难度可想而知.因此,现代的政府和企业都迫切 ...

  • 云计算描述
  • 一.什么是云 计算机领域下的"云"通常指Internet 网络,随着云计算的兴起,当前的"云"多指云计算.云计算有许多不同定义,这里采用芝加哥大学对云计算的一个定义: 云计算是一种由规模经济驱动的大规模分布式计算范式,系统有一个抽象的,虚拟化的,动态扩展的的计 ...