解决方案
  当前位置: 首页 / 解决方案 /

情报采集更新

  
情报信息跟踪采集工具
 

格微情报信息采集工具基于知识管理思想和相关技术架构搭建,采用知识挖掘技术作为核心支撑,结合企业研究所的情报管理和应用需求现状及特点,基于互联网上国内外同行业公开的网站实现信息的辅助跟踪、采集和管理等功能。它整合企业情报渠道,改进了信息收集效率,提高了对重要信息采集处理的及时性和有效性,实现了对互联网多种格式化信息源的采集、分类和存储,建立共享性好、统一管理的情报辅助处理工具。
    根据情报采集的目标和形式不同,分为“主题跟踪”和“定点跟踪”两种形式。具体应用形式如下:

 
一、主题跟踪采集工具
    利用主题跟踪采集工具可以定制检索引擎,通过对情报采集的相关主题内容和检索条件的设置实现对相关范围的网站提供的与跟踪主题相关的内容进行自动搜索和下载。工具辅助情报人员完成一站式搜索和管理,并对检索结果做归纳和整理,辅助情报人员对检索结果做快速筛选和处理。

序号

模块

功能项

主要功能及特色

1

主题管理

主题目录管理

以树形结构管理主题分类,包括:新建主题、重命名、删除。

2

主题设置管理

对具体的某项采集主题内容进行管理,包括:设置跟踪条件、启动跟踪、重命名,删除等。

3

搜索管理

搜索条件管理

根据不同搜索引擎的检索形式和条件进行搜索条件配置管理。

4

搜索结果管理

根据设置的搜索条件,搜索引擎自动跟踪网站产生预搜索结果的摘要和标题信息,形成搜索结果列表。可以对搜索结果列表进行下载、删除等管理。结果列表信息中包括条目的权值、状态、标题、文件类型、更新时间、网页类型等。

5

文件预览

对搜索结果列表中的内容可以进行原网页或文档信息预览。便于用户确定网页内容是否符合下载的需要。可以实现对网页、word、pdf、ppt等多种格式文档的下载和预览功能。

6

收藏管理

收藏夹管理

按照搜索主题创建最终结果的收藏目录。每个最底层目录下可以保存搜索结果的文件。
可以对收藏夹进行维护,包括:打开、新建、清空、导出结果、重命名、删除功能。

7

历史记录

可以按照主题查看已导出的历史结果。

8

工具设置

文件下载设置

可以对工具下载的线程数、超时时间、下载文档临时目录、网页自动跟踪检查、网页预览、网页内容去噪、临时文件清空等功能信息配置管理。

9

代理设置

某些网站需要使用代理方式才能正常访问,系统提供常用代理站点的维护管理功能,包括不使用代理、使用指定代理以及采用轮询机制访问代理等。

10

其他设置

包括文档结果收藏夹路径设置、搜索跟踪的最大结果数量设置、搜索结果状态显示以及搜索结果自动过滤设置等。

表- 功能模块列表
·主题管理:以树形结构管理主题分类,对具体的某项采集主题内容进行管理,包括设置跟踪条件、启动跟踪、重命名,删除等。

图- 搜索主题设置

·搜索管理:根据不同搜索引擎的检索形式和条件进行搜索条件配置管理。根据设置的搜索条件,搜索引擎自动跟踪网站产生预搜索结果的摘要和标题信息,形成搜索结果列表。可以对搜索结果列表进行下载、删除等管理。结果列表信息中包括条目的权值、状态、标题、文件类型、更新时间、网页类型等。对搜索结果列表中的内容可以进行原网页或文档信息预览。便于用户确定网页内容是否符合下载的需要。可以实现对网页、word、pdf、ppt等多种格式文档的下载和预览功能。
·收藏管理:按照搜索主题创建最终结果的收藏目录。每个子节点目录下可以保存搜索结果的文件。可以对收藏夹进行维护,包括:打开、新建、清空、导出结果、重命名、删除功能。
·工具设置:可以对工具下载的线程数、超时时间、下载文档临时目录、网页自动跟踪检查、网页预览、网页内容去噪、临时文件清空等功能信息配置管理。某些网站需要使用代理方式才能正常访问,系统提供常用代理站点的维护管理功能,包括不使用代理、使用指定代理以及采用轮询机制访问代理等。
工具针对美国专利搜索网站的特点做了针对性的分析处理,采用图文结合的方式展示专利内容,工具可以实现自动下载并生成统一的浏览文档,大大简化了传统的手工逐个页面下载的操作复杂度。
 
二、定点跟踪采集工具
    定点跟踪采集工具可以实现对指定网站和栏目内容的网页进行定期的自动采集和整理,适用于对定期更新和变化的新闻类或技术论坛类网站的跟踪采集。工具提供采集站点管理、采集结果管理、采集结果优化设置等,详细内容如下表所示:

序号

模块

功能项

主要功能及特色

1

站点管理

站点订阅设置

以树形结构管理新闻站点分类,包括:新建站点、重命名、删除等。

2

采集规则设置

对具体的某项采集站点进行管理,根据站点页面链接的特点,设置自动下载的规则,包括:常规设置、采集页面规则、翻页规则和系统登陆设置等。

3

跟踪周期设置

针对某一具体采集站点内容更新的规律,可以设置网页内容自动跟踪下载的周期,如:按照每日、每周、每月等。

4

结果管理

采集结果管理

系统提供交互式的站点结果管理列表,便于对采集内容进行管理和维护以及导出应用等。结果列表内容包括:内容标题、下载状态、存储文件名称、采集时间等。
采集结果分成:当前采集资源、未导出资源、已导出资源和已删除资源。

5

结果内容预览

可以选取某项采集内容进行在线预览。

6

结果优化

结果页面内容选取规则

工具提供交互式的操作方式实现对同类网页中的下载内容进行选取分析,过滤掉页面上与正文内容不相关的广告、其他链接等信息。可以通过模板方式设置,然后工具自动实现对同类网页的噪音去除功能。

·站点管理:以树形结构管理新闻站点分类,包括:新建站点、重命名、删除等。对具体的某项采集站点进行管理,根据站点页面链接的特点,设置自动下载的规则,包括常规设置、采集页面规则、翻页规则和系统登陆设置等。针对某一具体采集站点内容更新的规律,可以设置网页内容自动跟踪下载的周期,如按照每日、每周、每月等。对下载完成的结果可以定期导出,提供给企业相关部门用户使用。

图- 采集站点管理

·采集结果优化:工具提供交互式的操作方式实现对同类网页中的下载内容进行选取分析,过滤掉页面上与正文内容不相关的广告、其他链接等信息。可以通过模板方式设置,然后工具自动实现对同类网页的噪音去除功能。


沈阳格微软件有限责任公司
电  话:024-86800538    024-86807029   
联系人:廉  鹏   
地址:沈阳道义经济开发区道义南大街37号700信箱 邮编:110136
网  站:www.ge-soft.com
邮  件:lianpeng@ge-soft.com