为了便于大家更好的使用网络信息采集大师软件,我们把客户在使用过程中碰到的问题,挑选其中有代表性的整理出来,供您参考.同时,如果您在使用过程中,遇到新的难以解决的问题,可反馈给我们(E-mail: sales@netget.com.cn),我们会及时给予解答. 

常见问题解答:

1类别的用途是什么?

2网络信息采集大师软件制定任务的时候应该注意什么?有什么诀窍?

3为什么数据导出EXCEL到里面每次不能超过6万行?

4采集信息的时候应该注意什么问题?

5网络信息采集大师这个软件都支持什么数据库?

6为什么采集的数据,导出到excel时,有时候会出现异常?

7为什么导入数据库有时发生异常?

8我想删除信息里面一些没用的字符怎么办?

9采集的数据里我打算把重复的过滤掉怎么做?

10.网络信息采集大师软件, 需要登录的网站怎么采集信息?

11.怎样实现数据导入MySql数据库?

12.怎样下载图片等2进制文件?

13.怎样实现信息监控和实时发布?

14.本地机器上存储了好多信息,可惜是网页格式的,我能把其中有用的信息提取出来吗?

15.我采集了一些企业资料,但采集的信息里没有E-mail,我有办法得到吗?

16.我想让采集的速度更快一些,可以吗?

17.我按照上面说的做了,确实快了很多,但我把线程数调的很大,怎么效果不明显了?

18.怎么有的网站数据采集下来是乱码?

19.对于网络信息采集大师软件, 非中文信息能采集吗?
20.对于一堆没有规律的地址,如何采集?
21.我采集的数据比较长,比如新闻或者公司介绍,要保存到数据库当中,我怎么知道表的字段长度为多少比较合适?
22.我想在采集时自动有一个字段是空的,或者是一个常量,怎样做?
23.采集的数据,导入到数据库,有哪种方式?
24.列表类型的任务, 我知道能采集一级页面的数据, URL任务能采集一级以上的数据. 对采集子级页面的情况, 能用列表类型吗?
25.任务调度是做什么的?
26.什么是无人值守? 如何做到无人值守采集?
27.在网络信息采集大师软件的任务里, 请解释下任务的数据提取规则里的'信息类型'的用法.
28.用网络信息采集大师采集新闻时, 怎么样保留原来的格式?
 

1.类别的用途是什么?

   用户自定义分类,可以将用户自认为相关的信息归在一起,便于管理和查询。

 

2.制定任务的时候应该注意什么?有什么诀窍?

   软件的核心和难点就是任务的制定。

   制定任务规则需要具备初步的网络知识和术语,比如URL(统一资源定位), 脚本(网络脚本特指javascriptvbscript脚本,常用的为javascript脚本)等。明白这些知识后制定规则是很容易的事情;设置和选项很多,因为网络信息繁多复杂,这些设置和选项可以适应任何的网站。可根据软件附带的例子,结合帮助来看. 这里有详细的教程和免费方案下载.

具体注意事项有三点:

  • 起始地址. 此地址一定要填写 '完整正确'.一般来说, 若数据是分页形式的, 可通过点 '下一页' 或 '第2页' 等来得到正确的地址.
  • 采集网址标识. 若直接采集起始地址的本级页面信息,为空即可, 填写后只采集包含采集网址标识的页面信息.
  • 采集数据项的前标示符和后标示符. 前标示符和后标示符在采集数据页的htm源代码里得到. 需要注意的是: 此源代码不能直接用浏览器的查看源代码得到, 而应该这样操作: 把采集的地址拷贝到软件的浏览器里面, 浏览, 然后在"任务-提取数据规则-源文件"里得到.

 

3.为什么数据导出到Excel里面每次不能超过6万行?

   Excel的每个sheet的容量为6万多行。另外,写Excel文件速度要慢些,建议一次不要太多,以免出现异常。

 

4.采集信息的时候应该注意什么问题?

  采集信息的时候应尽量保障网络的流畅,此时最好不要观赏在线电影和下载过大的文件。

  本软件完全支持多线程多任务,在网络带宽占用和CPU使用率上都做了最大优化。为了保证每个任务能顺利运行,建议同时运行的任务数不要超过5个。

 

5.这个软件都支持什么数据库?

  目前经过测试的有:Access sqlserver Mysql和Oracle. 如果您在用其他类型的数据库, 请告诉我们.

 

6.为什么采集的数据,导出到excel时,有时候会出现异常?

  导出到excel时,请不要对excel有任何操作,否则会发生异常。office损坏也可能导致异常,一般重装Office软件可得到彻底解决.  
7.为什么导入数据库有时发生异常?
导入到数据库,需要注意以下三点:
  • 导入到数据库的数据,默认的都是字符串类型,因为从网上采集的数据,难免有不规范的,而字串是通用的数据类型。因此,当导入异常时,可检查数据库表是否有其他类型,确保所有的字段都是字符串类型或兼容类型(兼容类型如 备注,ntext等)
  • 表的字段长度要足够。把长度为100的数据导入到只有50长度的字段中,肯定会出错。所以要给表的字段长度足够才可以。
  • 采集数据项和表的字段要一一对应。假如采集的数据项是5个,而表里的字段个数为大于或少于5个,那要设置“自定义接口”,设置一一对应关系(需要导入哪几个采集项就设置哪几个, 最少要设置一个)。不导入数据的字段一定要允许为空, 或者不允许为空但要有默认值, 否则出错
总结为一句话:字段类型,字段长度和一一对应。这三点都作正确了,就可正确的导入到数据库。总之, 导入数据库时要符合数据库的基本要求。
 

8.我想删除信息里面一些没用的字符怎么办?

  菜单'高级-单元格格式',在这个窗口里面不但可删除没用的字符,还可以实现替换,追加字符.
 

9.采集的数据里我打算把重复的过滤掉怎么做?

  菜单'高级-重复数据过滤',在这个窗口可组合过滤,比如打算把公司名称和联系人完全一样的过滤掉,可选择这两列作为组合过滤项.
 
10.需要登录的网站怎么采集信息?
需要登录才可以看到的网站,要先在任务的'登录设置'里进行登录,然后就可以采集了.
 
11.怎样实现数据导入MySql数据库?
数据导入Access,sqlserver,oracel等是比较简单的,有现成的成熟接口可用(一般Windows操作系统自带).但mySql是近两年流行起来的数据库,
由于免费而且高效,被广泛使用,但美中不足就是使用不方便,而且即使用ODBC连接也有点麻烦. 现在简单介绍ODBC连接方法:
安装mysql驱动后,首先下载mySql数据库的ODBC for windows驱动程序(http://www.netget.com.cn/download.htm有下),安装后在控制面板-管理工具里打开数据源,点'添加',在数据库驱动里就会出现关于MySql的条目.配制好服务器,数据库名,端口,用户名和口令后,即可象使用一般数据库一样进行数据操作了. 若仍有使用疑问请和我们联系.
 

12.怎样下载图片等2进制文件?

首先象采集普通信息一样,批量采集出文件的完整地址(有些地址是不完整的,如/top.jpg,这时候可用'高级-单元格格式'进行格式化,批量格式
化成完整的地址),选中该列,右键菜单'文件下载'或者主菜单'工具-文件下载'即可把文件下载到本地.对于同名的文件,会自动重命名,并且重命
名后的文件名保存下来,保证了信息的完整性和一致性.或者在该列上右键, '输出选中列内容为超连接',用FlashGet或网络蚂蚁等批量下载文件.
 
13.怎样实现信息监控和实时发布?

所谓信息监控和实时发布,其实就是定时监测一个或多个网站的信息,采集后无重复的导入数据库当中.任务调度可完美实现此功能.不但可控制任务循环运行,还可把每次采集到的数据自动过滤掉重复之后添加到数据库.

 

14.本地机器上存储了好多信息,可惜是网页格式的,我能把其中有用的信息提取出来吗?

用'列表类型'的任务,就像采集网络上的信息一样,完整的得到想要的信息.

 

15.我采集了一些企业资料,但采集的信息里没有E-mail,我有办法得到吗?

这样情况下得到E-mail很简单,可用右键菜单的'修补E-mail'找出企业的E-mail.

 

16.我想让采集的速度更快一些,可以吗?

可以更快,如果你的带宽允许的话,可适当调高采集线程(设置里有该选项,默认为5个线程).另外如果数据量很大,你也可以把数据分解成几部分,建立多个任务同时采集.这是一个真正的多线程多任务的采集软件.

 

17.我按照上面说的做了,确实快了很多,但我把线程数调的很大,怎么效果不明显了?

采集速度受三方面影响:网络带宽,采集网站的响应速度和采集线程数.前两项是制约采集速度的瓶颈,如果网络速度不快,提高线程的效果就不明显.建议线程数值(以普通ADSL为例):512K 可5个线程 , 1M - 2M 可10个线程 .当然,具体线程数为多少最佳,要结合自己的网络情况而定.

 

18.怎么有的网站数据采集下来是乱码?

一般来说,中文网站是GB2132编码,有的可能是Unicode(UTF-8)码.碰到乱码情况,可在'任务-高级设置'里,换另外的编码方式.默认的是GB2132编码.

 

19.非中文信息能采集吗?

和采集中文信息是一样的.英文,日文,繁体等都可以采集,软件附带有一个采集英文信息的例子.

 
20.对于一堆没有规律的地址,如何采集?
可用地址列表类型的任务,先把这些地址拷贝到一文本文件,然后在任务的'指定本地文件'处挂接;或者用URL类型的任务,在'起始地址'处填写该文本文件的完整路径..
 
21.我采集的数据比较长,比如新闻或者公司介绍,要保存到数据库当中,我怎么知道表的字段长度为多少比较合适?

采集完数据后,在当前采集数据区点右键-'数据字段最大长度',即可显示每个采集字段的最大长度,可根据这些值,建立合适的数据库表.当然,数据库表字段的长度应该放宽一些,这样可保障后续数据顺利保存.

 
22.我想在采集时自动有一个字段是空的,或者是一个常量,怎样做?
可使用‘信息类型’中的‘常量’类型,采集时会自动加上这一字段,字段的值为该字段的‘前标识符’的值。
 
23.采集的数据,导入到数据库,有哪种方式?
导入数据库有两种方式:一种是直接连接数据库的方式,该方式一般用于本地或局域网的服务器,有足够的权限,可直接连接数据库,该方式的导入效率很高。另一种是通过发布页面,把数据间接发布到数据库的方式;该方式用于租赁的服务器,网络提供商不提供足够的权限,只提供了一个发布页面的情况。
 
24.列表类型的任务, 我知道能采集一级页面的数据, URL任务能采集一级以上的数据. 对采集子级页面的情况, 能用列表类型吗?
这个问题可采用URL和列表相结合的办法. 把父级连接放在一个文本里, 比如是c:\list.txt, 把这个路径'c:\list.txt'拷贝到URL任务的起始地址里即可.导航关键字和页码范围可空着, 其他参数就像制作URL类型任务一样, 就能以这个文本的数据为数据源, 采集到子页面的数据.
 
25.任务调度是做什么的?
任务调度就是控制任务运行的一种方式. 可设置某些任务自动运行, 自动采集, 自动导入数据库. 还可设置一定时间间隔后循环运行. 这对监测一些站点, 或保持和某些站点数据同步很有用处. 还可以设置采集一定数据量后自动保存数据, 并清空历史数据, 这对采集大数据量的数据, 比如十万级和百万级数据很有帮助, 可在占用系统资源很少, 无人值守的情况下自动采集并保存大批量数据.
 
26.什么是无人值守? 如何做到无人值守采集?
无人值守就是在采集任务运行时, 无需人工干涉, 自动采集, 自动保存到数据库, 并且所有采集任务结束后, 还可让计算机自动关机. 既可提高工作效率, 又能有效的节约能源.
无人值守的条件: 1.所有运行的任务, 必须属于'任务调度', 因为只有任务调度里的任务, 才可以自动保存到数据库, 不用人工干预. 2.选中菜单"工具-完成后自动关机". 做到这两点, 就实现了"无人值守采集".
 
27.请解释下任务的数据提取规则里的'信息类型'的用法.
其中有几种最为常用:URL类型,附加类型,多媒体,常量,文章,关联类型 。分别予以解释:
URL类型:当一个数据项被设置成URL类型时, 假如采集到地址不完整, 会自动格式化成一个完整的地址.比如采集到的是/1001.htm , 而任务的'网站首页'设置为http://www.netget.com.cn/news, 那么地址会自动格式化为http://www.netget.com.cn/news/1001.htm.
附加类型:采集的信息里, 有循环的, 有不循环的, 这时不参与循环的要设置为附加类型. 附加类型的数据项可在信息的头部或底部, 不可在中间穿插.
多媒体类型: 指需要下载到本地的图片, 歌曲等二进制文件. 比如采集到http://wwww.alibaba.com/image/1654.jpg等信息, 把该采集项指定为多媒体类型后, 会自动下载文件到本地, 默认目录为 /down, 也可在"任务-高级设置"里指定文件下载后的保存路径.
常量: 有时采集的数据项里, 其中有一个或多个数据项不需要采集, 但要和采集结果在一起, 可把这些数据项设置为常量, 常量的值就是前标识符的值.
文章: 用于采集新闻等。详细信息请看软件里‘任务-数据提取规则-帮助’。
关联类型: 该类型数据用于作为关联URL使用,可实现把分散在多个页面数据整合成一条。与"采集规则-关联网址标识"作用类似。
 
28.网络信息采集大师采集新闻时, 怎么样保留原来的格式?
保留html原代码,就相当于保留了原格式。选项"保留Html代码"就起这个作用。需要注意的是:该选项是针对每个采集数据项的。还可自动保留新闻的格式,包括图片等(可通过设置自动去除广告)。可通过设置,自动下载图片,自动把正文里图片的网络路径改为本地文件路径(也可保留原样);可把采集的新闻自动处理成自己设计的模板格式;可采集具有分页形式的新闻。 通过这些功能,简单设置后即可在本地建立一个强大的新闻系统,无需人工干预。这些设置在3.39版以上的‘任务-数据提取规则-更多设置’里。
 

返回首页