新建任务

任务是本软件的核心,也是难点。任务的建立有很多技巧,可在实践中去体会。

一.新建任务

建立任务要具备一些简单的网络知识和术语。对于计算机比较熟悉的人员来说,建立任务应该是件很轻松的事情。

本软件附带‘常用相关知识介绍’,或许对您有些帮助。具体网络知识和术语可参考其他书籍或浏览相关网站。

下面给大家介绍关于任务设置的基本概念和核心内容:

任务分三种类型:URL导航型脚本导航型地址列表型。针对不同的网站数据,要使用不同的类型比较合适。那么,怎样鉴别什么样的网站使用哪种类型呢?关键是掌握以下原则:

A.URL型。在浏览器里浏览不同的网页数据,地址都会随之做相应的变化,这种情况最适合URL型。URL型的特点是低耗高效,可在‘设置’里面通过设置不同的运行线程数,自由控制速度。需要登录才能看到的信息,要先在'登录设置'里进行登录.

B.脚本型。有些网站数据,是用脚本来控制的,URL地址没有变化。这时候要用脚本类型。脚本类型的任务在运行时会弹出一个窗口,需要登录的可在此处登录,然后‘开始’即可。

C.地址列表型。采集单个页面的数据;或者一些杂乱无章的地址数据;或者地址列表可通过手工制作,这时候可用地址列表型。

>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>

1.1 任务概述

点工具栏里的‘新建’或者菜单‘任务\新建’。打开新建任务窗口。如图:

填写合适的任务名称,比如要下载银河网的人才招聘,可命名为银河人才招聘等。

  • 网站首页:脚本类型的一定要填写完整,登陆时用。其他两种类型可不添。
  • 所属类别:选择一个合适的类别。比如已经新建了类[企业资料],所属类别可选该类。
  • [导入任务]按钮:如果已经建立了比较类似的其他任务,可把该任务导入进来,减少重复劳动。
          • 任务表现为扩展名为tak的文件,放在目录 \task 里面。
  • 类型:任务类型分三种:URL导航型,脚本导航型和地址列表类型。(可参照上面的介绍)
  • URL导航:对于一个网站,若每个网页变化后,其URL地址也随之变化;URL地址变化后,网页也随之变化,两者之间有明显的对应关系。这种类型属于URL导航。
  • 脚本导航:相反,若网页变化后,其URL地址并不变化,网页的变化不是通过URL控制,而是由JavaScript等脚本等来控制的,属于脚本类型。
  • 地址列表型:可参照上面的介绍。
  • 自动保存采集的数据。打开此项,数据会在指定的时间间隔,保存到指定的文件里面。这样可有效的保存数据,防断电等异常情况。
  • 高级设置:目前包括‘清除字符’和‘字符编码’。此处一般情况下使用默认设置即可。

点 [下一步] 后,进入采集规则的设置。

1.2 采集规则。

若是URL导航类型。如图:

这一页面的作用是对上面的各标识符进行操作。如添加,删除等。

此页数据的填写较为关键,直接关系到数据能否采集.若看帮助后对参数仍有疑问,可访问采集实例详解.

  • 起始地址:采集数据的开始地址(不一定就是第一页的地址,只要复制一个正确完整的地址到此处即可,数据范围由'采集页数范围'控制').此地址一定要填写'完整,正确'.一般来说,数据是分页形式的,可通过点'下一页'或'第2页'等来得到正确的地址.复制到此处即可.
  • 导航关键字:在地址中起决定作用的字符串。最常见的就是页码前面的字串,如'page','pageNum','p','list'等.
  • 采集页数范围:需要采集的页码范围,如1 , 10 ,为1到第10页。如某数据量很庞大,有几十万之多,可通过分段来采集.比如先采集1-1000页,再1001-2000页等.
  • 增量:默认为1。一般来说页码变化是连续的。
  • 访问网址标识符和采集网址标识符:两者一样的时候,采集当前页;否则采集包含采集网址标识符的页,一般来讲就是采集子页数据。
  • 过滤网址标识:你不想采集的页包含的关键字。一般可不填写。
  • 多媒体类型:多媒体指音乐,影象,图片等。目前采集多媒体类型的方式为只采集关于多媒体的连接,保存为Html文件后用其他软件,如FalshGet , 网络蚂蚁等批量下载。
  • 采集数据页包含分页.此选项一般用于采集有多页的文章,文章地址中固定不变的部分就是关键字.
  • 个别地址在打开后会指向另一个地址,可采用‘采集关键字替换’;一般情况下不用此项。

若是脚本导航类型。如图:

  • 脚本类型里面具体又分为两种:脚本式,点击式。
  • 脚本式和上面介绍的URL导航类型类似,只是这里是脚本。而不是URL地址。
  • 点击式其实是对脚本式样的模拟,通过软件自动操作网页,实现页码滚动。
  • 采集规则:确定数据在本页还是子页采集。若数据在本页,下边的选项无关。若在子页采集,还要确定子页是否有可标识的符号,若没有,只能靠地址变化范围来确定。

注:设置此处可结合软件的浏览器使用。比如要看导航对象的标签,可先在软件的浏览器里浏览到该页,然后点导航对象的标签后面的按钮,可自动弹出。其他类似。

1.3 数据提取规则

如图:

  • 提取数据页的全部数据作为一个数据列:把采集的数据整个输出。一般适用于数据很难拆分的情况。若使用该项,下面的不用再设置。
  • 保存对应的URL:有时候URL能标识一行具体的数据,这样数据导入数据库后,用户能很方便的分辨。
  • 本页提取多行数据:这是经常用到的。比如一页有好多行数据,这些数据都要一一采集下来,可用此选项。
  • 循环标识:当[本页提取多行数据] 选中时,此处可用。循环标识就是行与行之间的分割字符串。
  • 分析源数据和分析源文件:此处只能选择一个。源数据是显示在表面的标签;源文件就是一个网页的源文件。具体选哪种,只能根据具体情况,选择设置起来和采集起来很方便的那种。
  • 数据间隔符:这是软件区分数据所用,一般不用更改。默认为一个^.。

下半部分就是具体要采集的数据设置了:

先在软件的浏览器里打开要分析的网页,然后点‘源文件’按钮,可显示要分析的数据。

  • 中文名称:自己随便命名。比如‘姓名’‘联系地址’等。
  • 英文名称:与中文名称相对应。不一定就是英文,但建议是字母。比如与上面对应的可命名为 name , address,或者干脆用拼音代替,xm ., lxdz 。英文名称的作用主要,当数据导入数据库的时候,作为数据表的列名使用,因此建议在一个任务里,英文名称不要重复命名。
  • 前标识符:确定一个数据值的前符号。
  • 后标识符:确定一个数据值的后符号。
  • 信息类型:格式化数据用,一般情况下可不用。
  • 区分大小写:采集英文的数据,可选中此项,因为中文没有大小写之分。

************************填写前后标识符要领*************************:

1.一个数据项,一定要在前后标识符之间。

比如类似这样的源文件:<tr>地址:</td> 北京... </td></tr> 。要采集‘地址:北京’,那么前标识符是‘<tr>’,后标识符是‘</tr>’,而不是‘</td>’。因为‘北京’前面已经有个‘</td>’。至于< >之间的数据,软件会当作无效字符,自动忽略。当然, 如果选中'保留html代码', <>之间的字符会保留下来

2.采集数据项的顺序一般要和网页上的数据项的顺序一致。这个很好理解,提取信息是按照从上而下的顺序。

3.若打开‘区分大小写’选项,则前后标识符的大小写一定要正确。采集英文信息注意打开此项。

********************************************************************:

附:采集完信息后,在导出前,可对数据做如下处理:

  • 信息再加工。包括剔除无用字符,替换数据,首尾增加字符等。在菜单-高级里面有此功能。
  • 如果采集的企业资料里面,对方网站不提供E-mail,可用‘工具(或在数据区点右键)-修补E-mail’进行修补。
  • 如果采集的信息是网络地址,可把该地址的文件下载到本地。工具(或在数据区点右键)-文件下载。

二.任务维护:

指任务的修改,不再叙述。

至此,任务的建立就介绍完了。此处是该软件的核心,也是难点,需要自己动手练习,才能用地得心应手。

可参照本软件附带的例子,结合帮助理解各个选项的含义。