欢迎您访问广州瞬速信息科技有限公司
如何采集需要登录的网站
发表时间:2017/2/25 16:03:16

在新建采集任务时,在基本信息页面勾选上该网站需要登录项目,点击下一步时,会出现以下页面:

瞬速网站内容采编发系统-网站登录


登录地址:登录地址是指您的用户名和密码的验证最终通过哪个网址来验证。

登录数据:登录数据包含了登录验证所需要的一些数据,如账号名称和密码。如用户名username=admin&userpswd=abcdd&...其它的数据等。

成功标志:就是登录成功后的网页中包含有标识登录成功的字符。

需要验证码:有些网站除了需要提供有登录用户名和密码外,还需要输入验证码才能采集的,这时就需要勾选上该项。

获取验证码地址:把验证码所在的链接地址拷贝到"获取验证码的链接"中,点击旁边的浏览球后,点击"查看源码",找到验证码图片所在的位置。

接着通过捕包分析验证码的参数名。输入当前的验证码即可作登录测试。

验证码分图片和文字两种形式的。图片验证码在采集时需要人工辅助输入验证码才能采集。文字验证码则不需要。

由于验证码不是固定某个图片或某个字符,需要动态获取。所以软件提供有4种方式来提取验证码。

1) 使用特征符匹配

即动态生成的验证码链接地址中包含有某个特征字符。

2) 使用正则表达式

如验证码的地址需要通过正则达式才能提取,如image.*?a之类的。

3) 使用前后标识符提取

即通过前标识符和后标识符前后截取出动态变化的验证码地址。

4) 使用指定的验证码链接地址

当目标网站的验证码地址是固定不变的,可以用这种方式提取。

验证码参数名:表示输入的验证码以什么名称的形式提交给网站,如checkcode=forty中的checkcode。


关闭窗口
  • 地址: 广州市天河区员村四横路石东商务中心918
  • 电话: 020-2903 9615
  • 手机: 13533909695
  • QQ: 747484429
  • 邮箱: 747484429@qq.com
广州瞬速信息科技有限公司 版权所有 粤ICP备10220963号 站点地图 Copyright © 2017 SunShotTech. All Rights Reserved
13533909695
020-29039615