如何采集需要登录的网站
在新建采集任务时,在基本信息页面勾选上该网站需要登录项目,点击下一步时,会出现以下页面:
登录地址:登录地址是指您的用户名和密码的验证最终通过哪个网址来验证。
登录数据:登录数据包含了登录验证所需要的一些数据,如账号名称和密码。如用户名username=admin&userpswd=abcdd&...其它的数据等。
成功标志:就是登录成功后的网页中包含有标识登录成功的字符。
需要验证码:有些网站除了需要提供有登录用户名和密码外,还需要输入验证码才能采集的,这时就需要勾选上该项。
获取验证码地址:把验证码所在的链接地址拷贝到"获取验证码的链接"中,点击旁边的浏览球后,点击"查看源码",找到验证码图片所在的位置。
接着通过捕包分析验证码的参数名。输入当前的验证码即可作登录测试。
验证码分图片和文字两种形式的。图片验证码在采集时需要人工辅助输入验证码才能采集。文字验证码则不需要。
由于验证码不是固定某个图片或某个字符,需要动态获取。所以软件提供有4种方式来提取验证码。
1) 使用特征符匹配
即动态生成的验证码链接地址中包含有某个特征字符。
2) 使用正则表达式
如验证码的地址需要通过正则达式才能提取,如image.*?a之类的。
3) 使用前后标识符提取
即通过前标识符和后标识符前后截取出动态变化的验证码地址。
4) 使用指定的验证码链接地址
当目标网站的验证码地址是固定不变的,可以用这种方式提取。
验证码参数名:表示输入的验证码以什么名称的形式提交给网站,如checkcode=forty中的checkcode。