它支持截取网页一部分信息,导出来,同时也支持从截取的信息片断的列表中,匹配出多条循环的信息。
更可以:
1、以post方式请求抓取数据
2、自定义网页head协议头,伪装任何浏览器进行访问
3、同时可设定抓取间隔,避免采集迅速被别人网站服务器屏蔽ip
4、将采集到的结果,导出为excel或txt
它不仅拥有采集信息的功能,如果你拥有自己的网站,还能将这样信息或者电脑excel里的信息,帮你发布到你的网站了。
你可以用它来做什么:
1、采集网页里的多条信息(标题/网址/时间等),导出
2、批量采集多个网页中的信息,导出
3、批量去访问打开页面,比如有些站长需批量向百度提交收录,挨个打开太费事
高级进阶篇(写给站长,一般人无需了解,看了让1个简单的软件变得更复杂):
那么,如何使用它,来采集一个网站的信息,并发布到自己的网站上
只需要几步:
1、写文章页抓取文章标题和内容的规则,并记下来。
2、使用“小工具”中的序列网址生成工具,生成一系列的列表网址。如:list/1.html,list/2.html,list/3.html,...,list/999.html,从别人网站的列表页能看到有多少页,有多少页就生成多个条列表网址。
3、写取匹配列表页所有文章的规则:即从列表页面,取出所有文章链接,匹配出来,再导出来
4、再将步骤3导出的文章网址,作为采集目标,输出到网址框中。再填上步骤1的规则,即可自动将这些页面的文章标题和链接等信息采集出来。
到这里,目前网站某栏目的所有文章的标题,链接,都已经采集到,并导出为excel,那么如何将这个excel发布到自己的网站?
5、在excel中将单元格手动合成post提交的信息格式。如:title=kkno1&content=com
6、提交网址填写文章发布后台的post接收网址,并在软件中完善协议头的cookie信息(模拟网站管理员登陆后台),然后在post参数中,填入步骤5生成的post提交格式,再点批量处理,软件即可自动批量post方式,将这样信息,逐个提交到post接收页,达到自动发布的功能。
从采集到发布的完整过程。看起来步骤多,实际上,只做了3次匹配。