火车采集器(LocoySpider) 是一个供各大主流文章系统,论坛系统等使用的多线程内容采集发布程序,使用火车采集器,你可以瞬间建立一个拥有庞大内容的网站,
火车采集器(LocoySpider)是一款功能强大且易于上手的专业采集软件,强大的内容采集和数据导入功能能将您采集的任何网页数据发布到远程服务器,自定义用户cms系统模块,不管你的网站是什么系统,都有可能使用上火车采集器,系统自带的模块文件支持:风讯文章,动易文章,动网论坛,PHPWIND论坛,Discuz论坛,phpcms文章,phparticle文章,LeadBBS论坛,魔力论坛,Dedecms文章,Xydw文章,惊云文章等的模块文件。更多cms模块请自己参照制作修改,也可到官方网站与大家交流制作。 同时您也可以使用系统的数据导出功能,利用系统内置标签,将采集到的数据对应表的字段导出到本地任何一款Access,SQLite,MySql,MS SqlServer内。
软件功能强大且易于上手的专业的互联网数据抓取、处理、分析,挖掘软件,强大的内容采集和数据导入功能能将您采集的任何网页数据发布到远程服务器。火车头采集器可以灵活迅速地抓取网页上散乱分布的数据信息,并通过一系列的分析处理,准确挖掘出所需数据。火车采集器历经十年的升级更新,积累了大量用户和良好口碑,是目前最受欢迎的网页数据采集软件。采集不限网页,不限内容,支持多种扩展,打破操作局限。采什么,如何采,都由您决定!
软件对比
火车头采集器和八爪鱼采集器哪个好用?
1.火车头采集器是一款互联网数据抓取、处理、分析,挖掘软件,可以抓取网页上散乱分布的数据信息,并通过一系列的分析处理,准确挖掘出所需数据。火车头采集器特点是采集不限网页,不限内容,采用分布式采集系统,效率较高。火车头采集器支持PHP和C#插件扩展,方便修改处理数据。
2.八爪鱼采集器是一款网页采集软件,可以从不同的网站获取规范化数据,帮助客户实现数据自动化采集,编辑规范化,从而降低成本,提高效率。八爪鱼采集器的特点是容易上手,完全可视化图形操作。八爪鱼内置可扩展的OCR接口,支持解析图片中的文字。八爪鱼采集任务可以自动运行,可以按照指定的周期自动采集。
综上两款采集器都有其各自优点,用户可根据自身使用习惯进行选择下载。
软件功能
1、Web发布配置管理
2、任务运行日志查看器
3、任务设置批量复制
4、数据库入库配置管理
5、简易验证码识别系统
6、获取源代码、http模拟提交工具
安装方法
1、在本站下载火车头采集器后,在电脑本地得到一个压缩包,解压后,双击.exe文件进入软件安装界面,点击【下一步】继续。
2、进入火车头采集器安装协议界面,您可以先阅读软件安装协议中的条款,阅读完成后点击【我接受】然后点击【下一步】继续。
3、选择火车头采集器安装位置,您可以点击【安装】,软件会默认安装,或者您可以点击【浏览】在打开的安装位置界面中,您可以自行选择软件安装位置,选择完成后点击【安装】。
4、火车头采集器正在安装中,您需要耐心等待软件安装完成就可以了。
5、火车头采集器安装完成,点击【完成】退出软件安装。
使用方法
1.在程序主界面中,点击“新建”下拉箭头,从中选择“任务”项。
2.在弹出的窗口中,输入“任务名”,同时点击“起始网址”栏目右侧的“添加”按钮。
3.接下来就极为重要的一步,就是对要进行采集的网站进行分板,对所采取的网站中各片文章的URL进行综合分析并找出规律,最后按如图进行填写。
4.然后切换至“第二步:采集内容规则”选项卡中,我们需要对网页内容进行分板。在此以“搜狗浏览器”为例,右击要进行分析的网页,从弹出的菜单中选择“审查元素”项。
5.在“开发式模式”界面中,点击“选择页面中的一个元素去透,视”按钮,接着点击“标题”内容,此时就可以在“开发者”窗口中显示标题所对应的标签,此例为“h2"。
6.接下来在”采集内容规则“界面中,点击“添加”按钮来添加“标题”项,或者直接双击“标题”项进行修改。在弹出的界面中,勾选”前后截取“,将设置前后辍分别为"“、”".
7.利用同样的方法添加其它采集内容的规则。切换至“第三步:发布内容设置”选项卡,勾选“启用 方式二”,并进行如图设置。
8.最后从任务列表中,勾选要采集的内容,点击“开始”按钮就可以按规则采集网站中的网页内容啦。
常见问题
火车头采集器怎么采集图片?
1.我们现在以采集同顺商城http://www.tongshun88.com的图片为例,首先复制网址打开同顺商城。选择一类你要采集的图片,你可以选择下面任意你喜欢的一类图片作为图片采集对象(我就以同顺商城的衣帽服饰栏为例)
2.新建任务,编辑采集网址规则。
3.【同顺商城】的【衣帽服饰】商品产品页一共2421页,由于时间关系,我现在只采集前5页的图片。在火车头批量添加前5也的起始网页网址:
4.打开刚刚添加的5个起始网页网址,右键,查看源代码。在源代码中找到能标示商品链接的首和尾,确定好采集网址规则。如下图.
5.保存所有的采集规则,测试采集,确定采集网址无误,进行下一步操作。
6.编辑采集内容规则。因为是采集图片,所以我们只需要编辑采集内容的的规则就行了。
7.采集内容规则如下设置:
8.勾选下载图片和图片保存路径,保存。
9.发布内容设置,保存,所以得设置完毕,开始采集!
10.在火车头采集器的【date】文件夹内可以找到采集到的所有图片。