前因:
- 前些天为TAR写了一个Python的接口插件tar_pytar后,对python的兴致很高。
- 本博上面最火的文章就是“开源的火车头采集-Wordpress2.7.1免登录发布接口”,看来大家利用采集做垃圾站的热情也很好。
- 著名的火车头采集器LocoySpider也出2009版了,解决了.Net 3.5不兼容问题,而且采集标签进行了语法高亮。很好很强大。但是免费版不支持任意附件下载功能…
- 想下载点资料,但是论坛里面一个一个点击太烦…
于是:
自己做一个吧,python做这个肯定很合适,与火车头的功能做个对比:
说明:
私人玩具,无意公开。
4 replies on “用Python做了个Spider”
大哥太牛了。。。居然做出跟火车头企业版相媲美的工具,佩服佩服。。。
大哥可以跟火车头竞争啊。。哈哈
支持出一个。最好跟wordpress, joomla, phpbb这些开源系统有良好的兼容!
有没有好点的方法过滤文中html标签以及转义符?
果断佩服,什么在你面前都弱爆了呢,要是能公开就好了呢。