最新消息:

用Python做了个Spider

技术讨论 hamo 3188浏览 0评论

前因:

  1. 前些天为TAR写了一个Python的接口插件tar_pytar后,对python的兴致很高。
  2. 本博上面最火的文章就是“开源的火车头采集-Wordpress2.7.1免登录发布接口”,看来大家利用采集做垃圾站的热情也很好。
  3. 著名的火车头采集器LocoySpider也出2009版了,解决了.Net 3.5不兼容问题,而且采集标签进行了语法高亮。很好很强大。但是免费版不支持任意附件下载功能…
  4. 想下载点资料,但是论坛里面一个一个点击太烦…

于是:

自己做一个吧,python做这个肯定很合适,与火车头的功能做个对比:

image

说明:

私人玩具,无意公开。

转载请注明:哈默博客 » 用Python做了个Spider

发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

网友最新评论 (4)

  1. 大哥太牛了。。。居然做出跟火车头企业版相媲美的工具,佩服佩服。。。 大哥可以跟火车头竞争啊。。哈哈
    cnpabi2009-03-10 16:28
  2. 支持出一个。最好跟wordpress, joomla, phpbb这些开源系统有良好的兼容!
    cnn2009-03-20 17:25
  3. 有没有好点的方法过滤文中html标签以及转义符?
    jack2010-12-05 20:06
  4. 果断佩服,什么在你面前都弱爆了呢,要是能公开就好了呢。
    njloong2011-12-22 14:18