Home > 技术讨论 > 用Python做了个Spider

用Python做了个Spider

前因:

  1. 前些天为TAR写了一个Python的接口插件tar_pytar后,对python的兴致很高。
  2. 本博上面最火的文章就是“开源的火车头采集-Wordpress2.7.1免登录发布接口”,看来大家利用采集做垃圾站的热情也很好。
  3. 著名的火车头采集器LocoySpider也出2009版了,解决了.Net 3.5不兼容问题,而且采集标签进行了语法高亮。很好很强大。但是免费版不支持任意附件下载功能…
  4. 想下载点资料,但是论坛里面一个一个点击太烦…

于是:

自己做一个吧,python做这个肯定很合适,与火车头的功能做个对比:

image

说明:

私人玩具,无意公开。

Categories: 技术讨论 Tags: ,
  1. March 10th, 2009 at 16:28 | #1

    大哥太牛了。。。居然做出跟火车头企业版相媲美的工具,佩服佩服。。。
    大哥可以跟火车头竞争啊。。哈哈

  2. cnn
    March 20th, 2009 at 17:25 | #2

    支持出一个。最好跟wordpress, joomla, phpbb这些开源系统有良好的兼容!

  3. December 5th, 2010 at 20:06 | #3

    有没有好点的方法过滤文中html标签以及转义符?

  4. December 22nd, 2011 at 14:18 | #4

    果断佩服,什么在你面前都弱爆了呢,要是能公开就好了呢。

  1. No trackbacks yet.