用Python做了个Spider

原创 hamo  2009-03-06 09:03  阅读 3,751 views 次

前因:

  1. 前些天为TAR写了一个Python的接口插件tar_pytar后,对python的兴致很高。
  2. 本博上面最火的文章就是“开源的火车头采集-Wordpress2.7.1免登录发布接口”,看来大家利用采集做垃圾站的热情也很好。
  3. 著名的火车头采集器LocoySpider也出2009版了,解决了.Net 3.5不兼容问题,而且采集标签进行了语法高亮。很好很强大。但是免费版不支持任意附件下载功能…
  4. 想下载点资料,但是论坛里面一个一个点击太烦…

于是:

自己做一个吧,python做这个肯定很合适,与火车头的功能做个对比:

image

说明:

私人玩具,无意公开。

本文地址:https://www.satwe.com/archives/961.html
关注我们:请关注一下我们的微信公众号:扫描二维码哈默博客的公众号,公众号:aiboke112
版权声明:本文为原创文章,版权归 hamo 所有,欢迎分享本文,转载请保留出处!

发表评论


表情

  1. cnpabi
    cnpabi 【农民】 @回复

    大哥太牛了。。。居然做出跟火车头企业版相媲美的工具,佩服佩服。。。
    大哥可以跟火车头竞争啊。。哈哈

  2. cnn
    cnn 【农民】 @回复

    支持出一个。最好跟wordpress, joomla, phpbb这些开源系统有良好的兼容!

  3. jack
    jack 【农民】 @回复

    有没有好点的方法过滤文中html标签以及转义符?

  4. njloong
    njloong 【农民】 @回复

    果断佩服,什么在你面前都弱爆了呢,要是能公开就好了呢。