Hot Search : Source embeded web remote control p2p game More...
Location : Home Search - crawler
Search - crawler - List
本程序是用python编写,无需安装。运行Crawler.exe就可以看到效果。 如果不修改配置是抓取新浪科技的内容,修改配置可以抓取指定的网站。 配置文件采用ini的格式. spider_config.ini蜘蛛的配置 1. maxThreads 爬虫的线程数 2. startURL 爬虫开始的URL 3. checkFilter 爬虫只抓取指定的URL(采用正则表达式匹配) 4. urlFilter 爬虫提供给分析器的URL(采用正则表达式匹配) sucker_config.ini 网页分析器的配置 1. maxThreads 分析器的线程数 2. pattern parser匹配的正则表达式 3. parser 指定对应pattern的分析器 本程序支持自定义分析器。可以参照软件包中NewsParser.py的写法自己写个parser,前提是熟悉python。写好后运行compile编译承pyc就可以了
Date : 2008-10-13 Size : 1.23mb User : 文君

flash抓取工具;绝对好用;完整版本;-flash crawler absolute ease of use full version
Date : 2025-12-22 Size : 498kb User : wei
CodeBus is one of the largest source code repositories on the Internet!
Contact us :
1999-2046 CodeBus All Rights Reserved.