`
emowuyi
  • 浏览: 1478382 次
文章分类
社区版块
存档分类
最新评论

用python批量下载网站内容

 
阅读更多

逛到一个网站http://www.meiguoliyu.com/发现里边的内容挺不错的,但是一页就那么一点内容,总共几百页,一页一页点过去浏览也太累了

用PYTHON写了个程序把这几百页的内容都整合到一个文件里去,只用了十几行代码,python果然够简洁的。


导入库urllib,urllib2作为基本的HTTP连接的库,re库为正则表达式库,整合数据时需要。

http://www.meiguoliyu.com/html/meiguoliyu/2009/0307/liyudingyi.html为该网站内容的第一页的地址。

将所有内容存在本地HTTP_LIYU_DOWN.html文件里

以下就开始WHILE循环啦

下面是具体的解释:

直接urllib.urlopen(url).read()调用就可以读取该地址网页内容,并存在content里

然后就是在数据里搜寻目标数据了

看网页代码寻找规律,

标题部分
正文部分


可以发现

标题位于<title></title>之间,

而正文位于 <div class="content"> </div><!--/content --> 之间,

下一页的连接地址位于 <li>下一篇:<a href.</li>之间,且以http://.开头,以html结尾。

用正则表达式搜寻这两个特征:

标题为'<title>.*</title>'

正文为'<div class="content.*</div><!-- /content -->'

链接地址为'<li>下一篇:<a href.*</li>'

更新链接地址到URL后,就可以开始循环直到末页为止了

运行效果为

-----------------------------------------------------------------------------------------------------------------------------------------------------




-----------------------------------------------------------------------------------------------------------------------------------------------------


可见所有正文部分都被集合在了一起,方便了许多






分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics