抓取豆瓣电影Top250｜Python爬虫学习笔记

还是先说下思路吧。

其实具体代码跟我之前写过的如何用爬虫抓取图片类似（什么类似，就是照那个改的。。。

唯一不同的是，这次需要爬虫自己能够翻页。豆瓣电影Top250每页显示25个，总共10页。其实仔细观察每页的URL是可以发现区别的，我就不说了，留给大家自己思考～～～

核心程序就是通过两个for循环，一个循环打开页面，一个循环遍历每部电影的名称。

最后应该是可以写入到文本里的，可是我懒得写就没写了，大家可以自行研究下～～

源代码

#coding=utf-8


import urllib

import urllib.request

import re
def getHtml(url):

    page = urllib.request.urlopen(url)

    html = page.read()

    return html
def getMovieName(html):

    reg = r'img alt="(.+)" s'

    MovieName = re.compile(reg)

    Namelist = re.findall(MovieName,html)

    return Namelist

i = 1 for n in range(1,11): m = 25*(n-1) html = getHtml("http://movie.douban.com/top250?start=%d&filter=" %m).decode('utf-8') for x in getMovieName(html): print('Top %3d: %s' %(i,x)) i += 1 print ('finish!')

本文由www.feixingrui.com原创，转载请注明出处。

费星瑞｜爱学习

费星瑞

爱生活丨爱学习丨爱劳动丨爱祖国

抓取豆瓣电影Top250｜Python爬虫学习笔记

Leave a Reply Cancel reply