抓取豆瓣电影Top250|Python爬虫学习笔记

还是先说下思路吧。

其实具体代码跟我之前写过的如何用爬虫抓取图片类似(什么类似,就是照那个改的。。。

唯一不同的是,这次需要爬虫自己能够翻页。豆瓣电影Top250每页显示25个,总共10页。其实仔细观察每页的URL是可以发现区别的,我就不说了,留给大家自己思考~~~

核心程序就是通过两个for循环,一个循环打开页面,一个循环遍历每部电影的名称。

最后应该是可以写入到文本里的,可是我懒得写就没写了,大家可以自行研究下~~

附上我的成品:豆瓣电影排行榜 TOP250

      

源代码


#coding=utf-8

import urllib
import urllib.request
import re

def getHtml(url):
page = urllib.request.urlopen(url)
html = page.read()
return html

def getMovieName(html):
reg = r'img alt="(.+)" s'
MovieName = re.compile(reg)
Namelist = re.findall(MovieName,html)
return Namelist

i = 1
for n in range(1,11):
m = 25*(n-1)
html = getHtml("http://movie.douban.com/top250?start=%d&filter=" %m).decode('utf-8')
for x in getMovieName(html):
print('Top %3d: %s' %(i,x))
i += 1
print ('finish!')



本文由www.feixingrui.com原创,转载请注明出处

费星瑞|爱学习



Leave a Reply

Your email address will not be published. Required fields are marked *