想爬的URL中含有中文怎么办?


话说昨天想整理一篇人人都是产品经理网站上的文章,然而,里面全是图片,于是想写个爬虫把他们爬下来。

可是就在我查看网页源代码的时候,问题来了:

纳尼??中文???

好吧其实我第一次尝试的时候是忽略中文了,直接使用如何用爬虫抓取图片里面的代码进行爬取。当然,结果就是报错,报错,报错。。。。。

于是问了下伟大的度娘,得到的一些方法都不行,比如import sys什么什么的……(会不会跟我是python3有关系?)

不管了,问题不解决睡不着啊!怎么办怎么办?于是我想到了一个讨巧的办法“拼接URL”!!!

因为我想到了中文是可以进行URL编码的!!!

百度(动词)URL在线编码,输入【幻灯片】,点击编码,即可得到【%E5%B9%BB%E7%81%AF%E7%89%87】

再然后就不用我教了吧~~~


本文由www.feixingrui.com原创,转载请注明出处。

技术改变世界~



4 thoughts on “想爬的URL中含有中文怎么办?

      1. 麻烦问下,我用了你说的转码,为啥还是报错呢Exception “unhandled UnicodeDecodeError”
        ‘utf-8’ codec can’t decode byte 0xb6 in position 107431: invalid start byte

Leave a Reply

Your email address will not be published. Required fields are marked *