Scrapy-基础-url拼接

本文最后更新于:2021年2月5日 下午

信息

爬虫过程中,url拼接的问题几乎是100%会碰到的
你当然可以使用字符串并接的方式删删拼拼达到目的,但那样做显得很麻瓜。而且,由于<a>@href<img>@src呈现出来的内容的不同,可能每一个url都要区别对待
实际上,倒是有一些函数能帮忙做这些事情

方法

基本字符串拼接

1
2
url = 'https://www.a.com' + '/index.html'
url = 'https://www.a.com/index.html'[:11] + '/1_1.html'

最多最多就是把host拿来用一下减轻一些观感上的压力,但实际上就是很麻烦

response.joinurl

scrapy的解析函数参数response的函数joinurl能够很轻松的处理url拼接问题

1
2
a_href = '/a/1.html'
url = response.urljoin(a_href)

response.follow

此函数用于直接对新的url发起请求,它会计算新的url来访问

1
2
a_href = '/a/1.html'
yield response.follow(a_href, callback=self.parse)

本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!