python亚马逊购物信息爬虫 (python爬取亚马逊)

1. 仔细分析亚马逊查询详细界面可以看出来，主要关键部分有三个地方，这三个地方分别控制了查询列表的页面和关键字，所以修改这几个参数可以改变列表页数以及模糊查询的结果

http://www.amazon.cn/s/ref=sr_pg_3?rh=n%3A658390051%2Ck%3Aphp&page=3&keywords=Java&ie=UTF8&qid=1459478790

python爬取亚马逊评论,python自动爬取亚马逊产品

2. 通过基础链接以及正则表达式匹配的方法进行替换的方式改变爬取页面，注意由于使用了正则表达式匹配，所以需要引入re模块

python爬取亚马逊评论,python自动爬取亚马逊产品

3. 调用F12查看网页源码，可以看到需要爬取的结果列表都是在一个<li></li>标签内，标签id按顺序递增，对urllib2.open(url).read()获取的网页源码用BeautifulSoup处理之后的结果集进行findAll查找可以获取单个页面的所有书籍对象信息。

python爬取亚马逊评论,python自动爬取亚马逊产品

4. 获取书籍名称以及卖家数和优惠信息

python爬取亚马逊评论,python自动爬取亚马逊产品

而卖家信息和书籍优惠信息可以从<span></span>标签中使用正则表达式获取youHui = re.findall(’<span class="a-color-secondary">(.*?)</span>’,str(i),re.S)。至于为什么将卖家信息与优惠信息一块爬取。其实是我还没有好的办法区分两个信息，所以各位大神有什么好的方法请指导以下，

小弟感激不尽了。附上代码(page_num >= 2这个可以去掉，则可以爬取整个列表，调试时可以加上限制，只爬取2页):

python爬取亚马逊评论,python自动爬取亚马逊产品