Pyspider框架 —— Python爬虫实战之爬取 V2EX 网站帖子

咨询

Pyspider框架 —— Python爬虫实战之爬取 V2EX 网站帖子

作者：猿blog 来源：51CTO 发布于 2016-11-17

次浏览

背景：

PySpider：一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写，分布式架构，支持多种数据库后端，强大的WebUI支持脚本编辑器，任务监视器，项目管理器以及结果查看器。在线示例： http://demo.pyspider.org/

前提:

你已经安装好了Pyspider 和 MySQL-python(保存数据)

如果你还没安装的话，请看看我的前一篇文章，防止你也走弯路。

Pyspider 框架学习时走过的一些坑

我所遇到的一些错误：

首先，本爬虫目标：使用 Pyspider 框架爬取 V2EX 网站的帖子中的问题和内容，然后将爬取的数据保存在本地。

V2EX 中大部分的帖子查看是不需要登录的，当然也有些帖子是需要登陆后才能够查看的。(因为后来爬取的时候发现一直 error ，查看具体原因后才知道是需要登录的才可以查看那些帖子的)所以我觉得没必要用到 Cookie，当然如果你非得要登录，那也很简单，简单地方法就是添加你登录后的 cookie 了。

我们在 https://www.v2ex.com/ 扫了一遍，发现并没有一个列表能包含所有的帖子，只能退而求其次，通过抓取分类下的所有的标签列表页，来遍历所有的帖子： https://www.v2ex.com/?tab=tech 然后是 https://www.v2ex.com/go/progr... 最后每个帖子的详情地址是 (举例)： https://www.v2ex.com/t/314683...

创建一个项目

在 pyspider 的 dashboard 的右下角，点击 “Create” 按钮

替换 on_start 函数的 self.crawl 的 URL：

self.crawl 告诉 pyspider 抓取指定页面，然后使用 callback 函数对结果进行解析。

@every) 修饰器，表示 on_start 每天会执行一次，这样就能抓到最新的帖子了。

validate_cert=False 一定要这样，否则会报 HTTP 599: SSL certificate problem: unable to get local issuer certificate错误

首页：

点击绿色的 run 执行，你会看到 follows 上面有一个红色的 1，切换到 follows 面板，点击绿色的播放按钮：

第二张截图一开始是出现这个问题了，解决办法看前面写的文章，后来问题就不再会出现了。

Tab 列表页 :

在 tab 列表页中，我们需要提取出所有的主题列表页的 URL。你可能已经发现了，sample handler 已经提取了非常多大的 URL

代码：

由于帖子列表页和 tab列表页长的并不一样，在这里新建了一个 callback 为 self.tab_page

@config(age=10 24 60 * 60) 在这表示我们认为 10 天内页面有效，不会再次进行更新抓取

Go列表页 :

代码：

帖子详情页(T):

你可以看到结果里面出现了一些reply的东西，对于这些我们是可以不需要的，我们可以去掉。

同时我们还需要让他自己实现自动翻页功能。

代码：

去掉后的运行截图：

实现自动翻页后的截图：

此时我们已经可以匹配了所有的帖子的 url 了。

点击每个帖子后面的按钮就可以查看帖子具体详情了。

代码：

插入数据库的话，需要我们在之前定义一个add_question函数。

查看爬虫运行结果：

先debug下，再调成running。pyspider框架在windows下的bug

设置跑的速度，建议不要跑的太快，否则很容易被发现是爬虫的，人家就会把你的IP给封掉的

查看运行工作

查看爬取下来的内容

然后再本地数据库GUI软件上查询下就可以看到数据已经保存到本地了。

自己需要用的话就可以导入出来了。

在开头我就告诉大家爬虫的代码了，如果详细的看看那个project，你就会找到我上传的爬取数据了。(仅供学习使用，切勿商用!)

当然你还会看到其他的爬虫代码的了，如果你觉得不错可以给个 Star，或者你也感兴趣的话，你可以fork我的项目，和我一起学习，这个项目长期更新下去。

最后：

代码：

次浏览

相关文章

手机软件测试用例设计实践

手机客户端UI测试分析

iPhone消息推送机制实现与探讨

Android手机开发（一）

相关文档

Android_UI官方设计教程

手机开发平台介绍

android拍照及上传功能

Android讲义智能手机开发

相关课程

Android高级移动应用程序

Android系统开发

Android应用开发

手机软件测试

最新活动计划

DeepSeek在软件测试应用实践 4-12[在线]

DeepSeek大模型应用开发实践 4-19[在线]

UAF架构体系与实践 4-11[北京]

AI智能化软件测试方法与实践 5-23[上海]

基于 UML 和EA进行分析设计 4-26[北京]

业务架构设计与建模 4-18[北京]

相关文章

android人机界面指南

Android手机开发（一）

Android手机开发（二）

Android手机开发（三）

Android手机开发（四）

iPhone消息推送机制实现探讨

手机软件测试用例设计实践

手机客户端UI测试分析

手机软件自动化测试研究报告

相关培训课程

Android高级移动应用程序

Android应用开发

Android系统开发

手机软件测试

嵌入式软件测试

Android软、硬、云整合

更多课程...

成功案例

领先IT公司 android开发平台最佳实践

北京 Android开发技术进阶

某新能源领域企业 Android开发技术

某航天公司 Android、IOS应用软件开发

阿尔卡特 Linux内核驱动

艾默生嵌入式软件架构设计

西门子嵌入式架构设计