Return to book
Review this book
About the author
Introduction
1.
WebMagic概览
1.1.
设计思想
1.2.
总体架构
1.3.
项目组成
2.
快速开始
2.1.
添加依赖
2.2.
不使用Maven
2.3.
编写第一个爬虫
3.
下载和编译源码
3.1.
下载源码
3.2.
导入项目
3.3.
编译和执行源码
4.
编写基本的爬虫
4.1.
实现PageProcessor
4.2.
使用Selectable的链式API
4.3.
保存结果
4.4.
爬虫的配置、启动和终止
4.5.
Jsoup与Xsoup
4.6.
爬虫的监控
5.
使用注解编写爬虫
5.1.
编写Model类
5.2.
TargetUrl与HelpUrl
5.3.
使用ExtractBy进行抽取
5.4.
在类上使用ExtractBy
5.5.
结果的类型转换
5.6.
一个完整的流程
5.7.
AfterExtractor
6.
组件的使用和定制
6.1.
定制Pipeline
6.2.
使用Scheduler
6.3.
使用Downloader
7.
实例分析
7.1.
列表+详情的基本页面组合
7.2.
抓取前端渲染的页面
7.3.
分页抓取
7.4.
定期抓取
7.5.
增量更新
Powered by
GitBook
A
A
Serif
Sans
White
Sepia
Night
Twitter
Google
Facebook
Weibo
Instapaper
WebMagic in Action
一些常见爬虫的编写方式
即使你对WebMagic的框架已经很熟练了,也会对有些爬虫的编写有些迷茫。比如如何定期抓取并更新、如何抓取动态渲染的页面等。
这一节我会整理一些常见案例,希望对读者有帮助。