豆瓣读书Python爬虫项目优化版

张

张建站

2026/6/20 15:50:17

10分钟阅读

接着上篇文章Python爬虫项目实战-使用常用库爬取豆瓣读书 Top 250我们把它升级成一个“麻雀虽小五脏俱全”的教学级工程基于上个豆瓣读书爬虫项目同时集成四大进阶方向并且保持结构清晰、可运行、可扩展。⚠️ 再次提醒仅供学习与课程演示请勿高频请求豆瓣。项目名称DoubanBookSpider-Pro一个集Scrapy 工程化分布式去重反爬策略异步高性能于一体的豆瓣读书爬虫一、项目结构重点douban_book_spider_pro/ ├── scrapy.cfg ├── requirements.txt ├── Dockerfile ├── docker-compose.yml └── douban_book_spider_pro/ ├── __init__.py ├── settings.py ├── pipelines.py ├── middlewares.py ├── items.py ├── db.py └── spiders/ ├── __init__.py ├── top250_spider.py # Scrapy 主爬虫 ├── async_spider.py # aiohttp 异步爬虫 ├── distributed_spider.py # Redis 分布式爬虫 └── anti_spider_demo.py # 反爬策略演示二、依赖清单requirements.txtscrapy2.11 redis5.0 fake-useragent requests beautifulsoup4 lxml pyquery selenium playwright aiohttp aioredispip install -r requirements.txt playwright install三、Item 定义items.pyimport scrapy class BookItem(scrapy.Item): title scrapy.Field() author scrapy.Field() publisher scrapy.Field() rating scrapy.Field() detail_url scrapy.Field()四、数据库封装db.pyimport redis REDIS_HOST localhost REDIS_PORT 6379 def get_redis(): return redis.Redis(hostREDIS_HOST, portREDIS_PORT, decode_responsesTrue)五、方向一Scrapy 工程化top250_spider.pyimport scrapy from douban_book_spider_pro.items import BookItem class Top250Spider(scrapy.Spider): name top250 allowed_domains [book.douban.com] start_urls [https://book.douban.com/top250] def parse(self, response): for item in response.css(.item): book BookItem() book[title] item.css(.title a::attr(title)).get() book[author] item.css(.author::text).get(default).strip() book[rating] item.css(.rating_nums::text).get() book[detail_url] item.css(.title a::attr(href)).get() yield book next_page response.css(.next a::attr(href)).get() if next_page: yield response.follow(next_page, self.parse)✅ 体现Spider 规范化Item 封装Pipeline 可扩展自动翻页六、方向二分布式去重distributed_spider.pyfrom scrapy_redis.spiders import RedisSpider from douban_book_spider_pro.items import BookItem class DistributedSpider(RedisSpider): name distributed redis_key douban:start_urls def parse(self, response): for item in response.css(.item): book BookItem() book[title] item.css(.title a::attr(title)).get() book[rating] item.css(.rating_nums::text).get() yield booksettings.py 关键配置SCHEDULER scrapy_redis.scheduler.Scheduler DUPEFILTER_CLASS scrapy_redis.dupefilter.RFPDupeFilter REDIS_HOST localhost REDIS_PORT 6379启动多个爬虫实例即可实现横向扩展。七、方向三反爬策略middlewares.pyfrom scrapy.downloadermiddlewares.useragent import UserAgentMiddleware from fake_useragent import UserAgent import random class RandomUserAgentMiddleware(UserAgentMiddleware): def __init__(self, *args, **kwargs): self.ua UserAgent() def process_request(self, request, spider): request.headers[User-Agent] self.ua.random class RandomDelayMiddleware: def process_request(self, request, spider): import time time.sleep(random.uniform(0.5, 1.5))settings.py 启用DOWNLOADER_MIDDLEWARES { douban_book_spider_pro.middlewares.RandomUserAgentMiddleware: 400, douban_book_spider_pro.middlewares.RandomDelayMiddleware: 500, }✅ 包含UA 随机化请求间隔可扩展代理池省略示例八、方向四异步高性能async_spider.pyimport aiohttp import asyncio from bs4 import BeautifulSoup from douban_book_spider_pro.items import BookItem URL https://book.douban.com/top250 async def fetch(session, url): async with session.get(url) as resp: return await resp.text() async def parse_html(html): soup BeautifulSoup(html, lxml) for item in soup.select(.item): book BookItem() book[title] item.select_one(.title a)[title] book[rating] item.select_one(.rating_nums).text print(book) async def main(): async with aiohttp.ClientSession() as session: html await fetch(session, URL) await parse_html(html) if __name__ __main__: asyncio.run(main())✅ 特点非阻塞 IO高并发适合大规模抓取九、Docker 化部署DockerfileFROM python:3.10-slim WORKDIR /app COPY . . RUN pip install -r requirements.txt playwright install --with-deps CMD [scrapy, crawl, top250]# docker-compose.yml version: 3 services: spider: build: . depends_on: - redis redis: image: redis:7十、整体数据流总结aiohttp / Scrapy ↓ UA 延迟代理 ↓ Redis 去重 ↓ BookItem ↓ Pipeline ↓ JSON / DB通过这个项目你了解了✅ Scrapy 工程化架构✅ Redis 分布式爬虫✅ 常见反爬策略✅ 异步高性能爬虫✅ Docker 化部署思路下一步你可以做什么✅ 把Playwright / Selenium 无缝接入 Scrapy Downloader Middleware✅ 把数据写入MySQL / MongoDB / Elasticsearch✅ 加一个前端可视化Flask ECharts✅ 讲清楚Scrapy vs aiohttp 性能对比与选型

即梦去水印保存后还有水印？2026实测去水印使用方法全解析

用即梦生成了一张满意的AI图，点下载却发现水印还在——这个问题2026年依然困扰着不少用户。有人反复操作了好几次，水印就是去不掉；也有人根本不知道即梦其实有官方去水印的入口。这篇文章从原因排查到正确操作，再到平台外的备用方…...

2026/6/19 8:21:15 阅读更多 →

观察Taotoken用量看板如何帮助个人开发者优化月度API预算

观察Taotoken用量看板如何帮助个人开发者优化月度API预算对于独立开发者或小型项目而言，大模型API的成本控制是一个现实的工程问题。直接使用多个厂商的原生服务，账单分散、统计口径不一，往往导致月度支出难以预测和复盘。Taotoken平台提供…...

2026/6/3 23:11:51 阅读更多 →

UDS诊断协议深度剖析：0x31例程控制服务｜全网最细报文拆解 + 量产级代码实现 + 车载实战案例｜覆盖ISO 14229-1全场景，适配STM32/AURIX多MCU，解决量产高频故障

目录一、0x31例程控制服务核心定义（ISO 14229-1:2020标准） 1.1 服务核心作用 1.2 服务核心特性（区别于其他UDS服务） 1.3 服务核心术语（量产开发必懂）二、0x31服务报文字节级拆解（全网最细，含标准+自定义扩展） 2.1 基础格式约定（ISO 14229-1标准） 2.2 请求报…...

2026/6/10 12:18:20 阅读更多 →

PyGAD实战指南：5大工业级遗传算法应用与避坑手册

1. 为什么是PyGAD而不是自己手写遗传算法？在Python生态里，提到遗传算法（Genetic Algorithm），很多人第一反应是“得从零开始搭轮子”：初始化种群、定义适应度函数、写选择/交叉/变异逻辑、控制迭代终止条件……...

2026/6/21 0:06:51 阅读更多 →

emWin三大核心控件实战：进度条、单选按钮与滚动条开发指南

1. 项目概述：深入emWin三大核心控件的实战应用在嵌入式图形界面开发领域，SEGGER的emWin以其高效、稳定和丰富的控件库而著称。对于许多从单片机裸机开发转向带屏交互的工程师来说，如何高效、正确地使用这些控件，往往是项目从“能跑…...

2026/6/21 0:07:47 阅读更多 →

英雄联盟终极效率工具：League Akari 完全指南

英雄联盟终极效率工具：League Akari 完全指南【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit League Akari是一款基于官方LCU API开…...

2026/6/21 0:08:50 阅读更多 →

Transformer 中的高效推理：推理时注意力压缩

Transformer 中的高效推理：推理时注意力压缩作者: Hao Sun, Yuxuan Li, Wei Lu 来源: https://arxiv.org/html/2606.20529v1摘要大型语言模型（LLMs）的部署成本高昂，主要受限于推理阶段的内存与计算开销。本文提出了一种推理时注…...

2026/6/21 0:09:56 阅读更多 →