首页 > 试题广场 >

需要抓取大量 URL 并解析 HTML。抓取是 IO 密集

[单选题]

需要抓取大量 URL 并解析 HTML。抓取是 I/O 密集，HTML 解析相对 CPU 密集。为了在 CPython 中获得更好的吞吐和资源利用，以下架构最合适的是？

抓取与解析都放到 ThreadPoolExecutor 的线程中并发执行

使用 asyncio 或线程处理抓取，将解析任务投递到 ProcessPoolExecutor 中并发解析

使用单线程同步抓取，解析使用正则表达式以减少 CPU 占用

全部改为多进程，在每个进程内顺序进行抓取和解析

查看正确选项

已注销

看不懂

发表于 2025-12-02 16:53:52 回复(0)

freshman2026

简单点说就是进程占用内存，而且切换麻烦，不能像线程一样进行异步并发，python 的进程好像有一个协程机制，就用来应对 cil 线程锁的问题，可以实现多个线程异步并发，所以速度快，我感觉再说废话，欢迎大佬总结

发表于 2026-04-17 23:21:07 回复(0)

周俊杰2

有点难

发表于 2026-01-17 20:12:33 回复(0)

提交观点

问题信息

Python

难度：

3条回答 50收藏 535浏览

扫一扫，把题目装进口袋