首页 > 试题广场 >

需要抓取大量 URL 并解析 HTML。抓取是 IO 密集

[单选题]
需要抓取大量 URL 并解析 HTML。抓取是 I/O 密集,HTML 解析相对 CPU 密集。为了在 CPython 中获得更好的吞吐和资源利用,以下架构最合适的是?
  • 抓取与解析都放到 ThreadPoolExecutor 的线程中并发执行
  • 使用 asyncio 或线程处理抓取,将解析任务投递到 ProcessPoolExecutor 中并发解析
  • 使用单线程同步抓取,解析使用正则表达式以减少 CPU 占用
  • 全部改为多进程,在每个进程内顺序进行抓取和解析
看不懂
发表于 今天 16:53:52 回复(0)