爬虫html解析

by 夏泽民 Aug 15, 2021

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。bs4 模块的 BeautifulSoup 配合requests库可以写简单的爬虫。

https://www.cnblogs.com/tgzhu/p/11385068.html

bs4 全名 BeautifulSoup，是编写 python 爬虫常用库之一，主要用来解析 html 标签

https://www.cnblogs.com/yuanyongqiang/p/11956106.html

https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

Python爬虫工程师有个常用的提取数据的库BeautifulSoup，而在Golang语言也有一个对应的库soup，由于我比较喜欢Python写爬虫所以自然而然的就想到了soup，这篇文章就是就来体验一下它。
https://github.com/anaskhan96/soup

https://stackoverflow.com/questions/51299572/trouble-parsing-html-with-beautifulsoup-or-golang-colly

https://studygolang.com/articles/21893?fr=sidebar

https://pkg.go.dev/golang.org/x/net/html

https://github.com/gocolly/colly
https://github.com/PuerkitoBio/goquery

https://github.com/microcosm-cc/bluemonday

Celery 是一个由 Python 编写的简单、灵活、可靠的用来处理大量信息的分布式系统,它同时提供操作和维护分布式系统所需的工具。

Celery 专注于实时任务处理，支持任务调度。

说白了，它是一个分布式队列的管理工具，我们可以用 Celery 提供的接口快速实现并管理一个分布式的任务队列。

https://blog.csdn.net/qq_37049050/article/details/82260151

https://www.cnblogs.com/cwp-bg/p/8759638.html

https://zhuanlan.zhihu.com/p/22304455

Category golang