Powered by GitBook

爬虫

一个爬虫会涉及的基本问题有

登录，需要爬的网站或接口是否需要验证登录
网页解析，通常使用成熟的解析库来进行，xpath或css方式。目前常用BeautifulSoup，或者scrapy会自带
存储，倾向于mongodb吧，文档形式扩展性强些，也比较方便
反爬虫，爬虫策略问题，尽量守规矩，不要引来战争
分布式，暂不考虑，有机会租个服务器试试

results matching ""

No results matching ""