爬虫

一个爬虫会涉及的基本问题有

  1. 登录,需要爬的网站或接口是否需要验证登录
  2. 网页解析,通常使用成熟的解析库来进行,xpath或css方式。目前常用BeautifulSoup,或者scrapy会自带
  3. 存储,倾向于mongodb吧,文档形式扩展性强些,也比较方便
  4. 反爬虫,爬虫策略问题,尽量守规矩,不要引来战争
  5. 分布式,暂不考虑,有机会租个服务器试试

results matching ""

    No results matching ""