SparkanSpider

Introduction: java 爬虫,反爬虫策略、ETL 清洗数据,以及 spark 离线和实时分析新闻并存入 ES
More: Author   ReportBugs   
Tags:

sina 新闻爬取、去重、入库、spark 机器学习分类、实时处理

Apps
About Me
GitHub: Trinea
Facebook: Dev Tools