Toggle navigation
codeKK
OP Analysis
Open Project
Login with GitHub
SparkanSpider
Project Url:
peopleindreamdontsleep/SparkanSpider
Introduction: java 爬虫,反爬虫策略、ETL 清洗数据,以及 spark 离线和实时分析新闻并存入 ES
More:
Author
ReportBugs
Tags:
sina 新闻爬取、去重、入库、spark 机器学习分类、实时处理
loading
Apps
Android Developer Tools
Android Developer Tools Pro
About Me
Tools:
TimeShining
GitHub:
Trinea
Facebook:
Dev Tools
JSON 格式化,支持纠错
MD5/SHA 编码,支持批量处理
文本自动空格处理
CSS 格式化/压缩