网站采集云端协同 + 贡献度构想¶
用户原话(v0.10.85 讨论中)¶
结合以上从专业的角度梳理方案,日志要同步进行更新,便于分析,域名状态等要单独管理吗?
发散下思维,关于采集的,是不是可以和云端结合,先从云端获取状态,用户客户端也不断更新云端状态?如何利用众多的客户端,实现一起加速的目的,另外有些网站数据采集了,其他人是不是可以直接调用呢?过期时间如何设置呢?是不是要有个类似积分或者贡献度的规则,新增的就发贡献度?然后查看就消耗贡献度?有的网站通过链接先从云端直接获取,消耗贡献度?
拆解的核心问题¶
- 日志同步:抓取过程要可观测(每条记录走哪条路径)
- 域名状态单独管理:dead / antibot / friendly 等分层持久化
- 云端众包:先查云端 → 没数据再客户端抓 → 抓完回写云端
- 数据复用:A 用户抓过 example.com 的 contact,B 用户直接用
- 贡献度机制:新数据 +X 分,查看消耗 Y 分
- 数据时效:过期时间怎么设?联系信息 vs anti-bot 状态 vs 死域名各自周期
- 混合策略:链接级查询("我要查这 100 个域名")按需消耗
上下文¶
- 已实施:v0.10.85 任务 id 12 位 base36
- 在讨论:网站抓取多阶段(HEAD probe + GET fetch + body 双层 anti-bot 判断)
- 已有:cloud-data-sync 上传商家数据(单向用户 → 云端备份),但没有"反向查询云端拿别人抓的"