跳转至

网站采集云端协同 + 贡献度构想

用户原话(v0.10.85 讨论中)

结合以上从专业的角度梳理方案,日志要同步进行更新,便于分析,域名状态等要单独管理吗?

发散下思维,关于采集的,是不是可以和云端结合,先从云端获取状态,用户客户端也不断更新云端状态?如何利用众多的客户端,实现一起加速的目的,另外有些网站数据采集了,其他人是不是可以直接调用呢?过期时间如何设置呢?是不是要有个类似积分或者贡献度的规则,新增的就发贡献度?然后查看就消耗贡献度?有的网站通过链接先从云端直接获取,消耗贡献度?

拆解的核心问题

  1. 日志同步:抓取过程要可观测(每条记录走哪条路径)
  2. 域名状态单独管理:dead / antibot / friendly 等分层持久化
  3. 云端众包:先查云端 → 没数据再客户端抓 → 抓完回写云端
  4. 数据复用:A 用户抓过 example.com 的 contact,B 用户直接用
  5. 贡献度机制:新数据 +X 分,查看消耗 Y 分
  6. 数据时效:过期时间怎么设?联系信息 vs anti-bot 状态 vs 死域名各自周期
  7. 混合策略:链接级查询("我要查这 100 个域名")按需消耗

上下文

  • 已实施:v0.10.85 任务 id 12 位 base36
  • 在讨论:网站抓取多阶段(HEAD probe + GET fetch + body 双层 anti-bot 判断)
  • 已有:cloud-data-sync 上传商家数据(单向用户 → 云端备份),但没有"反向查询云端拿别人抓的"

关联 SPEC

SPEC-004-网站采集多阶段优化-云端协同