跳转至

反馈 — mailto 污染邮箱字段

原文 / 原始内容

分析这个邮箱采集的问题,并告诉我如何改进。

截图显示邮箱列表中有一条:

%20i%20encountered%20an%20error%20and%20need%20support.%0d%0a%0d%0a966df647f3badc9e28832fdc03580ecb%0d%0a%0d%0a%3a%0d%0adigitalcare@dollargeneral.com

来源商家:Dollar General 来源网址:dollargeneral.com/store-directory/al/hillsboro/15555

上下文

  • 版本:v0.10.32
  • 数据量:邮箱列表 1501 条
  • 这是众多脏数据中显眼的一条,可能还有其他更短的污染

诊断

URL 解码后内容是用户写邮件的"举报错误"模板:

 i encountered an error and need support.
966df647...(错误 ID)
:
digitalcare@dollargeneral.com

根因:scraper 的 EMAIL_REGEX 字符类含 %,把整段 mailto body 当邮箱本地部分。

详细分析见 [[0023-mailto-url-encoded-pollutes-email|0023-mailto链接URL编码污染邮箱]]。

处置

立即升 v0.10.33 实施三层防御 + 存量清洗按钮。