反馈 — mailto 污染邮箱字段¶
原文 / 原始内容¶
分析这个邮箱采集的问题,并告诉我如何改进。
截图显示邮箱列表中有一条:
%20i%20encountered%20an%20error%20and%20need%20support.%0d%0a%0d%0a966df647f3badc9e28832fdc03580ecb%0d%0a%0d%0a%3a%0d%0adigitalcare@dollargeneral.com
来源商家:Dollar General 来源网址:dollargeneral.com/store-directory/al/hillsboro/15555
上下文¶
- 版本:v0.10.32
- 数据量:邮箱列表 1501 条
- 这是众多脏数据中显眼的一条,可能还有其他更短的污染
诊断¶
URL 解码后内容是用户写邮件的"举报错误"模板:
根因:scraper 的 EMAIL_REGEX 字符类含 %,把整段 mailto body 当邮箱本地部分。
详细分析见 [[0023-mailto-url-encoded-pollutes-email|0023-mailto链接URL编码污染邮箱]]。
处置¶
立即升 v0.10.33 实施三层防御 + 存量清洗按钮。