Matarael
严格遵守各种标准的分布式抓取系统。
上手即可用,已经身经百战
Matarael 不使用臃肿的 headless 浏览器,而是从头实现了大量 IETF RFC 和
W3C 标准,在充分遵守 robots.txt、X-Robots-Tag 等各种 Robots Exclusion
协议的形式和变体的前提下,既做到了完全基于 stream 的高效抓取,又支持如
JavaScript 跳转等高级特性。
Matarael 能够分布式构建 web graph,并支持基于 MapReduce 的分析和图计算。
以下产品正在使用 Matarael
其他可选语言:
English