Matarael

严格遵守各种标准的分布式抓取系统

上手即可用,已经身经百战

Matarael 不使用臃肿的 headless 浏览器,而是从头实现了大量 IETF RFC 和 W3C 标准,在充分遵守 robots.txt、X-Robots-Tag 等各种 Robots Exclusion 协议的形式和变体的前提下,既做到了完全基于 stream 的高效抓取,又支持如 JavaScript 跳转等高级特性。

Matarael 能够分布式构建 web graph,并支持基于 MapReduce 的分析和图计算。

以下产品正在使用 Matarael

其他可选语言: English