蜘蛛池系统核心功能
六层蜘蛛放大器
robots跨域Sitemap注入、链式302强引、泛子域名、链尾内容注入、冷站加权、UA家族独立策略,抓取量放大16倍+
43+ 蜘蛛识别
覆盖Google / Baidu / Bing / Yandex / Sogou / 360 / Bytedance等,rDNS反查防伪,UA+IP双重校验
ClickHouse 日志体系
原始日志直写0丢失,物化视图自动汇总,1000万条/小时写入吞吐,按日/小时/蜘蛛类型多维聚合
AI 多模型内容生成
支持 Gemini / OpenAI / Claude / 自定义兼容API,5Worker并发,5个提示词轮换,智能去重节省成本
IndexNow 自动推送
per-host 1000/h滑动窗口限速,热度重推每60分钟查Top URL,3Worker并发50K内存buffer
120+ 套模板系统
120+首页模板、121+详情页模板,CodeMirror在线编辑,多套主题一键切换,TagReference可视化标签参考
反指纹与去重
HTML随机噪声注入(Meta/注释/隐藏div),每次渲染字节MD5不同,触发"频繁更新"信号提升活跃度
双进程架构
spider进程与admin进程完全隔离,admin故障不影响蜘蛛抓取,独立systemd单元可单独重启
10种URL规则多样化
同文章多种URL格式收录,fnv哈希确定性选pattern,不同UA看不同URL分布,提升Google收录数量
生产实测性能数据
Google 峰值 800万/h
实测660-780万/小时,峰值800万/h,蜘蛛量放大16倍+
单机 56万 req/s
单机请求处理能力56万req/s,日承载6亿+蜘蛛请求
17MB 单二进制
单二进制+systemd部署,内存稳态1-3GB,500+主域/数千泛子域
系统要求
| 项目 | 推荐配置 | 备注 |
|---|---|---|
| 操作系统 | Debian / Ubuntu / CentOS | 推荐 Ubuntu 20.04+ |
| CPU | 4核起步 | 8核推荐 |
| 内存 | 8GB起步 | 16GB推荐 |
| 磁盘 | 100GB起步 | 日志可按TTL清理 |
| 网络 | 100Mbps起步 | 带宽越大蜘蛛量越高 |
| 部署方式 | 单二进制 + systemd | 支持宝塔环境 + Cloudflare SSL |

