Files
2026-04-28 17:33:51 +08:00

1.9 KiB
Raw Permalink Blame History

lawyers-common-sites

/www/wwwroot/lawyer 中抽离出的 common_sites 独立项目。

目录

  • common_sites/: 站点采集脚本
  • request/: 代理配置
  • utils/: 公共工具
  • Db.py: 数据库封装
  • config.py: 项目配置

快速启动

cd /www/wwwroot/lawyers
python -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
bash common_sites/start.sh

拆分运行(直连/代理)

本仓库支持用环境变量 PROXY_ENABLED 在一次运行内强制开/关代理:

  • 直连PROXY_ENABLED=0(不使用代理 IP
  • 代理PROXY_ENABLED=1(强制使用 request/proxy_settings.json 的代理配置)
  • 默认:不设置(跟随 request/proxy_settings.jsonenabled 字段)

对应提供两套入口脚本:

# 直连(默认包含:大律师/大律师PC/找法网/法律快车)
bash common_sites/start_direct_twice_weekly.sh

# 代理(默认包含:华律/律图)
bash common_sites/start_proxy_weekly.sh

cron 示例(每周两次直连 + 每周一次代理)

下面仅给示例,你可以按机器负载调整时间;日志会输出到 common_sites/*.log

# 编辑定时任务
crontab -e

# 每周二、周五 02:10 直连跑一次
10 2 * * 2,5 cd /www/wwwroot/lawyers && bash common_sites/start_direct_twice_weekly.sh

# 每周日 03:20 走代理跑一次(你手动续费代理 IP)
20 3 * * 0 cd /www/wwwroot/lawyers && bash common_sites/start_proxy_weekly.sh

常用参数(可选)

# 限流(跨进程共享),直连可适当调高,代理建议保守
export PROXY_MAX_REQUESTS_PER_SECOND=8

# 代理连通性输出(部分脚本会打印测试信息)
export PROXY_TEST=1

说明

  • 当前项目直接复用原项目数据库配置和代理配置。
  • 采集依赖原库中的 lawyerarea_newareaarea2 等表。
  • 日志默认输出到 common_sites/*.log