故障排查
self-host Multica 常见问题——症状、原因、怎么查、怎么修。
按症状查问题。每条问题都给症状 / 可能原因 / 怎么查 / 怎么修四段。如果你的情况不在下面,到 GitHub 提 issue。
守护进程连不上服务器
症状:multica daemon 的 status 命令显示 offline 或 connection refused;服务器日志里没有 /api/daemon/register 或 /api/daemon/heartbeat 的请求。守护进程机制详见 守护进程与运行时。
可能原因:
MULTICA_SERVER_URL指错地址 —— 默认是ws://localhost:8080/ws,self-host 要改成你自己的 server 地址- 网络 / 防火墙阻挡 —— daemon 和 server 不在同一网络,或出站被 block
- Token 过期或无效 —— 你从来没跑过
multica login,或 PAT 被撤销 - 服务器拒绝注册 —— 你登录的账号不在目标工作区(register 返 403)
- DNS 解析失败 —— hostname 在 daemon 机器上解不出来
怎么查:
multica daemon logs --lines 100 # 看 daemon 侧错误
echo $MULTICA_SERVER_URL # 确认地址配对
curl -i http://<server-host>:8080/health # 直接戳 server
curl -i http://<server-host>:8080/readyz # 连同 DB + migration readiness 一起检查
cat ~/.multica/config.json # 看 api_token 是否存在
multica workspace list # 确认你是目标工作区成员怎么修:按上面原因对症处理。最常见的两个是改 MULTICA_SERVER_URL 重启 daemon(multica daemon restart)和重新登录(multica logout && multica login)。
任务一直卡在 queued
症状:把 issue 分给 agent 后,issue 状态立刻变 in_progress,但过了很久页面没有 agent 执行的迹象;multica daemon status 显示 daemon online。
可能原因(按触发概率排):
- 智能体并发上限已满 —— 该 agent 的
max_concurrent_tasks(默认 6)已经被其他正在跑的任务占满 - 同一 issue 上有另一个同 agent 的任务还没结束 —— 同 agent × 同 issue 强制串行(防止重复执行)
- 智能体已经被 archive —— 被归档后新任务仍能入队,但无法被 claim,会卡到 5 分钟超时(code-issue G-01)
- Daemon 没在当前工作区注册该 runtime —— 重启 daemon 或在 UI 重新选一次 runtime
- 守护进程失联 —— 最近 45 秒没心跳。
daemon status看起来online也可能是刚失联
怎么查:
multica daemon status --output json # runtime 列表 + last_seen_at
multica agent list # 查 agent 的 archived 状态
multica issue show <issue-id> # 看 task 历史服务器侧(self-host)可以 grep "no_tasks" / "no_capacity" 看 claim 的结果。
怎么修:
- 并发打满 → 等现有任务跑完,或
multica agent update <id> --max-concurrent-tasks 10提升上限 - 同 issue 串行 → 等前一个任务结束,或改分给不同 agent
- Agent 被 archive →
multica agent restore <id> - Runtime 未注册 →
multica daemon restart,daemon 会重新注册
WebSocket 连不上
症状:浏览器控制台报 WebSocket is closed;页面不显示实时更新(任务进度、评论、inbox),刷新才能看到;但后台任务仍在执行。
可能原因:
- Origin 校验失败 —— 你的前端域名不在 server 的 CORS 白名单里。默认白名单只包含
localhost:3000/5173/5174,self-host 到公网必须配FRONTEND_ORIGIN - 协议不匹配 —— 前端用
https://需要wss://,HTTP 用ws:// - 反向代理没开 WebSocket upgrade —— Nginx / Envoy / HAProxy 默认不转发
Upgradeheader - JWT cookie 过期或丢失 —— 30 天过期后没重登
怎么查:
- 浏览器 DevTools → Network → 筛选 "WS",看连接状态和状态码
- Server 日志里 grep
"rejected origin"/"websocket"—— 如果是 origin 问题会明确写出来 curl -i http://<server-host>:8080/ws应该返回101 Switching Protocols(需要带Upgradeheader)
怎么修:
- Origin 错 → 在 server 的
.env设FRONTEND_ORIGIN=https://multica.yourdomain.com(或逗号分隔的CORS_ALLOWED_ORIGINS),重启 server - 协议不匹配 → 确保
FRONTEND_ORIGIN的协议和前端一致 - 反向代理 → 在 Nginx 加
proxy_http_version 1.1; proxy_set_header Upgrade $http_upgrade; proxy_set_header Connection "upgrade"; - Cookie 过期 → 刷新页面重新登录
邮件没收到
症状:登录或邀请时提交邮箱后,收件箱(和垃圾邮件)里都没有验证码邮件。
先确认 server 自己认为在用哪个 provider。 启动时 backend 会打印这三种之一:
EmailService: SMTP relay <host>:<port> from=<addr>—— 走 SMTP(SMTP_HOST非空时优先级高于 Resend)EmailService: Resend API from=<addr>—— 走 ResendEmailService: DEV mode — codes printed to stdout …—— 没配任何 provider
docker compose -f docker-compose.selfhost.yml logs backend | grep "EmailService:"如果应该出现的那行没出现,说明环境变量没进到进程 —— 检查 .env 和 docker compose -f docker-compose.selfhost.yml exec backend env | grep -E 'RESEND_|SMTP_'。这行启动日志里不会打印任何密码。
Resend 是当前 provider
可能原因:
RESEND_API_KEY没配 —— server 会静默回落,把验证码打到自己的 stdout 里,不报错。生产部署很容易踩- Resend API key 无效 / 余额不足 —— server 日志会有
"failed to send verification code" RESEND_FROM_EMAIL的域名没在 Resend 验证 —— Resend 会拒发- 邮件发出去了但被收件人 ISP 判垃圾 —— 查 Resend dashboard 和 spam 目录
怎么查:
- Server 日志里搜
"[DEV] Verification code for"—— 如果有,说明 Resend 没配,验证码被打到 stdout - Resend dashboard → Emails 看发送记录
- 确认
RESEND_FROM_EMAIL的域名在 Resend console 的 "Verified Domains" 列表里
怎么修:
- 没配 API key → 照 登录与注册配置 → 怎么配 Email 的步骤配完重启 server
- 域名没验证 → Resend console 里走 DNS 验证流程(加 SPF / DKIM 记录)
- 紧急情况下(如内部测试)→ 从 server 日志里抄
[DEV]打印出的验证码
SMTP 是当前 provider
SMTP 路径把每个失败都按阶段包装好,所以 server 日志已经告诉你 relay 在哪一步拒绝了会话。搜 "failed to send verification email" / "failed to send invitation email",看里面包的具体错误:
| 错误日志 | 含义 | 怎么修 |
|---|---|---|
smtp dial <host>:<port>: dial tcp …: connect: connection refused / i/o timeout | backend 容器连不上 relay —— host / port 错、防火墙挡了、或者 relay 没开 | 在容器里确认能解析和连通:docker compose -f docker-compose.selfhost.yml exec backend nslookup <host> 以及 nc -vz <host> <port>;放行从 Multica 主机到 relay 的网络 |
smtp starttls: x509: certificate signed by unknown authority(或 certificate is not valid for any names) | relay 用了私有 CA / 自签证书,容器的信任库不接受 | 要么把 CA 装进容器,要么在确认 relay 走的是可信网段后设 SMTP_TLS_INSECURE=true |
smtp auth: 535 5.7.8 Authentication credentials invalid(或 534/530) | SMTP_USERNAME / SMTP_PASSWORD 不对,或 relay 不接受 PLAIN 认证 | 找邮件管理员复核 service account 凭据;Exchange 匿名内部 relay 应当把两者都留空 |
smtp MAIL FROM: 550 5.7.1 Client does not have permissions to send as this sender | relay 不接受 RESEND_FROM_EMAIL 作为信封发件人 —— Exchange 常见 "anonymous users not allowed" 或 DMARC 对齐问题 | 把 RESEND_FROM_EMAIL 改成 relay 接受的域名;Exchange 上给来源 IP 授 ms-Exch-SMTP-Accept-Any-Sender |
smtp RCPT TO <addr>: 550 5.7.1 Unable to relay | relay 的 receive connector 不允许这个子网把邮件中继到外部收件人(匿名内部 relay 发给外部域时常见) | 邀请仅限内部域,或者把 Multica 主机的子网加进 Exchange "Anonymous Users → Relay" 权限列表 |
smtp DATA / smtp write body / smtp end data | 会话被接受但 body 被丢 —— 通常是消息大小限制、内容过滤、或中途断连 | 在 relay 端按同一个 Message-ID(日志里是 <unixnano>@<host>)找上下文;必要时调大消息大小限制 |
MAIL FROM / RCPT TO / DATA 的错误日志里都带着 relay 返回的状态码,可以和 Exchange / Postfix 那边的日志对齐。验证码和邀请 token 不会出现在这些包装的错误里。
怎么查:
- 启动时搜
"EmailService: SMTP relay"一次,运行时搜"failed to send"看具体阶段 - 在 backend 容器里测连通:
docker compose -f docker-compose.selfhost.yml exec backend sh -c 'nc -vz $SMTP_HOST $SMTP_PORT' - 确认环境变量真进到了进程:
docker compose -f docker-compose.selfhost.yml exec backend env | grep SMTP_(这条会带出密码,仅在可信终端运行)
怎么修:
- host / port 不对 → 改
SMTP_HOST/SMTP_PORT后重启 backend;支持的 relay 模式见 登录与注册配置 → Option B:SMTP relay - 证书校验失败 → 把 relay 的 CA 装进容器,或在可信网段上临时
SMTP_TLS_INSECURE=true - 认证失败 → 复核凭据;匿名内部 relay 应把
SMTP_USERNAME和SMTP_PASSWORD都留空 Unable to relay→ 邀请仅限内部域,或在 Exchange receive connector 上给 Multica 主机授中继权限
固定本地测试验证码登不进去
症状:自部署实例,想用 888888 这类固定本地测试验证码登录,但被拒 invalid or expired code。
可能原因(互斥):
MULTICA_DEV_VERIFICATION_CODE为空 —— 固定验证码默认关闭APP_ENV=production—— 这是正确的生产配置;固定本地测试验证码在 production 中会被忽略- 配置的验证码不是 6 位数字 —— 这个快捷码只接受 6 位数字
怎么查:
cat .env | grep -E 'APP_ENV|MULTICA_DEV_VERIFICATION_CODE'
docker exec <container> env | grep -E 'APP_ENV|MULTICA_DEV_VERIFICATION_CODE'检查邮箱(含 spam)看有没有收到真实验证码。
怎么修:
- 生产环境保持
MULTICA_DEV_VERIFICATION_CODE为空,配好 Resend 后使用真实验证码 - 本地开发或内网测试可以从 server 日志抄生成的验证码;如果需要
888888,设置APP_ENV=development和MULTICA_DEV_VERIFICATION_CODE=888888。不要在公网实例启用固定验证码(详见 登录与注册配置 → 固定本地测试验证码)
Usage 看板一直是 0
症状:agent 执行完任务、原始的 token 用量已经写入数据库,但 Settings → Usage 和 Settings → Runtime 上输入 / 输出 / 成本全部显示 0。没有任何报错——这是静默故障。
可能原因:
rollup_task_usage_hourly()没被认领 —— Usage / Runtime 看板读的是派生表task_usage_hourly,这张表必须靠rollup_task_usage_hourly()周期性填充。从 MUL-2957 起后端通过 DB 后端调度器(sys_cron_executions)在进程内跑 rollup;旧版本 binary、未应用 migration113、或者所有副本长时间下线,都可能让这张表里没有最近的 SUCCESS 行。pg_cron作为兼容路径配着、但指向了错的库 ——pg_cron.database_name默认是postgres;如果你的 Multica 数据库名不是postgres,调度任务根本看不到rollup_task_usage_hourly()。进程内调度器不依赖这一项,但如果你刻意拿掉了进程内调度而靠pg_cron,DB 名就必须对得上。- handler 被认领了、但静默报错 —— 比如 migration 没全部应用导致 SQL 函数缺失、或 DB role / search_path 配错了。看
sys_cron_executions里的 FAILED 审计行。
怎么查:
-- 确认原始数据有、hourly 表是空的
SELECT count(*) AS raw_rows FROM task_usage;
SELECT count(*) AS hourly_rows FROM task_usage_hourly;
-- 看进程内调度器的审计日志
SELECT plan_time, status, attempt, runner_id,
error_code, error_msg, started_at, finished_at
FROM sys_cron_executions
WHERE job_name = 'rollup_task_usage_hourly'
ORDER BY plan_time DESC
LIMIT 20;
-- watermark —— 如果还是 1970-01-01,说明 rollup 从来没跑过
SELECT watermark_at FROM task_usage_hourly_rollup_state;
-- 兼容路径:以前注册过 pg_cron,确认装没装、指对了库没
SELECT * FROM pg_available_extensions WHERE name = 'pg_cron';
SHOW shared_preload_libraries;
SELECT jobname, schedule, database, active FROM cron.job;怎么修:
- 确认至少一个后端副本里调度器真的在跑 —— 每 30 秒应该往
sys_cron_executions的rollup_task_usage_hourly加一条 SUCCESS 行。 - 手动跑一次 SQL 验证函数本身没问题:
SELECT rollup_task_usage_hourly();—— 刷新看板;如果数字出来了,SQL 这层 OK,问题在调度器认领路径上。 - 如果 migration
113_sys_cron_executions还没应用,重启后端让 migration 跑一遍,或手动migrate up。 - 历史里有遗留的
pg_cron入口也没事 —— SQL 函数里还持有 advisory lock 4246,应用调度器和pg_cron不会双写;要清掉冗余项见 Self-host 快速上手 → 用量汇总 里的cron.unschedule。
migration 103 报 refusing to drop legacy daily rollups
症状:从 v0.3.4 升级到 v0.3.5+ 时,后端容器起不来(或 migrate up 中止),错误信息:
ERROR: refusing to drop legacy daily rollups:
task_usage_hourly_rollup_state.watermark_at (1970-01-01 ...) trails
task_usage latest event (...) by more than 01:00:00 — backfill is
incomplete or pg_cron is not running. Run cmd/backfill_task_usage_hourly
(and let pg_cron catch up) before re-running migrate可能原因:这是 migration 103 的 fail-closed guard。它要求 task_usage_hourly 已经追平了原始的 task_usage 之后,才允许丢掉旧的 daily rollup。只要数据库里有历史数据、且 rollup watermark 还停在 epoch(说明还没把历史回填进 hourly 表),这条 guard 就会拦住。
从 MUL-2957 起,migrate 命令在应用 migration 103 之前会自动跑一次幂等的按月切片 backfill(advisory lock 4246 保护),所以 v0.3.4 → v0.3.5+ 直升一次 migrate up 就能搞定。如果你还看到这个错,要么用的是 MUL-2957 之前的二进制,要么 hook 自己也失败了 —— 看 migrate 日志里更早一行的 task_usage hourly rollup hook 看具体原因。
怎么修:
-
如果你跑的是 MUL-2957 之前的 binary,又没办法先升级 binary,就对同一个数据库手动跑一次独立 backfill(幂等,可以打断,可以重试):
# Docker Compose docker compose -f docker-compose.selfhost.yml exec backend \ ./backfill_task_usage_hourly --sleep-between-slices=2s # Kubernetes kubectl -n multica exec deploy/multica-backend -- \ ./backfill_task_usage_hourly --sleep-between-slices=2s -
重新跑升级 —— 重启 backend 容器即可,启动时会自动跑 migration。Guard 看到新的 watermark,
103就会通过。 -
之后由进程内调度器持续推 watermark —— 见 Self-host 快速上手 → 用量汇总。
--sleep-between-slices=2s 在有多年历史的生产库上是个比较克制的默认值。如果你只想保留最近 N 个月、可以接受永久丢掉更老的桶,用 --months-back N --force-partial。
端口冲突
症状:multica server 或 multica daemon start 启动失败,报 address already in use。
可能原因:
- Server 端口被占用(默认
8080) - Daemon health 端口被占用(默认
19514,每个 profile 偏移一个 hash 值) - Web dev server 端口冲突(
3000/5173) - 端口权限不足(绑
< 1024的 privileged port 需要 sudo)
怎么查:
lsof -i :8080 # macOS / Linux
netstat -ano | findstr :8080 # Windows怎么修:
- 杀占用进程(
kill -9 <PID>),或改环境变量PORT=9000换端口 - 要用 80 / 443 → 别直接绑,用反向代理(Nginx / Caddy)转发到高位端口
在哪看日志
| 组件 | 位置 | 命令 |
|---|---|---|
| 守护进程 | ~/.multica/daemon.log(后台模式)或前台 stdout | multica daemon logs -f --lines 100 |
| 服务器(Docker) | container stdout | docker logs -f <container> |
| 服务器(systemd) | journal | journalctl -u multica-server -f |
| 前端(dev) | pnpm dev 所在终端 | 直接看 |
| 前端(browser) | DevTools → Console | 按 F12 |
需要更详细的 daemon 日志,把它从后台挪到前台跑:multica daemon stop && multica daemon start --foreground。