Supervisor进程守护监控

linux.jpg

Supervisor

Supervisor官网

Supervisor简介

Supervisor是用Python开发的一套通用的进程管理程序,能将一个普通的命令行进程变为后台daemon,并监控进程状态,异常退出时能自动重启。它是通过fork/exec的方式把这些被管理的进程当作supervisor的子进程来启动,这样只要在supervisor的配置文件中,把要管理的进程的可执行文件的路径写进去即可。也实现当子进程挂掉的时候,父进程可以准确获取子进程挂掉的信息的,可以选择是否自己启动和报警。supervisor还提供了一个功能,可以为supervisord或者每个子进程,设置一个非root的user,这个user就可以管理它对应的进程。

安装方式

  1. 通过pip安装
    1
    pip install supervisor
  2. 通过yum安装
    1
    yum install -y supervisor
  3. 通过apt安装
    1
    apt-get install supervisor

介绍Supervisor

  • supervisord
    运行 Supervisor 时会启动一个进程 supervisord,它负责启动所管理的进程,并将所管理的进程作为自己的子进程来启动,而且可以在所管理的进程出现崩溃时自动重启。
  • supervisorctl
    是命令行管理工具,可以用来执行 stop、start、restart 等命令,来对这些子进程进行管理。supervisor是所有进程的父进程,管理着启动的子进程,supervisor以子进程的PID来管理子进程,当子进程异常退出时supervisor可以收到相应的信号量。

创建配置文件

安装完成后执行echo_supervisord_conf,会将Supervisor的示例配置文件打印到终端标准输出。
然后使用root权限可以将示例配置文件重定向输出到echo_supervisord_conf > /etc/supervisord.conf中,若没有root权限或者要将配置文件放在其他目录中可以执行echo_supervisor_conf > /xxx/supervisord.conf中,启动supervisord时指明配置文件即可superisord -c /xxx/supervisord.conf

配置文件详解

/etc/supervisord.conf,/etc/supervisord.d中可以编写子进程的配置文件,也就是/etc/supervisord.conf中的[program:xxx]模块(例如创建test.conf)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
[unix_http_server]
file=/var/run/supervisor/supervisor.sock ; socket 路径,supervisorctl 会使用,注意修改,默认为/tmp下容易被删除

;chmod=0700 ; socket 文件的权限
;chown=nobody:nogroup ; socket 所属用户及组
;username=user ; 用户名
;password=123 ; 密码

[inet_http_server] ; 是否启用服务,默认是关闭的(启用的话可以看到supervisor 管理的服务状态)
port=127.0.0.1:9001 ; 监听的IP及端口
username=user ; 用户名
password=123 ; 密码

[supervisord] ; supervisord 全局配置
logfile=/var/log/supervisor/supervisord.log ; supervisor 日志路径,注意修改,默认为/tmp下容易被删除
logfile_maxbytes=50MB ; 单个日志文件最大数
logfile_backups=10 ; 保留多少个日志文件(默认10个)
loglevel=info ; (log level;default info; others: debug,warn,trace)
pidfile=/var/run/supervisord.pid ; pid 文件路径,注意修改,默认为/tmp下容易被删除
nodaemon=false ; 启动是否丢到前台,设置为false ,表示以daemon 的方式启动
minfds=1024 ; 最小文件打开数,对应系统limit.conf 中的nofile ,默认最小为1024,最大为4096
minprocs=200 ; 最小的进程打开数,对应系统的limit.conf 中的nproc,默认为200
;umask=022 ; (process file creation umask;default 022)
;user=chrism ; 启动supervisord 服务的用户,默认为root
;identifier=supervisor ; (supervisord identifier, default is 'supervisor')
;directory=/tmp ; 这里的目录指的是服务的工作目录
;nocleanup=true ; (don't clean up tempfiles at start;default false)
;childlogdir=/tmp ; ('AUTO' child log dir, default $TEMP)
;environment=KEY=value ; (key value pairs to add to environment)
;strip_ansi=false ; (strip ansi escape codes in logs; def. false)

; the below section must remain in the config file for RPC
; (supervisorctl/web interface) to work, additional interfaces may be
; added by defining them in separate rpcinterface: sections
[rpcinterface:supervisor]
supervisor.rpcinterface_factory = supervisor.rpcinterface:make_main_rpcinterface

[supervisorctl]
serverurl=unix:///var/run/supervisor/supervisor.sock ; 通过UNIX socket连接supervisord,路径与unix_http_server部分的file一致
;serverurl=http://127.0.0.1:9001 ; 通过HTTP的方式连接supervisord
;username=chris ; should be same as http_username if set
;password=123 ; should be same as http_password if set
;prompt=mysupervisor ; cmd line prompt (default "supervisor")
;history_file=~/.sc_history ; use readline history if available

; The below sample program section shows all possible program subsection values,
; create one or more 'real' program: sections to be able to control them under
; supervisor.

;[program:theprogramname] ; 定义一个守护进程
;command=/bin/cat ; 启动程序使用的命令,可以是绝对路径或者相对路径
;process_name=%(program_name)s ; 一个python字符串表达式,用来表示supervisor进程启动的这个的名称,默认值是%(program_name)s
;numprocs=1 ; Supervisor启动这个程序的多个实例,如果numprocs>1,则process_name的表达式必须包含%(process_num)s,默认是1
;directory=/tmp ; supervisord在生成子进程的时候会切换到该目录
;umask=022 ; umask for process (default None)
;priority=999 ; 权重,可以控制程序启动和关闭时的顺序,权重越低:越早启动,越晚关闭。默认值是999
;autostart=true ; 如果设置为true,当supervisord启动的时候,进程会自动启动
;autorestart=true ; 设置为随 supervisord 重启而重启,值可以是false、true、unexpected。false:进程不会自动重启,unexpected:进程意外杀死后才重启
;startsecs=10 ; 程序启动后等待多长时间后才认为程序启动成功,默认是10秒
;startretries=3 ; supervisord尝试启动一个程序时尝试的次数。默认是3
;exitcodes=0,2 ; 一个预期的退出返回码,默认是0,2。
;stopsignal=QUIT ; 当收到stop请求的时候,发送信号给程序,默认是TERM信号,也可以是 HUP, INT, QUIT, KILL, USR1, or USR2
;stopwaitsecs=10 ; 在操作系统给supervisord发送SIGCHILD信号时等待的时间
;user=chrism ; 如果supervisord以root运行,则会使用这个设置用户启动子程序
;redirect_stderr=true ; 如果设置为true,进程则会把标准错误输出到supervisord后台的标准输出文件描述符
;stdout_logfile=/a/path ; 把进程的标准输出写入文件中,如果stdout_logfile没有设置或者设置为AUTO,则supervisor会自动选择一个文件位置
;stdout_logfile_maxbytes=1MB ; 标准输出log文件达到多少后自动进行轮转,单位是KB、MB、GB。如果设置为0则表示不限制日志文件大小
;stdout_logfile_backups=10 ; 标准输出日志轮转备份的数量,默认是10,如果设置为0,则不备份
;stdout_capture_maxbytes=1MB ; 当进程处于stderr capture mode模式的时候,写入FIFO队列的最大bytes值,单位可以是KB、MB、GB
;stdout_events_enabled=false ; 如果设置为true,当进程在写它的stderr
;stderr_logfile=/a/path ; 把进程的错误日志输出一个文件中,除非redirect_stderr参数被设置为true
;stderr_logfile_maxbytes=1MB ; 错误log文件达到多少后自动进行轮转,单位是KB、MB、GB。如果设置为0则表示不限制日志文件大小
;stderr_logfile_backups=10 ; 错误日志轮转备份的数量,默认是10,如果设置为0,则不备份
;stderr_capture_maxbytes=1MB ; 当进程处于stderr capture mode模式的时候,写入FIFO队列的最大bytes值,单位可以是KB、MB、GB
;stderr_events_enabled=false ; 如果设置为true,当进程在写它的stderr到文件描述符的时候,PROCESS_LOG_STDERR事件会被触发
;environment=A=1,B=2 ; 一个k/v对的list列表
;serverurl=AUTO ; 是否允许子进程和内部的HTTP服务通讯,如果设置为AUTO,supervisor会自动的构造一个url

; The below sample eventlistener section shows all possible
; eventlistener subsection values, create one or more 'real'
; eventlistener: sections to be able to handle event notifications
; sent by supervisor.

;这个地方是自定义一个守护进程
[program:test]
user=root
directory=/home/supervisor_test
command=/bin/bash /home/supervisor_test/test.sh
stdout_logfile=/home/supervisor_test/test.txt


;[eventlistener:theeventlistenername]
;command=/bin/eventlistener ; the program (relative uses PATH, can take args)
;process_name=%(program_name)s ; process_name expr (default %(program_name)s)
;numprocs=1 ; number of processes copies to start (def 1)
;events=EVENT ; event notif. types to subscribe to (req'd)
;buffer_size=10 ; event buffer queue size (default 10)
;directory=/tmp ; directory to cwd to before exec (def no cwd)
;umask=022 ; umask for process (default None)
;priority=-1 ; the relative start priority (default -1)
;autostart=true ; start at supervisord start (default: true)
;startsecs=1 ; # of secs prog must stay up to be running (def. 1)
;startretries=3 ; max # of serial start failures when starting (default 3)
;autorestart=unexpected ; autorestart if exited after running (def: unexpected)
;exitcodes=0,2 ; 'expected' exit codes used with autorestart (default 0,2)
;stopsignal=QUIT ; signal used to kill process (default TERM)
;stopwaitsecs=10 ; max num secs to wait b4 SIGKILL (default 10)
;stopasgroup=false ; send stop signal to the UNIX process group (default false)
;killasgroup=false ; SIGKILL the UNIX process group (def false)
;user=chrism ; setuid to this UNIX account to run the program
;redirect_stderr=false ; redirect_stderr=true is not allowed for eventlisteners
;stdout_logfile=/a/path ; stdout log path, NONE for none; default AUTO
;stdout_logfile_maxbytes=1MB ; max # logfile bytes b4 rotation (default 50MB)
;stdout_logfile_backups=10 ; # of stdout logfile backups (0 means none, default 10)
;stdout_events_enabled=false ; emit events on stdout writes (default false)
;stderr_logfile=/a/path ; stderr log path, NONE for none; default AUTO
;stderr_logfile_maxbytes=1MB ; max # logfile bytes b4 rotation (default 50MB)
;stderr_logfile_backups=10 ; # of stderr logfile backups (0 means none, default 10)
;stderr_events_enabled=false ; emit events on stderr writes (default false)
;environment=A="1",B="2" ; process environment additions
;serverurl=AUTO ; override serverurl computation (childutils)

; The sample group section below shows all possible group values. Create one
; or more 'real' group: sections to create "heterogeneous" process groups.

;[group:thegroupname] ;定义一个组
;programs=progname1,progname2 ; 组内的成员模块有哪些
;priority=999 ; the relative start priority (default 999)

; The [include] section can just contain the "files" setting. This
; setting can list multiple files (separated by whitespace or
; newlines). It can also contain wildcards. The filenames are
; interpreted as relative to this file. Included files *cannot*
; include files themselves.

;[include]
;files = relative/directory/*.ini

编写一个简单的死循环脚本

1
2
3
4
5
6
7
8
#!/bin/bash
while true
do
date >> /home/supervisor_test/test.txt
sleep 10s
date >> /home/supervisor_test/test.txt
sleep 10s
done

此处的配置文件中启动了web,可以在web中进行查看进程状态以及相关操作

启动Supervisor

1
2
supervisord   # 此处因为配置文件为默认的/etc/supervisord.conf,若使用其他配置文件需要加 -c 配置文件路径
supervisord -c /xxx/xxxx

注意在启动时可能会出现以下错误

1
Error: Another program is already listening on a port that one of our HTTP servers is configured to use.  Shut this program down first before starting supervisord.For help, use /usr/bin/supervisord -h

这表示已经supervisor已经启动,若配置进行了修改可以使用supervisorctl update

supervisorctl命令讲解

  • supervisorctl :进入到交互式命令行,在交互式命令行中以下命令可以不加supervisorctl直接执行
  • supervisorctl shutdown :停止supervisord
  • supervisorctl status :查看监控进程的状态
  • supervisorctl stop xxx :停止xxx模块的进程
  • supervisorctl start xxx :启动xxx模块的进程
  • supervisorctl restart xxx :重启xxx模块的进程
  • supervisorctl stop all :停止所有监控的进程
  • supervisorctl update :更新新的配置到supervisord(不会重启原来已运行的程序)
  • supervisorctl reload :载入所有配置文件,并按新的配置启动、管理所有进程(会重启原来已运行的程序)

注意执行supervisorctl时可能会出现以下报错

1
unix:///var/run/supervisor/supervisor.sock no such file

这表示supervisord服务可能没有启动,需要先启动supervisord