goroutine的GPM模型

goroutine 是 Go 最核心的特性。为什么它可以比多线程效率更高?底层的实现机制是怎样的?

进程、线程对 CPU 利用的瓶颈 —— 用户态内核态切换

进程是资源的单位,与其它进程相隔离,有独立的 IO、堆、栈,多个进程之间受操作系统调度。

线程是真正执行的单位,在同一个进程中多个线程共享文件、堆等进程资源,但是有独立的栈。在多 CPU 硬件下,每个 CPU 可以运行一个线程,如果存在多个线程,则由系统负责调度。

对于任何一个进程,都有两个栈,一个用户态栈、一个内核态栈,其中用户态栈是我们的代码运行的空间,但是只凭我们的代码很多操作无法执行。

操作系统内核为我们提供了存储、IO、硬件中断、软中断等功能。当我们进行系统调用时,就会进行用户态和内核态的切换。这个切换过程主要是对用户态的寄存器进行保存,另外由于内核态的 CPU 权限较高也会进行额外的安全检查。在内核态执行完毕后,再进行切换,转为用户态。

上面的切换过程,就会导致 CPU 效率的下降。另外,由于系统调度,运行了一段时间的线程会被主动切换成另一线程,这个过程并没有增加总的 CPU 使用率,反而降低了总效率,只是看起来单个线程没有死掉。

协程的改进点

协程是协作式调度而不是抢占式调度。

在线程进行耗时操作时(如 IO 操作),就会发生上下文切换,当前线程被挂起。等待 IO 操作返回后,当前线程进入 Ready 状态等待调度启动。

协程是在线程基础上实现的,也面临相同的问题,在进行 IO、channel 等耗时操作时,也需要进行状态切换进入等待状态。但是为了避免发生用户态和内核态的耗时切换,在 Go 的 Runtime 支持下,goroutine 可以主动放弃当前的线程占用给 gorutine 调度器,同时进入 IO 返回等待状态,等返回之后,再进入队列等待调度。

由于这种主动的切换寄存器、缓存的 context 的容量成本非常低,goroutine 是 4K 而线程大于 1M(200 多倍),所以切换损耗特别小,能够充分的利用 CPU。

规律:进程、线程、携程,切换时维护的栈容量越来越小、距离用户态越来越近。

服务器的常见实现方式(Go 协程的演化)

多线程(进程)阻塞 IO

为每一个用户的连接创建一个线程,或使用线程池避免创建和销毁线程的开销。线程中进行网络 IO 操作时会发生阻塞,这时候线程 A 会切换进入内核态、线程 B 被内核态唤醒切换进入用户态然后执行、接着又可能发生阻塞切换…

这种方式的优点是逻辑简单,在线程函数内只要按照业务逻辑顺序考虑就可以。典型的就是 Tomcat 服务器,QPS 只能达到千级。

在并发量不大的情况下,这种由于 IO 阻塞引发的切换损耗并不明显。但是在高并发情况下,CPU 由于不断切换,性能会急剧下降。所以要想实现高并发,必须用无阻塞的方式实现。

单线程非阻塞 IO

使用单线程处理所有用户连接,对 IO 进行非阻塞的访问(如果无数据则立刻返回)。每个用户的不同阶段要注册对应的回调函数,在该用户的 IO 有数据的情况下就调用回调函数处理,然后再等待其他 IO 有数据的时候进行回调。

由于不存在阻塞,所以执行效率特别高。只有在所有 IO 都没有数据的情况下才会利用 epoll 进行等待,而这个效率也是很高的。这种方式可以应对较大的并发,典型的服务器有 Nginx、Redis、Libevent 库,QPS 能达到 10 万级。

但是这种方式有两个缺点:1.没有充分利用所有 CPU。2.逻辑较复杂,由回调函数和状态切换组成。

单线程协程

其实协程的概念很早就被提出,也有过很多实现,就是为了解决单线程非阻塞 IO 的逻辑复杂问题。

其实在上面的方案中对于每一个用户的请求,可以仍然使用一个函数执行,但是需要一个额外的数据结构保存函数运行的上下文(栈、寄存器),然后根据 IO 情况进行主动的切换调度,就可以同时满足非阻塞、高并发、逻辑简单。

但是这些协程实现普遍只利用了一个 CPU,没有充分利用资源。如果要利用多 CPU,需要自己启动多个进程进行协调。

Go 的 GPM 模型

Go 的 GPM 模型,其实就是单线程协程的改进版,可以同时利用多个 CPU 实现协程调度。这样同时具有了 CPU 密集和 IO 密集的运算能力,同时逻辑实现也简单。

G(Goroutine) 是应用层代码开启的 goroutine

M(Machine) 是 Go Runtime 自动开启的线程,具体数量取决于 CPU 核数和 goroutine 数量,动态创建,实际数量往往要多于 CPU 数量(最大 10000),多个 M 构成线程池

P(Process) 是 M 上调度 G 运行的一个中间层,是 CPU 的抽象,所以一般 P 的数量与 CPU 核数一致,可以调用 runtime.GOMAXPROCS(num)执行,程序运行后不再改变

RQ(RunQueue) 最上面有一个总的队列

在每一个 P 上,对应着一个 G 的队列。

M 是真正的执行线程,P 在执行时会唤醒一个 M,然后拿所属的一个 G 来执行。

在遇到等待时(IO 无数据),M 对应的上下文(栈、寄存器 SP、PC 等)会保存到 G。如果此时 G 没有执行完,会被重新放到 P 的任务队列中等待下次被调度,然后通过 P 寻找其他可执行的 G,通过 G 中保存的数据恢复上下文然后继续执行。

如果 M 被阻塞,P 会与 M 分离(handoffp),G 继续与 M 绑定。P 会去唤醒或创建其他的 M 继续执行其他的 G。等 M 阻塞结束后,绑定的 G 会被重新放入总队列。这种情况会发生用户态内核态切换,并且可能要创建新的线程,所以代价也会较大。在使用时应考虑到,避免大量并发阻塞导致线程数暴增。

  • 不会阻塞 M 的操作: _ 网络 IO _ 锁 _ channel _ time.sleep
  • 会阻塞 M 的操作: _ 本地 IO 调用 _ 基于底层系统同步调用的 Syscall * CGo 方式调用 C 语言动态库中的调用 IO 或其它阻塞

Goroutine 的早期演化

  • 初期的 Goroutine 调度器相较于之前的线程(或携程),有如下优化:

    • 栈占用优化,初始只有 2KB
    • 灵活调度,切换成本低
  • 以前版本(Go1.0)的模型中是没有 P 的,垂直队列直接与 M 绑定,没有全局队列。 这样的缺点是如果 M 上运行的 G 阻塞了,那么后边的 G 都要等待,虽然存在”偷取”机制,但是还是会浪费一些时间。

调度器的设计策略

  • 每个 M 创建的时候会绑定一个G0,这个 G0 是专用于调度的,不会用来执行可执行函数。在调度时,会先切到 G0 来调度。

    • 对应的线程函数是schedule
    • G0 的栈是直接分配在 M 上的,这样足够大,以便调用一些特殊函数
  • 进程启动是main goroutine会启动一个监控线程sysmon,它是一个非工作线程,不参与 GPM 模型。 它根据监控情况自己调整休眠时间,通常每 10ms 会检查一次。

    • 监控任务有:
      • (超时的)timer 执行
      • (为降低网络延迟)netpoll
      • 调度运行时间超过 10ms 的 G
      • 为因为 M 阻塞而空出的 P 创建新的 M 执行
      • 强制执行 GC
    • 调度运行时间超过 10ms 的 G 的原理,向对应线程发一个 signal 触发schedule
  • Working Stealing机制 当本线程无可运行的 G 时,总队列也没有 G,会尝试从其他线程绑定的 P 偷取 G,而不是销毁线程

  • Hand Off机制 当本线程因为系统调用阻塞时,线程释放绑定的 P,把 P 转移给其他空闲的线程执行

  • 如何解决网络阻塞造成的用户态内核态切换? Go 的 netpoll 模块实现了这个功能。利用 epoll,在 send 和 receive 时利用非阻塞进行前置检查, 如果发现没有数据,则通过 CAS 机制设置一个 epoll 等待,将 goroutine 挂起,然后执行其他 goroutine。 为了避免误过 epoll 通知,G0 每 10ms 会轮询一次。

timer 的设计

每个 P 都有个最小堆,存储要触发的 timer 的时间戳。 当有 G 调用 sleep 时被挂起,当到时间时 P 将 G 状态改为 runable 并放入 run queue。 每次执行调度函数schedule时,都会检查一下是否有 timer 到期。 如果所有 M 都忙,可能会导致 timer 偏差较大,所以 G0 还有个职责,就是检查 timer 到期,调整线程执行,确保 timer 被及时执行。

调度协调

Go 1.14 增加了一种异步调度机制,避免 G 中有 for 循环(其中无可调度机会)导致卡死的问题: 为了防止一个 G 始终占用 CPU,每过 10ms sysmon 会调度一次,判断 P 中记录的当前执行 G 的执行时间,如果超过 10ms 则向该线程发送一个特定 SIG,之后就会触发调度。

  • 具体流程:
    1. M 注册一个 SIGURG 信号的处理函数:sighandler。
    2. sysmon 线程检测到执行时间过长的 goroutine、GC stw 时,会向相应的 M(或者说线程,每个线程对应一个 M)发送 SIGURG 信号。
    3. 收到信号后,内核执行 sighandler 函数,通过 pushCall 插入 asyncPreempt 函数调用。
    4. 回到当前 goroutine 执行 asyncPreempt 函数,通过 mcall 切到 g0 栈执行 gopreempt_m。
    5. 将当前 goroutine 插入到全局可运行队列,M 则继续寻找其他 goroutine 来运行。
    6. 被抢占的 goroutine 再次调度过来执行时,会继续原来的执行流。

一些设计点

  • 当 goroutine 较多时,Runtime 会创建很多线程 M。当这些 G 执行完毕后,线程仍然不会释放,等待以后的执行。

  • 当 P 对应的队列处理完后,就会从总队列取 G。如果总队列没有,则会去其他的 P 对应的队列中”偷取”,一般会偷一半过来执行。这样避免出现线程空闲。

  • 新创建的 G 会优先放在当前 P 的本地队列中(本地队列最大排队 256 个 G),如果满了则放到全局队列

  • 在有些情况下,程序段会一直占用 CPU 而不进入内核调用(纯计算),会导致 G 一直占用 CPU,妨碍了调度。可以主动添加runtime.Gosched()增加调度机会。

  • Go 新增了一种主动协调调度机制,就是在 goroutine 的栈扩容时(2KB~1GB),检查一下自己的 flag,判断是否要主动让出执行权。

  • 由于 goroutine 的栈容量只有 2KB,所以在数量级可控的情况下,可以启动大量 groutine 降低逻辑复杂度。不过要注意,多线程可能造成逻辑复杂,所以增加数量的同时要控制携程内的复杂度。

  • 为什么 Go 可以实现栈扩容而其他语言不行? 因为指针,这些指针指向的栈上的地址是固定的,如果要实现动态扩容,就需要追踪所有指向栈上的指针,所以需要一个 Runtime。理论上 Go、C#、Java 都是可以的。

其他

  • 可以利用 trace 工具用可视化的方式查看 G P M 的执行 trace,其中的 G 是有内部编号的。
  • 在启动时利用命令GODEBUG=schedtrace=1000 ./xxx可以打印 goroutine trace 信息到 console,其中1000表示快照间隔毫秒数

  • 关于是否使用携程的思考: “多线程 NIO”的性能其实比”多线程携程”更高一点,由于两者在阻塞时都需要切换环境,”多线程 NIO”切换处理状态、”多线程携程”切换调用栈, 而”多线程 NIO”更直接一点,所以效率更高。但是由于逻辑被分散写在多处,容易出错,大大提高了编码门槛;而”携程”只用一个顺序逻辑就能写成, 逻辑相对简单,维护的状态少也不容易出错。
    • 对于效率要求更高而逻辑相对较低的项目,适合”多线程 NIO”
    • 对于项目规模较大逻辑复杂的项目,适合”多线程携程”


PS:
协程并不是Go的专属,并且存在多种实现版本,Lua等语言都实现了协程,golang team成员之一的Russ cox在加入golang team之前用C实现过协程。
源码中文注释版本

(转)漫画:什么是协程?

(转)C 语言实现协程