goim 工作流程

最后更新于:2022-04-02 04:55:53

goim 工作流程 ![](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/7c8590b2972e8cf89b6bcb1f4c30330c_1457x1173.png) 其中 comet服务 在最前面对外提供服务,提供 tcp 和 websocket 两种服务。 接受到消息之后 交给 logic 模块处理。logic 模块在调用 router 查询路由信息。将发送的消息交给 kafka,再由 job 服务读取kafka的消息,推给 comet服务。 拆分成这么多模块的好处是可以多实例部署。其中 在 comet,router,logic 模块都提供了性能监控 net/http/pprof 同时还提供了monitor 服务,服务启动之后访问 xxx:port/monitor/ping 返回 ok 说明服务启动正常,方便运维检查系统。 **各模块功能分析** **comet 模块** comet 模块是在最前端,主要负责和client的链接保持,同时接受,发送消息,通知到客户端。检查链接是否断开。 comet 属于接入层,非常容易扩展,直接开启多个comet节点,修改配置文件中的base节点下的server.id修改成不同值(注意一定要保证不同的comet进程值唯一),前端接入可以使用LVS 或者 DNS来转发。 **logic 模块** logic 模块是comet 模块调用的,接受 comet 模块的命令, 然后进行处理,再发送的消息的kafka队列上,同时链接 router 模块,记录用户的 uid server room 等信息。同时获得router模块的信息。 logic 属于无状态的逻辑层,可以随意增加节点,使用nginx upstream来扩展http接口,内部rpc部分,可以使用LVS四层转发。 **router 模块** router 主要记录了用户的session信息。存储在 Bucket 对象里面。 **job 模块** job服务每秒都在同步 comet的信息,然后再读取 kafka队列的信息。 push 到相关的comet服务器上。用户就接受到了消息。 job 根据kafka的partition来扩展多job工作方式,具体可以参考下kafka的partition负载。 **新添加功能** 1、用户通过websocket 发消息,comet模块使用 rpc 调用logic 将消息发送到kafka,job消费kafka的消息推送给用户。 2、将 kafka 消息队列改成 nsq 消息队列。kafka 与 nsq 对比 kafka消息会固化,存文件,nsq默认是不保存的 kafka消息因为固化下来,所以是保序的,nsq传递时候通常是无序的,当然你也可以保留下信息去check时间戳,因此nsq更适合处理数据量大但是彼此间没有顺序关系的消息。 nsq支持延时消息的投递,比如我想这条消息5分钟之后才被投递出去被客户端消费,较于普通的消息投递,多了个毫秒数。延时消息可用于以下场景,比如一个订单超过30分钟未付款,修改其状态 或者给客户发短信提醒。 3、router挂掉后如何处理? 完成把客户端的心跳消息,也通过logic,都发到router。如果router挂掉,可以根据这些心跳重建在线用户map。 心跳消息发给router,还有一个好处是,能清理太久没有下线的用户脏数据。 ![](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/b40b732fab910e2c9607138022004439_1413x984.png) **op状态** 握手:op = 0 握手返回: op = 1 心跳:op = 2 心跳返回: op = 3 发消息:op = 4 消息返回:op = 5 授权用户: op = 7 返回: op = 8 OP_PROTO_READY // 消息推送 OP_PROTO_FINISH // 关闭退出 websocket.go **客户端链接逻辑** ~~~ go acceptWebsocket 监听客户端链接 go serveWebsocket(server, conn, r) lAddr := conn.LocalAddr().String() 获取服务端ip rAddr := conn.RemoteAddr().String() 获取客户端ip server.serveWebsocket(conn, rp, wp, tr) ch.Reader.ResetBuffer(conn, rb.Bytes()) 读缓冲,重置IO,可读游标重置为0,且b.buf变为buf tr.Add 添加一个时钟对象 websocket.ReadRequest(rr) websocket,读取请求 wp.Get() 获取一个写缓冲区 ch.Writer.ResetBuffer(conn, wb.Bytes()) 重置IO,可写游标重置为0,句柄变为w,缓冲区变为buf websocket.Upgrade(conn, rr, wr, req) 交换协议 ch.CliProto.Set() 获取一个proto对象的引用,用于写,不会移动可写游标 key, roomId, hb, err = server.authWebsocket(ws, p) 握手->注册,返回 subkey,roomId,heartbeat 握手->注册逻辑 server.operator.Connect(p); PRC -> 调用 logic RPC.Connect 通过 token 获取 用户 userId、roomId rpc -> 调用 RouterRPC.Put 通过 UserId、ServerId、RoomId 存 session server.Bucket(key) 使用subkey根据CityHash32算法,分配到对应的Bucket b.Put(key, roomId, ch) 分配到chs和rooms tr.Set(trd, hb) 设置更新定时器数据。 DefaultWhitelist.Contains(key) 判断是否是白名单用户 server.Stat.IncrWsOnline() 增加 websocket online 统计 ~~~ **客户端链接逻辑流程图** ![](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2be435084ad10ba3fda13b654ddfda5a_1225x1272.png) **收发消息逻辑** ~~~ 参数: conn net.Conn 链接 rp, wp *bytes.Pool 读写缓冲池 Pool内存组织如下,Pool是一个链式存储的栈,数据从栈顶出,同时数据也从栈顶回收。 tr *itime.Timer 最小堆算法实现的时钟对象 协程 go server.serveWebsocket() 处理读消息(接收心跳消息、接收用户发消息) for { ch.CliProto.Set() 从 Ring 上,获取一个proto对象的引用,用于写,不会移动可写游标 p.ReadWebsocket(ws) Read Websocket 读websocket发来的消息 判断是 心跳检测 or 发消息操作 p.Operation == define.OP_HEARTBEAT 心跳检测 p.Operation = define.OP_HEARTBEAT_REPLY 心跳回应 else 发消息操作 err = server.operator.Operate(p) p.Operation = define.OP_SEND_SMS_REPLY 发消息回应 ch.CliProto.SetAdv() 移动 Ring 的可写游标 ch.Signal() 将消息 写入 c.signal chan *proto.Proto } 协程 go server.dispatchWebsocket() 处理写消息(心跳回应、推送消息) for { ch.Ready() 消费 c.signal chan *proto.Proto 的消息 switch p 判断消息类型(ProtoReady消息回应、ProtoFinish页面关闭、default 推送消息) ProtoReady->自己发的消息 p, err = ch.CliProto.Get() 从 Ring 上 获取一个proto对象的引用,用于读,不会移动可读游标 p.WriteWebsocket(ws) 消息推送(发消息返回结果) ch.CliProto.GetAdv() 移动可读游标 ProtoFinish页面关闭 -->走断开链接逻辑 default push推送消息 err = p.WriteWebsocket(ws) 消息推送 ws.Flush() 释放写缓冲池 } ~~~ **收发消息流程图** ![](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/46b499792e47adbca7b1839e0e57fa63_1432x1596.png) **断开链接逻辑** ~~~ err = p.ReadWebsocket(ws); err != nil 浏览器断开链接 ws.ReadMessage(); err != nil err = ErrMessageClose b.Del(key) 根据subkey 删除 chs和rooms 上的Channel和room tr.Del(trd) 删除时间计数 ws.Close() 关闭websocket链接 ch.Close() 发送关闭channel信号 "proto.ProtoFinish" rp.Put(rb) 归还一个缓冲区 server.operator.Disconnect(key, roomId); 等待注销结果 注销过程 server.operator.Disconnect(key, roomId); rpc -> 调用 logic RPC.Disconnect 根据 subKey 返回UserId、seq rpc -> 调用 RouterRPC.Del 根据 UserId、Seq、RoomId 删除 session p = ch.Ready() (等待 return <-c.signal )接受到 "proto.ProtoFinish" 检测到浏览器断开 switch p -> proto.ProtoFinish: 进行退出操作 ws.Close() 关闭链接 wp.Put(wb) 归还一个缓冲区 dispatch goroutine exit 退出协程 go server.dispatchWebsocket() 注销结果返回 server tcp goroutine exit 退出协程 go server.serveWebsocket() server.Stat.DecrWsOnline() 减少 websocket online 统计 ~~~ **断开链接流程图** ![](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/82e87971bacdde40a5a9e870cd439d0a_786x1423.png) **几个重要的结构体** 做为典型代码即注释的开源项目,goim 基本无太多阅读障碍,几个逻辑点梳理下很快就会明白。 Bucket: 每个 Comet 程序拥有若干个 Bucket, 可以理解为 Session Management, 保存着当前 Comet 服务于哪些 Room 和 Channel. 长连接具体分布在哪个 Bucket 上呢?根据 SubKey 一致性 Hash 来选择。 Room: 可以理解为房间,群组或是一个 Group. 这个房间内维护 N 个 Channel, 即长连接用户。在该 Room 内广播消息,会发送给房间内的所有 Channel. Channel: 维护一个长连接用户,只能对应一个 Room. 推送的消息可以在 Room 内广播,也可以推送到指定的 Channel. Proto: 消息结构体,存放版本号,操作类型,消息序号和消息体。 **job模块消费kafka逻辑** pushRoutines []chan *proto.MPushMsgArg 多播 broadcastRoutines []chan *proto.BoardcastArg 广播 roomRoutines []chan *proto.BoardcastRoomArg 房播 ~~~ 消息从kafka集群消费,经过kafka模块转发至push模块,push模块对消息预处理/过滤/分类,然后发至不同的 comet 信道中 kafka -> push(msg.Value) 消费kafka消息 push -> push() 判断消息类型,多播、广播、房播 多播:define.KAFKA_MESSAGE_MULTI: -> go processPush(pushChs[i]) 根据启动的 go 协程取模分配 -> comet.mPushComet(serverId int32, subKeys []string, body json.RawMessage) 消费 pushChs []chan *pushArg chan 的消息 -> Push(arg *proto.MPushMsgArg) 将消息推到 pushRoutines []chan *proto.MPushMsgArg chan 中 广播:define.KAFKA_MESSAGE_BROADCAST: -> broadcast(m.Msg) 调用所有的 *Comet -> c.Broadcast(&args) 将消息推到 broadcastRoutines []chan *proto.BoardcastArg chan 中 房播:define.KAFKA_MESSAGE_BROADCAST_ROOM: -> roomBucket.Get(int32(m.RoomId)) 获取房间信息 -> NewRoom(roomId, b.round.Timer(b.roomNum), b.options) -> go r.pushproc(t, options.BatchNum, options.SignalTime, options.IdleTime) -> broadcastRoomBytes(r.id, buf.Buffer()) 根据roomid获取 *Comet -> c.BroadcastRoom(&args) 将消息推到 roomRoutines []chan *proto.BoardcastRoomArg chan 中(根据消息总数与options.RoutineSize取模) -> room.Push(0, define.OP_SEND_SMS_REPLY, m.Msg) 将消息保存到room.proto chan *proto.Proto chan 中 main.InitComet(addrs map[int32]string, options CometOptions) 初始化 comet -> go c.process(pushChan, roomChan, broadcastChan) 通过 rpc 调用 comet,作为pushChan,roomChan,broadcastChan信道的消费者 ~~~ **job模块消费kafka逻辑流程图** ![](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/d9f0e816b12f98f77f7b82684749f508_1431x1368.png) **logic 模块 push http推送接口逻辑** ~~~ http接口-->kafka生产者逻辑 单人推送:push -> r.URL.Query().Get("uid") 获取userId -> ioutil.ReadAll(r.Body) 获取body -> genSubKey(userId) 通过用户ID生成subKeys;同一个用户可以同时多处登陆或者同处多实例登陆,它们都会被同等对待 -> rpc 到 router 模块 RouterRPC.Get 获取指定用户的session信息 -> mpushKafka 根据serverId、subkeys、Msg ,push 到 kafka -> OP: define.KAFKA_MESSAGE_MULTI 单播 -> producer.Input() 多人推送:Pushs -> ioutil.ReadAll(r.Body) 获取body -> parsePushsBody(body []byte) 将body转成userIds、Msg -> genSubKeys(userIds) 并行获取多个用户信息,返回值为map[comet.serverId][]subkey. -> mpushKafka 根据serverId、subkeys、Msg ,push 到 kafka -> OP: define.KAFKA_MESSAGE_MULTI 单播 -> producer.Input() 房间推送:PushRoom -> ioutil.ReadAll(r.Body) 获取body -> param.Get("rid") 获取roomId -> strconv.ParseBool(param.Get("ensure")) 获取ensure,是否强推 -> broadcastRoomKafka 根据roomId、Msg、ensure ,push 到 kafka -> OP: define.KAFKA_MESSAGE_BROADCAST_ROOM 房间内广播 -> producer.Input() 广播:PushAll -> ioutil.ReadAll(r.Body) 获取body -> mpushKafka 根据Msg ,push 到 kafka -> OP: define.KAFKA_MESSAGE_BROADCAST 广播 -> producer.Input() ~~~ **logic 模块 push http推送接口逻辑流程图** ![](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/d804684a24b03da7b272797239c5cee0_1512x1341.png)
';