腾讯云TDSQL审计原理揭秘

作者:孙勇福来源：腾讯云发布于2017-3-1

2326 次浏览

开源数据库往往不具备商业数据库一样的高端能力，但是却因简单易用，无需license费用等深得大家喜欢，但在云服务时代，打造一款同时具备了开源数据库的性价比和商业数据库的安全性的数据库，几乎是所有使用者心中的梦想。腾讯云数据库TDSQL基于这样的考虑，实现了云化的审计能力，下面就让我们一起来看看具体的技术细节。

产品架构

各模块特点

1) proxy

三个无差别proxy Ip，保证一个或者两个proxy 故障时，剩余proxy Ip 正常工作用户无感知。

旁路信息进入kafka时，对数据进行压缩上传同时kafka必须半数节点响应成功后才算正确上传。

每个用户实例都有自己单独的proxy，在数据上传是不同实例消息并发上传到kafak的topic,保证每个用户信息及时进入审计消息队列。

2) Kafka

Kafka是一种分布式的，基于发布/订阅的消息系统。主要设计目标如下：

以时间复杂度为O(1)的方式提供消息持久化能力，即使对TB级以上数据也能保证常数时间的访问性能

高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条消息的传输

支持Kafka Server间的消息分区，及分布式消费，同时保证每个partition内的消息顺序传输

同时支持离线数据处理和实时数据处理

Kafka解析

Terminology

Broker：Kafka集群包含一个或多个服务器，这种服务器被称为broker

Topic：每条发布到Kafka集群的消息都有一个类别，这个类别被称为topic。（物理上不同topic的消息分开存储，逻辑上一个topic的消息虽然保存于一个或多个broker上但用户只需指定消息的topic即可生产或消费数据而不必关心数据存于何处）

Partition：parition是物理上的概念，每个topic包含一个或多个partition，创建topic时可指定parition数量。每个partition对应于一个文件夹，该文件夹下存储该partition的数据和索引文件

Producer：负责发布消息到Kafka broker

Consumer：消费消息。每个consumer属于一个特定的consumer group（可为每个consumer指定group name，若不指定group name则属于默认的group）。使用consumer high level API时，同一topic的一条消息只能被同一个consumer group内的一个consumer消费，但多个consumer group可同时消费这一消息。

Kafka框架

如上图所示，一个典型的kafka集群中包含若干producer（可以是web前端产生的page view，或者是服务器日志，系统CPU、memory等），若干broker（Kafka支持水平扩展，一般broker数量越多，集群吞吐率越高），若干consumer group，以及一个Zookeeper集群。Kafka通过Zookeeper管理集群配置，选举leader，以及在consumer group发生变化时进行rebalance。producer使用push模式将消息发布到broker，consumer使用pull模式从broker订阅并消费消息。

3) audit-server

audit-server 是分布式服务，采用一致性hash算法进行路由

多协程并发处理模式保证kafka数据秒级别消费

一致性hash

在分布式集群中，对于机器的添加和删除已经故障机器自动脱离集群不影响服务是分布式集群的最基本的功能。本次审计服务采用一致性hash完成这种基本功能。

具体描述如下：按照常用的hash算法来将对应的key哈希到一个具有2^32次方个桶的空间中，即0~(2^32)-1的数字空间中，也就是将object1，object2, object3, object4 四个（假设有四个实例对象）实例对象通过hash 散列到hash环上。如图（来自于网络）