美团内部的RPC服务大多构建在Thrift之上,在日常开发服务的过程中,需要针对这些服务进行压力测试(以下简称压测)来发现潜在问题。常用的方法有:
◆使用一些脚本语言如:Python、Ruby等,读取线上日志构建请求,用多线程模拟用户请求进行压测。
然而,无论采取哪种方法,压测都是一个十分耗时而又繁琐的过程,主要痛点有:
◆需要写很多代码解析日志,还原请求,对于比较复杂的请求,解析很容易出错。
◆由于打压方法没有统一,导致打压的结果指标比较混乱,有的结果甚至以终端输出的方式展示,非常不直观。
在构建压测工具之前,对于一些现有的开源工具进行了调研。现在主流的压测工具主要有以下几个:
JMeter是一个比较老牌的压测工具,主要针对HTTP服务进行打压,该工具在以下方面并不满足美团内部的压测需求:
iago 是一个由Twitter开源的压测工具,支持对HTTP、Thrift等服务进行压测,其主要问题如下:
除此之外,当时还考察了Gatling、Grinder、Locust等一些常见的压测工具,都因为适用场景和美团的需求有些出入而排除了。
综上,针对当前压测工具的一些现状,构建一个简单易用的压测工具还是很有必要的。
一个典型的压测过程如图所示,首先在init方法里面,进行一些初始化的工作,比如连接数据库,创建客户端等。接下来,在run方法里面发出压测请求,为了保证能够对服务产生足够的压力,这里通常采用多线程并发访问,同时记录每次请求的发起时间和结束时间,这两个时间的简单相减就能够得到每次请求的响应时间,利用该结果就可以计算出TP90、平均响应时间、最大响应时间等指标,等压测结束后,通过destroy方法进行资源回收等工作。
以上过程可以用接口表示,无论是压测Thrift服务还是HTTP服务,本质上都是这三个方法实现的不同。考虑到压测工具的灵活性和通用性,压测工具可以将这个接给打压测试的同学实现,而压测工具则重点实现多线程打压,打压结果的聚合等比较耗时的工作。
Thrift服务打压的难点之一就是如何简单地拷贝线上真实流量用来构建打压请求。一些大型的Thrift服务数据结构非常复杂,写打压脚本的时候,需要很多代码来解析日志,而且容易出错。 因此,提供一个简单好用的拷贝流量方法是十分有必要的。
在这里压测工具提供了一个叫VCR(录像机)的工具来拷贝流量。VCR能够将线上的请求序列化后写到Redis里面。
考虑到用户需要查看具体请求和易用性等需求,最终选取了JSON格式作为序列化和反序列化的协议。同时,需要部署在生产环境,为了降低对线上服务的影响,这里采取了单线程异步写的方式来拷贝流量。
美团内部的服务大多使用Java来构建,VCR以Maven Package的方式提供给用户。
一旦流量拷贝完成后,通过Web界面,用户能够查看日志的收集情况和单条日志的详情。
压测工具采用Groovy来进行编写。对每个应用来说,只需要实现runner接口就可以实现对应用的打压。
用户可以通过Web界面创建应用,除了必填配置以外,用户可以按照应用灵活配置。
压测工具上线多个应用,完成数百次打压实验,现在应用的接入时间仅需要15~30分钟。保证了美团服务的稳定和节省了开发同学的时间,使大家告别了以往繁琐冗长的打压测试。
每日头条、业界资讯、热点资讯、八卦爆料,全天跟踪微博播报。各种爆料、内幕、花边、资讯一网打尽。百万互联网粉丝互动参与,TechWeb官方微博期待您的关注。
台积电将为索尼PS5释放更多7nm产能 支持今年生产1680万-1800万台
华为nova 8 Pro王者荣耀定制版曝光:内置小鲁班定制主题 电池盖镭雕小鲁班
任正非:华为云最终还是为客户提供服务 “以客户为中心”依然是问题的本质
任正非:华为云最终还是为客户提供服务 “以客户为中心”依然是问题的本质
特斯拉陶琳:全新Model 3标准续航升级版新增前排双层玻璃、电尾等功能
台积电将为索尼PS5释放更多7nm产能 支持今年生产1680万-1800万台