前言
成熟的大型网站(如淘宝、天猫、腾讯等)的系统架构。)不具备高性能、高可用性、高可扩展性等完整特性。在设计之初。它是随着用户数量的增加和业务功能的扩展而逐渐演变和完善的。在这个过程中,开发模式、技术架构、设计思路也发生了很大的变化,甚至技术人员也从几个人发展到一个部门甚至一条产品线。所以,成熟的系统架构是随着业务的拓展而逐渐完善的,不是一朝一夕的;不同业务特点的系统会各有侧重,比如淘宝需要解决海量商品信息的搜索、下单、支付,比如腾讯需要解决数亿用户的实时消息传递。百度要处理海量的搜索请求,这些请求都有自己的业务特点,系统架构也不一样。即便如此,我们还是可以从这些不同的网站背景中找出共同的技术。这些技术和手段广泛应用于大型网站系统的架构中。在这里,我们将介绍大型网站系统的演变过程,以了解这些技术和手段。
一、最开始的网站架构
在最初的体系结构中,应用程序、数据库和文件都部署在一台服务器上,如图所示:
二、应用、数据、文件分离
随着业务的扩展,一台服务器已经不能满足性能要求,所以应用程序、数据库和文件都部署在独立的服务器上,根据服务器的用途配置不同的硬件,以达到最佳的性能效果。
三、利用缓存改善网站性能
硬件优化性能的同时,也通过软件优化性能。在大多数网站系统中,缓存技术被用来提高系统的性能。使用缓存主要是因为热数据的存在。大多数网站访问遵循二八原则(即80%的访问请求最终落在20%的数据上),所以我们可以缓存热点数据,减少这些数据的访问路径,提高用户体验。
实现缓存的常见方式有本地缓存和分布式缓存。当然还有CDN,反向代理等。我们以后再谈这个。顾名思义,本地缓存在应用服务器中本地缓存数据,这些数据可以存储在内存或文件中。OSCache是一个常用的本地缓存组件。本地缓存的特点是速度快,但是由于本地空间有限,缓存的数据量有限。分布式缓存的特点是可以缓存海量数据,并且易于扩展。常用于门户网站,速度没有本地缓存快。常用的分布式缓存有Memcached和Redis。
四、使用集群改善应用服务器性能
应用服务器作为网站的入口,会承担大量的请求,我们经常通过应用服务器集群来分担请求的数量。在应用服务器前部署负载均衡服务器调度用户请求,根据分发策略将请求分发到多个应用服务器节点。
常用的负载均衡技术包括价格昂贵的F5硬件、LVS、Nginx和HAProxy软件。LVS是四层负载均衡,根据目标地址和端口选择内部服务器;Nginx和HAProxy是七层负载均衡,可以根据消息内容选择内部服务器;所以LVS分发路径比Nginx和HAProxy更好,性能更高,而Nginx和HAProxy更具可配置性,比如可以用于静态和动态分离(可以根据请求消息特性选择静态资源服务器或应用服务器)。
五、数据库读写分离和分库分表
随着用户数量的增加,数据库成为最大的瓶颈。提高数据库性能的常用手段是读写分离和数据库表分离。顾名思义,读写分离就是将数据库分为读数据库和写数据库,通过主备功能实现数据同步。划分数据库和表可以分为水平拆分和垂直拆分,水平拆分就是拆分一个非常大的数据库表,比如用户表。垂直细分是基于不同的业务,比如不同数据库中的用户业务和商品业务相关表。
六、使用CDN和反向代理提高网站性能
如果我们的服务器都部署在成都的机房,那么对四川的用户来说会快一些,对北京的用户来说会慢一些。这是因为四川和北京分别属于中国电信和中国联通不同的发达地区。北京用户通过互联网路由器访问成都的服务器需要很长的路径,返回的路径也是一样的,所以数据传输时间更长。对于这种情况,经常用CDN来解决。CDN将数据内容缓存在运营商机房,用户访问时先从最近的运营商获取数据,大大减少了网络访问的路径。专业的CDN运营商有蓝汛、NetHosts等。
反向代理部署在网站的机房。当达到用户的请求时,反向代理服务器会首先访问反向代理服务器,反向代理服务器会将缓存的数据返回给用户。如果没有缓存的数据,它会继续访问应用服务器来获取数据,从而降低获取数据的成本。反向代理是Squid和Nginx。
七、使用分布式文件系统
用户数量与日俱增,业务量越来越大,产生的文件也越来越多。单一的文件服务器无法满足需求,因此需要分布式文件系统的支持。常用的分布式文件系统包括GFS、HDFS和TFS。
八、使用NoSql和搜索引擎
对于海量数据的查询和分析,使用nosql数据库和搜索引擎可以达到更好的性能。不是所有的数据都应该放在关系数据中。常用的NOSQL有mongodb、hbase和redis,搜索引擎有lucene、solr和elasticsearch。
九、将应用服务器进行业务拆分
随着业务的进一步扩展,应用程序变得非常臃肿。这时候就需要把应用的业务拆分出来。比如百度分为新闻、网页、图片等业务。每个业务应用负责相对独立的业务操作。服务通过消息或共享数据库进行通信。
十、搭建分布式服务
这时候我们发现每个业务应用都会用到一些基本的业务服务,比如用户服务、订单服务、支付服务、安全服务,这些都是支撑每个业务应用的基本元素。我们提取这些服务,并通过使用部分服务框架来构建分布式服务。阿里的Dubbo是个不错的选择。
小结
大型网站的架构是根据业务需求不断完善的,会根据不同的业务特点做出具体的设计和考虑。本文只讲述一个常规的大型网站所涉及的一些技术和手段。
