当前位置:Gxlcms > mysql > Liferay研究之卅一:DatabaseSharding(数据库分片)

Liferay研究之卅一:DatabaseSharding(数据库分片)

时间:2021-07-01 10:21:17 帮助过:22人阅读

Database Sharding是什么? 其实就是一种分布式计算,通过业务逻辑将不同的分类的数据保存到不同的数据库(具有相同的表结构)中。简单的说是一种负载均衡技术,因为每个表中的数据少了,查询速度就快了,系统能承受的负载也就大了。很多大公司都在用这种技

Database Sharding是什么?

其实就是一种分布式计算,通过业务逻辑将不同的分类的数据保存到不同的数据库(具有相同的表结构)中。简单的说是一种负载均衡技术,因为每个表中的数据少了,查询速度就快了,系统能承受的负载也就大了。很多大公司都在用这种技术,比如Google, Facebook, Wikipedia等等。

Liferay的实现策略是什么?


Liferay实现的是根据Portal Instance来进行分布的,也就是说,不同的portal instance的数据,保存在不同的数据库中。同一个portal instance的数据,只在一个数据库中。当然,一些全局的数据,比如ClassName,Company, Counter等数据是保存在一个节点(default)上的。


Liferay中的配置方式

1、首先你的系统上要有多个Portal Instances

比如babaodi.com, liushining.cn, smilingleo.cn等

2、安装多个数据库(也可以是一个服务器上的多个实例),可以是异构的,通过create_minimal的sql脚本创建最小数据库。

3、在portal.properties中将shard-data-source-spring.xml的注释去掉。并添加对应的配置内容,比如:

这样,你的系统就可以将不同的portal instance的数据保存到不同的数据库中了。

实现原理

具体的实现Liferay采用了AOP, 在shard-data-source-spring.xml中定义了一个ShardAdvice,

可以看出,所有持久化方法都调用invokePersistence方法,而该方法中负责通过instances % shards的简单hash算法获取一个数据源(被保持在ThreadLocal中)。

替代技术

Database Sharding是与业务相关的分布式数据处理技术,不够通用,而且多个数据源就存在多个单点问题。

一个比较好的通用解决方案是C-JDBC(Sequoia),把硬件RAID的概念演化为软件的Raidb, 即解决了分布式运算的问题,又可以通过RAIDb1的方式解决单点问题。

当然,C-JDBC是一种没钱买“磁盘阵列”的廉价替换方案,如果你已经有了阵列,那么就不需要这个技术了。(选购服务器等基础设施时,就需要考虑好用什么样的软件技术,否则会浪费钱,很多钱。)

人气教程排行