一、OceanBase、TiDB這類NewSQL的定位
oceanbase tidb spanner是share nothing的架構(gòu),單個分區(qū)有paxos保證可用性的前提下,還有近乎線性的擴展能力,而代價是復雜查詢和DML,不一定都能生成下推執(zhí)行的plan,要么無法執(zhí)行要么執(zhí)行很慢。再有就是分布式事務(wù)一致性的代價,分布式快照讀代價較大。
mysql GR更像share data的rac和pureScale,容量和計算的擴展能力有限,它們的出現(xiàn)更多的意義是對傳統(tǒng)的單機mysql oracle db2在可用性上的補充。使用起來與傳統(tǒng)單機實例沒有差別。
首先要明確的是,沒有完美的系統(tǒng),任何一個系統(tǒng)的出現(xiàn)都是為了解決當時最主要的問題,但是會產(chǎn)生一些其他的小問題,跟藥一樣,能治病,但是一般都會有副作用。
那么完美的數(shù)據(jù)庫系統(tǒng)什么樣呢,我現(xiàn)在能想到以下幾點:
1.易用與靈活性:數(shù)據(jù)庫可以理解自然語言,我跟它說我要存儲什么樣的數(shù)據(jù),就存進去了,要查詢什么樣的數(shù)據(jù),就給我取出來了,不需要我告訴它怎么存,怎么取
2.擴展性:可以存儲無限多的數(shù)據(jù),不需要擔心容量的問題
3.高性能:性能非常強大,不管想存或取什么數(shù)據(jù),瞬間就完成了
4.高可用:數(shù)據(jù)存儲之后,永遠也不會丟,系統(tǒng)永遠也不會掛掉,1年365天,1天24小時隨叫隨到
5.并發(fā)與隔離性:數(shù)據(jù)庫不僅可以滿足我一個人,也可以滿足所有人的同時讀寫,并且我們之間互不干擾
關(guān)系數(shù)據(jù)庫之前的存儲系統(tǒng)基本上一個條件也不滿足
傳統(tǒng)單機關(guān)系數(shù)據(jù)庫一定程度上解決了問題1、3、5,用戶不需要知道數(shù)據(jù)是怎么存儲的,行存儲還是列存儲或者其他的結(jié)構(gòu)信息,查詢的時候用SQL就可以了,不需要根據(jù)數(shù)據(jù)的存儲結(jié)構(gòu)編寫特定的程序,大大簡化了應用開發(fā),性能也還可以。之所以說是一定程度上,是因為并沒有完美的解決。SQL雖然很簡單,但要比自然語言復雜得多,更改表的schema也不是特別方便;性能的話對于復雜查詢,優(yōu)化器無能為力,可能會給出性能非常差的查詢計劃;并發(fā)與隔離性可以做到,但是要犧牲性能
Mysql Group Replication幫助傳統(tǒng)單機關(guān)系數(shù)據(jù)庫解決了問題4
如果數(shù)據(jù)量不大,這樣用著也不錯了。但是互聯(lián)網(wǎng)導致了數(shù)據(jù)量的爆炸式增長,單機存儲不下這么多數(shù)據(jù)了。所以才會出現(xiàn)了Bigtable等NoSQL分布式數(shù)據(jù)庫,解決當時最主要的數(shù)據(jù)量暴增問題。這些系統(tǒng)一定程度上解決了問題2、3、4。它想不想解決其他問題呢?肯定想,但是要解決這些問題,系統(tǒng)會變得更加復雜,需要更長的時間,但是系統(tǒng)需要快速上線啊,那么就先把最主要的問題解決了就好。隔離性就由業(yè)務(wù)部門自己去解決吧,這也導致了后來業(yè)務(wù)部門很多的抱怨。所以我覺得NoSQL在開發(fā)的時候是有很多妥協(xié)的,屬于救火的產(chǎn)品,不可能成為未來的方向。
目前看來OceanBase、TiDB、Spanner/F1這些系統(tǒng)是能夠解決上述問題非常多的系統(tǒng)。
1.支持SQL
2.數(shù)據(jù)被拆分成一個個range,分散在不同的服務(wù)器中,通過增加服務(wù)器就可以一定程度上的線性擴容
4.多副本,并且通過paxos或raft保證多副本之間的一致性
5.通過2PC,MVCC支持不同隔離級別的事物
但是相比高端服務(wù)器上的單機數(shù)據(jù)庫,性能會有些問題
查詢的延遲(latency)會比較高,網(wǎng)絡(luò)是一個問題,比如分布式j(luò)oin就要用到網(wǎng)絡(luò),有人做過實驗,在不改變現(xiàn)有查詢引擎的情況下,單條查詢隨著服務(wù)器數(shù)量增多,性能不增反降,把網(wǎng)絡(luò)換成InfiniBand效果也不好,后來重新設(shè)計了查詢引擎,性能做到了遞增??梢詤⒖糎igh-Speed Query Processing over High-Speed Networks(
http://www.vldb.org/pvldb/vol9/p228-roediger.pdf
)
所以需要改變很多傳統(tǒng)的做法,針對新硬件進行新的設(shè)計、優(yōu)化,是可以大幅度提高性能的。
未來不敢說,單機數(shù)據(jù)庫在很多場景下還是會有廣泛應用的,NewSQL最起碼接下來的幾年里都還有很大的發(fā)展?jié)摿?,而NoSQL,分布式中間件等方案基本上就是明日黃花了。
延伸閱讀:
二、數(shù)據(jù)庫的查詢功能實現(xiàn)原理
數(shù)據(jù)庫查詢是數(shù)據(jù)庫的最主要功能之一。我們都希望查詢數(shù)據(jù)的速度能盡可能的快,因此數(shù)據(jù)庫系統(tǒng)的設(shè)計者會從查詢算法的角度進行優(yōu)化。最基本的查詢算法當然是順序查找(linear search),這種復雜度為O(n)的算法在數(shù)據(jù)量很大時顯然是糟糕的,好在計算機科學的發(fā)展提供了很多更優(yōu)異的查找算法,例如二分查找(binary search)、二叉樹查找(binary tree search)等。如果稍微分析一下會發(fā)現(xiàn),每種查找算法都只能應用于特定的數(shù)據(jù)結(jié)構(gòu)之上,例如二分查找要求被檢索數(shù)據(jù)有序,而二叉樹查找只能應用于二叉查找樹上,但是數(shù)據(jù)本身的組織結(jié)構(gòu)不可能完全滿足各種數(shù)據(jù)結(jié)構(gòu)(例如,理論上不可能同時將兩列都按順序進行組織),所以,在數(shù)據(jù)之外,數(shù)據(jù)庫系統(tǒng)還維護著滿足特定查找算法的數(shù)據(jù)結(jié)構(gòu),這些數(shù)據(jù)結(jié)構(gòu)以某種方式引用(指向)數(shù)據(jù),這樣就可以在這些數(shù)據(jù)結(jié)構(gòu)上實現(xiàn)高級查找算法。這種數(shù)據(jù)結(jié)構(gòu),就是索引。