一、分布式數據庫,如hadoop、cassandra、mysql集群采用的技術
分布式數據庫,如hadoop、cassandra、mysql集群,主流采用了DAS存儲技術。除了MySQL以外,其他的都是經典的分布式系統。這些分布式系統通常假定任何設備都是不可靠的,算法上會對數據做冗余存儲,因此對介質本身的要求相對較低DAS即可。
MySQL相對特殊。一般而言,如果用MySQL,題主要用的是關系數據庫,且數據一般是比較重要的,例如存儲跟錢有關的數據。此時,存儲本身的可靠性就非常重要了。MySQL等數據庫系統往往對底層的存儲系統有這樣一個假定:凡是寫入存儲系統的數據,都不能丟。換句話說,MySQL與其他幾種分布式系統的不同之處在于MySQL假定底層存儲是可靠的,而其他幾種分布式系統是假定底層存儲是不可靠的。因此,為了確保MySQL能夠一如既往的正常工作,必須提供可靠的底層存儲。那么,商用的NAS和SAN就是一種選擇。
這里想再多說一句,其實NAS和SAN描述的只是接口。提供文件系統操作接口的,例如NFS/CIFS,屬于NAS。提供塊或卷操作接口的,例如iSCSI,屬于SAN。如果進一步說下去,NAS和SAN都有可能也是分布式系統,例如HDFS可以說是一種非POSIX標準的NAS,CEPH可以說是一種SAN。
延伸閱讀:
二、數據庫中的概念
Table:數據庫中的表,下文稱“table”或者“表”。
Column:表中的各個字段,下文稱“column”或者“列”或者“字段”。
Row:表中的各條記錄,下文稱“row”或者“行”
Index:表中的索引,用戶可以建立索引以便加速搜索,但是用戶無法直接使用索引,下文稱“index”或者“索引”。
View:數據庫中的視圖,一種由實際的表導出的可視化的表,并不實際存儲。
Virtual table:虛擬表是一種表現得像表的對象,從SQL語句的角度看,虛表可以和表或者view一樣操作,但是對虛擬表的查詢或者修改操作會調用注冊在虛擬表上的回調函數,虛擬表機制使程序可以提供類似于SQL的表的接口供SQL語句操作。隱藏在虛擬表下的數據結構可能是內存中的數據,或者通過即時運算得出的結果,或者是磁盤上的文件(比如CSV)。下文稱“virtual table”或者“虛擬表”。
Shadow table:FTS(全文搜索)中所使用的每個virtual table,都有3-5個真實的數據庫的table(分別名為%_content、%_segdir、%_segment、 %_stat、%_docsize,%是FTS virtual table的名字)來在實現,這些table被稱為shadow table。
Trigger:數據庫中的觸發器,由修改數據庫的事件觸發的存儲過程,下文稱“觸發器”或者“trigger”。
Schema:SQLite數據庫的結構(有哪些table/index/view/trigger,分別有哪些字段),下文稱“schema”。
Rowid:rowid是SQLite中的表隱含的一個column,是其內部id,在該表中少數,是SQLite中的元數據。
Statement:SQL語句。
Prepared statement:經過“預備”的SQL語句,所謂“預備”類似編譯,可以再多次執行同一語句的時候加速(跳過“預備”過程)。
sqlite_master:sqlite數據庫中維護的系統表,該表的b-tree的根頁號永遠為1,有5個列,分別是類型(table, view, index,trigger,四者之一)、名稱、所在表名、根頁號、SQL語句。
Journal:日志
Transaction:事務是用戶定義的一系列數據庫操作,要么全部執行,要么全部不執行。
Magic?string:類似“魔數/幻數”,SQLite數據庫文件特征頭。
Fraction
Auto-vacuum:自動清空
Incremental-vacuum
BLOB:Binary Large OBject