無論是在小得可憐的免費數(shù)據(jù)庫空間或是大型電子商務(wù)網(wǎng)站,合理的設(shè)計表結(jié)構(gòu)、充分利用空間是十分必要的。這就要求我們對數(shù)據(jù)庫系統(tǒng)的常用數(shù)據(jù)類型有充分的認(rèn)識。下面我就將我的一點心得寫出來跟大家分享。
一、數(shù)字類型
數(shù)字類型按照我的分類方法分為三類:整數(shù)類、小數(shù)類和數(shù)字類。
我所謂的“數(shù)字類”,就是指 DECIMAL 和 NUMERIC,它們是同一種類型。它嚴(yán)格的說不是一種數(shù)字類型,因為他們實際上是將數(shù)字以字符串形式保存的;他的值的每一位 (包括小數(shù)點) 占一個字節(jié)的存儲空間,因此這種類型耗費空間比較大。但是它的一個突出的優(yōu)點是小數(shù)的位數(shù)固定,在運(yùn)算中不會“失真”,所以比較適合用于“價格”、“金額”這樣對精度要求不高但準(zhǔn)確度要求非常高的字段。
小數(shù)類,即浮點數(shù)類型,根據(jù)精度的不同,有 FLOAT 和 DOUBLE 兩種。它們的優(yōu)勢是精確度,F(xiàn)LOAT 可以表示絕對值非常小、小到約 1.17E-38 (0.000...0117,小數(shù)點后面有 37 個零) 的小數(shù),而 DOUBLE 更是可以表示絕對值小到約 2.22E-308 (0.000...0222,小數(shù)點后面有 307 個零) 的小數(shù)。FLOAT 類型和 DOUBLE 類型占用存儲空間分別是 4 字節(jié)和 8 字節(jié)。如果需要用到小數(shù)的字段,精度要求不高的,當(dāng)然用 FLOAT 了。可是說句實在話,我們“民用”的數(shù)據(jù),哪有要求精度那么高的呢?這兩種類型至今我沒有用過――我還沒有遇到適合于使用它們的事例。
用的最多的,最值得精打細(xì)算的,是整數(shù)類型。從只占一個字節(jié)存儲空間的 TINYINT 到占 8 個字節(jié)的 BIGINT,挑選一個“夠用”并且占用存儲空間最小的類型是設(shè)計數(shù)據(jù)庫時應(yīng)該考慮的。TINYINT、SMALLINT、MEDIUMINT、INT 和 BIGINT 占用存儲空間分別為 1 字節(jié)、2 字節(jié)、3 字節(jié)、4 字節(jié)和 8 字節(jié),就無符號的整數(shù)而言,這些類型能表示的最大整數(shù)分別為 255、65535、16777215、4294967295 和 18446744073709551615。如果用來保存用戶的年齡 (舉例來說,數(shù)據(jù)庫中保存年齡是不可取的),用 TINYINT 就夠了;九城的《縱橫》里,各項技能值,用 SMALLINT 也夠了;如果要用作一個肯定不會超過 16000000 行的表的 AUTO_INCREMENT 的 IDENTIFY 字段,當(dāng)然用 MEDIUMINT 不用 INT,試想,每行節(jié)約一個字節(jié),16000000 行可以節(jié)約 10 兆多呢。
二、日期時間類型
日期和時間類型比較簡單,無非是 DATE、TIME、DATETIME、TIMESTAMP 和 YEAR 等幾個類型。只對日期敏感,而對時間沒有要求的字段,就用 DATE 而不用 DATETIME 是不用說的了;單獨使用時間的情況也時有發(fā)生――使用 TIME;但最多用到的還是用 DATETIME。在日期時間類型上沒有什么文章可做,這里就不再詳述。
三、字符 (串) 類型
不要以為字符類型就是 CHAR,CHAR 和 VARCHAR 的區(qū)別在于 CHAR 是固定長度,只要你定義一個字段是 CHAR(10),那么不論你存儲的數(shù)據(jù)是否達(dá)到了 10 個字節(jié),它都要占去 10 個字節(jié)的空間;而 VARCHAR 則是可變長度的,如果一個字段可能的值是不固定長度的,我們只知道它不可能超過 10 個字符,把它定義為 VARCHAR(10) 是最合算的,VARCHAR 類型的占用空間是它的值的實際長度 +1。為什么要 +1 呢?這一個字節(jié)用于保存實際使用了多大的長度。從這個 +1 中也應(yīng)該看到,如果一個字段,它的可能值最長是 10 個字符,而多數(shù)情況下也就是用到了 10 個字符時,用 VARCHAR 就不合算了:因為在多數(shù)情況下,實際占用空間是 11 個字節(jié),比用 CHAR(10) 還多占用一個字節(jié)。
舉個例子,就是一個存儲股票名稱和代碼的表,股票名稱絕大部分是四個字的,即 8 個字節(jié);股票代碼,上海的是六位數(shù)字,深圳的是四位數(shù)字。這些都是固定長度的,股票名稱當(dāng)然要用 CHAR(8);股票代碼雖然是不固定長度,但如果使用 VARCHAR(6),一個深圳的股票代碼實際占用空間是 5 個字節(jié),而一個上海的股票代碼要占用 7 個字節(jié)!考慮到上海的股票數(shù)目比深圳的多,那么用 VARCHAR(6) 就不如 CHAR(6) 合算了。
雖然一個 CHAR 或 VARCHAR 的最大長度可以到 255,我認(rèn)為大于 20 的 CHAR 是幾乎用不到的――很少有大于 20 個字節(jié)長度的固定長度的東東吧?不是固定長度的就用 VARCHAR。大于 100 的 VARCHAR 也是幾乎用不到的――比這更大的用 TEXT 就好了。TINYTEXT,最大長度為 255,占用空間也是實際長度 +1;TEXT,最大長度 65535,占用空間是實際長度 +2;MEDIUMTEXT,最大長度 16777215,占用空間是實際長度 +3;LONGTEXT,最大長度 4294967295,占用空間是實際長度 +4。為什么 +1、+2、+3、+4?你要是還不知道就該打 PP 了。這些可以用在論壇啊、新聞啊,什么的,用來保存文章的正文。根據(jù)實際情況的不同,選擇從小到大的不同類型。
四、枚舉和集合類型
枚舉 (ENUM) 類型,最多可以定義 65535 種不同的字符串從中做出選擇,只能并且必須選擇其中一種,占用存儲空間是一個或兩個字節(jié),由枚舉值的數(shù)目決定;集合 (SET) 類型,最多可以有 64 個成員,可以選擇其中的零個到不限定的多個,占用存儲空間是一個到八個字節(jié),由集合可能的成員數(shù)目決定。
舉個例子來說,在 SQLServer 中,你可以節(jié)約到用一個 BIT 類型來表示性別 (男/女),但 MySQL 沒有 BIT,用 TINTINT 嗎?不,可以用 ENUM('帥哥','美眉'),只有兩種選擇,所以只需一個字節(jié)――跟 TINYINT 一樣大,但卻可以直接用字符串 '帥哥' 和 '美眉' 來存取。真是太方便啦!
好了,MySQL 的數(shù)據(jù)類型介紹得差不多,我的建庫策略也隨著介紹數(shù)據(jù)類型介紹給大家一些。但這只是其中一部分,篇幅有限,不能再細(xì)說;其他的,就靠各人在對數(shù)據(jù)類型理解的基礎(chǔ)上,多多實踐、多多討論。