from:http://www.ideawu.net/blog/archives/740.html?cp=2#comments

著名的 C10K 問題提出的時候, 正是 2001 年, 到如今 12 年后的 2013 年, C10K 已經(jīng)不是問題了, 任何一個普通的程序員, 都能利用手邊的語言和庫, 輕松地寫出 C10K 的服務器. 這既得益于軟件的進步, 也得益于硬件性能的提高.

現(xiàn)在, 該是考慮 C1000K, 也就是百萬連接的問題的時候了. 像 Twitter, weibo, Facebook 這些網(wǎng)站, 它們的同時在線用戶有上千萬, 同時又希望消息能接近實時地推送給用戶, 這就需要服務器能維持和上千萬用戶的 TCP 網(wǎng)絡(luò)連接, 雖然可以使用成百上千臺服務器來支撐這么多用戶, 但如果每臺服務器能支持一百萬連接(C1000K), 那么只需要十臺服務器.

有很多技術(shù)聲稱能解決 C1000K 問題, 例如 Erlang, Java NIO 等等, 不過, 我們應該首先弄明白, 什么因素限制了 C1000K 問題的解決. 主要是這幾點:

  1. 操作系統(tǒng)能否支持百萬連接?
  2. 操作系統(tǒng)維持百萬連接需要多少內(nèi)存?
  3. 應用程序維持百萬連接需要多少內(nèi)存?
  4. 百萬連接的吞吐量是否超過了網(wǎng)絡(luò)限制?

下面來分別對這幾個問題進行分析.

1. 操作系統(tǒng)能否支持百萬連接?

對于絕大部分 Linux 操作系統(tǒng), 默認情況下確實不支持 C1000K! 因為操作系統(tǒng)包含最大打開文件數(shù)(Max Open Files)限制, 分為系統(tǒng)全局的, 和進程級的限制.

全局限制

在 Linux 下執(zhí)行:

cat /proc/sys/fs/file-nr 

會打印出類似下面的一行輸出:

5100	0	101747 

第三個數(shù)字 101747 就是當前系統(tǒng)的全局最大打開文件數(shù)(Max Open Files), 可以看到, 只有 10 萬, 所以, 在這臺服務器上無法支持 C1000K. 很多系統(tǒng)的這個數(shù)值更小, 為了修改這個數(shù)值, 用 root 權(quán)限修改 /etc/sysctl.conf 文件:

fs.file-max = 1020000 net.ipv4.ip_conntrack_max = 1020000 net.ipv4.netfilter.ip_conntrack_max = 1020000 

需要重啟系統(tǒng)服務生效:

# Linux $ sudo sysctl -p /etc/sysctl.conf  # BSD $ sudo /etc/rc.d/sysctl reload 

進程限制

執(zhí)行:

ulimit -n 

輸出:

1024 

說明當前 Linux 系統(tǒng)的每一個進程只能最多打開 1024 個文件. 為了支持 C1000K, 你同樣需要修改這個限制.

臨時修改

ulimit -n 1020000 

不過, 如果你不是 root, 可能不能修改超過 1024, 會報錯:

-bash: ulimit: open files: cannot modify limit: Operation not permitted 

永久修改

編輯 /etc/security/limits.conf 文件, 加入如下行:

# /etc/security/limits.conf work         hard    nofile      1020000 work         soft    nofile      1020000 

第一列的 work 表示 work 用戶, 你可以填 *, 或者 root. 然后保存退出, 重新登錄服務器.

注意: Linux 內(nèi)核源碼中有一個常量(NR_OPEN in /usr/include/linux/fs.h), 限制了最大打開文件數(shù), 如 RHEL 5 是 1048576(2^20), 所以, 要想支持 C1000K, 你可能還需要重新編譯內(nèi)核.

2. 操作系統(tǒng)維持百萬連接需要多少內(nèi)存?

解決了操作系統(tǒng)的參數(shù)限制, 接下來就要看看內(nèi)存的占用情況. 首先, 是操作系統(tǒng)本身維護這些連接的內(nèi)存占用. 對于 Linux 操作系統(tǒng), socket(fd) 是一個整數(shù), 所以, 猜想操作系統(tǒng)管理一百萬個連接所占用的內(nèi)存應該是 4M/8M, 再包括一些管理信息, 應該會是 100M 左右. 不過, 還有 socket 發(fā)送和接收緩沖區(qū)所占用的內(nèi)存沒有分析. 為此, 我寫了最原始的 C 網(wǎng)絡(luò)程序來驗證:

服務器

#include <stdio.h> #include <stdlib.h> #include <string.h> #include <unistd.h> #include <errno.h> #include <arpa/inet.h> #include <netinet/tcp.h> #include <sys/select.h>  #define MAX_PORTS 10  int main(int argc, char **argv){     struct sockaddr_in addr;     const char *ip = "0.0.0.0";     int opt = 1;     int bufsize;     socklen_t optlen;     int connections = 0;     int base_port = 7000;     if(argc > 2){         base_port = atoi(argv[1]);     }      int server_socks[MAX_PORTS];      for(int i=0; i<MAX_PORTS; i++){         int port = base_port + i;         bzero(&addr, sizeof(addr));         addr.sin_family = AF_INET;         addr.sin_port = htons((short)port);         inet_pton(AF_INET, ip, &addr.sin_addr);          int serv_sock;         if((serv_sock = socket(AF_INET, SOCK_STREAM, 0)) == -1){             goto sock_err;         }         if(setsockopt(serv_sock, SOL_SOCKET, SO_REUSEADDR, &opt, sizeof(opt)) == -1){             goto sock_err;         }         if(bind(serv_sock, (struct sockaddr *)&addr, sizeof(addr)) == -1){             goto sock_err;         }         if(listen(serv_sock, 1024) == -1){             goto sock_err;         }          server_socks[i] = serv_sock;         printf("server listen on port: %d\n", port);     }      //optlen = sizeof(bufsize);     //getsockopt(serv_sock, SOL_SOCKET, SO_RCVBUF, &bufsize, &optlen);     //printf("default send/recv buf size: %d\n", bufsize);      while(1){         fd_set readset;         FD_ZERO(&readset);         int maxfd = 0;         for(int i=0; i<MAX_PORTS; i++){             FD_SET(server_socks[i], &readset);             if(server_socks[i] > maxfd){                 maxfd = server_socks[i];             }         }         int ret = select(maxfd + 1, &readset, NULL, NULL, NULL);         if(ret < 0){             if(errno == EINTR){                 continue;             }else{                 printf("select error! %s\n", strerror(errno));                 exit(0);             }         }          if(ret > 0){             for(int i=0; i<MAX_PORTS; i++){                 if(!FD_ISSET(server_socks[i], &readset)){                     continue;                 }                 socklen_t addrlen = sizeof(addr);                 int sock = accept(server_socks[i], (struct sockaddr *)&addr, &addrlen);                 if(sock == -1){                     goto sock_err;                 }                 connections ++;                 printf("connections: %d, fd: %d\n", connections, sock);             }         }     }      return 0; sock_err:     printf("error: %s\n", strerror(errno));     return 0; } 

注意, 服務器監(jiān)聽了 10 個端口, 這是為了測試方便. 因為只有一臺客戶端測試機, 最多只能跟同一個 IP 端口創(chuàng)建 30000 多個連接, 所以服務器監(jiān)聽了 10 個端口, 這樣一臺測試機就可以和服務器之間創(chuàng)建 30 萬個連接了.

客戶端

#include <stdio.h> #include <stdlib.h> #include <string.h> #include <unistd.h> #include <errno.h> #include <arpa/inet.h> #include <netinet/tcp.h>  int main(int argc, char **argv){     if(argc <=  2){         printf("Usage: %s ip port\n", argv[0]);         exit(0);     }      struct sockaddr_in addr;     const char *ip = argv[1];     int base_port = atoi(argv[2]);     int opt = 1;     int bufsize;     socklen_t optlen;     int connections = 0;      bzero(&addr, sizeof(addr));     addr.sin_family = AF_INET;     inet_pton(AF_INET, ip, &addr.sin_addr);      char tmp_data[10];     int index = 0;     while(1){         if(++index >= 10){             index = 0;         }         int port = base_port + index;         printf("connect to %s:%d\n", ip, port);          addr.sin_port = htons((short)port);          int sock;         if((sock = socket(AF_INET, SOCK_STREAM, 0)) == -1){             goto sock_err;         }         if(connect(sock, (struct sockaddr *)&addr, sizeof(addr)) == -1){             goto sock_err;         }          connections ++;         printf("connections: %d, fd: %d\n", connections, sock);          if(connections % 10000 == 9999){             printf("press Enter to continue: ");             getchar();         }         usleep(1 * 1000);         /*            bufsize = 5000;            setsockopt(serv_sock, SOL_SOCKET, SO_SNDBUF, &bufsize, sizeof(bufsize));            setsockopt(serv_sock, SOL_SOCKET, SO_RCVBUF, &bufsize, sizeof(bufsize));          */     }      return 0; sock_err:     printf("error: %s\n", strerror(errno));     return 0; } 

我測試 10 萬個連接, 這些連接是空閑的, 什么數(shù)據(jù)也不發(fā)送也不接收. 這時, 進程只占用了不到 1MB 的內(nèi)存. 但是, 通過程序退出前后的 free 命令對比, 發(fā)現(xiàn)操作系統(tǒng)用了 200M(大致)內(nèi)存來維護這 10 萬個連接! 如果是百萬連接的話, 操作系統(tǒng)本身就要占用 2GB 的內(nèi)存! 也即 2KB 每連接.

可以修改

/proc/sys/net/ipv4/tcp_wmem /proc/sys/net/ipv4/tcp_rmem 

來控制 TCP 連接的發(fā)送和接收緩沖的大小(多謝 @egmkang).

3. 應用程序維持百萬連接需要多少內(nèi)存?

通過上面的測試代碼, 可以發(fā)現(xiàn), 應用程序維持百萬個空閑的連接, 只會占用操作系統(tǒng)的內(nèi)存, 通過 ps 命令查看可知, 應用程序本身幾乎不占用內(nèi)存.

4. 百萬連接的吞吐量是否超過了網(wǎng)絡(luò)限制?

假設(shè)百萬連接中有 20% 是活躍的, 每個連接每秒傳輸 1KB 的數(shù)據(jù), 那么需要的網(wǎng)絡(luò)帶寬是 0.2M x 1KB/s x 8 = 1.6Gbps, 要求服務器至少是萬兆網(wǎng)卡(10Gbps).

總結(jié)

Linux 系統(tǒng)需要修改內(nèi)核參數(shù)和系統(tǒng)配置, 才能支持 C1000K. C1000K 的應用要求服務器至少需要 2GB 內(nèi)存, 如果應用本身還需要內(nèi)存, 這個要求應該是至少 10GB 內(nèi)存. 同時, 網(wǎng)卡應該至少是萬兆網(wǎng)卡.

當然, 這僅僅是理論分析, 實際的應用需要更多的內(nèi)存和 CPU 資源來處理業(yè)務數(shù)據(jù).

參考:

http://www.cyberciti.biz/faq/linux-increase-the-maximum-number-of-open-files/
http://www.lognormal.com/blog/2012/09/27/linux-tcpip-tuning/

下一篇: 構(gòu)建C1000K的服務器(2) – 實現(xiàn)

Related posts:

  1. 要記得清除 sockaddr_in
  2. 構(gòu)建C1000K的服務器(2) – 實現(xiàn)百萬連接的comet服務器
  3. 數(shù)據(jù)傳輸中的停止等待機制的實現(xiàn)
  4. Libevent 2 HTTP 客戶端示例
  5. 有趣的 main 函數(shù)參數(shù)
Posted by ideawu at 2013-09-16 22:01:16 Tags: