<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    隨筆-314  評論-209  文章-0  trackbacks-0
      2017年5月17日
    原文鏈接:http://www.cnblogs.com/juandx/p/4962089.html python中對文件、文件夾(文件操作函數(shù))的操作需要涉及到os模塊和shutil模塊。 得到當(dāng)前工作目錄,即當(dāng)前Python腳本工作的目錄路徑: os.getcwd() 返回指定目錄下的所有文件和目錄名:os.listdir() 函數(shù)用來刪除一個(gè)文件:os.remove() 刪除多個(gè)目錄:os.removedirs(r“c:\python”) 檢驗(yàn)給出的路徑是否是一個(gè)文件:os.path.isfile() 檢驗(yàn)給出的路徑是否是一個(gè)目錄:os.path.isdir() 判斷是否是絕對路徑:os.path.isabs() 檢驗(yàn)給出的路徑是否真地存:os.path.exists() 返回一個(gè)路徑的目錄名和文件名:os.path.split() eg os.path.split(‘/home/swaroop/byte/code/poem.txt’) 結(jié)果:(‘/home/swaroop/byte/code’, ‘poem.txt’) 分離擴(kuò)展名:os.path.splitext() 獲取路徑名:os.path.dirname() 獲取文件名:os.path.basename() 運(yùn)行shell命令: os.system() 讀取和設(shè)置環(huán)境變量:os.getenv() 與os.putenv() 給出當(dāng)前平臺使用的行終止符:os.linesep Windows使用’\r\n’,Linux使用’\n’而Mac使用’\r’ 指示你正在使用的平臺:os.name 對于Windows,它是’nt’,而對于Linux/Unix用戶,它是’posix’ 重命名:os.rename(old, new) 創(chuàng)建多級目錄:os.makedirs(r“c:\python\test”) 創(chuàng)建單個(gè)目錄:os.mkdir(“test”) 獲取文件屬性:os.stat(file) 修改文件權(quán)限與時(shí)間戳:os.chmod(file) 終止當(dāng)前進(jìn)程:os.exit() 獲取文件大小:os.path.getsize(filename) 文件操作: os.mknod(“test.txt”) 創(chuàng)建空文件 fp = open(“test.txt”,w) 直接打開一個(gè)文件,如果文件不存在則創(chuàng)建文件 關(guān)于open 模式: w 以寫方式打開, a 以追加模式打開 (從 EOF 開始, 必要時(shí)創(chuàng)建新文件) r+ 以讀寫模式打開 w+ 以讀寫模式打開 (參見 w ) a+ 以讀寫模式打開 (參見 a ) rb 以二進(jìn)制讀模式打開 wb 以二進(jìn)制寫模式打開 (參見 w ) ab 以二進(jìn)制追加模式打開 (參見 a ) rb+ 以二進(jìn)制讀寫模式打開 (參見 r+ ) wb+ 以二進(jìn)制讀寫模式打開 (參見 w+ ) ab+ 以二進(jìn)制讀寫模式打開 (參見 a+ ) fp.read([size]) #size為讀取的長度,以byte為單位 fp.readline([size]) #讀一行,如果定義了size,有可能返回的只是一行的一部分 fp.readlines([size]) #把文件每一行作為一個(gè)list的一個(gè)成員,并返回這個(gè)list。其實(shí)它的內(nèi)部是通過循環(huán)調(diào)用readline()來實(shí)現(xiàn)的。如果提供size參數(shù),size是表示讀取內(nèi)容的總長,也就是說可能只讀到文件的一部分。 fp.write(str) #把str寫到文件中,write()并不會在str后加上一個(gè)換行符 fp.writelines(seq) #把seq的內(nèi)容全部寫到文件中(多行一次性寫入)。這個(gè)函數(shù)也只是忠實(shí)地寫入,不會在每行后面加上任何東西。 fp.close() #關(guān)閉文件。python會在一個(gè)文件不用后自動關(guān)閉文件,不過這一功能沒有保證,最好還是養(yǎng)成自己關(guān)閉的習(xí)慣。 如果一個(gè)文件在關(guān)閉后還對其進(jìn)行操作會產(chǎn)生ValueError fp.flush() #把緩沖區(qū)的內(nèi)容寫入硬盤 fp.fileno() #返回一個(gè)長整型的”文件標(biāo)簽“ fp.isatty() #文件是否是一個(gè)終端設(shè)備文件(unix系統(tǒng)中的) fp.tell() #返回文件操作標(biāo)記的當(dāng)前位置,以文件的開頭為原點(diǎn) fp.next() #返回下一行,并將文件操作標(biāo)記位移到下一行。把一個(gè)file用于for … in file這樣的語句時(shí),就是調(diào)用next()函數(shù)來實(shí)現(xiàn)遍歷的。 fp.seek(offset[,whence]) #將文件打操作標(biāo)記移到offset的位置。這個(gè)offset一般是相對于文件的開頭來計(jì)算的,一般為正數(shù)。但如果提供了whence參數(shù)就不一定了,whence可以為0表示從頭開始計(jì)算,1表示以當(dāng)前位置為原點(diǎn)計(jì)算。2表示以文件末尾為原點(diǎn)進(jìn)行計(jì)算。需要注意,如果文件以a或a+的模式打開,每次進(jìn)行寫操作時(shí),文件操作標(biāo)記會自動返回到文件末尾。 fp.truncate([size]) #把文件裁成規(guī)定的大小,默認(rèn)的是裁到當(dāng)前文件操作標(biāo)記的位置。如果size比文件的大小還要大,依據(jù)系統(tǒng)的不同可能是不改變文件,也可能是用0把文件補(bǔ)到相應(yīng)的大小,也可能是以一些隨機(jī)的內(nèi)容加上去。 目錄操作: os.mkdir(“file”) 創(chuàng)建目錄 復(fù)制文件: shutil.copyfile(“oldfile”,”newfile”) oldfile和newfile都只能是文件 shutil.copy(“oldfile”,”newfile”) oldfile只能是文件夾,newfile可以是文件,也可以是目標(biāo)目錄 復(fù)制文件夾: shutil.copytree(“olddir”,”newdir”) olddir和newdir都只能是目錄,且newdir必須不存在 重命名文件(目錄) os.rename(“oldname”,”newname”) 文件或目錄都是使用這條命令 移動文件(目錄) shutil.move(“oldpos”,”newpos”) 刪除文件 os.remove(“file”) 刪除目錄 os.rmdir(“dir”)只能刪除空目錄 shutil.rmtree(“dir”) 空目錄、有內(nèi)容的目錄都可以刪 轉(zhuǎn)換目錄 os.chdir(“path”) 換路徑 Python讀寫文件 1.open 使用open打開文件后一定要記得調(diào)用文件對象的close()方法。比如可以用try/finally語句來確保最后能關(guān)閉文件。 file_object = open(‘thefile.txt’) try: all_the_text = file_object.read( ) finally: file_object.close( ) 注:不能把open語句放在try塊里,因?yàn)楫?dāng)打開文件出現(xiàn)異常時(shí),文件對象file_object無法執(zhí)行close()方法。 2.讀文件 讀文本文件 input = open('data', 'r') #第二個(gè)參數(shù)默認(rèn)為r input = open('data') 1 2 3 讀二進(jìn)制文件 input = open('data', 'rb') 1 讀取所有內(nèi)容 file_object = open('thefile.txt') try: all_the_text = file_object.read( ) finally: file_object.close( ) 1 2 3 4 5 讀固定字節(jié) file_object = open('abinfile', 'rb') try: while True: chunk = file_object.read(100) if not chunk: break do_something_with(chunk) finally: file_object.close( ) 1 2 3 4 5 6 7 8 9 讀每行 list_of_all_the_lines = file_object.readlines( ) 1 如果文件是文本文件,還可以直接遍歷文件對象獲取每行: for line in file_object: process line 1 2 3.寫文件 寫文本文件 output = open('data', 'w') 1 寫二進(jìn)制文件 output = open('data', 'wb') 1 追加寫文件 output = open('data', 'w+') 1 寫數(shù)據(jù) file_object = open('thefile.txt', 'w') file_object.write(all_the_text) file_object.close( ) 1 2 3 寫入多行 file_object.writelines(list_of_text_strings) 1 注意,調(diào)用writelines寫入多行在性能上會比使用write一次性寫入要高。 在處理日志文件的時(shí)候,常常會遇到這樣的情況:日志文件巨大,不可能一次性把整個(gè)文件讀入到內(nèi)存中進(jìn)行處理,例如需要在一臺物理內(nèi)存為 2GB 的機(jī)器上處理一個(gè) 2GB 的日志文件,我們可能希望每次只處理其中 200MB 的內(nèi)容。 在 Python 中,內(nèi)置的 File 對象直接提供了一個(gè) readlines(sizehint) 函數(shù)來完成這樣的事情。以下面的代碼為例: file = open('test.log', 'r')sizehint = 209715200 # 200Mposition = 0lines = file.readlines(sizehint)while not file.tell() - position < 0: position = file.tell() lines = file.readlines(sizehint) 1 每次調(diào)用 readlines(sizehint) 函數(shù),會返回大約 200MB 的數(shù)據(jù),而且所返回的必然都是完整的行數(shù)據(jù),大多數(shù)情況下,返回的數(shù)據(jù)的字節(jié)數(shù)會稍微比 sizehint 指定的值大一點(diǎn)(除最后一次調(diào)用 readlines(sizehint) 函數(shù)的時(shí)候)。通常情況下,Python 會自動將用戶指定的 sizehint 的值調(diào)整成內(nèi)部緩存大小的整數(shù)倍。 file在python是一個(gè)特殊的類型,它用于在python程序中對外部的文件進(jìn)行操作。在python中一切都是對象,file也不例外,file有file的方法和屬性。下面先來看如何創(chuàng)建一個(gè)file對象: file(name[, mode[, buffering]]) 1 file()函數(shù)用于創(chuàng)建一個(gè)file對象,它有一個(gè)別名叫open(),可能更形象一些,它們是內(nèi)置函數(shù)。來看看它的參數(shù)。它參數(shù)都是以字符串的形式傳遞的。name是文件的名字。 mode是打開的模式,可選的值為r w a U,分別代表讀(默認(rèn)) 寫 添加支持各種換行符的模式。用w或a模式打開文件的話,如果文件不存在,那么就自動創(chuàng)建。此外,用w模式打開一個(gè)已經(jīng)存在的文件時(shí),原有文件的內(nèi)容會被清空,因?yàn)橐婚_始文件的操作的標(biāo)記是在文件的開頭的,這時(shí)候進(jìn)行寫操作,無疑會把原有的內(nèi)容給抹掉。由于歷史的原因,換行符在不同的系統(tǒng)中有不同模式,比如在 unix中是一個(gè)\n,而在windows中是‘\r\n’,用U模式打開文件,就是支持所有的換行模式,也就說‘\r’ ‘\n’ ‘\r\n’都可表示換行,會有一個(gè)tuple用來存貯這個(gè)文件中用到過的換行符。不過,雖說換行有多種模式,讀到python中統(tǒng)一用\n代替。在模式字符的后面,還可以加上+ b t這兩種標(biāo)識,分別表示可以對文件同時(shí)進(jìn)行讀寫操作和用二進(jìn)制模式、文本模式(默認(rèn))打開文件。 buffering如果為0表示不進(jìn)行緩沖;如果為1表示進(jìn)行“行緩沖“;如果是一個(gè)大于1的數(shù)表示緩沖區(qū)的大小,應(yīng)該是以字節(jié)為單位的。 file對象有自己的屬性和方法。先來看看file的屬性。 closed #標(biāo)記文件是否已經(jīng)關(guān)閉,由close()改寫 encoding #文件編碼 mode #打開模式 name #文件名 newlines #文件中用到的換行模式,是一個(gè)tuple softspace #boolean型,一般為0,據(jù)說用于print 1 2 3 4 5 6 file的讀寫方法: F.read([size]) #size為讀取的長度,以byte為單位 F.readline([size]) #讀一行,如果定義了size,有可能返回的只是一行的一部分 F.readlines([size]) #把文件每一行作為一個(gè)list的一個(gè)成員,并返回這個(gè)list。其實(shí)它的內(nèi)部是通過循環(huán)調(diào)用readline()來實(shí)現(xiàn)的。如果提供size參數(shù),size是表示讀取內(nèi)容的總長,也就是說可能只讀到文件的一部分。 F.write(str) #把str寫到文件中,write()并不會在str后加上一個(gè)換行符 F.writelines(seq) #把seq的內(nèi)容全部寫到文件中。這個(gè)函數(shù)也只是忠實(shí)地寫入,不會在每行后面加上任何東西。 file的其他方法: F.close() #關(guān)閉文件。python會在一個(gè)文件不用后自動關(guān)閉文件,不過這一功能沒有保證,最好還是養(yǎng)成自己關(guān)閉的習(xí)慣。如果一個(gè)文件在關(guān)閉后還對其進(jìn)行操作會產(chǎn)生ValueError F.flush() #把緩沖區(qū)的內(nèi)容寫入硬盤 F.fileno() #返回一個(gè)長整型的”文件標(biāo)簽“ F.isatty() #文件是否是一個(gè)終端設(shè)備文件(unix系統(tǒng)中的) F.tell() #返回文件操作標(biāo)記的當(dāng)前位置,以文件的開頭為原點(diǎn) F.next() #返回下一行,并將文件操作標(biāo)記位移到下一行。把一個(gè)file用于for ... in file這樣的語句時(shí),就是調(diào)用next()函數(shù)來實(shí)現(xiàn)遍歷的。 F.seek(offset[,whence]) #將文件打操作標(biāo)記移到offset的位置。這個(gè)offset一般是相對于文件的開頭來計(jì)算的,一般為正數(shù)。但如果提供了whence參數(shù)就不一定了,whence可以為0表示從頭開始計(jì)算,1表示以當(dāng)前位置為原點(diǎn)計(jì)算。2表示以文件末尾為原點(diǎn)進(jìn)行計(jì)算。需要注意,如果文件以a或a+的模式打開,每次進(jìn)行寫操作時(shí),文件操作標(biāo)記會自動返回到文件末尾。 F.truncate([size]) #把文件裁成規(guī)定的大小,默認(rèn)的是裁到當(dāng)前文件操作標(biāo)記的位置。如果size比文件的大小還要大,依據(jù)系統(tǒng)的不同可能是不改變文件,也可能是用0把文件補(bǔ)到相應(yīng)的大小,也可能是以一些隨機(jī)的內(nèi)容加上去。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 http://www.cnblogs.com/allenblogs/archive/2010/09/13/1824842.html http://www.cnblogs.com/rollenholt/archive/2012/04/23/2466179.html
    posted @ 2018-11-28 11:52 xzc 閱讀(557) | 評論 (0)編輯 收藏
    首先 dfs.replication這個(gè)參數(shù)是個(gè)client參數(shù),即node level參數(shù)。需要在每臺datanode上設(shè)置。 其實(shí)默認(rèn)為3個(gè)副本已經(jīng)夠用了,設(shè)置太多也沒什么用。 一個(gè)文件,上傳到hdfs上時(shí)指定的是幾個(gè)副本就是幾個(gè)。以后你修改了副本數(shù),對已經(jīng)上傳了的文件也不會起作用。可以再上傳文件的同時(shí)指定創(chuàng)建的副本數(shù) Hadoop dfs -D dfs.replication=1 -put 70M logs/2 可以通過命令來更改已經(jīng)上傳的文件的副本數(shù): hadoop fs -setrep -R 3 / 查看當(dāng)前hdfs的副本數(shù) hadoop fsck -locations FSCK started by hadoop from /172.18.6.112 for path / at Thu Oct 27 13:24:25 CST 2011 ....................Status: HEALTHY Total size: 4834251860 B Total dirs: 21 Total files: 20 Total blocks (validated): 82 (avg. block size 58954290 B) Minimally replicated blocks: 82 (100.0 %) Over-replicated blocks: 0 (0.0 %) Under-replicated blocks: 0 (0.0 %) Mis-replicated blocks: 0 (0.0 %) Default replication factor: 3 Average block replication: 3.0 Corrupt blocks: 0 Missing replicas: 0 (0.0 %) Number of data-nodes: 3 Number of racks: 1 FSCK ended at Thu Oct 27 13:24:25 CST 2011 in 10 milliseconds The filesystem under path '/' is HEALTHY 某個(gè)文件的副本數(shù),可以通過ls中的文件描述符看到 hadoop dfs -ls -rw-r--r-- 3 hadoop supergroup 153748148 2011-10-27 16:11 /user/hadoop/logs/201108/impression_witspixel2011080100.thin.log.gz 如果你只有3個(gè)datanode,但是你卻指定副本數(shù)為4,是不會生效的,因?yàn)槊總€(gè)datanode上只能存放一個(gè)副本。 參考:http://blog.csdn.net/lskyne/article/details/8898666
    posted @ 2018-11-26 11:52 xzc 閱讀(874) | 評論 (0)編輯 收藏
    轉(zhuǎn)自:https://www.cnblogs.com/shabbylee/p/6792555.html 由于歷史原因,Python有兩個(gè)大的版本分支,Python2和Python3,又由于一些庫只支持某個(gè)版本分支,所以需要在電腦上同時(shí)安裝Python2和Python3,因此如何讓兩個(gè)版本的Python兼容,如何讓腳本在對應(yīng)的Python版本上運(yùn)行,這個(gè)是值得總結(jié)的。 對于Ubuntu 16.04 LTS版本來說,Python2(2.7.12)和Python3(3.5.2)默認(rèn)同時(shí)安裝,默認(rèn)的python版本是2.7.12。 當(dāng)然你也可以用python2來調(diào)用。 如果想調(diào)用python3,就用python3. 對于Windows,就有點(diǎn)復(fù)雜了。因?yàn)椴徽損ython2還是python3,python可執(zhí)行文件都叫python.exe,在cmd下輸入python得到的版本號取決于環(huán)境變量里哪個(gè)版本的python路徑更靠前,畢竟windows是按照順序查找的。比如環(huán)境變量里的順序是這樣的: 那么cmd下的python版本就是2.7.12。 反之,則是python3的版本號。 這就帶來一個(gè)問題了,如果你想用python2運(yùn)行一個(gè)腳本,一會你又想用python3運(yùn)行另一個(gè)腳本,你怎么做?來回改環(huán)境變量顯然很麻煩。 網(wǎng)上很多辦法比較簡單粗暴,把兩個(gè)python.exe改名啊,一個(gè)改成python2.exe,一個(gè)改成python3.exe。這樣做固然可以,但修改可執(zhí)行文件的方式,畢竟不是很好的方法。 我仔細(xì)查找了一些python技術(shù)文檔,發(fā)現(xiàn)另外一個(gè)我覺得比較好的解決辦法。 借用py的一個(gè)參數(shù)來調(diào)用不同版本的Python。py -2調(diào)用python2,py -3調(diào)用的是python3. 當(dāng)python腳本需要python2運(yùn)行時(shí),只需在腳本前加上,然后運(yùn)行py xxx.py即可。 #! python2 當(dāng)python腳本需要python3運(yùn)行時(shí),只需在腳本前加上,,然后運(yùn)行py xxx.py即可。 #! python3 就這么簡單。 同時(shí),這也完美解決了在pip在python2和python3共存的環(huán)境下報(bào)錯(cuò),提示Fatal error in launcher: Unable to create process using '"'的問題。 當(dāng)需要python2的pip時(shí),只需 py -2 -m pip install xxx 當(dāng)需要python3的pip時(shí),只需 py -3 -m pip install xxx python2和python3的pip package就這樣可以完美分開了。
    posted @ 2018-11-16 09:38 xzc 閱讀(632) | 評論 (0)編輯 收藏
    Sentry權(quán)限控制通過Beeline(Hiveserver2 SQL 命令行接口)輸入Grant 和 Revoke語句來配置。語法跟現(xiàn)在的一些主流的關(guān)系數(shù)據(jù)庫很相似。需要注意的是:當(dāng)sentry服務(wù)啟用后,我們必須使用beeline接口來執(zhí)行hive查詢,Hive Cli并不支持sentry。 CREATE ROLE Statement CREATE ROLE語句創(chuàng)建一個(gè)可以被賦權(quán)的角色。權(quán)限可以賦給角色,然后再分配給各個(gè)用戶。一個(gè)用戶被分配到角色后可以執(zhí)行該角色的權(quán)限。 只有擁有管理員的角色可以create/drop角色。默認(rèn)情況下,hive、impala和hue用戶擁有管理員角色。 CREATE ROLE [role_name]; DROP ROLE Statement DROP ROLE語句可以用來從數(shù)據(jù)庫中移除一個(gè)角色。一旦移除,之前分配給所有用戶的該角色將會取消。之前已經(jīng)執(zhí)行的語句不會受到影響。但是,因?yàn)閔ive在執(zhí)行每條查詢語句之前會檢查用戶的權(quán)限,處于登錄活躍狀態(tài)的用戶會話會受到影響。 DROP ROLE [role_name]; GRANT ROLE Statement GRANT ROLE語句可以用來給組授予角色。只有sentry的管理員用戶才能執(zhí)行該操作。 GRANT ROLE role_name [, role_name] TO GROUP (groupName) [,GROUP (groupName)] REVOKE ROLE Statement REVOKE ROLE語句可以用來從組移除角色。只有sentry的管理員用戶才能執(zhí)行該操作。 REVOKE ROLE role_name [, role_name] FROM GROUP (groupName) [,GROUP (groupName)] GRANT (PRIVILEGE) Statement 授予一個(gè)對象的權(quán)限給一個(gè)角色,該用戶必須為sentry的管理員用戶。 GRANT (PRIVILEGE) [, (PRIVILEGE) ] ON (OBJECT) (object_name) TO ROLE (roleName) [,ROLE (roleName)] REVOKE (PRIVILEGE) Statement 因?yàn)橹挥姓J(rèn)證的管理員用戶可以創(chuàng)建角色,從而只有管理員用戶可以取消一個(gè)組的權(quán)限。 REVOKE (PRIVILEGE) [, (PRIVILEGE) ] ON (OBJECT) (object_name) FROM ROLE (roleName) [,ROLE (roleName)] GRANT (PRIVILEGE) ... WITH GRANT OPTION 在cdh5.2中,你可以委托給其他角色來授予和解除權(quán)限。比如,一個(gè)角色被授予了WITH GRANT OPTION的權(quán)限可以GRANT/REVOKE同樣的權(quán)限給其他角色。因此,如果一個(gè)角色有一個(gè)庫的所有權(quán)限并且設(shè)置了 WITH GRANT OPTION,該角色分配的用戶可以對該數(shù)據(jù)庫和其中的表執(zhí)行GRANT/REVOKE語句。 GRANT (PRIVILEGE) ON (OBJECT) (object_name) TO ROLE (roleName) WITH GRANT OPTION 只有一個(gè)帶GRANT選項(xiàng)的特殊權(quán)限的角色或者它的父級權(quán)限可以從其他角色解除這種權(quán)限。一旦下面的語句執(zhí)行,所有跟其相關(guān)的grant權(quán)限將會被解除。 REVOKE (RIVILEGE) ON (BJECT) (bject_name) FROM ROLE (roleName) Hive目前不支持解除之前賦予一個(gè)角色 WITH GRANT OPTION 的權(quán)限。要想移除WITH GRANT OPTION、解除權(quán)限,可以重新去除 WITH GRANT OPTION這個(gè)標(biāo)記來再次附權(quán)。 SET ROLE Statement SET ROLE語句可以給當(dāng)前會話選擇一個(gè)角色使之生效。一個(gè)用戶只能啟用分配給他的角色。任何不存在的角色和當(dāng)前用戶不能使用的角色是不能生效的。如果沒有使用任何角色,用戶將會使用任何一個(gè)屬于他的角色的權(quán)限。 選擇一個(gè)角色使用: To enable a specific role: 使用所有的角色: To enable a specific role: 關(guān)閉所有角色 SET ROLE NONE; SHOW Statement 顯示當(dāng)前用戶擁有庫、表、列相關(guān)權(quán)限的數(shù)據(jù)庫: SHOW DATABASES; 顯示當(dāng)前用戶擁有表、列相關(guān)權(quán)限的表; SHOW TABLES; 顯示當(dāng)前用戶擁有SELECT權(quán)限的列: SHOW COLUMNS (FROM|IN) table_name [(FROM|IN) db_name]; 顯示當(dāng)前系統(tǒng)中所有的角色(只有管理員用戶可以執(zhí)行): SHOW ROLES; 顯示當(dāng)前影響當(dāng)前會話的角色: SHOW CURRENT ROLES; 顯示指定組的被分配到的所有角色(只有管理員用戶和指定組內(nèi)的用戶可以執(zhí)行) SHOW ROLE GRANT GROUP (groupName); SHOW語句可以用來顯示一個(gè)角色被授予的權(quán)限或者顯示角色的一個(gè)特定對象的所有權(quán)限。 顯示指定角色的所有被賦予的權(quán)限。(只有管理員用戶和指定角色分配到的用戶可以執(zhí)行)。下面的語句也會顯示任何列級的權(quán)限。 SHOW GRANT ROLE (roleName); 顯示指定對象的一個(gè)角色的所有被賦予的權(quán)限(只有管理員用戶和指定角色分配到的用戶可以執(zhí)行)。下面的語句也會顯示任何列級的權(quán)限。 SHOW GRANT ROLE (roleName) on (OBJECT) (objectName); ----------------------------我也是有底線的-----------------------------
    posted @ 2018-09-03 18:19 xzc 閱讀(499) | 評論 (0)編輯 收藏
         摘要: Python 里面的編碼和解碼也就是 unicode 和 str 這兩種形式的相互轉(zhuǎn)化。編碼是 unicode -> str,相反的,解碼就是 str -> unicode。剩下的問題就是確定何時(shí)需要進(jìn)行編碼或者解碼了.關(guān)于文件開頭的"編碼指示",也就是 # -*- codin...  閱讀全文
    posted @ 2018-05-18 09:52 xzc 閱讀(411) | 評論 (0)編輯 收藏
    一、前言
        早上醒來打開微信,同事反饋kafka集群從昨天凌晨開始寫入頻繁失敗,趕緊打開電腦查看了kafka集群的機(jī)器監(jiān)控,日志信息,發(fā)現(xiàn)其中一個(gè)節(jié)點(diǎn)的集群負(fù)載從昨天凌晨突然掉下來了,和同事反饋的時(shí)間點(diǎn)大概一致,于是乎就登錄服務(wù)器開始干活。
    二、排錯(cuò)
    1、查看機(jī)器監(jiān)控,看是否能大概定位是哪個(gè)節(jié)點(diǎn)有異常
    技術(shù)分享
    2、根據(jù)機(jī)器監(jiān)控大概定位到其中一個(gè)異常節(jié)點(diǎn),登錄服務(wù)器查看kafka日志,發(fā)現(xiàn)有報(bào)錯(cuò)日志,并且日志就停留在這個(gè)這個(gè)時(shí)間點(diǎn):
    [2017-06-01 16:59:59,851] ERROR Processor got uncaught exception. (kafka.network.Processor)
    java.lang.OutOfMemoryError: Direct buffer memory
            at java.nio.Bits.reserveMemory(Bits.java:658)
            at java.nio.DirectByteBuffer.<init>(DirectByteBuffer.java:123)
            at java.nio.ByteBuffer.allocateDirect(ByteBuffer.java:306)
            at sun.nio.ch.Util.getTemporaryDirectBuffer(Util.java:174)
            at sun.nio.ch.IOUtil.read(IOUtil.java:195)
            at sun.nio.ch.SocketChannelImpl.read(SocketChannelImpl.java:379)
            at org.apache.kafka.common.network.PlaintextTransportLayer.read(PlaintextTransportLayer.java:108)
            at org.apache.kafka.common.network.NetworkReceive.readFromReadableChannel(NetworkReceive.java:97)
            at org.apache.kafka.common.network.NetworkReceive.readFrom(NetworkReceive.java:71)
            at org.apache.kafka.common.network.KafkaChannel.receive(KafkaChannel.java:160)
            at org.apache.kafka.common.network.KafkaChannel.read(KafkaChannel.java:141)
            at org.apache.kafka.common.network.Selector.poll(Selector.java:286)
            at kafka.network.Processor.run(SocketServer.scala:413)3、查看kafka進(jìn)程和監(jiān)聽端口情況,發(fā)現(xiàn)都正常,尼瑪假死了
    ps -ef |grep kafka        ## 查看kafka的進(jìn)程
    netstat -ntlp |grep 9092  ##9092kafka的監(jiān)聽端口4、既然已經(jīng)假死了,只能重啟了
    ps -ef |grep kafka |grep -v grep |awk ‘{print $2}‘  | xargs kill -9  
    /usr/local/kafka/bin;nohup ./kafka-server-start.sh ../config/server.properties &5、重啟后在觀察該節(jié)點(diǎn)的kafka日志,在一頓index重建之后,上面的報(bào)錯(cuò)信息在瘋狂的刷,最后谷歌一番,解決了該問題
    三、解決方案:
    /usr/local/kafka/binkafka-run-class.sh去掉
    -XX:+DisableExplicitGC添加
    -XX:MaxDirectMemorySize=512m在一次重啟kafka,問題解決。
    posted @ 2018-03-08 16:35 xzc 閱讀(2177) | 評論 (0)編輯 收藏
         摘要: 我們每次執(zhí)行hive的hql時(shí),shell里都會提示一段話:[python] view plaincopy...  Number of reduce tasks not specified. Estimated from input data size: 50...  閱讀全文
    posted @ 2018-03-07 11:21 xzc 閱讀(1517) | 評論 (1)編輯 收藏
         摘要: spark 累加歷史主要用到了窗口函數(shù),而進(jìn)行全部統(tǒng)計(jì),則需要用到rollup函數(shù) 1  應(yīng)用場景:   1、我們需要統(tǒng)計(jì)用戶的總使用時(shí)長(累加歷史)   2、前臺展現(xiàn)頁面需要對多個(gè)維度進(jìn)行查詢,如:產(chǎn)品、地區(qū)等等   3、需要展現(xiàn)的表格頭如: 產(chǎn)品、2015-04、2015-05、2015-06 2 原始數(shù)據(jù): product_code |event_date |dur...  閱讀全文
    posted @ 2017-10-23 22:05 xzc 閱讀(875) | 評論 (0)編輯 收藏
         摘要: Spark1.4發(fā)布,支持了窗口分析函數(shù)(window functions)。在離線平臺中,90%以上的離線分析任務(wù)都是使用Hive實(shí)現(xiàn),其中必然會使用很多窗口分析函數(shù),如果SparkSQL支持窗口分析函數(shù), 那么對于后面Hive向SparkSQL中的遷移的工作量會大大降低,使用方式如下: 1、初始化數(shù)據(jù) 創(chuàng)建表 [sql] view plain cop...  閱讀全文
    posted @ 2017-10-23 22:04 xzc 閱讀(695) | 評論 (0)編輯 收藏

    SparkSQL相關(guān)語句總結(jié)

    1.in 不支持子查詢 eg. select * from src where key in(select key from test);
    支持查詢個(gè)數(shù) eg. select * from src where key in(1,2,3,4,5);
    in 40000個(gè) 耗時(shí)25.766秒
    in 80000個(gè) 耗時(shí)78.827秒

    2.union all/union
    不支持頂層的union all eg. select key from src UNION ALL select key from test;
    支持select * from (select key from src union all select key from test)aa;
    不支持 union
    支持select distinct key from (select key from src union all select key from test)aa;

    3.intersect 不支持

    4.minus 不支持

    5.except 不支持

    6.inner join/join/left outer join/right outer join/full outer join/left semi join 都支持
    left outer join/right outer join/full outer join 中間必須有outer
    join是最簡單的關(guān)聯(lián)操作,兩邊關(guān)聯(lián)只取交集;
    left outer join是以左表驅(qū)動,右表不存在的key均賦值為null;
    right outer join是以右表驅(qū)動,左表不存在的key均賦值為null;
    full outer join全表關(guān)聯(lián),將兩表完整的進(jìn)行笛卡爾積操作,左右表均可賦值為null;
    left semi join最主要的使用場景就是解決exist in;
    Hive不支持where子句中的子查詢,SQL常用的exist in子句在Hive中是不支持的
    不支持子查詢 eg. select * from src aa where aa.key in(select bb.key from test bb);
    可用以下兩種方式替換:
    select * from src aa left outer join test bb on aa.key=bb.key where bb.key <> null;
    select * from src aa left semi join test bb on aa.key=bb.key;
    大多數(shù)情況下 JOIN ON 和 left semi on 是對等的
    A,B兩表連接,如果B表存在重復(fù)數(shù)據(jù)
    當(dāng)使用JOIN ON的時(shí)候,A,B表會關(guān)聯(lián)出兩條記錄,應(yīng)為ON上的條件符合; 
    而是用LEFT SEMI JOIN 當(dāng)A表中的記錄,在B表上產(chǎn)生符合條件之后就返回,不會再繼續(xù)查找B表記錄了,
    所以如果B表有重復(fù),也不會產(chǎn)生重復(fù)的多條記錄。 
    left outer join 支持子查詢 eg. select aa.* from src aa left outer join (select * from test111)bb on aa.key=bb.a;

    7. hive四中數(shù)據(jù)導(dǎo)入方式
    1)從本地文件系統(tǒng)中導(dǎo)入數(shù)據(jù)到Hive表
    create table wyp(id int,name string) ROW FORMAT delimited fields terminated by '\t' STORED AS TEXTFILE;
    load data local inpath 'wyp.txt' into table wyp;
    2)從HDFS上導(dǎo)入數(shù)據(jù)到Hive表
    [wyp@master /home/q/hadoop-2.2.0]$ bin/hadoop fs -cat /home/wyp/add.txt
    hive> load data inpath '/home/wyp/add.txt' into table wyp;
    3)從別的表中查詢出相應(yīng)的數(shù)據(jù)并導(dǎo)入到Hive表中
    hive> create table test(
    > id int, name string
    > ,tel string)
    > partitioned by
    > (age int)
    > ROW FORMAT DELIMITED
    > FIELDS TERMINATED BY '\t'
    > STORED AS TEXTFILE;

    注:test表里面用age作為了分區(qū)字段,分區(qū):在Hive中,表的每一個(gè)分區(qū)對應(yīng)表下的相應(yīng)目錄,所有分區(qū)的數(shù)據(jù)都是存儲在對應(yīng)的目錄中。
    比如wyp表有dt和city兩個(gè)分區(qū),則對應(yīng)dt=20131218city=BJ對應(yīng)表的目錄為/user/hive/warehouse/dt=20131218/city=BJ,
    所有屬于這個(gè)分區(qū)的數(shù)據(jù)都存放在這個(gè)目錄中。

    hive> insert into table test
    > partition (age='25')
    > select id, name, tel
    > from wyp;

    也可以在select語句里面通過使用分區(qū)值來動態(tài)指明分區(qū):
    hive> set hive.exec.dynamic.partition.mode=nonstrict;
    hive> insert into table test
    > partition (age)
    > select id, name,
    > tel, age
    > from wyp;

    Hive也支持insert overwrite方式來插入數(shù)據(jù)
    hive> insert overwrite table test
    > PARTITION (age)
    > select id, name, tel, age
    > from wyp;

    Hive還支持多表插入
    hive> from wyp
    > insert into table test
    > partition(age)
    > select id, name, tel, age
    > insert into table test3
    > select id, name
    > where age>25;
    4)在創(chuàng)建表的時(shí)候通過從別的表中查詢出相應(yīng)的記錄并插入到所創(chuàng)建的表中
    hive> create table test4
    > as
    > select id, name, tel
    > from wyp;

    8.查看建表語句
    hive> show create table test3;

    9.表重命名
    hive> ALTER TABLE events RENAME TO 3koobecaf; 

    10.表增加列
    hive> ALTER TABLE pokes ADD COLUMNS (new_col INT); 

    11.添加一列并增加列字段注釋 
    hive> ALTER TABLE invites ADD COLUMNS (new_col2 INT COMMENT 'a comment'); 

    12.刪除表
    hive> DROP TABLE pokes; 

    13.top n
    hive> select * from test order by key limit 10;
    14.創(chuàng)建數(shù)據(jù)庫
    Create Database baseball;

    14.alter table tablename  change oldColumn newColumn column_type 修改列的名稱和類型

    alter table yangsy CHANGE product_no phone_no string

     

    15.導(dǎo)入.sql文件中的sql

     spark-sql --driver-class-path /home/hadoop/hive/lib/mysql-connector-java-5.1.30-bin.jar -f testsql.sql 


    insert into table CI_CUSER_20141117154351522 select mainResult.PRODUCT_NO,dw_coclbl_m02_3848.L1_01_02_01,dw_coclbl_d01_3845.L2_01_01_04 from (select PRODUCT_NO from CI_CUSER_20141114203632267) mainResult left join DW_COCLBL_M02_201407 dw_coclbl_m02_3848 on mainResult.PRODUCT_NO = dw_coclbl_m02_3848.PRODUCT_NO left join DW_COCLBL_D01_20140515 dw_coclbl_d01_3845 on dw_coclbl_m02_3848.PRODUCT_NO = dw_coclbl_d01_3845.PRODUCT_NO

    insert into CI_CUSER_20141117142123638 ( PRODUCT_NO,ATTR_COL_0000,ATTR_COL_0001) select mainResult.PRODUCT_NO,dw_coclbl_m02_3848.L1_01_02_01,dw_coclbl_m02_3848.L1_01_03_01 from (select PRODUCT_NO from CI_CUSER_20141114203632267) mainResult left join DW_COCLBL_M02_201407 dw_coclbl_m02_3848 on mainResult.PRODUCT_NO = dw_coclbl_m02_3848.PRODUCT_NO 


    CREATE TABLE ci_cuser_yymmddhhmisstttttt_tmp(product_no string) row format serde 'com.bizo.hive.serde.csv.CSVSerde' ; 
    LOAD DATA LOCAL INPATH '/home/ocdc/coc/yuli/test123.csv' OVERWRITE INTO TABLE test_yuli2;

    創(chuàng)建支持CSV格式的testfile文件
    CREATE TABLE test_yuli7 row format serde 'com.bizo.hive.serde.csv.CSVSerde' as select * from CI_CUSER_20150310162729786;

    不依賴CSVSerde的jar包創(chuàng)建逗號分隔的表
    "create table " +listName+ " ROW FORMAT DELIMITED FIELDS TERMINATED BY ','" +
    " as select * from " + listName1;

    create table aaaa ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' STORED AS TEXTFILE as select * from

    ThriftServer 開啟FAIR模式
    SparkSQL Thrift Server 開啟FAIR調(diào)度方式:
    1. 修改$SPARK_HOME/conf/spark-defaults.conf,新增
    2. spark.scheduler.mode FAIR
    3. spark.scheduler.allocation.file /Users/tianyi/github/community/apache-spark/conf/fair-scheduler.xml
    4. 修改$SPARK_HOME/conf/fair-scheduler.xml(或新增該文件), 編輯如下格式內(nèi)容
    5. <?xml version="1.0"?>
    6. <allocations>
    7. <pool name="production">
    8. <schedulingMode>FAIR</schedulingMode>
    9. <!-- weight表示兩個(gè)隊(duì)列在minShare相同的情況下,可以使用資源的比例 -->
    10. <weight>1</weight>
    11. <!-- minShare表示優(yōu)先保證的資源數(shù) -->
    12. <minShare>2</minShare>
    13. </pool>
    14. <pool name="test">
    15. <schedulingMode>FIFO</schedulingMode>
    16. <weight>2</weight>
    17. <minShare>3</minShare>
    18. </pool>
    19. </allocations>
    20. 重啟Thrift Server
    21. 執(zhí)行SQL前,執(zhí)行 
    22. set spark.sql.thriftserver.scheduler.pool=指定的隊(duì)列名

    等操作完了 create table yangsy555 like CI_CUSER_YYMMDDHHMISSTTTTTT 然后insert into yangsy555 select * from yangsy555

     

    創(chuàng)建一個(gè)自增序列表,使用row_number() over()為表增加序列號 以供分頁查詢

    create table yagnsytest2 as SELECT ROW_NUMBER() OVER() as id,* from yangsytest;

     

     

    Sparksql的解析與Hiveql的解析的執(zhí)行流程:

    posted @ 2017-10-23 21:03 xzc 閱讀(739) | 評論 (0)編輯 收藏
    如果用傳統(tǒng)SCP遠(yuǎn)程拷貝,速度是比較慢的。現(xiàn)在采用lz4壓縮傳輸。LZ4是一個(gè)非常快的無損壓縮算法,壓縮速度在單核300MB/S,可擴(kuò)展支持多核CPU。它還具有一個(gè)非常快速的解碼器,速度單核可達(dá)到和超越1GB/S。通常能夠達(dá)到多核系統(tǒng)上的RAM速度限制。 你PV 全命為Pipe Viewer,利用它我們可以查看到命令執(zhí)行的進(jìn)度。 下面介紹下lz4和pv的安裝,下載軟件: 下載pv-1.1.4.tar.gz wget http://sourceforge.jp/projects/sfnet_pipeviewer/downloads/pipeviewer/1.1.4/pv-1.1.4.tar.bz2/ 下lz4的包難一些,可能要FQ:https://dl.dropboxusercontent.com/u/59565338/LZ4/lz4-r108.tar.gz 安裝灰常簡單: pv安裝: [root ~]$ tar jxvf pv-1.1.4.tar.bz2 [root ~]$ cd pv-1.1.4 [root pv-1.1.4]$ ./configure && make && make install lz4安裝: [root ~]$ tar zxvf lz4-r108.tar.gz [root ~]$ cd lz4-r108 [root lz4-r108]$ make && make install 用法:(-c 后指定要傳輸?shù)奈募瑂sh -p 是指定端口,后面的ip是目標(biāo)主機(jī)的ip, -xC指定傳到目標(biāo)主機(jī)下的那個(gè)目錄下,別的不用修改): tar -c mysql-slave-3307 |pv|lz4 -B4|ssh -p10022 -c arcfour128 -o"MACs umac-64@openssh.com" 192.168.100.234 "lz4 -d |tar -xC /data" 下面是我線上傳一個(gè)從庫的效果: 看到了吧,25.7G 只需要接近3分鐘,這樣遠(yuǎn)比scp速度快上了好幾倍,直接scp拷貝離散文件,很消耗IO,而使用LZ4快速壓縮,對性能影響不大,傳輸速度快 PS:下次補(bǔ)充同機(jī)房不同網(wǎng)段的傳輸效果及跨機(jī)房的傳輸效果^0^ 作者:陸炫志 出處:xuanzhi的博客 http://www.cnblogs.com/xuanzhi201111 您的支持是對博主最大的鼓勵(lì),感謝您的認(rèn)真閱讀。本文版權(quán)歸作者所有,歡迎轉(zhuǎn)載,但請保留該聲明。
    posted @ 2017-09-14 18:24 xzc 閱讀(441) | 評論 (0)編輯 收藏
    王 騰騰 和 邵 兵 2015 年 11 月 26 日發(fā)布 WeiboGoogle+用電子郵件發(fā)送本頁面 Comments 1 引子 隨著云時(shí)代的來臨,大數(shù)據(jù)(Big data)也獲得了越來越多的關(guān)注。著云臺的分析師團(tuán)隊(duì)認(rèn)為,大數(shù)據(jù)(Big data)通常用來形容一個(gè)公司創(chuàng)造的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時(shí)會花費(fèi)過多時(shí)間和金錢。大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要像 MapReduce 一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。 “大數(shù)據(jù)”在互聯(lián)網(wǎng)行業(yè)指的是這樣一種現(xiàn)象:互聯(lián)網(wǎng)公司在日常運(yùn)營中生成、累積的用戶網(wǎng)絡(luò)行為數(shù)據(jù)。這些數(shù)據(jù)的規(guī)模是如此龐大,以至于不能用 G 或 T 來衡量。所以如何高效的處理分析大數(shù)據(jù)的問題擺在了面前。對于大數(shù)據(jù)的處理優(yōu)化方式有很多種,本文中主要介紹在使用 Hadoop 平臺中對數(shù)據(jù)進(jìn)行壓縮處理來提高數(shù)據(jù)處理效率。 壓縮簡介 Hadoop 作為一個(gè)較通用的海量數(shù)據(jù)處理平臺,每次運(yùn)算都會需要處理大量數(shù)據(jù),我們會在 Hadoop 系統(tǒng)中對數(shù)據(jù)進(jìn)行壓縮處理來優(yōu)化磁盤使用率,提高數(shù)據(jù)在磁盤和網(wǎng)絡(luò)中的傳輸速度,從而提高系統(tǒng)處理數(shù)據(jù)的效率。在使用壓縮方式方面,主要考慮壓縮速度和壓縮文件的可分割性。綜合所述,使用壓縮的優(yōu)點(diǎn)如下: 1. 節(jié)省數(shù)據(jù)占用的磁盤空間; 2. 加快數(shù)據(jù)在磁盤和網(wǎng)絡(luò)中的傳輸速度,從而提高系統(tǒng)的處理速度。 壓縮格式 Hadoop 對于壓縮格式的是自動識別。如果我們壓縮的文件有相應(yīng)壓縮格式的擴(kuò)展名(比如 lzo,gz,bzip2 等)。Hadoop 會根據(jù)壓縮格式的擴(kuò)展名自動選擇相對應(yīng)的解碼器來解壓數(shù)據(jù),此過程完全是 Hadoop 自動處理,我們只需要確保輸入的壓縮文件有擴(kuò)展名。 Hadoop 對每個(gè)壓縮格式的支持, 詳細(xì)見下表: 表 1. 壓縮格式 壓縮格式 工具 算法 擴(kuò)展名 多文件 可分割性 DEFLATE 無 DEFLATE .deflate 不 不 GZIP gzip DEFLATE .gzp 不 不 ZIP zip DEFLATE .zip 是 是,在文件范圍內(nèi) BZIP2 bzip2 BZIP2 .bz2 不 是 LZO lzop LZO .lzo 不 是 如果壓縮的文件沒有擴(kuò)展名,則需要在執(zhí)行 MapReduce 任務(wù)的時(shí)候指定輸入格式。 1 2 3 4 5 hadoop jar /usr/home/hadoop/hadoop-0.20.2/contrib/streaming/ hadoop-streaming-0.20.2-CD H3B4.jar -file /usr/home/hadoop/hello/mapper.py -mapper / usr/home/hadoop/hello/mapper.py -file /usr/home/hadoop/hello/ reducer.py -reducer /usr/home/hadoop/hello/reducer.py -input lzotest -output result4 - jobconf mapred.reduce.tasks=1*-inputformatorg.apache.hadoop.mapred.LzoTextInputFormat* 性能對比 Hadoop 下各種壓縮算法的壓縮比,壓縮時(shí)間,解壓時(shí)間見下表: 表 2. 性能對比 壓縮算法 原始文件大小 壓縮文件大小 壓縮速度 解壓速度 gzip 8.3GB 1.8GB 17.5MB/s 58MB/s bzip2 8.3GB 1.1GB 2.4MB/s 9.5MB/s LZO-bset 8.3GB 2GB 4MB/s 60.6MB/s LZO 8.3GB 2.9GB 49.3MB/s 74.6MB/s 因此我們可以得出: 1) Bzip2 壓縮效果明顯是最好的,但是 bzip2 壓縮速度慢,可分割。 2) Gzip 壓縮效果不如 Bzip2,但是壓縮解壓速度快,不支持分割。 3) LZO 壓縮效果不如 Bzip2 和 Gzip,但是壓縮解壓速度最快!并且支持分割! 這里提一下,文件的可分割性在 Hadoop 中是很非常重要的,它會影響到在執(zhí)行作業(yè)時(shí) Map 啟動的個(gè)數(shù),從而會影響到作業(yè)的執(zhí)行效率! 所有的壓縮算法都顯示出一種時(shí)間空間的權(quán)衡,更快的壓縮和解壓速度通常會耗費(fèi)更多的空間。在選擇使用哪種壓縮格式時(shí),我們應(yīng)該根據(jù)自身的業(yè)務(wù)需求來選擇。 下圖是在本地壓縮與通過流將壓縮結(jié)果上傳到 BI 的時(shí)間對比。 圖 1. 時(shí)間對比 圖 1. 時(shí)間對比 使用方式 MapReduce 可以在三個(gè)階段中使用壓縮。 1. 輸入壓縮文件。如果輸入的文件是壓縮過的,那么在被 MapReduce 讀取時(shí),它們會被自動解壓。 2.MapReduce 作業(yè)中,對 Map 輸出的中間結(jié)果集壓縮。實(shí)現(xiàn)方式如下: 1)可以在 core-site.xml 文件中配置,代碼如下 圖 2. core-site.xml 代碼示例 圖 2. core-site.xml 代碼示例 2)使用 Java 代碼指定 1 2 conf.setCompressMapOut(true); conf.setMapOutputCompressorClass(GzipCode.class); 最后一行代碼指定 Map 輸出結(jié)果的編碼器。 3.MapReduce 作業(yè)中,對 Reduce 輸出的最終結(jié)果集壓。實(shí)現(xiàn)方式如下: 1)可以在 core-site.xml 文件中配置,代碼如下 圖 3. core-site.xml 代碼示例 圖 3. core-site.xml 代碼示例 2)使用 Java 代碼指定 1 2 conf.setBoolean(“mapred.output.compress”,true); conf.setClass(“mapred.output.compression.codec”,GzipCode.class,CompressionCodec.class); 最后一行同樣指定 Reduce 輸出結(jié)果的編碼器。 壓縮框架 我們前面已經(jīng)提到過關(guān)于壓縮的使用方式,其中第一種就是將壓縮文件直接作為入口參數(shù)交給 MapReduce 處理,MapReduce 會自動根據(jù)壓縮文件的擴(kuò)展名來自動選擇合適解壓器處理數(shù)據(jù)。那么到底是怎么實(shí)現(xiàn)的呢?如下圖所示: 圖 4. 壓縮實(shí)現(xiàn)情形 圖 4. 壓縮實(shí)現(xiàn)情形 我們在配置 Job 作業(yè)的時(shí)候,會設(shè)置數(shù)據(jù)輸入的格式化方式,使用 conf.setInputFormat() 方法,這里的入口參數(shù)是 TextInputFormat.class。 TextInputFormat.class 繼承于 InputFormat.class,主要用于對數(shù)據(jù)進(jìn)行兩方面的預(yù)處理。一是對輸入數(shù)據(jù)進(jìn)行切分,生成一組 split,一個(gè) split 會分發(fā)給一個(gè) mapper 進(jìn)行處理;二是針對每個(gè) split,再創(chuàng)建一個(gè) RecordReader 讀取 split 內(nèi)的數(shù)據(jù),并按照的形式組織成一條 record 傳給 map 函數(shù)進(jìn)行處理。此類在對數(shù)據(jù)進(jìn)行切分之前,會首先初始化壓縮解壓工程類 CompressionCodeFactory.class,通過工廠獲取實(shí)例化的編碼解碼器 CompressionCodec 后對數(shù)據(jù)處理操作。 下面我們來詳細(xì)的看一下從壓縮工廠獲取編碼解碼器的過程。 壓縮解壓工廠類 CompressionCodecFactory 壓縮解壓工廠類 CompressionCodeFactory.class 主要功能就是負(fù)責(zé)根據(jù)不同的文件擴(kuò)展名來自動獲取相對應(yīng)的壓縮解壓器 CompressionCodec.class,是整個(gè)壓縮框架的核心控制器。我們來看下 CompressionCodeFactory.class 中的幾個(gè)重要方法: 1. 初始化方法 圖 5. 代碼示例 圖 5. 代碼示例 ① getCodeClasses(conf) 負(fù)責(zé)獲取關(guān)于編碼解碼器 CompressionCodec.class 的配置信息。下面將會詳細(xì)講解。 ② 默認(rèn)添加兩種編碼解碼器。當(dāng) getCodeClass(conf) 方法沒有讀取到相關(guān)的編碼解碼器 CompressionCodec.class 的配置信息時(shí),系統(tǒng)會默認(rèn)添加兩種編碼解碼器 CompressionCodec.class,分別是 GzipCode.class 和 DefaultCode.class。 ③ addCode(code) 此方法用于將編碼解碼器 CompressionCodec.class 添加到系統(tǒng)緩存中。下面將會詳細(xì)講解。 2. getCodeClasses(conf) 圖 6. 代碼示例 圖 6. 代碼示例 ① 這里我們可以看,系統(tǒng)讀取關(guān)于編碼解碼器 CompressionCodec.class 的配置信息在 core-site.xml 中 io.compression.codes 下。我們看下這段配置文件,如下圖所示: 圖 7. 代碼示例 圖 7. 代碼示例 Value 標(biāo)簽中是每個(gè)編碼解碼 CompressionCodec.class 的完整路徑,中間用逗號分隔。我們只需要將自己需要使用到的編碼解碼配置到此屬性中,系統(tǒng)就會自動加載到緩存中。 除了上述的這種方式以外,Hadoop 為我們提供了另一種加載方式:代碼加載。同樣最終將信息配置在 io.compression.codes 屬性中,代碼如下: 1 2 conf.set("io.compression.codecs","org.apache.hadoop.io.compress.DefaultCodec, org.apache.hadoop.io.compress.GzipCodec,com.hadoop.compression.lzo.LzopCodec");) 3. addCode(code) 方法添加編碼解碼器 圖 8. 代碼示例 圖 8. 代碼示例 addCodec(codec) 方法入口參數(shù)是個(gè)編碼解碼器 CompressionCodec.class,這里我們會首先接觸到它的一個(gè)方法。 ① codec.getDefaultExtension() 方法看方法名的字面意思我們就可以知道,此方法用于獲取此編碼解碼所對應(yīng)文件的擴(kuò)展名,比如,文件名是 xxxx.gz2,那么這個(gè)方法的返回值就是“.bz2”,我們來看下 org.apache.hadoop.io.compress.BZip2Codec 此方法的實(shí)現(xiàn)代碼: 圖 9. 代碼示例 圖 9. 代碼示例 ② Codecs 是一個(gè) SortedMap 的示例。這里有個(gè)很有意思的地方,它將 Key 值,也就是通過 codec.getDefaultExtension() 方法獲取到的文件擴(kuò)展名進(jìn)行了翻轉(zhuǎn),舉個(gè)例子,比如文件名擴(kuò)展名“.bz2”,將文件名翻轉(zhuǎn)之后就變成了“2zb.”。 系統(tǒng)加載完所有的編碼解碼器后,我們可以得到這樣一個(gè)有序映射表,如下: 圖 10. 代碼示例 圖 10. 代碼示例 現(xiàn)在編碼解碼器都有了,我們怎么得到對應(yīng)的編碼解碼器呢?看下面這個(gè)方法。 4. getCodec() 方法 此方法用于獲取文件所對應(yīng)的的編碼解碼器 CompressionCodec.class。 圖 11. 代碼示例 圖 11. 代碼示例 getCodec(Path) 方法的輸入?yún)?shù)是 Path 對象,保存著文件路徑。 ① 將文件名翻轉(zhuǎn)。如 xxxx.bz2 翻轉(zhuǎn)成 2zb.xxxx。 ② 獲取 codecs 集合中最接近 2zb.xxxx 的值。此方法有返回值同樣是個(gè) SortMap 對象。 在這里對返回的 SortMap 對象進(jìn)行第二次篩選。 編碼解碼器 CompressionCodec 剛剛在介紹壓縮解壓工程類 CompressionCodeFactory.class 的時(shí)候,我們多次提到了壓縮解壓器 CompressionCodecclass,并且我們在上文中還提到了它其中的一個(gè)用于獲取文件擴(kuò)展名的方法 getDefaultExtension()。 壓縮解壓工程類 CompressionCodeFactory.class 使用的是抽象工廠的設(shè)計(jì)模式。它是一個(gè)接口,制定了一系列方法,用于創(chuàng)建特定壓縮解壓算法。下面我們來看下比較重要的幾個(gè)方法: 1. createOutputStream() 方法對數(shù)據(jù)流進(jìn)行壓縮。 圖 12. 代碼示例 圖 12. 代碼示例 此方法提供了方法重載。 ① 基于流的壓縮處理; ② 基于壓縮機(jī) Compress.class 的壓縮處理 2. createInputStream() 方法對數(shù)據(jù)流進(jìn)行解壓。 圖 13. 代碼示例 圖 13. 代碼示例 這里的解壓方法同樣提供了方法重載。 ① 基于流的解壓處理; ② 基于解壓機(jī) Decompressor.class 的解壓處理; 關(guān)于壓縮/解壓流與壓縮/解壓機(jī)會在下面的文章中我們會詳細(xì)講解。此處暫作了解。 3. getCompressorType() 返回需要的編碼器的類型。 getDefaultExtension() 獲取對應(yīng)文件擴(kuò)展名的方法。前文已提到過,不再敖述。 壓縮機(jī) Compressor 和解壓機(jī) Decompressor 前面在編碼解碼器部分的 createInputStream() 和 createInputStream() 方法中我們提到過 Compressor.class 和 Decompressor.class 對象。在 Hadoop 的實(shí)現(xiàn)中,數(shù)據(jù)編碼器和解碼器被抽象成了兩個(gè)接口: 1. org.apache.hadoop.io.compress.Compressor; 2. org.apache.hadoop.io.compress.Decompressor; 它們規(guī)定了一系列的方法,所以在 Hadoop 內(nèi)部的編碼/解碼算法實(shí)現(xiàn)都需要實(shí)現(xiàn)對應(yīng)的接口。在實(shí)際的數(shù)據(jù)壓縮與解壓縮過程,Hadoop 為用戶提供了統(tǒng)一的 I/O 流處理模式。 我們看一下壓縮機(jī) Compressor.class,代碼如下: 圖 14. 代碼示例 圖 14. 代碼示例 ① setInput() 方法接收數(shù)據(jù)到內(nèi)部緩沖區(qū),可以多次調(diào)用; ② needsInput() 方法用于檢查緩沖區(qū)是否已滿。如果是 false 則說明當(dāng)前的緩沖區(qū)已滿; ③ getBytesRead() 輸入未壓縮字節(jié)的總數(shù); ④ getBytesWritten() 輸出壓縮字節(jié)的總數(shù); ⑤ finish() 方法結(jié)束數(shù)據(jù)輸入的過程; ⑥ finished() 方法用于檢查是否已經(jīng)讀取完所有的等待壓縮的數(shù)據(jù)。如果返回 false,表明壓縮器中還有未讀取的壓縮數(shù)據(jù),可以繼續(xù)通過 compress() 方法讀取; ⑦ compress() 方法獲取壓縮后的數(shù)據(jù),釋放緩沖區(qū)空間; ⑧ reset() 方法用于重置壓縮器,以處理新的輸入數(shù)據(jù)集合; ⑨ end() 方法用于關(guān)閉解壓縮器并放棄所有未處理的輸入; ⑩ reinit() 方法更進(jìn)一步允許使用 Hadoop 的配置系統(tǒng),重置并重新配置壓縮器; 為了提高壓縮效率,并不是每次用戶調(diào)用 setInput() 方法,壓縮機(jī)就會立即工作,所以,為了通知壓縮機(jī)所有數(shù)據(jù)已經(jīng)寫入,必須使用 finish() 方法。finish() 調(diào)用結(jié)束后,壓縮機(jī)緩沖區(qū)中保持的已經(jīng)壓縮的數(shù)據(jù),可以繼續(xù)通過 compress() 方法獲得。至于要判斷壓縮機(jī)中是否還有未讀取的壓縮數(shù)據(jù),則需要利用 finished() 方法來判斷。 壓縮流 CompressionOutputStream 和解壓縮流 CompressionInputStream 前文編碼解碼器部分提到過 createInputStream() 方法返回 CompressionOutputStream 對象,createInputStream() 方法返回 CompressionInputStream 對象。這兩個(gè)類分別繼承自 java.io.OutputStream 和 java.io.InputStream。從而我們不難理解,這兩個(gè)對象的作用了吧。 我們來看下 CompressionInputStream.class 的代碼: 圖 15. 代碼示例 圖 15. 代碼示例 可以看到 CompressionOutputStream 實(shí)現(xiàn)了 OutputStream 的 close() 方法和 flush() 方法,但用于輸出數(shù)據(jù)的 write() 方法以及用于結(jié)束壓縮過程并將輸入寫到底層流的 finish() 方法和重置壓縮狀態(tài)的 resetState() 方法還是抽象方法,需要 CompressionOutputStream 的子類實(shí)現(xiàn)。 Hadoop 壓縮框架中為我們提供了一個(gè)實(shí)現(xiàn)了 CompressionOutputStream 類通用的子類 CompressorStream.class。 圖 16. 代碼示例 圖 16. 代碼示例 CompressorStream.class 提供了三個(gè)不同的構(gòu)造函數(shù),CompressorStream 需要的底層輸出流 out 和壓縮時(shí)使用的壓縮器,都作為參數(shù)傳入構(gòu)造函數(shù)。另一個(gè)參數(shù)是 CompressorStream 工作時(shí)使用的緩沖區(qū) buffer 的大小,構(gòu)造時(shí)會利用這個(gè)參數(shù)分配該緩沖區(qū)。第一個(gè)可以手動設(shè)置緩沖區(qū)大小,第二個(gè)默認(rèn) 512,第三個(gè)沒有緩沖區(qū)且不可使用壓縮器。 圖 17. 代碼示例 圖 17. 代碼示例 在 write()、compress()、finish() 以及 resetState() 方法中,我們發(fā)現(xiàn)了壓縮機(jī) Compressor 的身影,前面文章我們已經(jīng)介紹過壓縮機(jī)的的實(shí)現(xiàn)過程,通過調(diào)用 setInput() 方法將待壓縮數(shù)據(jù)填充到內(nèi)部緩沖區(qū),然后調(diào)用 needsInput() 方法檢查緩沖區(qū)是否已滿,如果緩沖區(qū)已滿,將調(diào)用 compress() 方法對數(shù)據(jù)進(jìn)行壓縮。流程如下圖所示: 圖 18. 調(diào)用流程圖 圖 18. 調(diào)用流程圖 結(jié)束語 本文深入到 Hadoop 平臺壓縮框架內(nèi)部,對其核心代碼以及各壓縮格式的效率進(jìn)行對比分析,以幫助讀者在使用 Hadoop 平臺時(shí),可以通過對數(shù)據(jù)進(jìn)行壓縮處理來提高數(shù)據(jù)處理效率。當(dāng)再次面臨海量數(shù)據(jù)處理時(shí), Hadoop 平臺的壓縮機(jī)制可以讓我們事半功倍。 相關(guān)主題 Hadoop 在線 API 《Hadoop 技術(shù)內(nèi)幕深入解析 HADOOP COMMON 和 HDFS 架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)原理》 developerWorks 開源技術(shù)主題:查找豐富的操作信息、工具和項(xiàng)目更新,幫助您掌握開源技術(shù)并將其用于 IBM 產(chǎn)品。
    posted @ 2017-09-14 17:35 xzc 閱讀(560) | 評論 (0)編輯 收藏

    Linux系統(tǒng)查看當(dāng)前主機(jī)CPU、內(nèi)存、機(jī)器型號及主板信息:


    查看CPU信息(型號)
    # cat /proc/cpuinfo | grep name | cut -f2 -d: | uniq -c

     

    查看內(nèi)存信息
    # cat /proc/meminfo

     

    查看主板型號:
    # dmidecode |grep -A16 "System Information$"

     

    查看機(jī)器型號
    # dmidecode | grep "Product Name"

     

    查看當(dāng)前操作系統(tǒng)內(nèi)核信息
    # uname -a

     

    查看當(dāng)前操作系統(tǒng)發(fā)行版信息
    # cat /etc/issue | grep Linux

    posted @ 2017-09-10 16:37 xzc 閱讀(247) | 評論 (0)編輯 收藏
    本文介紹Hadoop YARN最近版本中增加的幾個(gè)非常有用的特性,包括: (1)ResourceManager HA 在apache hadoop 2.4或者CDH5.0.0版本之后,增加了ResourceManger HA特性,支持基于Zookeeper的熱主備切換,具體配置參數(shù)可以參考Cloudera的文檔:ResourceManager HA配置。 需要注意的是,ResourceManager HA只完成了第一個(gè)階段的設(shè)計(jì),即備ResourceManager啟動后,會殺死之前正在運(yùn)行的Application,然后從共享存儲系統(tǒng)中讀取這些Application的元數(shù)據(jù)信息,并重新提交這些Application。啟動ApplicationMaster后,剩下的容錯(cuò)功能就交給ApplicationMaster實(shí)現(xiàn)了,比如MapReduce的ApplicationMaster會不斷地將完成的任務(wù)信息寫到HDFS上,這樣,當(dāng)它重啟時(shí),可以重新讀取這些日志,進(jìn)而只需重新運(yùn)行那些未完成的任務(wù)。ResourceManager HA第二個(gè)階段的任務(wù)是,備ResourceManager接管主ResourceManager后,無需殺死那些正在運(yùn)行的Application,讓他們像任何事情沒有發(fā)生一樣運(yùn)行下去。 (2) 磁盤容錯(cuò) 在apache hadoop 2.4或者CDH5.0.0版本之后,增加了幾個(gè)對多磁盤非常友好地參數(shù),這些參數(shù)允許YARN更好地使用NodeManager上的多塊磁盤,相關(guān)jira為:YARN-1781,主要新增了三個(gè)參數(shù): yarn.nodemanager.disk-health-checker.min-healthy-disks:NodeManager上最少保證健康磁盤比例,當(dāng)健康磁盤比例低于該值時(shí),NodeManager不會再接收和啟動新的Container,默認(rèn)值是0.25,表示25%; yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage:一塊磁盤的最高使用率,當(dāng)一塊磁盤的使用率超過該值時(shí),則認(rèn)為該盤為壞盤,不再使用該盤,默認(rèn)是100,表示100%,可以適當(dāng)調(diào)低; yarn.nodemanager.disk-health-checker.min-free-space-per-disk-mb:一塊磁盤最少保證剩余空間大小,當(dāng)某塊磁盤剩余空間低于該值時(shí),將不再使用該盤,默認(rèn)是0,表示0MB。 (3)資源調(diào)度器 Fair Scheduler:Fair Scheduler增加了一個(gè)非常有用的新特性,允許用戶在線將一個(gè)應(yīng)用程序從一個(gè)隊(duì)列轉(zhuǎn)移到另外一個(gè)隊(duì)列,比如將一個(gè)重要作業(yè)從一個(gè)低優(yōu)先級隊(duì)列轉(zhuǎn)移到高優(yōu)先級隊(duì)列,操作命令是:bin/yarn application -movetoqueue appID -queue targetQueueName,相關(guān)jira為:YARN-1721。 Capacity Scheduler:Capacity Scheduler中資源搶占功能經(jīng)過了充分的測試,可以使用了。 原創(chuàng)文章,轉(zhuǎn)載請注明: 轉(zhuǎn)載自董的博客 本文鏈接地址: http://dongxicheng.org/mapreduce-nextgen/hadoop-yarn-recently-new-features/
    posted @ 2017-09-07 11:37 xzc 閱讀(277) | 評論 (0)編輯 收藏
    關(guān)于mapreduce程序運(yùn)行在yarn上時(shí)內(nèi)存的分配一直是一個(gè)讓我蒙圈的事情,單獨(dú)查任何一個(gè)資料都不能很好的理解透徹。于是,最近查了大量的資料,綜合各種解釋,終于理解到了一個(gè)比較清晰的程度,在這里將理解的東西做一個(gè)簡單的記錄,以備忘卻。 首先,先將關(guān)于mapreduce和yarn關(guān)于內(nèi)存分配的參數(shù)粘貼上: yarn.scheduler.minimum-allocation-mb yarn.scheduler.maximum-allocation-mb yarn.nodemanager.resource.memory-mb yarn.nodemanager.vmem-pmem-ratio yarn.scheduler.increment-allocation-mb mapreduce.map.memory.mb mapreduce.reduce.memory.mb mapreduce.map.java.opts mapreduce.reduce.java.opts 個(gè)人認(rèn)為,針對mapreduce任務(wù),這些參數(shù)只有放在一起學(xué)習(xí)才能真正理解,如果單獨(dú)考慮,理解不清晰。下面開始詳細(xì)講解。 一、理解參數(shù)yarn.nodemanager.resource.memory-mb,yarn.nodemanager.vmem-pmem-ratio yarn.nodemanager.resource.memory-mb很簡單,就是你的這臺服務(wù)器節(jié)點(diǎn)上準(zhǔn)備分給yarn的內(nèi)存; yarn.nodemanager.vmem-pmem-ratio網(wǎng)上解釋都是"每使用1MB物理內(nèi)存,最多可用的虛擬內(nèi)存數(shù),默認(rèn)2.1",但是目前我還是不太理解其作用是什么,有知道的朋友希望能詳細(xì)解釋下。 二、理解參數(shù)yarn.scheduler.minimum-allocation-mb和yarn.scheduler.maximum-allocation-mb 都知道,在yarn上運(yùn)行程序時(shí)每個(gè)task都是在獨(dú)立的Container中運(yùn)行的,單個(gè)Container可以申請的最小和最大內(nèi)存的限制就是這兩個(gè)參數(shù),注意,并不是這兩個(gè)參數(shù)決定單個(gè)Container申請內(nèi)存的大小,而僅僅是限制的一個(gè)范圍。 三、理解yarn的內(nèi)存規(guī)整化因子和內(nèi)存規(guī)整化算法 先不說和哪個(gè)參數(shù)有關(guān),單純理解這一概念。舉例: 假如規(guī)整化因子b=512M,上述講的參數(shù)yarn.scheduler.minimum-allocation-mb為1024,yarn.scheduler.maximum-allocation-mb為8096,然后我打算給單個(gè)map任務(wù)申請內(nèi)存資源(mapreduce.map.memory.mb): 申請的資源為a=1000M時(shí),實(shí)際得到的Container內(nèi)存大小為1024M(小于yarn.scheduler.minimum-allocation-mb的話自動設(shè)置為yarn.scheduler.minimum-allocation-mb); 申請的資源為a=1500M時(shí),實(shí)際得到的Container內(nèi)存大小為1536M,計(jì)算公式為:ceiling(a/b)*b,即ceiling(a/b)=ceiling(1500/512)=3,3*512=1536。此處假如b=1024,則Container實(shí)際內(nèi)存大小為2048M 也就是說Container實(shí)際內(nèi)存大小最小為yarn.scheduler.minimum-allocation-mb值,然后增加時(shí)的最小增加量為規(guī)整化因子b,最大不超過yarn.scheduler.maximum-allocation-mb 四、理解mapreduce.map.memory.mb、mapreduce.reduce.memory.mb "三"中提到的"打算給單個(gè)map任務(wù)申請內(nèi)存資源"也就是a,其實(shí)就是指的"mapreduce.map.memory.mb"或"mapreduce.reduce.memory.mb",注意其值不要超過yarn.scheduler.maximum-allocation-mb 五、理解mapreduce.map.java.opts、mapreduce.reduce.java.opts 以map任務(wù)為例,Container其實(shí)就是在執(zhí)行一個(gè)腳本文件,而腳本文件中,會執(zhí)行一個(gè) Java 的子進(jìn)程,這個(gè)子進(jìn)程就是真正的 Map Task,mapreduce.map.java.opts 其實(shí)就是啟動 JVM 虛擬機(jī)時(shí),傳遞給虛擬機(jī)的啟動參數(shù),而默認(rèn)值 -Xmx200m 表示這個(gè) Java 程序可以使用的最大堆內(nèi)存數(shù),一旦超過這個(gè)大小,JVM 就會拋出 Out of Memory 異常,并終止進(jìn)程。而 mapreduce.map.memory.mb 設(shè)置的是 Container 的內(nèi)存上限,這個(gè)參數(shù)由 NodeManager 讀取并進(jìn)行控制,當(dāng) Container 的內(nèi)存大小超過了這個(gè)參數(shù)值,NodeManager 會負(fù)責(zé) kill 掉 Container。在后面分析 yarn.nodemanager.vmem-pmem-ratio 這個(gè)參數(shù)的時(shí)候,會講解 NodeManager 監(jiān)控 Container 內(nèi)存(包括虛擬內(nèi)存和物理內(nèi)存)及 kill 掉 Container 的過程。 也就是說,mapreduce.map.java.opts一定要小于mapreduce.map.memory.mb mapreduce.reduce.java.opts同mapreduce.map.java.opts一樣的道理。 六、理解規(guī)整化因子指的是哪個(gè)參數(shù) "三"中提到的規(guī)整化因子也就是b,具體指的是哪個(gè)參數(shù)和yarn使用的調(diào)度器有關(guān),一共有三種調(diào)度器:capacity scheduler(默認(rèn)調(diào)度器)、fair scheduler和fifo scheduler 當(dāng)使用capacity scheduler或者fifo scheduler時(shí),規(guī)整化因子指的就是參數(shù)yarn.scheduler.minimum-allocation-mb,不能單獨(dú)配置,即yarn.scheduler.increment-allocation-mb無作用; 當(dāng)使用fair scheduler時(shí),規(guī)整化因子指的是參數(shù)yarn.scheduler.increment-allocation-mb 至此,關(guān)于yarn和mapreduce的任務(wù)內(nèi)存配置問題講完了,這也是我目前理解的層次。
    posted @ 2017-08-30 21:05 xzc 閱讀(308) | 評論 (0)編輯 收藏
    1. 日期輸出格式化

    所有日期、時(shí)間的api都在datetime模塊內(nèi)。

    1. datetime => string

    now = datetime.datetime.now()
    now.strftime('%Y-%m-%d %H:%M:%S')
    #輸出2012-03-05 16:26:23.870105

    strftime是datetime類的實(shí)例方法。

    2. string => datetime

    t_str = '2012-03-05 16:26:23'
    d = datetime.datetime.strptime(t_str, '%Y-%m-%d %H:%M:%S')

    strptime是datetime類的靜態(tài)方法。

    2. 日期比較操作

    在datetime模塊中有timedelta類,這個(gè)類的對象用于表示一個(gè)時(shí)間間隔,比如兩個(gè)日期或者時(shí)間的差別。

    構(gòu)造方法:

    datetime.timedelta(days=0, seconds=0, microseconds=0, milliseconds=0, minutes=0, hours=0, weeks=0)

    所有的參數(shù)都有默認(rèn)值0,這些參數(shù)可以是int或float,正的或負(fù)的。

    可以通過timedelta.days、tiemdelta.seconds等獲取相應(yīng)的時(shí)間值。

    timedelta類的實(shí)例,支持加、減、乘、除等操作,所得的結(jié)果也是timedelta類的實(shí)例。比如:

    year = timedelta(days=365)
    ten_years = year *10
    nine_years = ten_years - year

    同時(shí),date、time和datetime類也支持與timedelta的加、減運(yùn)算。

    datetime1 = datetime2 +/- timedelta
    timedelta = datetime1 - datetime2

    這樣,可以很方便的實(shí)現(xiàn)一些功能。

    1. 兩個(gè)日期相差多少天。

    d1 = datetime.datetime.strptime('2012-03-05 17:41:20', '%Y-%m-%d %H:%M:%S')
    d2 = datetime.datetime.strptime('2012-03-02 17:41:20', '%Y-%m-%d %H:%M:%S')
    delta = d1 - d2
    print delta.days

    輸出:3

    2. 今天的n天后的日期。

    now = datetime.datetime.now()
    delta = datetime.timedelta(days=3)
    n_days = now + delta
    print n_days.strftime('%Y-%m-%d %H:%M:%S')

    輸出:2012-03-08 17:44:50

    復(fù)制代碼
    #coding=utf-8
    import datetime
    now=datetime.datetime.now()
    print now
    #將日期轉(zhuǎn)化為字符串 datetime => string
    print now.strftime('%Y-%m-%d %H:%M:%S')
    
    t_str = '2012-03-05 16:26:23'
    #將字符串轉(zhuǎn)換為日期 string => datetime
    d=datetime.datetime.strptime(t_str,'%Y-%m-%d %H:%M:%S')
    print d
    
    #在datetime模塊中有timedelta類,這個(gè)類的對象用于表示一個(gè)時(shí)間間隔,比如兩個(gè)日#期或者時(shí)間的差別。
    
    #計(jì)算兩個(gè)日期的間隔
    d1 = datetime.datetime.strptime('2012-03-05 17:41:20', '%Y-%m-%d %H:%M:%S')
    d2 = datetime.datetime.strptime('2012-03-02 17:41:20', '%Y-%m-%d %H:%M:%S')
    delta = d1 - d2
    print delta.days
    print delta
    
    #今天的n天后的日期。
    now=datetime.datetime.now()
    delta=datetime.timedelta(days=3)
    n_days=now+delta
    print n_days.strftime('%Y-%m-%d %H:%M:%S')
    復(fù)制代碼
    posted @ 2017-08-14 23:09 xzc 閱讀(1369) | 評論 (0)編輯 收藏

    Shell中并沒有真正意義的多線程,要實(shí)現(xiàn)多線程可以啟動多個(gè)后端進(jìn)程,最大程度利用cpu性能。

    直接看代碼示例吧。

    (1) 順序執(zhí)行的代碼

    復(fù)制代碼
     1 #!/bin/bash  2 date  3 for i in `seq 1 5`  4 do  5 {  6     echo "sleep 5"  7     sleep 5  8 }  9 done 10 date 
    復(fù)制代碼

    輸出:

    復(fù)制代碼
    Sat Nov 19 09:21:51 CST 2016 sleep 5 sleep 5 sleep 5 sleep 5 sleep 5 Sat Nov 19 09:22:16 CST 2016
    復(fù)制代碼

    (2) 并行代碼

    使用'&'+wait 實(shí)現(xiàn)“多進(jìn)程”實(shí)現(xiàn)

    復(fù)制代碼
     1 #!/bin/bash  2 date  3 for i in `seq 1 5`  4 do  5 {  6     echo "sleep 5"  7     sleep 5  8 } &  9 done 10 wait  ##等待所有子后臺進(jìn)程結(jié)束 11 date
    復(fù)制代碼

    輸出:

    復(fù)制代碼
    Sat Nov 19 09:25:07 CST 2016 sleep 5 sleep 5 sleep 5 sleep 5 sleep 5 Sat Nov 19 09:25:12 CST 2016
    復(fù)制代碼

     (3) 對于大量處理任務(wù)如何實(shí)現(xiàn)啟動后臺進(jìn)程的數(shù)量可控?

      簡單的方法可以使用2層for/while循環(huán)實(shí)現(xiàn),每次wait內(nèi)層循環(huán)的多個(gè)后臺程序執(zhí)行完成

      但是這種方式的問題是,如果內(nèi)層循環(huán)有“慢節(jié)點(diǎn)”可能導(dǎo)致整個(gè)任務(wù)的執(zhí)行執(zhí)行時(shí)間長。

      更高級的實(shí)現(xiàn)可以看(4)

    (4) 使用命名管道(fifo)實(shí)現(xiàn)每次啟動后臺進(jìn)程數(shù)量可控。 

    復(fù)制代碼
     1 #!/bin/bash  2   3 function my_cmd(){  4     t=$RANDOM  5     t=$[t%15]  6     sleep $t  7     echo "sleep $t s"  8 }  9  10 tmp_fifofile="/tmp/$$.fifo"  11 mkfifo $tmp_fifofile      # 新建一個(gè)fifo類型的文件 12 exec 6<>$tmp_fifofile     # 將fd6指向fifo類型 13 rm $tmp_fifofile    #刪也可以 14  15 thread_num=5  # 最大可同時(shí)執(zhí)行線程數(shù)量 16 job_num=100   # 任務(wù)總數(shù) 17  18 #根據(jù)線程總數(shù)量設(shè)置令牌個(gè)數(shù) 19 for ((i=0;i<${thread_num};i++));do 20     echo 21 done >&6  22  23 for ((i=0;i<${job_num};i++));do # 任務(wù)數(shù)量 24     # 一個(gè)read -u6命令執(zhí)行一次,就從fd6中減去一個(gè)回車符,然后向下執(zhí)行, 25     # fd6中沒有回車符的時(shí)候,就停在這了,從而實(shí)現(xiàn)了線程數(shù)量控制 26     read -u6  27  28     #可以把具體的需要執(zhí)行的命令封裝成一個(gè)函數(shù) 29     {    30         my_cmd 31     } & 32  33     echo >&6 # 當(dāng)進(jìn)程結(jié)束以后,再向fd6中加上一個(gè)回車符,即補(bǔ)上了read -u6減去的那個(gè) 34 done 35  36 wait 37 exec 6>&- # 關(guān)閉fd6 38 echo "over"
    復(fù)制代碼

     

    參考:http://lawrence-zxc.github.io/2012/06/16/shell-thread/

    posted @ 2017-08-02 17:01 xzc 閱讀(356) | 評論 (0)編輯 收藏

    之前在論壇看到一個(gè)關(guān)于HDFS權(quán)限的問題,當(dāng)時(shí)無法回答該問題。無法回答并不意味著對HDFS權(quán)限一無所知,而是不能準(zhǔn)確完整的闡述HDFS權(quán)限,因此決定系統(tǒng)地學(xué)習(xí)HDFS文件權(quán)限。HDFS的文件和目錄權(quán)限模型共享了POSIX(Portable Operating System Interface,可移植操作系統(tǒng)接口)模型的很多部分,比如每個(gè)文件和目錄與一個(gè)擁有者和組相關(guān)聯(lián),文件或者目錄對于擁有者、組內(nèi)的其它用戶和組外的其它用戶有不同的權(quán)限等。與POSIX模型不同的是,HDFS中的文件沒有可執(zhí)行文件的概念,因而也沒有setuid和setgid,雖然目錄依然保留著可執(zhí)行目錄的概念(x),但對于目錄也沒有setuid和setgid。粘貼位(sticky bit)可以用在目錄上,用于阻止除超級用戶,目錄或文件的擁有者外的任何刪除或移動目錄中的文件,文件上的粘貼位不起作用。

          當(dāng)創(chuàng)建文件或目錄時(shí),擁有者為運(yùn)行客戶端進(jìn)程的用戶,組為父目錄所屬的組。每個(gè)訪問HDFS的客戶端進(jìn)程有一個(gè)由用戶姓名和組列表兩部分組的成標(biāo)識,無論何時(shí)HDFS必須對由客戶端進(jìn)程訪問的文件或目錄進(jìn)行權(quán)限檢查,規(guī)則如下:

     

    • 如果進(jìn)程的用戶名匹配文件或目錄的擁有者,那么測試擁有者權(quán)限
    • 否則如果文件或目錄所屬的組匹配組列表中任何組,那么測試組權(quán)限
    • 否則測試其它權(quán)限

     

          如果權(quán)限檢查失敗,則客戶端操作失敗。

          從hadoop-0.22開始,hadoop支持兩種不同的操作模式以確定用戶,分別為simple和kerberos具體使用哪個(gè)方式由參數(shù)hadoop.security.authentication設(shè)置,該參數(shù)位于core-site.xml文件中,默認(rèn)值為simple。在simple模式下,客戶端進(jìn)程的身份由主機(jī)的操作系統(tǒng)確定,比如在類Unix系統(tǒng)中,用戶名為命令whoami的輸出。在kerberos模式下,客戶端進(jìn)程的身份由Kerberos憑證確定,比如在一個(gè)Kerberized環(huán)境中,用戶可能使用kinit工具得到了一個(gè)Kerberos ticket-granting-ticket(TGT)且使用klist確定當(dāng)前的principal。當(dāng)映射一個(gè)Kerberosprincipal到HDFS的用戶名時(shí),除了最主要的部分外其余部分都被丟棄,比如一個(gè)principal為todd/foobar@CORP.COMPANY.COM,將映射為HDFS上的todd。無論哪種操作模式,對于HDFS來說用戶標(biāo)識機(jī)制都是外部的,HDFS本身沒有創(chuàng)建用戶標(biāo),建立組或者處理用戶憑證的規(guī)定。

          上面討論了確定用戶的兩種模式,即simple和kerberos,下面學(xué)習(xí)如何確定用戶組。用戶組是通過由參數(shù)hadoop.security.group.mapping設(shè)置的組映射服務(wù)確定的,默認(rèn)實(shí)現(xiàn)是org.apache.hadoop.security.JniBasedUnixGroupsMappingWithFallback,該實(shí)現(xiàn)首先確定Java本地接口(JNI)是否可用,如果JNI可用,該實(shí)現(xiàn)將使用hadoop中的API為用戶解析用戶組列表。如果JNI不可用,那么使用ShellBasedUnixGroupsMapping,該實(shí)現(xiàn)將使用Linux/Unix中的bash –cgroups命令為用戶解析用戶組列表。其它實(shí)現(xiàn)還有LdapGroupsMapping,通過直接連接LDAP服務(wù)器來解析用戶組列表。對HDFS來說,用戶到組的映射是在NameNode上執(zhí)行的,因而NameNode的主機(jī)系統(tǒng)配置決定了用戶的組映射。HDFS將文件或目錄的用戶和組存儲為字符串,并且不像Linux/Unix那樣可以將用戶和組轉(zhuǎn)換為數(shù)字。

          每個(gè)針對文件或者目錄的操作都將全路徑名稱傳遞到NameNode,然后對該路徑的每次操作都將應(yīng)用權(quán)限檢查。客戶端隱含地關(guān)聯(lián)用戶身份到NameNode的連接,減少改變現(xiàn)存客戶端API的需要。總是存在這么一種情景,當(dāng)在一個(gè)文件上的操作成功后,當(dāng)重復(fù)該操作時(shí)可能失敗,因?yàn)樵撐募蛘呗窂街械哪承┠夸浺呀?jīng)不再存在。例如,當(dāng)客戶端第一次開始讀取一個(gè)文件時(shí),它向NameNode發(fā)出的第一個(gè)請求來發(fā)現(xiàn)該文件第一個(gè)塊的位置,第二個(gè)尋找其他塊的請求可能失敗。另一方面,對于已經(jīng)知道文件塊的客戶端來說,刪除文件不會取消訪問。通過添加權(quán)限,客戶端對文件的訪問在請求之間可能撤回,對于已經(jīng)知道文件塊的客戶端來說,改變權(quán)限不會取消客戶端的訪問。

          HDFS中超級用戶與通常熟悉的Linux或Unix中的root用戶不同,HDFS的超級用戶是與NameNode進(jìn)程有相同標(biāo)示的用戶,更簡單易懂些,啟動NameNode的用戶就為超級用戶。對于誰是超級用戶沒有固定的定義,當(dāng)NameNode啟動后,該進(jìn)程的標(biāo)示決定了誰是超級用戶。HDFS的超級用戶不必是NameNode主機(jī)的超級用戶,也需用所有的集群使用相同的超級用戶,出于實(shí)驗(yàn)?zāi)康脑趥€(gè)人工作站上運(yùn)行HDFS的人自然而然的稱為超級用戶而不需要任何配置。另外參數(shù)dfs.permissions.superusergroup設(shè)置了超級用戶,該組中的所有用戶也為超級用戶。超級用戶在HDFS中可以執(zhí)行任何操作而針對超級用戶的權(quán)限檢查永遠(yuǎn)不會失敗。

          HDFS也提供了對POSIX ACL(訪問控制列表)支持來為特定的用戶或者用戶組提供更加細(xì)粒度的文件權(quán)限。ACL是不同于用戶和組的自然組織層次的有用的權(quán)限控制方式,ACL可以為特定的用戶和組設(shè)置不同的權(quán)限,而不僅僅是文件的擁有者和文件所屬的組。默認(rèn)情況下,HDFS禁用ACL,因此NameNode禁止ACL的創(chuàng)建,為了啟用ACL,需要在hdfs-site.xml中將參數(shù)dfs.namenode.acls.enabled設(shè)置為true。

          訪問控制列表由一組ACL項(xiàng)組成,每個(gè)ACL項(xiàng)命名了特定的用戶或組,并為其授予或拒絕讀,寫和執(zhí)行的權(quán)限,例如:

     

    user::rw- user:bruce:rwx                  #effective:r-- group::r-x                      #effective:r-- group:sales:rwx                 #effective:r-- mask::r-- other::r-- 

     

          每個(gè)ACL項(xiàng)由類型,可選的名稱和權(quán)限字符串組成,它們之間使用冒號(:)。在上面的例子中文件的擁有者具有讀寫權(quán)限,文件所屬的組具有讀和執(zhí)行的權(quán)限,其他用戶具有讀權(quán)限,這些設(shè)置與將文件設(shè)置為654等價(jià)(6表示擁有者的讀寫權(quán)限,5表示組的讀和執(zhí)行權(quán)限,4表示其他用戶的讀權(quán)限)。除此之外,還有兩個(gè)擴(kuò)展的ACL項(xiàng),分別為用戶bruce和組sales,并都授予了讀寫和執(zhí)行的權(quán)限。mask項(xiàng)是一個(gè)特殊的項(xiàng),用于過濾授予所有命名用戶,命名組及未命名組的權(quán)限,即過濾除文件擁有者和其他用戶(other)之外的任何ACL項(xiàng)。在該例子中,mask值有讀權(quán)限,則bruce用戶、sales組和文件所屬的組只具有讀權(quán)限。每個(gè)ACL必須有mask項(xiàng),如果用戶在設(shè)置ACL時(shí)沒有使用mask項(xiàng),一個(gè)mask項(xiàng)被自動加入到ACL中,該mask項(xiàng)是通過計(jì)算所有被mask過濾項(xiàng)的權(quán)限與(&運(yùn)算)得出的。對擁有ACL的文件執(zhí)行chmod實(shí)際改變的是mask項(xiàng)的權(quán)限,因?yàn)閙ask項(xiàng)扮演的是過濾器的角色,這將有效地約束所有擴(kuò)展項(xiàng)的權(quán)限,而不是僅改變組的權(quán)限而可能漏掉其它擴(kuò)展項(xiàng)的權(quán)限。

          訪問控制列表和默認(rèn)訪問控制列表存在著不同,前者定義了在執(zhí)行權(quán)限檢查實(shí)施的規(guī)則,后者定義了新文件或者子目錄創(chuàng)建時(shí)自動接收的ACL項(xiàng),例如:

    user::rwx group::r-x other::r-x default:user::rwx default:user:bruce:rwx          #effective:r-x default:group::r-x default:group:sales:rwx         #effective:r-x default:mask::r-x default:other::r-x 

          只有目錄可能擁有默認(rèn)訪問控制列表,當(dāng)創(chuàng)建新文件或者子目錄時(shí),自動拷貝父輩的默認(rèn)訪問控制列表到自己的訪問控制列表中,新的子目錄也拷貝父輩默認(rèn)的訪問控制列表到自己的默認(rèn)訪問控制列表中。這樣,當(dāng)創(chuàng)建子目錄時(shí)默認(rèn)ACL將沿著文件系統(tǒng)樹被任意深層次地拷貝。在新的子ACL中,準(zhǔn)確的權(quán)限由模式參數(shù)過濾。默認(rèn)的umask為022,通常新目錄權(quán)限為755,新文件權(quán)限為644。模式參數(shù)為未命名用戶(文件的擁有者),mask及其他用戶過濾拷貝的權(quán)限值。在上面的例子中,創(chuàng)建權(quán)限為755的子目錄時(shí),模式對最終結(jié)果沒有影響,但是如果創(chuàng)建權(quán)限為644的文件時(shí),模式過濾器導(dǎo)致新文件的ACL中文件擁有者的權(quán)限為讀寫,mask的權(quán)限為讀以及其他用戶權(quán)限為讀。mask的權(quán)限意味著用戶bruce和組sales只有讀權(quán)限。拷貝ACL發(fā)生在文件或子目錄的創(chuàng)建時(shí),后面如果修改父輩的默認(rèn)ACL將不再影響已存在子類的ACL。

          默認(rèn)ACL必須包含所有最小要求的ACL項(xiàng),包括文件擁有者項(xiàng),文件所屬的組項(xiàng)和其它用戶項(xiàng)。如果用戶沒有在默認(rèn)ACL中配置上述三項(xiàng)中的任何一個(gè),那么該項(xiàng)將通過從訪問ACL拷貝對應(yīng)的權(quán)限來自動插入,或者如果沒有訪問ACL則自動插入權(quán)限位。默認(rèn)ACL也必須擁有mask,如果mask沒有被指定,通過計(jì)算所有被mask過濾項(xiàng)的權(quán)限與(&運(yùn)算)自動插入mask。當(dāng)一個(gè)文件擁有ACL時(shí),權(quán)限檢查的算法變?yōu)椋?/p>

     

    • 如果用戶名匹配文件的擁有者,則測試擁有者權(quán)限
    • 否則,如果用戶名匹配命名用戶項(xiàng)中的用戶名,則測試由mask權(quán)限過濾后的該項(xiàng)的權(quán)限
    • 否則,如果文件所屬的組匹配組列表中的任何組,并且如果這些被mask過濾的權(quán)限具有訪問權(quán)限,那么使用這么權(quán)限
    • 否則,如果存在命名組項(xiàng)匹配組列表中的成員,并且如果這些被mask過濾的權(quán)限具有訪問權(quán)限,那么使用這么權(quán)限
    • 否則,如果文件所屬的組或者任何命名組項(xiàng)匹配組列表中的成員,但不具備訪問權(quán)限,那么訪問被拒絕
    • 否則測試文件的其他用戶權(quán)限

     

          最佳實(shí)踐時(shí)基于傳統(tǒng)的權(quán)限位設(shè)置大部分權(quán)限要求,然后定義少量帶有特殊規(guī)則的ACL增加權(quán)限位。相比較只是用權(quán)限位的文件,使用ACL的文件會在NameNode中產(chǎn)生額外的內(nèi)存消耗。

          上面學(xué)習(xí)了HDFS中的文件權(quán)限和訪問控制列表,最后學(xué)習(xí)一下如何針對權(quán)限和ACL進(jìn)行配置,下表列出了其中的重要參數(shù):

    參數(shù)名

    位置

    用途

    dfs.permissions.enabled

    hdfs-site.xml

    默認(rèn)值為true,即啟用權(quán)限檢查。如果為 false,則禁用權(quán)限檢查。

    hadoop.http.staticuser.user

    core-site.xml

    默認(rèn)值為dr.who,查看web UI的用戶

    dfs.permissions.superusergroup

    hdfs-site.xml

    超級用戶的組名稱,默認(rèn)為supergroup

    <fs.permissions.umask-mode

    core-site.xml

    創(chuàng)建文件和目錄時(shí)使用的umask,默認(rèn)值為八進(jìn)制022,每位數(shù)字對應(yīng)了擁有者,組和其他用戶。該值既可以使用八進(jìn)制數(shù)字,如022,也可以使用符號,如u=rwx,g=r-x,o=r-x(對應(yīng)022)

    dfs.cluster.administrators

    hdfs-site.xml

    被指定為ACL的集群管理員

    dfs.namenode.acls.enabled

    hdfs-site.xml

    默認(rèn)值為false,禁用ACL,設(shè)置為true則啟用ACL。當(dāng)ACL被禁用時(shí),NameNode拒絕設(shè)置或者獲取ACL的請求

    posted @ 2017-07-28 10:55 xzc 閱讀(981) | 評論 (0)編輯 收藏
    1. crontab 命令:用于在某個(gè)時(shí)間,系統(tǒng)自動執(zhí)行你所希望的程序文件或命令。
    2. crontab 的參數(shù)
            -e      (edit user's crontab)
            -l      (list user's crontab)
            -r      (delete user's crontab)
            -i      (prompt before deleting user's crontab)
    3.下面進(jìn)行一個(gè)例子:在8月6號18時(shí)每隔3分鐘執(zhí)行以下命令:who >> /apple/test_crontab.log
       步驟一:先創(chuàng)建一個(gè)文件cronfile:內(nèi)容為如下:
               */3 18 6 8 * who >> /apple/test_crontab_log
       步驟二:將文件cronfile 加入到cron守護(hù)進(jìn)行(命令為:crontab cronfile)
    4. 檢查是否加入到守護(hù)進(jìn)程cron中,用命令:crontab -l
       如何出來的內(nèi)容中包含你剛剛的內(nèi)容,則加入成功。每隔3分鐘查看下test_crontab.log文件,看看是否有內(nèi)容。
    5. 對crontab內(nèi)容格式的解釋:f1 f2 f3 f4 f5 program
       f1 是表示分鐘(0-59),f2 表示小時(shí)(0-23),f3 表示一個(gè)月份中的第幾日(1-(31、30、29、28)),f4 表示月份(1-12),f5 表示一個(gè)星期中的第幾天(0-6(0表示周日))。program 表示要執(zhí)行的程式(可以理解為文件或命令)
       f1:為*時(shí)候表示每隔1分鐘,如果為*/n 表示每隔n分鐘,如果為3,4 表示第3,4分鐘,如果為2-6表示第2分鐘到第6分鐘。
       f2:為*時(shí)候表示每隔1小說。如果為*/n 表示每隔n小時(shí),如果為3,4 表示第3,4小時(shí),如果為2-6表示第2小時(shí)到第6小時(shí)
       f3: 為*時(shí)候表示每天。n 表示第n天
       f4: 為*時(shí)候表示每月。n 表示第n個(gè)月
       f5: 為*時(shí)候表示每周。0表示周日,6表示周六,1-4表示周一到周六
    6. 具體例子:(來自crontab百度百科)
       a. 每月每天每小時(shí)的第 0 分鐘執(zhí)行一次 /bin/ls :   0 * * * * /bin/ls   
       b. 在 12 月內(nèi), 每天的早上 6 點(diǎn)到 12 點(diǎn)中,每隔 20 分鐘執(zhí)行一次 /usr/bin/backup :
          */20 6-12 * 12 * /usr/bin/backup  
      c. 周一到周五每天下午 5:00 寄一封信給 alex_mail_name :  
          0 17 * * 1-5 mail -s "hi" alex_mail_name < /tmp/maildata   
       d. 每月每天的午夜 0 點(diǎn) 20 分, 2 點(diǎn) 20 分, 4 點(diǎn) 20 分....執(zhí)行 echo "haha"   
          20 0-23/2 * * * echo "haha"   
       e. 晚上11點(diǎn)到早上8點(diǎn)之間每兩個(gè)小時(shí)和早上8點(diǎn) 顯示日期  0 23-7/2,8 * * * date 
    posted @ 2017-07-27 18:59 xzc 閱讀(308) | 評論 (0)編輯 收藏
    最近一段時(shí)間,在處理Shell 腳本時(shí)候,遇到時(shí)間的處理問題。 時(shí)間的加減,以及時(shí)間差的計(jì)算。 
     
    1。 時(shí)間加減
     
    這里處理方法,是將基礎(chǔ)的時(shí)間轉(zhuǎn)變?yōu)闀r(shí)間戳,然后,需要增加或者改變時(shí)間,變成 秒。 
     
    如:1990-01-01 01:01:01  加上 1小時(shí) 20分
    處理方法:
    a.將基礎(chǔ)時(shí)間轉(zhuǎn)為時(shí)間戳
    time1=$(date +%s -d '1990-01-01 01:01:01')
    echo $time1
    631126861 【時(shí)間戳】
     
    b.將增加時(shí)間變成秒
    [root@localhost ~]# time2=$((1*60*60+20*60))
    [root@localhost ~]# echo $time2
    4800
     
    c.兩個(gè)時(shí)間相加,計(jì)算出結(jié)果時(shí)間
    time1=$(($time1+$time2))
    time1=$(date +%Y-%m-%d\ %H:%M:%S -d "1970-01-01 UTC $time1 seconds");
    echo $time1
    1990-01-01 02:21:01
     
    2。時(shí)間差計(jì)算方法
     
    如:2010-01-01 與 2009-01-01 11:11:11 時(shí)間差
    原理:同樣轉(zhuǎn)成時(shí)間戳,然后計(jì)算天,時(shí),分,秒
     
    time1=$(($(date +%s -d '2010-01-01') - $(date +%s -d '2009-01-01 11:11:11')));
    echo time1
     
    將time1 / 60 秒,就變成分了。
     
    補(bǔ)充說明:
    shell 單括號運(yùn)算符號:
    a=$(date);
    等同于:a=`date`;
     
    雙括號運(yùn)算符:
    a=$((1+2));
    echo $a;
    等同于:
    a=`expr 1 + 2`
    posted @ 2017-07-06 16:33 xzc 閱讀(3339) | 評論 (1)編輯 收藏

    可參照:http://www.voidcn.com/blog/Vindra/article/p-4917667.html

    一、get請求 

    curl "http://www.baidu.com"  如果這里的URL指向的是一個(gè)文件或者一幅圖都可以直接下載到本地

    curl -i "http://www.baidu.com"  顯示全部信息

    curl -l "http://www.baidu.com" 只顯示頭部信息

    curl -v "http://www.baidu.com" 顯示get請求全過程解析

     

    wget "http://www.baidu.com"也可以

     

    二、post請求

    curl -d "param1=value1&param2=value2" "http://www.baidu.com"

     

    三、json格式的post請求

    curl -l -H "Content-type: application/json" -X POST -d '{"phone":"13521389587","password":"test"}' http://domain/apis/users.json

    例如:

    curl -l -H "Content-type: application/json" -X POST -d '{"ver": "1.0","soa":{"req":"123"},"iface":"me.ele.lpdinfra.prediction.service.PredictionService","method":"restaurant_make_order_time","args":{"arg2":"\"stable\"","arg1":"{\"code\":[\"WIND\"],\"temperature\":11.11}","arg0":"{\"tracking_id\":\"100000000331770936\",\"eleme_order_id\":\"100000000331770936\",\"platform_id\":\"4\",\"restaurant_id\":\"482571\",\"dish_num\":1,\"dish_info\":[{\"entity_id\":142547763,\"quantity\":1,\"category_id\":1,\"dish_name\":\"[0xe7][0x89][0xb9][0xe4][0xbb][0xb7][0xe8][0x85][0x8a][0xe5][0x91][0xb3][0xe5][0x8f][0x89][0xe7][0x83][0xa7][0xe5][0x8f][0x8c][0xe6][0x8b][0xbc][0xe7][0x85][0xb2][0xe4][0xbb][0x94][0xe9][0xa5][0xad]\",\"price\":31.0}],\"merchant_location\":{\"longitude\":\"121.47831425\",\"latitude\":\"31.27576153\"},\"customer_location\":{\"longitude\":\"121.47831425\",\"latitude\":\"31.27576153\"},\"created_at\":1477896550,\"confirmed_at\":1477896550,\"dishes_total_price\":0.0,\"food_boxes_total_price\":2.0,\"delivery_total_price\":2.0,\"pay_amount\":35.0,\"city_id\":\"1\"}"}}' http://vpcb-lpdinfra-stream-1.vm.elenet.me:8989/rpc

    ps:json串內(nèi)層參數(shù)需要格式化

    posted @ 2017-05-18 11:28 xzc 閱讀(1646) | 評論 (1)編輯 收藏
    服務(wù)器上的一些統(tǒng)計(jì)數(shù)據(jù):

    1)統(tǒng)計(jì)80端口連接數(shù)
    netstat -nat|grep -i "80"|wc -l

    2)統(tǒng)計(jì)httpd協(xié)議連接數(shù)
    ps -ef|grep httpd|wc -l

    3)、統(tǒng)計(jì)已連接上的,狀態(tài)為“established
    netstat -na|grep ESTABLISHED|wc -l

    4)、查出哪個(gè)IP地址連接最多,將其封了.
    netstat -na|grep ESTABLISHED|awk {print $5}|awk -F: {print $1}|sort|uniq -c|sort -r +0n

    netstat -na|grep SYN|awk {print $5}|awk -F: {print $1}|sort|uniq -c|sort -r +0n

    ---------------------------------------------------------------------------------------------

    1、查看apache當(dāng)前并發(fā)訪問數(shù):
    netstat -an | grep ESTABLISHED | wc -l

    對比httpd.conf中MaxClients的數(shù)字差距多少。

    2、查看有多少個(gè)進(jìn)程數(shù):
    ps aux|grep httpd|wc -l

    3、可以使用如下參數(shù)查看數(shù)據(jù)
    server-status?auto

    #ps -ef|grep httpd|wc -l
    1388
    統(tǒng)計(jì)httpd進(jìn)程數(shù),連個(gè)請求會啟動一個(gè)進(jìn)程,使用于Apache服務(wù)器。
    表示Apache能夠處理1388個(gè)并發(fā)請求,這個(gè)值A(chǔ)pache可根據(jù)負(fù)載情況自動調(diào)整。

    #netstat -nat|grep -i "80"|wc -l
    4341
    netstat -an會打印系統(tǒng)當(dāng)前網(wǎng)絡(luò)鏈接狀態(tài),而grep -i "80"是用來提取與80端口有關(guān)的連接的,wc -l進(jìn)行連接數(shù)統(tǒng)計(jì)。
    最終返回的數(shù)字就是當(dāng)前所有80端口的請求總數(shù)。

    #netstat -na|grep ESTABLISHED|wc -l
    376
    netstat -an會打印系統(tǒng)當(dāng)前網(wǎng)絡(luò)鏈接狀態(tài),而grep ESTABLISHED 提取出已建立連接的信息。 然后wc -l統(tǒng)計(jì)。
    最終返回的數(shù)字就是當(dāng)前所有80端口的已建立連接的總數(shù)。

    netstat -nat||grep ESTABLISHED|wc - 可查看所有建立連接的詳細(xì)記錄

    查看Apache的并發(fā)請求數(shù)及其TCP連接狀態(tài):
    Linux命令:
    netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'

    返回結(jié)果示例:
    LAST_ACK 5
    SYN_RECV 30
    ESTABLISHED 1597
    FIN_WAIT1 51
    FIN_WAIT2 504
    TIME_WAIT 1057
    其中的
    SYN_RECV表示正在等待處理的請求數(shù);
    ESTABLISHED表示正常數(shù)據(jù)傳輸狀態(tài);
    TIME_WAIT表示處理完畢,等待超時(shí)結(jié)束的請求數(shù)。

    ---------------------------------------------------------------------------------------------

    查看httpd進(jìn)程數(shù)(即prefork模式下Apache能夠處理的并發(fā)請求數(shù)):
    Linux命令:
         ps -ef | grep httpd | wc -l

    查看Apache的并發(fā)請求數(shù)及其TCP連接狀態(tài):

    Linux命令:
         netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'
    返回結(jié)果示例:
    LAST_ACK 5
    SYN_RECV 30
    ESTABLISHED 1597
    FIN_WAIT1 51
    FIN_WAIT2 504
    TIME_WAIT 1057

    說明:
       SYN_RECV表示正在等待處理的請求數(shù);
       ESTABLISHED表示正常數(shù)據(jù)傳輸狀態(tài);
       TIME_WAIT表示處理完畢,等待超時(shí)結(jié)束的請求數(shù)。
    posted @ 2017-05-17 23:12 xzc 閱讀(1470) | 評論 (2)編輯 收藏
    主站蜘蛛池模板: 久久久久亚洲AV无码去区首| 中文字幕在线免费看| 精品香蕉在线观看免费| 亚洲大尺度无码无码专区| 一级日本高清视频免费观看| 国产真人无遮挡作爱免费视频 | 亚洲乱色伦图片区小说| 91久久青青草原线免费| 亚洲AV综合色一区二区三区| 久久久精品视频免费观看 | 中文字幕在线观看亚洲日韩| 免费视频爱爱太爽了| 久久久久亚洲AV成人网人人网站| 国产亚洲视频在线观看网址| 午夜电影免费观看| 亚洲日韩精品无码专区加勒比| 野花高清在线观看免费3中文| 亚洲短视频在线观看| 在线美女免费观看网站h| 久久狠狠高潮亚洲精品| 91精品国产免费久久国语蜜臀| 亚洲国产成人久久综合一 | 久久亚洲精品成人| 青青草原1769久久免费播放| 亚洲AV综合色区无码一区| 国产情侣久久久久aⅴ免费| 亚洲AV永久青草无码精品| 国产一区二区免费| 久久精品国产96精品亚洲| 外国成人网在线观看免费视频| 亚洲精品综合一二三区在线| 99在线在线视频免费视频观看| 99人中文字幕亚洲区| 精品久久8x国产免费观看| 亚洲一区二区三区深夜天堂| 四虎永久在线观看免费网站网址| 亚洲天堂2017无码中文| 在线免费观看视频你懂的| jizzjizz亚洲日本少妇| 日批日出水久久亚洲精品tv| 一级免费黄色毛片|