http://www.cnblogs.com/shitouer/archive/2012/12/19/2823641.html最近在看《Hadoop:The Definitive Guide》,對(duì)其分布式文件系統(tǒng)HDFS的Streaming data access不能理解。基于流的數(shù)據(jù)讀寫,太抽象了,什么叫基于流,什么是流?Hadoop是Java語言寫的,所以想理解好Hadoop的Streaming Data Access,還得從Java流機(jī)制入手。流機(jī)制也是JAVA及C++中的一個(gè)重要的機(jī)制,通過流使我們能夠自由地操作包括文件,內(nèi)存,IO設(shè)備等等中的數(shù)據(jù)。
首先,流是什么?
流是個(gè)抽象的概念,是對(duì)輸入輸出設(shè)備的抽象,Java程序中,對(duì)于數(shù)據(jù)的輸入/輸出操作都是以“流”的方式進(jìn)行。設(shè)備可以是文件,網(wǎng)絡(luò),內(nèi)存等。

流具有方向性,至于是輸入流還是輸出流則是一個(gè)相對(duì)的概念,一般以程序?yàn)閰⒖迹绻麛?shù)據(jù)的流向是程序至設(shè)備,我們成為輸出流,反之我們稱為輸入流。
可以將流想象成一個(gè)“水流管道”,水流就在這管道中形成了,自然就出現(xiàn)了方向的概念。

當(dāng)程序需要從某個(gè)數(shù)據(jù)源讀入數(shù)據(jù)的時(shí)候,就會(huì)開啟一個(gè)輸入流,數(shù)據(jù)源可以是文件、內(nèi)存或網(wǎng)絡(luò)等等。相反地,需要寫出數(shù)據(jù)到某個(gè)數(shù)據(jù)源目的地的時(shí)候,也會(huì)開啟一個(gè)輸出流,這個(gè)數(shù)據(jù)源目的地也可以是文件、內(nèi)存或網(wǎng)絡(luò)等等。
流有哪些分類?
可以從不同的角度對(duì)流進(jìn)行分類:
1. 處理的數(shù)據(jù)單位不同,可分為:字符流,字節(jié)流
2.數(shù)據(jù)流方向不同,可分為:輸入流,輸出流
3.功能不同,可分為:節(jié)點(diǎn)流,處理流
1. 和 2. 都比較好理解,對(duì)于根據(jù)功能分類的,可以這么理解:
節(jié)點(diǎn)流:節(jié)點(diǎn)流從一個(gè)特定的數(shù)據(jù)源讀寫數(shù)據(jù)。即節(jié)點(diǎn)流是直接操作文件,網(wǎng)絡(luò)等的流,例如FileInputStream和FileOutputStream,他們直接從文件中讀取或往文件中寫入字節(jié)流。

處理流:“連接”在已存在的流(節(jié)點(diǎn)流或處理流)之上通過對(duì)數(shù)據(jù)的處理為程序提供更為強(qiáng)大的讀寫功能。過濾流是使用一個(gè)已經(jīng)存在的輸入流或輸出流連接創(chuàng)建的,過濾流就是對(duì)節(jié)點(diǎn)流進(jìn)行一系列的包裝。例如BufferedInputStream和BufferedOutputStream,使用已經(jīng)存在的節(jié)點(diǎn)流來構(gòu)造,提供帶緩沖的讀寫,提高了讀寫的效率,以及DataInputStream和DataOutputStream,使用已經(jīng)存在的節(jié)點(diǎn)流來構(gòu)造,提供了讀寫Java中的基本數(shù)據(jù)類型的功能。他們都屬于過濾流。

舉個(gè)簡單的例子:
public static void main(String[] args) throws IOException {
// 節(jié)點(diǎn)流FileOutputStream直接以A.txt作為數(shù)據(jù)源操作
FileOutputStream fileOutputStream = new FileOutputStream("A.txt");
// 過濾流BufferedOutputStream進(jìn)一步裝飾節(jié)點(diǎn)流,提供緩沖寫
BufferedOutputStream bufferedOutputStream = new BufferedOutputStream(
fileOutputStream);
// 過濾流DataOutputStream進(jìn)一步裝飾過濾流,使其提供基本數(shù)據(jù)類型的寫
DataOutputStream out = new DataOutputStream(bufferedOutputStream);
out.writeInt(3);
out.writeBoolean(true);
out.flush();
out.close();
// 此處輸入節(jié)點(diǎn)流,過濾流正好跟上邊輸出對(duì)應(yīng),讀者可舉一反三
DataInputStream in = new DataInputStream(new BufferedInputStream(
new FileInputStream("A.txt")));
System.out.println(in.readInt());
System.out.println(in.readBoolean());
in.close();
}
流結(jié)構(gòu)介紹:
Java所有的流類位于java.io包中,都分別繼承字以下四種抽象流類型。
| 字節(jié)流 | 字符流 |
輸入流 | InputStream | Reader |
輸出流 | OutputStream | Writer |
1.繼承自InputStream/OutputStream的流都是用于向程序中輸入/輸出數(shù)據(jù),且數(shù)據(jù)的單位都是字節(jié)(byte=8bit),如圖,深色的為節(jié)點(diǎn)流,淺色的為處理流。

2.繼承自Reader/Writer的流都是用于向程序中輸入/輸出數(shù)據(jù),且數(shù)據(jù)的單位都是字符(2byte=16bit),如圖,深色的為節(jié)點(diǎn)流,淺色的為處理流。


常見流類介紹:
節(jié)點(diǎn)流類型常見的有:
對(duì)文件操作的字符流有FileReader/FileWriter,字節(jié)流有FileInputStream/FileOutputStream。
處理流類型常見的有:
緩沖流:緩沖流要“套接”在相應(yīng)的節(jié)點(diǎn)流之上,對(duì)讀寫的數(shù)據(jù)提供了緩沖的功能,提高了讀寫效率,同事增加了一些新的方法。
字節(jié)緩沖流有BufferedInputStream/BufferedOutputStream,字符緩沖流有BufferedReader/BufferedWriter,字符緩沖流分別提供了讀取和寫入一行的方法ReadLine和NewLine方法。
對(duì)于輸出地緩沖流,寫出的數(shù)據(jù),會(huì)先寫入到內(nèi)存中,再使用flush方法將內(nèi)存中的數(shù)據(jù)刷到硬盤。所以,在使用字符緩沖流的時(shí)候,一定要先flush,然后再close,避免數(shù)據(jù)丟失。
轉(zhuǎn)換流:用于字節(jié)數(shù)據(jù)到字符數(shù)據(jù)之間的轉(zhuǎn)換。
僅有字符流InputStreamReader/OutputStreamWriter。其中,InputStreamReader需要與InputStream“套接”,OutputStreamWriter需要與OutputStream“套接”。
數(shù)據(jù)流:提供了讀寫Java中的基本數(shù)據(jù)類型的功能。
DataInputStream和DataOutputStream分別繼承自InputStream和OutputStream,需要“套接”在InputStream和OutputStream類型的節(jié)點(diǎn)流之上。
對(duì)象流:用于直接將對(duì)象寫入寫出。
流類有ObjectInputStream和ObjectOutputStream,本身這兩個(gè)方法沒什么,但是其要寫出的對(duì)象有要求,該對(duì)象必須實(shí)現(xiàn)Serializable接口,來聲明其是可以序列化的。否則,不能用對(duì)象流讀寫。
還有一個(gè)關(guān)鍵字比較重要,transient,由于修飾實(shí)現(xiàn)了Serializable接口的類內(nèi)的屬性,被該修飾符修飾的屬性,在以對(duì)象流的方式輸出的時(shí)候,該字段會(huì)被忽略。
posted on 2015-07-16 11:36
xzc 閱讀(380)
評(píng)論(0) 編輯 收藏 所屬分類:
Java