hengheng123456789

:: 管理

297 Posts :: 68 Stories :: 144 Comments :: 0 Trackbacks

如果是Java進程不知道什么原因退出或被殺死，想要分析具體原因，一般來說分下面幾步：

1 拿到Java應用程序的日志文件。
一般來說日志文件中會有很應用相關的錯誤信息。Java進程異常退出的原因最有可能就是應用程序本身的問題。因此檢查Java應用程序的日志文件可能是最快定位到錯誤的方法。

2 查找JVM的致命錯誤日志
如果應用程序日志文件中沒有發現什么線索。那么還可以查看 JVM的致命錯誤日志。有些致命的錯誤，比如JNI或虛擬機本身產生的錯誤，可能使得Java應用程序來不及寫日志就退出了。這時候可以查一個以 "hs_err_pid" 開頭的日志名，例如hs_err_pid1125.log，其中1125是進程號。這個文件中也記錄了一些寶貴的信息來提供一些線索，特別是Java自身的一些Bug。這個文件一般為于當前的工作目錄中。用戶可以用find命令自己搜索到。

3 查找操作系統的core dump文件
作為被操作系統所調度的進程，Java進程也會在不同的信號下產生Core Dump文件，例如Sig_ill和Seg_segv。這些非常嚴重的錯誤的確會使得Java虛擬機根本來不及產生任何日志就宕了。拿到core dump文件就可以使用很多工具來分析具體原因了，例如jmap, jstack等等都可以友好的進行Java進程的Core文件的分析。一般來說，Core文件也放到進程的當前工作目錄，用戶可以用find命令搜索 “core”。另外可以用coreadm來預先指定core文件存放的地方以及文件名的格式，例如：coreadm -g /var/core/core.%f.%p.%t

4使用Dtrace查找“是誰殺死了Java進程”
但是，有很多情況，進程被殺死的原因很復雜。有可能被別的進程以外殺掉，或被一些腳本不小心kill掉，或者被管理員（或入侵者kill -9）處理掉。這些情況都不會產生日志文件和core dump文件。這些情況很難跟蹤。但如果是Solaris10下，可以使用下面的Dtrace腳本來確定“是誰殺死了Java進程”

#!/usr/sbin/dtrace -qs

proc:::signal-send
/args[1]->pr_pid == $1/
{
printf("%s(pid:%d) is sending signal %d to %s"n", execname, pid, args[2],args[1]->pr_fname);
}

如何運行（1125）是進程號
$ ./sig1.d 1125
sched(pid:0) is sending signal 24 to bc
sched(pid:0) is sending signal 24 to bc
bash(pid:3987) is sending signal 15 to bc
bash(pid:3987) is sending signal 15 to bc
bash(pid:3987) is sendg signal 9 to bc

Java的應用有時候會因為各種原因Crash，這時候會產生一個類似java_errorpid.log的錯誤日志?？梢阅玫搅诉@個日志，怎樣分析Crash的原因呢？下面我們來詳細討論如何分析java_errorpid.log的錯誤日志。
一. 如何得到這個日志文件如果有一個嚴重的錯誤引起Java進程非正常退出，我們叫Crash，這時候會產生一個日志文件。缺省情況下，這個文件會產生在工作目錄下。但是，可以在Java啟動參數通過下面的設置，來改變這個文件的位置和命名規則。例如：
java -XX:ErrorFile=/var/log/java/java_error_%p.log
就將這個錯誤文件放在/var/log/java下，并且以java_error_pid.log的形式出現。

二.產生錯誤的原因造成嚴重錯誤的原因有多種可能性。Java虛擬機自身的Bug是原因之一，但是這種可能不是很大。在絕大多數情況下，是由于系統的庫文件、API或第三方的庫文件造成的；系統資源的短缺也有可能造成這種嚴重的錯誤。在發生了Crash之后，如果無法定位根本原因，也應該迅速找到Work Around的方法。

三.對日志文件的分析首先要檢查日志的文件頭：例如，下面是從一個客戶發過來的錯誤日志的文件頭
－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－
#
# An unexpected error has been detected by HotSpot Virtual Machine:
#
# EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x0815e87e, pid=7268, tid=4360
#
# Java VM: Java HotSpot(TM) Server VM (1.4.2_13-b06 mixed mode)
# Problematic frame:
# V [jvm.dll+0x15e87e]
#
－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

文件頭中有很多有用的信息，“EXCEPTION_ACCESS_VIOLATION ”意味著Java應用Crash的時候，正在運行JVM自己的代碼，而不是外部的Java代碼或其他類庫代碼。這種情況很可能是JVM的Bug，但是也不一定。除了“EXCEPTION_ACCESS_VIOLATION ”，還有可能是別的信息，例如“SIGSEGV(0xb)”，意味著JVM正在執行本地或JNI的代碼;[font=Thorndale, serif]“EXCEPTION_STACK_OVERFLOW”[/font]意味著這是個棧溢出的錯誤。

另外一個有用的信息就是：
# Problematic frame:
# V [jvm.dll+0x15e87e]

它說明Crash的時候，JVM正在從哪個庫文件執行代碼。除了“V”以外，還有可能是“C”、“j”、“v”、“J”。具體的表示意思如下：
FrameType Description：
C: Native C frame
j: Interpreted Java frame
V: VMframe
v: VMgenerated stub frame
J: Other frame types, including compiled Java frames

文件頭之后，是當前線程的DUMP信息，線程之后是JVM進程的DUMP信息，包括所有線程的狀態、地址和ID。最后還有JVM狀態，Heap狀態，動態連接庫等等的信息。這些煩亂的信息中，包含有非常有用的信息。下面我們根據幾個具體的實例來分析Java虛擬機Crash的典型例子。

四.內存回收引起的Crash內存回收引起的Crash有以下的特點：在日志文件頭一般有“ EXCEPTION_ACCESS _VIOLATION”和“# Problematic frame: # V [jvm.dll+....”的信息，意味著這是在JVM內部處理，而且多半是JVM的Bug。對于這類問題，最快的方法就是繞過它。
另外，在Thread的DUMP信息最后，還能看到有關內存回收的行為例如：
--------------- T H R E A D ---------------
Current thread (0x00a56668): VMThread [id=4360]
siginfo: ExceptionCode=0xc0000005, reading address 0x00000057
Registers:
........

Stack: [0x03cf0000,0x03d30000), sp=0x03d2fc18, free space=255k
Native frames: (J=compiled Java code, j=interpreted, Vv=VM code, C=native code)
V [jvm.dll+0x15e87e]

VM_Operation (0x063efbac): full generation collection, mode: safepoint, requested by thread 0x040f83f8
------------------------------------------------------------

可以清楚的看到JVM正在做 “full generation collection”。另外還有可能看到，其他的回收行為：

generation collection for allocation
full generation collection
parallel gc failed allocation
parallel gc failed permanent allocation
parallel gc system gc

對于內存回收的錯誤，一般采取改變回收的算法和參數的方法來繞過去。例如，來自客戶的日志除了上面的日志信息，在日志中Heap信息中還能發現一些其他信息：
--------------------------------------------------------------
Heap
def new generation total 22592K, used 19530K [0x10010000, 0x11890000, 0x138f0000)
eden space 20096K, 97% used [0x10010000, 0x11322bd8, 0x113b0000)
from space 2496K, 0% used [0x113b0000, 0x113b0000, 0x11620000)
to space 2496K, 0% used [0x11620000, 0x11620000, 0x11890000)
tenured generation total 190696K, used 100019K [0x138f0000, 0x1f32a000, 0x30010000)
the space 190696K, 52% used [0x138f0000, 0x19a9cf38, 0x19a9d000, 0x1f32a000)
compacting perm gen total 38656K, used 38588K [0x30010000, 0x325d0000, 0x34010000)
the space 38656K, 99% used [0x30010000, 0x325bf038, 0x325bf200, 0x325d0000)
----------------------------------------------------------------

上面的信息能看出在Crash的時候，JVM的PermSize空間幾乎已經消耗完了，并且回收算法在壓縮Perm空間的時候出了錯。因此，建議改變內存回收的算法，或擴大PermSize和MaxPermSize的數值。

五.棧溢出引起的CrashJava代碼引起的棧溢出，通常不會引起JVM的Crash，而是拋出一個[font=Thorndale, serif]Java[/font]異常：[font=Thorndale, serif]java.lang.StackOverflowError[/font]。但是在[font=Thorndale, serif]Java[/font]虛擬機中，[font=Thorndale, serif]Java[/font]的代碼和本地[font=Thorndale, serif]C[/font]或[font=Thorndale, serif]C++[/font]代碼公用相同的[font=Thorndale, serif]Stack[/font]。這樣，在執行本地代碼所造成的棧溢出，就有可能引起[font=Thorndale, serif]JVM[/font]的[font=Thorndale, serif]Crash[/font]了。
棧溢出引起的Crash會在日志的文件頭中看到“EXCEPTION_STACK_OVERFLOW”字樣。另外，在當前線程的Stack信息中也能發現一些信息。例如下面的例子：
-----------------------------------------------------------------------------------

在上面的信息中，可以發現這是個棧溢出的錯誤。并且當前棧剩余的空間已經很小了(free space =4k)。因此建議將JVM的Stack的尺寸調大，主要設計兩個參數：“-Xss” 和“[font=Thorndale, serif]-XX:StackShadowPages=n”[/font]。但是，將棧的尺寸調大，也意味著在有限的內存資源中，能打開的最大線程數會減少。

六.動態編譯引起的Crash未完，待續

posted on 2007-09-03 15:52 哼哼閱讀(1873) 評論(2) 編輯收藏所屬分類: JAVA-Common

Feedback

# re: Java Crash 2007-10-03 21:18 fggfd

trpytr][
];; 回復更多評論

# re: Java Crash 2007-10-03 21:19 fggfd

sfsfsfasssssssssssssss 回復更多評論

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: 云計算（轉） Text Format Covert Tool (UltraCodingSwitch) Subversion(SVN)安裝使用指南 Java Crash Java Excel API Beginning Docbook Beginning java中文解決大全 Java 編程技術中漢字問題的分析及解決制作Java安裝程序 Java中調用其它的程序

hengheng123456789

常用鏈接

留言簿(33)

我參與的團隊

隨筆分類(337)

隨筆檔案(296)

文章分類(78)

文章檔案(68)

相冊

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜

Feedback