[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [HTCondor-users] Understanding condor_userlog output for self-checkpointing apps



Actually, those suspiciously short wall times seem to be JobDisconnectedEvent's so that seems accurate at least.

Still don't understand the 0 Good Time or CPU Usage: the calculation is definitely running.

On 7/8/22 14:47, James Alexander Clark wrote:
Hello,

I have an application which is configured to checkpoint and self-exit every 60 minutes.

I am confused by the output of condor_userlog (see below):
 Â- Good Time and CPU Usage seem obviously incorrect
Â- The wall times all being less than 2 hours seems suspicious to me: I'm guessing > 1 hour corresponds to cases where the job resumes on the same host after a checkpoint?

Before we reconfigured to a 1 hour interval, we were running with the default 8 hours and saw wall times of that same order. Are we really just getting unlucky here and getting
evicted a few minutes after each resume?

$ condor_userlog ~yannick.lecoeuche/public_html/glitch-ylecoeuche/blip1/GW190521/outdir/log_data_analysis/label_data2_1241313884-82_analysis_H1L1V1.log



Job Host Start Time Evict Time Wall Time Good Time CPU Usage

58968166 172.16.138.135ÂÂ 7/6Â 15:03Â 7/6Â 16:04ÂÂ 0+01:00ÂÂ 0+00:00 0+00:00

58968166 172.16.138.69ÂÂÂ 7/6Â 16:17Â 7/6Â 17:15ÂÂ 0+00:57ÂÂ 0+00:00 0+00:00

58968166 172.16.138.22ÂÂÂ 7/6Â 17:41Â 7/6Â 19:18ÂÂ 0+01:37ÂÂ 0+00:00 0+00:00

58968166 172.16.138.191ÂÂ 7/6Â 19:44Â 7/6Â 21:12ÂÂ 0+01:27ÂÂ 0+00:00 0+00:00

58968166 172.16.142.12ÂÂÂ 7/6Â 21:18Â 7/6Â 22:11ÂÂ 0+00:52ÂÂ 0+00:00 0+00:00

58968166 172.16.138.28ÂÂÂ 7/6Â 22:41Â 7/6Â 23:41ÂÂ 0+01:00ÂÂ 0+00:00 0+00:00

58968166 172.16.138.28ÂÂÂ 7/6Â 23:42Â 7/7Â 00:28ÂÂ 0+00:46ÂÂ 0+00:00 0+00:00

58968166 172.16.143.245ÂÂ 7/7Â 00:34Â 7/7Â 01:35ÂÂ 0+01:00ÂÂ 0+00:00 0+00:00

58968166 172.16.143.245ÂÂ 7/7Â 01:36Â 7/7Â 02:18ÂÂ 0+00:42ÂÂ 0+00:00 0+00:00

58968166 172.16.138.22ÂÂÂ 7/7Â 02:21Â 7/7Â 03:18ÂÂ 0+00:57ÂÂ 0+00:00 0+00:00

58968166 172.16.138.113ÂÂ 7/7Â 03:53Â 7/7Â 05:21ÂÂ 0+01:27ÂÂ 0+00:00 0+00:00

58968166 172.16.138.60ÂÂÂ 7/7Â 05:26Â 7/7Â 06:26ÂÂ 0+01:00ÂÂ 0+00:00 0+00:00

58968166 172.16.142.43ÂÂÂ 7/7Â 14:37Â 7/7Â 15:39ÂÂ 0+01:01ÂÂ 0+00:00 0+00:00

58968166 172.16.142.43ÂÂÂ 7/7Â 15:39Â 7/7Â 16:48ÂÂ 0+01:09ÂÂ 0+00:00 0+00:00

58968166 172.16.143.253ÂÂ 7/7Â 16:51Â 7/7Â 18:07ÂÂ 0+01:15ÂÂ 0+00:00 0+00:00

58968166 172.16.142.44ÂÂÂ 7/7Â 18:09Â 7/7Â 19:10ÂÂ 0+01:00ÂÂ 0+00:00 0+00:00

58968166 172.16.142.44ÂÂÂ 7/7Â 19:12Â 7/7Â 20:27ÂÂ 0+01:15ÂÂ 0+00:00 0+00:00

58968166 172.16.142.47ÂÂÂ 7/7Â 20:29Â 7/7Â 20:29ÂÂ 0+00:00ÂÂ 0+00:00 0+00:00

58968166 172.16.138.181ÂÂ 7/7Â 21:09Â 7/7Â 22:29ÂÂ 0+01:20ÂÂ 0+00:00 0+00:00

58968166 172.16.142.15ÂÂÂ 7/7Â 22:36Â 7/8Â 00:17ÂÂ 0+01:41ÂÂ 0+00:00 0+00:00

58968166 172.16.141.239ÂÂ 7/8Â 00:24Â 7/8Â 01:27ÂÂ 0+01:03ÂÂ 0+00:00 0+00:00

58968166 172.16.141.239ÂÂ 7/8Â 01:32Â 7/8Â 02:25ÂÂ 0+00:53ÂÂ 0+00:00 0+00:00

58968166 172.16.144.3ÂÂÂÂ 7/8Â 02:35Â 7/8Â 03:37ÂÂ 0+01:01ÂÂ 0+00:00 0+00:00

58968166 172.16.144.3ÂÂÂÂ 7/8Â 03:42Â 7/8Â 04:23ÂÂ 0+00:40ÂÂ 0+00:00 0+00:00

58968166 172.16.138.211ÂÂ 7/8Â 05:01Â 7/8Â 06:23ÂÂ 0+01:22ÂÂ 0+00:00 0+00:00

58968166 172.16.138.208ÂÂ 7/8Â 06:58Â 7/8Â 08:29ÂÂ 0+01:31ÂÂ 0+00:00 0+00:00

58968166 172.16.141.239ÂÂ 7/8Â 08:50Â 7/8Â 09:53ÂÂ 0+01:03ÂÂ 0+00:00 0+00:00

58968166 172.16.141.239ÂÂ 7/8Â 09:58Â 7/8Â 11:13ÂÂ 0+01:15ÂÂ 0+00:00 0+00:00



Host/Job Wall Time Good Time CPU Usage Avg Alloc Avg Lost Goodput Util.



172.16.142.43ÂÂÂÂ 0+02:10ÂÂ 0+00:00ÂÂ 0+00:00ÂÂ 0+01:05ÂÂ 0+01:05 0.0%ÂÂ 0.0%

172.16.142.44ÂÂÂÂ 0+02:16ÂÂ 0+00:00ÂÂ 0+00:00ÂÂ 0+01:08ÂÂ 0+01:08 0.0%ÂÂ 0.0%

172.16.138.60ÂÂÂÂ 0+01:00ÂÂ 0+00:00ÂÂ 0+00:00ÂÂ 0+01:00ÂÂ 0+01:00 0.0%ÂÂ 0.0%

172.16.138.28ÂÂÂÂ 0+01:46ÂÂ 0+00:00ÂÂ 0+00:00ÂÂ 0+00:53ÂÂ 0+00:53 0.0%ÂÂ 0.0%

172.16.142.47ÂÂÂÂ 0+00:00ÂÂ 0+00:00ÂÂ 0+00:00ÂÂ 0+00:00ÂÂ 0+00:00 0.0%ÂÂ 0.0%

172.16.143.253ÂÂÂ 0+01:15ÂÂ 0+00:00ÂÂ 0+00:00ÂÂ 0+01:15ÂÂ 0+01:15 0.0%ÂÂ 0.0%

172.16.143.245ÂÂÂ 0+01:42ÂÂ 0+00:00ÂÂ 0+00:00ÂÂ 0+00:51ÂÂ 0+00:51 0.0%ÂÂ 0.0%

172.16.141.239ÂÂÂ 0+04:15ÂÂ 0+00:00ÂÂ 0+00:00ÂÂ 0+01:03ÂÂ 0+01:03 0.0%ÂÂ 0.0%

172.16.138.69ÂÂÂÂ 0+00:57ÂÂ 0+00:00ÂÂ 0+00:00ÂÂ 0+00:57ÂÂ 0+00:57 0.0%ÂÂ 0.0%

172.16.138.113ÂÂÂ 0+01:27ÂÂ 0+00:00ÂÂ 0+00:00ÂÂ 0+01:27ÂÂ 0+01:27 0.0%ÂÂ 0.0%

172.16.138.211ÂÂÂ 0+01:22ÂÂ 0+00:00ÂÂ 0+00:00ÂÂ 0+01:22ÂÂ 0+01:22 0.0%ÂÂ 0.0%

172.16.138.135ÂÂÂ 0+01:00ÂÂ 0+00:00ÂÂ 0+00:00ÂÂ 0+01:00ÂÂ 0+01:00 0.0%ÂÂ 0.0%

172.16.138.208ÂÂÂ 0+01:31ÂÂ 0+00:00ÂÂ 0+00:00ÂÂ 0+01:31ÂÂ 0+01:31 0.0%ÂÂ 0.0%

172.16.138.181ÂÂÂ 0+01:20ÂÂ 0+00:00ÂÂ 0+00:00ÂÂ 0+01:20ÂÂ 0+01:20 0.0%ÂÂ 0.0%

172.16.142.12ÂÂÂÂ 0+00:52ÂÂ 0+00:00ÂÂ 0+00:00ÂÂ 0+00:52ÂÂ 0+00:52 0.0%ÂÂ 0.0%

172.16.138.191ÂÂÂ 0+01:27ÂÂ 0+00:00ÂÂ 0+00:00ÂÂ 0+01:27ÂÂ 0+01:27 0.0%ÂÂ 0.0%

172.16.142.15ÂÂÂÂ 0+01:41ÂÂ 0+00:00ÂÂ 0+00:00ÂÂ 0+01:41ÂÂ 0+01:41 0.0%ÂÂ 0.0%

172.16.138.22ÂÂÂÂ 0+02:34ÂÂ 0+00:00ÂÂ 0+00:00ÂÂ 0+01:17ÂÂ 0+01:17 0.0%ÂÂ 0.0%

172.16.144.3ÂÂÂÂÂ 0+01:42ÂÂ 0+00:00ÂÂ 0+00:00ÂÂ 0+00:51ÂÂ 0+00:51 0.0%ÂÂ 0.0%



58968166.0ÂÂÂÂÂÂÂ 1+06:26ÂÂ 0+00:00ÂÂ 0+00:00ÂÂ 0+01:05ÂÂ 0+01:05 0.0%ÂÂ 0.0%



TotalÂÂÂÂÂÂÂÂÂÂÂÂ 1+06:26ÂÂ 0+00:00ÂÂ 0+00:00ÂÂ 0+01:05ÂÂ 0+01:05 0.0%ÂÂ 0.0%


--
James Alexander Clark
LIGO Laboratory
California Institute of Technology
email:  james.clark@xxxxxxxx
Tel. (cell):  413-230-1412