[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[HTCondor-users] Understanding condor_userlog output for self-checkpointing apps



Hello,

I have an application which is configured to checkpoint and self-exit every 60 minutes.

I am confused by the output of condor_userlog (see below):
 - Good Time and CPU Usage seem obviously incorrect
 - The wall times all being less than 2 hours seems suspicious to me:  I'm guessing > 1 hour
corresponds to cases where the job resumes on the same host after a checkpoint?

Before we reconfigured to a 1 hour interval, we were running with the default 8 hours and
saw wall times of that same order.  Are we really just getting unlucky here and getting
evicted a few minutes after each resume?

$ condor_userlog ~yannick.lecoeuche/public_html/glitch-ylecoeuche/blip1/GW190521/outdir/log_data_analysis/label_data2_1241313884-82_analysis_H1L1V1.log



Job      Host            Start Time  Evict Time  Wall Time Good Time CPU Usage

58968166 172.16.138.135   7/6  15:03  7/6  16:04   0+01:00   0+00:00   0+00:00

58968166 172.16.138.69    7/6  16:17  7/6  17:15   0+00:57   0+00:00   0+00:00

58968166 172.16.138.22    7/6  17:41  7/6  19:18   0+01:37   0+00:00   0+00:00

58968166 172.16.138.191   7/6  19:44  7/6  21:12   0+01:27   0+00:00   0+00:00

58968166 172.16.142.12    7/6  21:18  7/6  22:11   0+00:52   0+00:00   0+00:00

58968166 172.16.138.28    7/6  22:41  7/6  23:41   0+01:00   0+00:00   0+00:00

58968166 172.16.138.28    7/6  23:42  7/7  00:28   0+00:46   0+00:00   0+00:00

58968166 172.16.143.245   7/7  00:34  7/7  01:35   0+01:00   0+00:00   0+00:00

58968166 172.16.143.245   7/7  01:36  7/7  02:18   0+00:42   0+00:00   0+00:00

58968166 172.16.138.22    7/7  02:21  7/7  03:18   0+00:57   0+00:00   0+00:00

58968166 172.16.138.113   7/7  03:53  7/7  05:21   0+01:27   0+00:00   0+00:00

58968166 172.16.138.60    7/7  05:26  7/7  06:26   0+01:00   0+00:00   0+00:00

58968166 172.16.142.43    7/7  14:37  7/7  15:39   0+01:01   0+00:00   0+00:00

58968166 172.16.142.43    7/7  15:39  7/7  16:48   0+01:09   0+00:00   0+00:00

58968166 172.16.143.253   7/7  16:51  7/7  18:07   0+01:15   0+00:00   0+00:00

58968166 172.16.142.44    7/7  18:09  7/7  19:10   0+01:00   0+00:00   0+00:00

58968166 172.16.142.44    7/7  19:12  7/7  20:27   0+01:15   0+00:00   0+00:00

58968166 172.16.142.47    7/7  20:29  7/7  20:29   0+00:00   0+00:00   0+00:00

58968166 172.16.138.181   7/7  21:09  7/7  22:29   0+01:20   0+00:00   0+00:00

58968166 172.16.142.15    7/7  22:36  7/8  00:17   0+01:41   0+00:00   0+00:00

58968166 172.16.141.239   7/8  00:24  7/8  01:27   0+01:03   0+00:00   0+00:00

58968166 172.16.141.239   7/8  01:32  7/8  02:25   0+00:53   0+00:00   0+00:00

58968166 172.16.144.3     7/8  02:35  7/8  03:37   0+01:01   0+00:00   0+00:00

58968166 172.16.144.3     7/8  03:42  7/8  04:23   0+00:40   0+00:00   0+00:00

58968166 172.16.138.211   7/8  05:01  7/8  06:23   0+01:22   0+00:00   0+00:00

58968166 172.16.138.208   7/8  06:58  7/8  08:29   0+01:31   0+00:00   0+00:00

58968166 172.16.141.239   7/8  08:50  7/8  09:53   0+01:03   0+00:00   0+00:00

58968166 172.16.141.239   7/8  09:58  7/8  11:13   0+01:15   0+00:00   0+00:00



Host/Job        Wall Time Good Time CPU Usage Avg Alloc  Avg Lost Goodput  Util.



172.16.142.43     0+02:10   0+00:00   0+00:00   0+01:05   0+01:05    0.0%   0.0%

172.16.142.44     0+02:16   0+00:00   0+00:00   0+01:08   0+01:08    0.0%   0.0%

172.16.138.60     0+01:00   0+00:00   0+00:00   0+01:00   0+01:00    0.0%   0.0%

172.16.138.28     0+01:46   0+00:00   0+00:00   0+00:53   0+00:53    0.0%   0.0%

172.16.142.47     0+00:00   0+00:00   0+00:00   0+00:00   0+00:00    0.0%   0.0%

172.16.143.253    0+01:15   0+00:00   0+00:00   0+01:15   0+01:15    0.0%   0.0%

172.16.143.245    0+01:42   0+00:00   0+00:00   0+00:51   0+00:51    0.0%   0.0%

172.16.141.239    0+04:15   0+00:00   0+00:00   0+01:03   0+01:03    0.0%   0.0%

172.16.138.69     0+00:57   0+00:00   0+00:00   0+00:57   0+00:57    0.0%   0.0%

172.16.138.113    0+01:27   0+00:00   0+00:00   0+01:27   0+01:27    0.0%   0.0%

172.16.138.211    0+01:22   0+00:00   0+00:00   0+01:22   0+01:22    0.0%   0.0%

172.16.138.135    0+01:00   0+00:00   0+00:00   0+01:00   0+01:00    0.0%   0.0%

172.16.138.208    0+01:31   0+00:00   0+00:00   0+01:31   0+01:31    0.0%   0.0%

172.16.138.181    0+01:20   0+00:00   0+00:00   0+01:20   0+01:20    0.0%   0.0%

172.16.142.12     0+00:52   0+00:00   0+00:00   0+00:52   0+00:52    0.0%   0.0%

172.16.138.191    0+01:27   0+00:00   0+00:00   0+01:27   0+01:27    0.0%   0.0%

172.16.142.15     0+01:41   0+00:00   0+00:00   0+01:41   0+01:41    0.0%   0.0%

172.16.138.22     0+02:34   0+00:00   0+00:00   0+01:17   0+01:17    0.0%   0.0%

172.16.144.3      0+01:42   0+00:00   0+00:00   0+00:51   0+00:51    0.0%   0.0%



58968166.0        1+06:26   0+00:00   0+00:00   0+01:05   0+01:05    0.0%   0.0%



Total             1+06:26   0+00:00   0+00:00   0+01:05   0+01:05    0.0%   0.0%

--
James Alexander Clark
LIGO Laboratory
California Institute of Technology
email:  james.clark@xxxxxxxx
Tel. (cell):  413-230-1412