singa-dev mailing list archives

Site index · List index
Message view « Date » · « Thread »
Top « Date » · « Thread »
From GitBox <...@apache.org>
Subject [GitHub] [singa] chrishkchris commented on pull request #785: Some fixes and updates for the distributed training and RNN training code
Date Tue, 01 Sep 2020 08:21:09 GMT

chrishkchris commented on pull request #785:
URL: https://github.com/apache/singa/pull/785#issuecomment-684555928


   some test results
   
   (i) Distributed Train (@panda 13 using 3 GPUs)
   
   ```
   root@64926e30597f:~/dcsysh/singa/examples/cnn# mpiexec -np 3 python3 train_mpi.py cnn mnist
-l 0.015
   Starting Epoch 0:
   Training loss = 653.234863, training accuracy = 0.767194
   Evaluation accuracy = 0.936498, Elapsed Time = 1.593019s
   Starting Epoch 1:
   Training loss = 245.488037, training accuracy = 0.917201
   Evaluation accuracy = 0.959435, Elapsed Time = 1.595610s
   Starting Epoch 2:
   Training loss = 174.001266, training accuracy = 0.941757
   Evaluation accuracy = 0.959736, Elapsed Time = 1.521565s
   Starting Epoch 3:
   Training loss = 141.203125, training accuracy = 0.953292
   Evaluation accuracy = 0.971054, Elapsed Time = 1.663826s
   Starting Epoch 4:
   Training loss = 119.192688, training accuracy = 0.959519
   Evaluation accuracy = 0.973758, Elapsed Time = 1.540640s
   Starting Epoch 5:
   Training loss = 107.171661, training accuracy = 0.964443
   Evaluation accuracy = 0.975761, Elapsed Time = 1.601510s
   Starting Epoch 6:
   Training loss = 97.575897, training accuracy = 0.966513
   Evaluation accuracy = 0.977764, Elapsed Time = 1.576747s
   Starting Epoch 7:
   Training loss = 89.828827, training accuracy = 0.970753
   Evaluation accuracy = 0.975561, Elapsed Time = 1.598383s
   Starting Epoch 8:
   Training loss = 84.263199, training accuracy = 0.972189
   Evaluation accuracy = 0.979868, Elapsed Time = 1.593528s
   Starting Epoch 9:
   Training loss = 78.318733, training accuracy = 0.974059
   Evaluation accuracy = 0.981370, Elapsed Time = 1.596017s
   ```
   
   (ii) QAbot over graph mode
   
   ```
   root@64926e30597f:~/dcsysh/singa/examples/qabot# python3 qabot_train.py
   training...
   100%|###################################################################################################################################################|
257/257 [00:07<00:00, 34.67it/s]
   epoch 0, time used 11 sec, loss:  [0.1947341]
   100%|###################################################################################################################################################|
257/257 [00:07<00:00, 34.74it/s]
   epoch 1, time used 11 sec, loss:  [0.1855228]
   100%|###################################################################################################################################################|
257/257 [00:07<00:00, 35.31it/s]
   epoch 2, time used 10 sec, loss:  [0.17217758]
   100%|###################################################################################################################################################|
257/257 [00:07<00:00, 34.46it/s]
   epoch 3, time used 10 sec, loss:  [0.16045304]
   100%|###################################################################################################################################################|
257/257 [00:07<00:00, 34.43it/s]
   epoch 4, time used 10 sec, loss:  [0.14843023]
   100%|###################################################################################################################################################|
257/257 [00:07<00:00, 34.55it/s]
   epoch 5, time used 10 sec, loss:  [0.13925774]
   100%|###################################################################################################################################################|
257/257 [00:07<00:00, 34.52it/s]
   epoch 6, time used 10 sec, loss:  [0.12777908]
   100%|###################################################################################################################################################|
257/257 [00:07<00:00, 34.22it/s]
   epoch 7, time used 10 sec, loss:  [0.1143406]
   100%|###################################################################################################################################################|
257/257 [00:07<00:00, 34.39it/s]
   epoch 8, time used 10 sec, loss:  [0.1026233]
   100%|###################################################################################################################################################|
257/257 [00:07<00:00, 34.19it/s]
   epoch 9, time used 10 sec, loss:  [0.09679917]
   100%|###################################################################################################################################################|
257/257 [00:07<00:00, 34.12it/s]
   epoch 10, time used 10 sec, loss:  [0.09548955]
   100%|###################################################################################################################################################|
257/257 [00:07<00:00, 34.57it/s]
   epoch 11, time used 10 sec, loss:  [0.08978733]
   100%|###################################################################################################################################################|
257/257 [00:07<00:00, 34.38it/s]
   epoch 12, time used 10 sec, loss:  [0.08760083]
   100%|###################################################################################################################################################|
257/257 [00:07<00:00, 34.18it/s]
   epoch 13, time used 10 sec, loss:  [0.0832857]
   100%|###################################################################################################################################################|
257/257 [00:07<00:00, 34.26it/s]
   epoch 14, time used 10 sec, loss:  [0.08286437]
   100%|###################################################################################################################################################|
257/257 [00:07<00:00, 34.04it/s]
   epoch 15, time used 10 sec, loss:  [0.08079903]
   100%|###################################################################################################################################################|
257/257 [00:07<00:00, 34.27it/s]
   epoch 16, time used 10 sec, loss:  [0.07861894]
   100%|###################################################################################################################################################|
257/257 [00:07<00:00, 34.41it/s]
   epoch 17, time used 10 sec, loss:  [0.07690357]
   100%|###################################################################################################################################################|
257/257 [00:07<00:00, 34.43it/s]
   epoch 18, time used 10 sec, loss:  [0.07748874]
   100%|###################################################################################################################################################|
257/257 [00:07<00:00, 34.30it/s]
   epoch 19, time used 10 sec, loss:  [0.07449134]
   100%|###################################################################################################################################################|
257/257 [00:07<00:00, 34.42it/s]
   epoch 20, time used 10 sec, loss:  [0.07232958]
   100%|###################################################################################################################################################|
257/257 [00:07<00:00, 34.13it/s]
   epoch 21, time used 10 sec, loss:  [0.07149331]
   100%|###################################################################################################################################################|
257/257 [00:07<00:00, 34.24it/s]
   epoch 22, time used 10 sec, loss:  [0.07138699]
   100%|###################################################################################################################################################|
257/257 [00:07<00:00, 34.43it/s]
   epoch 23, time used 10 sec, loss:  [0.06877513]
   100%|###################################################################################################################################################|
257/257 [00:07<00:00, 34.33it/s]
   epoch 24, time used 10 sec, loss:  [0.06972665]
   100%|###################################################################################################################################################|
257/257 [00:07<00:00, 33.94it/s]
   epoch 25, time used 10 sec, loss:  [0.06740009]
   100%|###################################################################################################################################################|
257/257 [00:07<00:00, 34.13it/s]
   epoch 26, time used 10 sec, loss:  [0.06736714]
   100%|###################################################################################################################################################|
257/257 [00:07<00:00, 33.95it/s]
   epoch 27, time used 10 sec, loss:  [0.0667503]
   100%|###################################################################################################################################################|
257/257 [00:07<00:00, 34.24it/s]
   epoch 28, time used 10 sec, loss:  [0.0661177]
   100%|###################################################################################################################################################|
257/257 [00:07<00:00, 34.26it/s]
   epoch 29, time used 10 sec, loss:  [0.06259692]
   Eval with train data...
   100%|#################################################################################################################################################|
2000/2000 [00:35<00:00, 56.75it/s]
   eval top 100   accuracy 0.232  time used 35 sec
   Eval with test data...
   100%|#################################################################################################################################################|
2000/2000 [00:35<00:00, 56.06it/s]
   eval top 100   accuracy 0.1705  time used 35 sec
   ```


----------------------------------------------------------------
This is an automated message from the Apache Git Service.
To respond to the message, please log on to GitHub and use the
URL above to go to the specific comment.

For queries about this service, please contact Infrastructure at:
users@infra.apache.org



Mime
View raw message