bugfix in replicated training varscope

5b18f8be · Yuxin Wu · 3ab6d2b0 · 5b18f8be · 5b18f8be · 5b18f8be
Commit 5b18f8be authored Jun 03, 2017 by Yuxin Wu
Showing with 4 additions and 1 deletion

tensorpack/callbacks/saver.py tensorpack/callbacks/saver.py +1 -0

tensorpack/tfutils/tower.py tensorpack/tfutils/tower.py +2 -0

tensorpack/train/multigpu.py tensorpack/train/multigpu.py +1 -1

No files found.
--- a/tensorpack/callbacks/saver.py
+++ b/tensorpack/callbacks/saver.py
@@ -43,6 +43,7 @@ class ModelSaver(Callback):
        vars = []
        for key in self.var_collections:
            vars.extend(tf.get_collection(key))
+        vars = list(set(vars))
        self.path = os.path.join(self.checkpoint_dir, 'model')
        if get_tf_version_number() <= 1.1:
            self.saver = tf.train.Saver(

--- a/tensorpack/tfutils/tower.py
+++ b/tensorpack/tfutils/tower.py
@@ -43,6 +43,8 @@ class TowerContext(object):
            assert self._name
            if vs_name is None:
                self._vs_name = self._name
+            else:
+                self._vs_name = vs_name
        else:
            assert vs_name is None, "vs_name is only valid in 'replicated' mode!"
            self._vs_name = ''

--- a/tensorpack/train/multigpu.py
+++ b/tensorpack/train/multigpu.py
@@ -259,7 +259,7 @@ class SyncMultiGPUTrainerReplicated(MultiGPUTrainerBase, SingleCostFeedfreeTrain
            lambda: self._get_cost_and_grad()[1],
            var_strategy='replicated',
            # use no variable scope for the first tower
-            vs_names=[''] + [None] * self.config.nr_tower - 1)
+            vs_names=[''] + [None] * (self.config.nr_tower - 1))
        grads = self._allreduce_grads(grad_list)
        train_ops = []