simplify code for distributed

46991853 · Yuxin Wu · 2d6d7ad4 · 46991853 · 46991853 · 46991853
Commit 46991853 authored Dec 17, 2017 by Yuxin Wu
Showing with 60 additions and 96 deletions

tensorpack/graph_builder/utils.py tensorpack/graph_builder/utils.py +21 -29

tensorpack/train/trainers.py tensorpack/train/trainers.py +39 -66

tensorpack/trainv1/utility.py tensorpack/trainv1/utility.py +0 -1

No files found.
--- a/tensorpack/graph_builder/utils.py
+++ b/tensorpack/graph_builder/utils.py
@@ -10,7 +10,7 @@ import tensorflow as tf
 __all__ = ['LeastLoadedDeviceSetter',
           'OverrideCachingDevice',
-           'OverrideToLocalVariable', 'override_to_local_variable',
+           'override_to_local_variable',
           'allreduce_grads',
           'average_grads']
@@ -20,35 +20,34 @@ Some utilities for building the graph.
 """
+def _replace_global_by_local(kwargs):
+    if 'collections' in kwargs:
+        collections = kwargs['collections']
+    if not collections:
+        collections = set([tf.GraphKeys.GLOBAL_VARIABLES])
+    else:
+        collections = set(collections.copy())
+    collections.remove(tf.GraphKeys.GLOBAL_VARIABLES)
+    collections.add(tf.GraphKeys.LOCAL_VARIABLES)
+    kwargs['collections'] = list(collections)
 @contextmanager
 def override_to_local_variable(enable=True):
    if enable:
+        def custom_getter(getter, name, *args, **kwargs):
+            _replace_global_by_local(kwargs)
+            return getter(name, *args, **kwargs)
        with tf.variable_scope(
                tf.get_variable_scope(),
-                custom_getter=OverrideToLocalVariable()):
+                custom_getter=custom_getter):
            yield
    else:
        yield
-class OverrideToLocalVariable(object):
-    """
-    Ensures the created variable
-    is in LOCAL_VARIABLES and not GLOBAL_VARIBLES collection.
-    """
-    def __call__(self, getter, name, *args, **kwargs):
-        if 'collections' in kwargs:
-            collections = kwargs['collections']
-        if not collections:
-            collections = set([tf.GraphKeys.GLOBAL_VARIABLES])
-        else:
-            collections = set(collections.copy())
-        collections.remove(tf.GraphKeys.GLOBAL_VARIABLES)
-        collections.add(tf.GraphKeys.LOCAL_VARIABLES)
-        kwargs['collections'] = list(collections)
-        return getter(name, *args, **kwargs)
 # https://github.com/tensorflow/benchmarks/blob/48cbef14a592e02a14beee8e9aef3ad22cadaed1/scripts/tf_cnn_benchmarks/variable_mgr_util.py#L192-L218
 class LeastLoadedDeviceSetter(object):
    """ Helper class to assign variables on the least loaded ps-device."""
@@ -170,15 +169,8 @@ class OverrideCachingDevice(object):
    def __call__(self, getter, *args, **kwargs):
        size = tf.TensorShape(kwargs['shape']).num_elements()
        if size is None or not kwargs.get('trainable', True):
-            # TODO
+            # TODO a lot of vars won't be saved then
-            collections = kwargs['collections']
+            _replace_global_by_local(kwargs)
-            if not collections:
-                collections = set([tf.GraphKeys.GLOBAL_VARIABLES])
-            else:
-                collections = set(collections.copy())
-            collections.remove(tf.GraphKeys.GLOBAL_VARIABLES)
-            collections.add(tf.GraphKeys.LOCAL_VARIABLES)
-            kwargs['collections'] = list(collections)
            return getter(*args, **kwargs)
        if size < self.small_variable_size_threshold:

--- a/tensorpack/train/trainers.py
+++ b/tensorpack/train/trainers.py
@@ -157,46 +157,23 @@ class SyncMultiGPUTrainerReplicated(SingleCostTrainer):
        return [cb]
-class DistributedTrainerParameterServer(SingleCostTrainer):
+class DistributedTrainerBase(SingleCostTrainer):
-    __doc__ = DistributedParameterServerBuilder.__doc__
    devices = None
-    """
+    # TODO use full device name instead of id
-    List of GPU ids.
-    """
-    @map_arg(gpus=_int_to_range)
+    def __init__(self, gpus, server):
-    def __init__(self, gpus, server, caching_device='cpu'):
+        super(DistributedTrainerBase, self).__init__()
-        """
-        Args:
-            gpus ([int]): list of GPU ids.
-        """
        self.devices = gpus
        self.server = server
        self.job_name = server.server_def.job_name
-        assert self.job_name in ['ps', 'worker'], self.job_name
-        if self.job_name == 'worker':
-            # ps doesn't build any graph
-            self._builder = DistributedParameterServerBuilder(gpus, server, caching_device)
-            self.is_chief = self._builder.is_chief
-        else:
-            self.is_chief = False
        logger.info("Distributed training on cluster:\n" + str(server.server_def.cluster))
-        super(DistributedTrainerParameterServer, self).__init__()
-        if self.job_name == 'ps':
-            # ps shouldn't setup input either
-            logger.info("Running ps {}".format(self.server.server_def.task_index))
-            logger.info("Kill me with 'kill {}'".format(os.getpid()))
-            self.server.join()  # this function will never return tensorflow#4713
-            raise RuntimeError("This is a bug. Server.join() for ps should never return!")
-    def _setup_graph(self, input, get_cost_fn, get_opt_fn):
+    def join(self):
-        self.train_op = self._builder.build(
+        logger.info("Calling server.join() on {}:{}".format(self.job_name, self.server.server_def.task_index))
-            self._make_get_grad_fn(input, get_cost_fn, get_opt_fn), get_opt_fn)
+        logger.info("Kill me with 'kill {}'".format(os.getpid()))
-        return []
+        self.server.join()  # this function will never return tensorflow#4713
+        raise RuntimeError("This is a bug. Server.join() for should never return!")
    @HIDE_DOC
    def initialize(self, session_creator, session_init):
@@ -205,19 +182,38 @@ class DistributedTrainerParameterServer(SingleCostTrainer):
            raise ValueError(
                "You are not allowed to set session_creator or session_config for distributed training! "
                "To use a custom session config, pass it to tf.train.Server.")
-        super(DistributedTrainerParameterServer, self).initialize(
+        super(DistributedTrainerBase, self).initialize(
            get_distributed_session_creator(self.server), session_init)
+class DistributedTrainerParameterServer(DistributedTrainerBase):
+    __doc__ = DistributedParameterServerBuilder.__doc__
+    @map_arg(gpus=_int_to_range)
+    def __init__(self, gpus, server, caching_device='cpu'):
+        """
+        Args:
+            gpus ([int]): list of GPU ids.
+        """
+        super(DistributedTrainerParameterServer, self).__init__(gpus, server)
+        assert self.job_name in ['ps', 'worker'], self.job_name
+        if self.job_name == 'ps':
+            self.join()
+        self._builder = DistributedParameterServerBuilder(gpus, server, caching_device)
+        self.is_chief = self._builder.is_chief
+    def _setup_graph(self, input, get_cost_fn, get_opt_fn):
+        self.train_op = self._builder.build(
+            self._make_get_grad_fn(input, get_cost_fn, get_opt_fn), get_opt_fn)
+        return []
 class DistributedTrainerReplicated(SingleCostTrainer):
    __doc__ = DistributedReplicatedBuilder.__doc__
-    devices = None
-    """
-    List of GPU ids.
-    """
    @map_arg(gpus=_int_to_range)
    def __init__(self, gpus, server):
        """
@@ -225,26 +221,13 @@ class DistributedTrainerReplicated(SingleCostTrainer):
            gpus (list[int]): list of GPU ids.
            server (tf.train.Server): the server with ps and workers.
        """
-        self.devices = gpus
+        super(DistributedTrainerReplicated, self).__init__(gpus, server)
-        self.server = server
-        self.job_name = server.server_def.job_name
        assert self.job_name in ['ps', 'worker'], self.job_name
-        if self.job_name == 'worker':
-            # ps doesn't build any graph
-            self._builder = DistributedReplicatedBuilder(gpus, server)
-            self.is_chief = self._builder.is_chief
-        else:
-            self.is_chief = False
-        logger.info("Distributed training on cluster:\n" + str(server.server_def.cluster))
-        super(DistributedTrainerReplicated, self).__init__()
        if self.job_name == 'ps':
-            # ps shouldn't setup input either
+            self.join()
-            logger.info("Running ps {}".format(self.server.server_def.task_index))
-            logger.info("Kill me with 'kill {}'".format(os.getpid()))
+        self._builder = DistributedReplicatedBuilder(gpus, server)
-            self.server.join()  # this function will never return tensorflow#4713
+        self.is_chief = self._builder.is_chief
-            raise RuntimeError("This is a bug. Server.join() for ps should never return!")
    def _setup_input(self, inputs_desc, input):
        with override_to_local_variable():
@@ -276,16 +259,6 @@ class DistributedTrainerReplicated(SingleCostTrainer):
            callbacks.append(cb)
        return callbacks
-    @HIDE_DOC
-    def initialize(self, session_creator, session_init):
-        if not isinstance(session_creator, NewSessionCreator) or \
-                session_creator.user_provided_config:
-            raise ValueError(
-                "You are not allowed to set session_creator or session_config for distributed training! "
-                "To use a custom session config, pass it to tf.train.Server.")
-        super(DistributedTrainerReplicated, self).initialize(
-            get_distributed_session_creator(self.server), session_init)
    @property
    def _main_tower_vs_name(self):
        return "tower0"

--- a/tensorpack/trainv1/utility.py
+++ b/tensorpack/trainv1/utility.py
@@ -4,5 +4,4 @@
 # for backwards-compatibility
 from ..graph_builder.utils import (  # noqa
-    OverrideToLocalVariable,
    override_to_local_variable, LeastLoadedDeviceSetter)