docs/sgd_8hpp_source.html

 #include <dlprim/net.hpp>
 #include <iostream>
 #include <dlprim/ops/scal.hpp>
 #include <dlprim/ops/axpby.hpp>
 #include <dlprim/solvers/solver_base.hpp>
 namespace dlprim {
     namespace solvers {
         class SGD : public SolverBase {
         public:
             float lr = 0.1;
             float momentum = 0.9;
             float weight_decay = 0.0005;
             SGD(Context &ctx,DataType dtype = float_data) :
                 ctx_(ctx),
                 scal_(ctx,dtype),axpby_(ctx,dtype)
             {
             }
             void init(Net &n,ExecutionContext const &q)
             {
                 for(auto &p : n.param_diffs()) {
                     auto &t = vel_[p.first] = Tensor(ctx_,p.second.shape(),p.second.dtype());
                     scal_.scale(0,t,q);
                 }
             }
             void zero_grad(Net &n,ExecutionContext const &e)
             {
                 for(auto &p : n.param_diffs()) {
                     scal_.scale(0,p.second,e);
                 }
             }
             void apply(Net &n,ExecutionContext const &e)
             {
                 for(auto &item : vel_) {
                     std::string const &name = item.first;
                     Tensor &v = item.second;
                     Tensor &p = n.param(name);
                     Tensor &g = n.param_diff(name);
                     axpby_.apply(1.0,g,momentum,v,v,e);  // v = momentum * v - lr * gr
                     axpby_.apply((1.0f-weight_decay),p,-lr,v,p,e);
                }
             }
         private:
             Context ctx_;
             Scal scal_;
             AXPBY axpby_;

             std::map<std::string,Tensor> vel_;
         };
     } // solvers
 }
dlprim::solvers::SolverBase
Base class for SGD based optimizers.
Definition: solver_base.hpp:9

dlprim::AXPBY
Definition: axpby.hpp:5

dlprim::solvers::SGD::zero_grad
void zero_grad(Net &n, ExecutionContext const &e)
zero all gradients before accumulating them for next batch
Definition: sgd.hpp:25

dlprim::Context
This is main object that represent the pair of OpenCL platform and device all other objects use it...
Definition: context.hpp:302

dlprim::DataType
DataType
type definition
Definition: definitions.hpp:70

dlprim::Net::param
Tensor & param(std::string const &name)
Get parameter by name, throws ValidationError if does not exist.
Definition: net.hpp:202

dlprim::solvers::SGD
Definition: sgd.hpp:8

dlprim::solvers::SGD::apply
void apply(Net &n, ExecutionContext const &e)
apply solver updates
Definition: sgd.hpp:31

dlprim::Net
Major object used for inference.
Definition: net.hpp:14

dlprim
Mane namespace.
Definition: context.hpp:9

dlprim::Net::param_diff
Tensor & param_diff(std::string const &name)
Get parameter gradient by name, throws ValidationError if does not exist.
Definition: net.hpp:210

dlprim::Tensor
Central Data Contrainer - Tensor.
Definition: tensor.hpp:99

dlprim::Net::param_diffs
std::map< std::string, Tensor > & param_diffs()
All operator parameters gradients trainable and not trainable.
Definition: net.hpp:179

dlprim::Scal
Definition: scal.hpp:6

dlprim::solvers::SGD::init
void init(Net &n, ExecutionContext const &q)
Prepare solver - takes all parameters that need to be trained and prepares buffers.
Definition: sgd.hpp:18

dlprim::ExecutionContext
This class is used to pass cl::Events that the kernel should wait for and/or signal event completion...
Definition: context.hpp:121