Robbie with a Reset

reset Model	e_infinity-regression		e_infinity -unmonotone	e_infinity / T²,T -optimal	Very Large	Appr. Policy Iter.
reset Model			monotone	local optimal	Very Large	Policy Gradient
&mu Reset Model	e/T²-regression	&mu = opt. dist	e²-monotone	e,T-optimal	O(T/e²)	Cons. Policy Iter.

basic setting direct experience generative model precise description full table