typ uczenia, gdzie algorytm (agent) uczy się na podstawie interakcji ze środowiskiem poprzez system nagród i kar.
» Słownik opanowanych pojęć