Когда люди учат что-то новое, две абсолютно разные системы мозга — обучение с подкреплением и кратковременная память — начинают работать сообща. Открытие совершили американские нейробиологи.

«Раньше считалось, что эти системы либо работают по отдельности, либо вовсе конфликтуют между собой в процессе обучения, — поясняет Майкл Фрэнк (Michael Frank), профессор кафедры когнитивных, лингвистических и психологических наук Брауновского университета. — Но наше исследование показывает, что они работают одновременно».

Обучение с подкреплением — это нейробиологический процесс, призванный определить действия, за которыми следует награда или наказание, а также найти способы для самого эффективного выполнения задачи. Эти расчеты происходят бессознательно.

У кратковременной памяти человека совсем другой механизм. Она хранит воспоминания о прошлых действиях и их последствиях, чтобы быстро обратиться к этому опыту в случае необходимости.

Нейробиологи придумали метод изоляции нервных импульсов обеих систем, который позволил наблюдать взаимодействия между ними. Выводы исследователей опубликованы в февральском выпуске журнала Proceedings of the National Academy of Sciences (PNAS).

Участникам эксперимента показывали серию символов на экране, каждому символу соответствовала клавиша на клавиатуре, которую участник должен был нажимать. Участники не знали принципов соответствия, их нужно было понять в процессе. За правильное нажатие полагалось вознаграждение в баллах.

Обычно в кратковременной памяти можно удержать только 3-4 предмета одновременно, и то ненадолго. Поэтому ее вклад в процесс обучения должен был сойти на нет, когда увеличивалось число символов или время их появления. Такая закономерность подтвердилась.

Когда требования к памяти становились слишком высокими, усиливался процесс обучения с подкреплением. Но память опять брала на себя основную нагрузку, если требования менялись. Два процесса, таким образом, работали одновременно — и один из них становился активнее в зависимости от обстоятельств.

Обучение с подкреплением основано на «ошибке предсказания награды» (reward prediction error). Эта ошибка описывает, насколько награда за действие (иными словами, подкрепление) превосходит ожидания. В процессе участвует нейромедиатор дофамин, который вырабатывается во время положительного опыта.

Если результат действия оказался неожиданно хорош, уровень дофамина растет. По этому скачку дофамина система обучения с подкреплением определяет эффективность решения задачи.

Но чем чаще мы повторяем действие, тем меньше нас удивляет хороший результат и тем меньше вырабатывается дофамина. В конце концов система перестает обновлять данные, и действие прочно закрепляется в поведении.

Кратковременная память, в свою очередь, может предлагать варианты действий и их результатов из своей «коллекции». Человек быстрее выберет нужное действие, если нечто похожее уже есть в памяти. В этом случае на обучение уходит гораздо меньше времени.

«Осознание, что это не две разные системы, а единая, меняет наши представления о базовых механизмах обучения человека и животных», — утверждает Майкл Фрэнк.