Дофамин и эмоциональное подкрепление

Изображение и снимок нейрона со связанными с ним активирующими и тормозными синапсами
Важнейшую роль в ходе двигательного обучения, помимо сенсорных сигналов, играют центры эмоционального подкрепления. Поэтому, повторения на фоне эмоций — важнейший фактор запоминания. Даже если эти эмоции напрямую не связаны с совершением движения.

Физиологический принцип заключается в том, что для долгосрочного укрепления синапсов недостаточно только прохождения сигналов на моторные команды. Важно и одновременное участие подкрепляющих сигнал нейромедиаторов — мозг должен получить сигнал о том, что действие было важным и его повторение может быть полезным в будущем.

Точно также есть медиаторы, которые ослабляют синапсы тех путей, которые признаются избыточными. Первые — “записывают движения”, вторые, как ластик — “стирают неточности”.
Химическая структура дофамина
Дофамин — главный “усилитель” запоминания движений связанных с успехом, главный медиатор двигательной памяти. При этом, он отвечает не только за запоминание, но и отчасти забывание движений на фоне успешности или неуспешности их результатов

Ключевая структура дофаминовой системы вознаграждения — базальные ядра. Они формируют эмоциональную окраску опыта — радость или разочарование от результата.

Но дофамин, это не просто “положительное подкрепление”, он реагирует не на саму награду, а на ошибку предсказания награды — на ее неожиданность и величину.

Эта система работает по принципу сравнения ожиданий и результата.
  • Выполнили движение более удачно чем планировали — чувство радости, закрепление движения.
  • Удачно выполнили “рутину” — отсутствие всплеска эмоций.
  • Неудачное движение, на несоответствии ожиданиям — чувства неловкости, дискомфорта и ослабление этого нейронного пути, корректировка движения.

Удачно бросили мяч — всплеск радости, промахнулись — досада.
Пробежали дистанцию быстрее стандартного времени — радость, подсознательное закрепление техники бега. Бежали с болью в колене — негативные эмоции и подсознательная корректировка техники.

Эта дофаминовая система вознаграждения — один из главных механизмов того, что мы предрасположены к движению и получаем от него эмоциональное удовольствие.
Расположение черной субстанции в головном мозге
Главный источник дофамина — чёрная субстанция. Помимо связи с мотивацией, при нормальной работе, она обеспечивает гибкость и плавность контроля движений.

Важно понимать, что базальные ядра имеют двойные пути инициации движений, один из которых инициирует движение, а другой — затормаживает.

  • Прямой путь (D1) — облегчает запуск движений, “растормаживая” тормозные сети в ядрах. Одновременно усиливаются соответствующие связи, что приводит к их лучшему запоминанию.
  • Непрямой путь (D2) — блокирует запуск движений, усиливая торможение. При его активации ослабляются конкурирующие связи, «стирая» неудачные варианты из памяти.
Их балансом и определяется то, какие из движений будут запущены и закреплены.

Высокие пики дофамина (получилось лучше ожиданий) усиливают прямой путь и ослабляют непрямой, способствуя и запуску, и запоминанию движений.

Когда результат хуже ожиданий, происходит дофаминовая пауза (уровень падает ниже нормы). В ней D1-путь отключается, а D2-путь (обычно сдерживаемый дофамином) растормаживается и активируется. Это запускает торможение движений и процесс ослабления связей, стирая ошибочную моторную программу.

При нарушении работы базальных ядер, например болезни Паркинсона, этот баланс нарушается. Могут быть трудности со стартом движения, заторможенностью или наоборот, тремором — непроизвольными дергаными движениями.

Эта двойная система именуется как система RPE (reward prediction error, ошибка предсказания вознаграждения) и обеспечивает гибкость в обучении, помогая запоминать или ослаблять двигательные программы. В зависимости от несоответствия результатов и ожиданий. Это критически важный механизм на ранних стадиях обучения.

Параллельно с ней работает другая, но также завязанная на дофамине система APE (action prediction error, ошибка предсказания действия), реагирующая не на оценку награды, а на привычность действий.

Она позволяет корректировать двигательные программы вне зависимости от целей и результата.

Например, когда спортсмен пробегает дистанцию за планируемое время, но в необычных условия (встречный ветер, другая поверхность, усталость) — RPE нейтральна (ожидаемый результат). Но включается APE, отмечая несоответствие движений ожиданиям (тем активней, чем выше несоответствие), закрепляя в двигательной памяти новые паттерны движений, позволившие сделать результат несмотря на более сложные условия.

  • APE реагирует на то, насколько выполненное движение соответствует ожиданиям по контексту, формируя новые привычки или закрепляя старые.
  • RPE оценивает результат — мотивация и обучение изменяются при положительном или отрицательном сигнале.
Такой комплексный подход позволяет мозгу эффективно адаптироваться к меняющимся условиям и оптимизировать двигательную активность.

Сценарий

APE (ошибка действия)

RPE (ошибка вознаграждения)

Эффект

Стандартная трасса, план выполнен

Низкий (предсказано)

Нулевой (ожидание совпало)

Автоматическое выполнение привычного движения

Стандартная трасса, план перевыполнен (лучше ожиданий)

Низкий (предсказано)

Положительный (лучше ожиданий)

Усиление мотивации, закрепление текущей моторной программы через RPE

Стандартная трасса, план не выполнен

Низкий (предсказано)

Отрицательный (хуже ожиданий)

Коррекция поведения, улучшение мотивации через RPE

Новая поверхность, план выполнен

Высокий (не предсказано)

Нулевой (ожидание совпало)

Обучение новой моторной привычки, адаптация техники движения к новому контексту

Новая поверхность, план перевыполнен

Высокий (не предсказано)

Положительный (лучше ожиданий)

Усиление адаптированной моторной программы; обе системы способствуют закреплению навыка

Новая поверхность, план не выполнен

Высокий (не предсказано)

Отрицательный (хуже ожиданий)

Срочное переобучение и корректировка моторной программы

Табл. 1.: Основные состояния ошибок действия (APE) и ошибок предсказания награды (RPE), а также их влияние на моторику и обучение
Важнейшим нюансом работы дофамина как медиатора памяти является то, что на него влияют не только внутренние механизмы оценки, но и внешние (социальное поощрение). Если окружающие (тренер, команда, трибуны) одобряют действие, и это одобрение значимо, уровень дофамина повышается, и фиксация движения происходит намного лучше.

Но здесь критически важен тайминг: обратная связь должна быть мгновенной. Дофамин должен сработать сразу (в "окне" 1–2 секунды), чтобы успеть воздействовать на "химический след" еще активных синапсов. Если похвала приходит с опозданием, мозг получит удовольствие, но не сможет точно связать его с конкретным микродвижением.
Если окружающие одобряют действие, и это одобрение значимо, уровень дофамина повышается, и фиксация движения происходит намного лучше
Дофамин: Фон и Микро-цели

Важно понимать, что дофамин работает в двух режимах: как награда (всплеск) и как топливо (фон).

Фон (тонический уровень): Это общий уровень дофамина в синапсах, определяющий энергичность и готовность тратить усилия. Если он высок (здоровый сон, статус, уверенность, музыка, позитивная атмосфера), то человек готов работать долго без немедленного подкрепления.

Это важный нюанс, подчеркивающий важность общего состояния для эффективности достижения результатов.

Всплески (Фазический уровень): Дофамин растет по мере приближения к цели (эффект Ramping). В этом контексте критически важно дробление задачи на микро-цели. Каждый промежуточный результат — всплеск дофамина (RPE). Это дозированная мотивация, которая мобилизует нейропластичность и помогает добраться до отдаленной конечной цели.

Этот же механизм отвечает за то, что мотивация и ожидание награды повышают дофамин. Даже до выполнения задачи, если человек ожидает успеха и награды, дофамин повышается, что улучшает обучение. Это объясняет важность создания ожидания успеха, позитивной атмосферы на тренировке.


При этом, внутренняя мотивация эффективнее. Внутренняя награда (чувство компетентности, интерес, прогресс) активирует дофаминовую систему сильнее и стабильнее, чем внешние награды. Системы, построенные на внешних вознаграждениях, менее эффективны для долгосрочного обучения.

Для эффективного достижения результата важно понимать, что человеку действительно важно, что является его личной мотивацией. Внешние награды (медали, похвала) практически всегда могут служить подкреплением, но для сильных эмоций и долгосрочного закрепления, — они должны быть соединены с внутренней мотивацией.
Статьи и материалы для углубленного изучения
  1. Нарушение двигательного обучения и долговременной синаптической пластичности у мышей с отсутствием NMDAR1 в полосатом теле - https://www.pnas.org/doi/10.1073/pnas.0601758103
  2. От моделей обучения с поощрением в базовых гаммах к патофизиологии психических и неврологических расстройств -https://pmc.ncbi.nlm.nih.gov/articles/PMC4408000/
  3. Взаимодействие дофамина и эндоканнабиноидов опосредует зависимую от времени импульсации потенциацию в полосатом теле - https://www.nature.com/articles/s41467-018-06409-5
  4. Функциональная значимость эндоканнабиноид-зависимой синаптической пластичности в центральной нервной системе - https://pmc.ncbi.nlm.nih.gov/articles/PMC6720113/
  5. Эндоканнабиноидная модуляция дофаминовой нейротрансмиссии - https://pmc.ncbi.nlm.nih.gov/articles/PMC5608040/
  6. Функциональная значимость эндоканнабиноид-зависимой синаптической пластичности в центральной нервной системе - https://pmc.ncbi.nlm.nih.gov/articles/PMC6720113/