Эта книга о том, как обучать кого угодно: человека или животное, старого или молодого, самого себя или других — и чему угодно. Как добиться, чтобы кот спрыгнул с кухонного стола, а бабушка перестала ворчать; как управлять поведением домашних животных, детей, начальства и друзей; как улучшить свои достижения в теннисе, гольфе, математике, развить память?
Все это можно достичь, используя принципы обучения с подкреплением. Эти принципы являются такими же непреложными законами природы, как законы физики.
Предисловие автора
Эта книга о том, как обучать кого угодно: человека или животное, старого или молодого, самого себя или других — и чему угодно. Как добиться, чтобы кот спрыгнул с кухонного стола, а бабушка перестала ворчать; как управлять поведением домашних животных, детей, начальства и друзей;какулучшить свои достижения в теннисе, гольфе, математике, развить память? Все это можно достичь, используя принципы обучения с подкреплением. Эти принципы являются такими же непреложными законами природы, как законы физики. Они лежат в основе всех ситуаций обучения, точно так же, как падение яблока основано на законах гравитации. При попытке изменить чье-либо поведение, будь то собственное или чужое, мы используем эти законы, независимо от того, знаем мы их или нет. Чаще всего мы их применяем неправильно. Мы запугиваем, спорим, принуждаем, лишаем чего-либо. Мы ругаем окружающих, когда дела идут плохо, и забываем похвалить, когда все хорошо.
Мы грубы и нетерпеливы с детьми, друг с другом, даже сами с собой, и потом сожалеем об этой грубости. Зная лучшие способы управления поведением, мы достигли бы своей цели быстрее, к тому же без нервотрепки, но мы не представляем, как это сделать. Мы попросту не можем привести в соответствие те приемы, которыми современные дрессировщики достигают успеха, с законами положительного подкрепления. Какой бы ни была наша задача — заставить ли четырехлетнего малыша вести себя тихо при посторонних, отучить ли щенка грызть дома все что попало, тренировать ли спортивную команду, выучить ли стихотворение — она решается быстрее, легче, веселее, если вы знаете, как пользоваться положительным подкреплением. Законы подкрепления просты: их можно за десять минут записать на школьной доске и за час выучить. Применение их в основном зависит от ситуации, обучение с подкреплением подобно игре, в которой надо быстро соображать. Каждый может быть тренером, но некоторые от природы способны к этому больше, чем другие. Вам вовсе не обязательно отличаться каким-то особым терпением, быть сильной личностью, не требуется и особого подхода к детям и животным, можно не обладать и тем, что цирковой дрессировщик Франк Бук называет силой человеческого взгляда. Вам надо только знать, что вы делаете. Всегда были люди с интуитивным пониманием того, как применять законы дрессировки.
Мы называем их талантливыми учителями, блестящими военачальниками, выдающимися тренерами, гениальными дрессировщиками. Мне приходилось наблюдать за некоторыми театральными режиссерами и многими дирижерами симфонических оркестров, которые очень умело использовали в своей работе подкрепление. Эти одаренные воспитатели не нуждаются в книге о том, как использовать законы, управляющие обучением. Однако для всех нас остальных — простых смертных, — кто вслепую пытается совладать с плохо управляемым питомцем, вступает в конфликт с ребенком или сослуживцем, знание законов подкрепления может сослужить хорошую службу. Обучение с подкреплением — это вовсе не система наград и наказаний; современные тренеры даже не используют этих терминов. Награды и наказания приходят обычно после того, как действие совершено, часто спустя длительное время, как, например, в уголовном суде. Они могут повлиять, а могут и не повлиять на будущее поведение, но они, безусловно, не могут воздействовать на уже совершенное действие. Подкрепление — будь то «положительное», то, к чему надо стремиться, например, улыбка или ласка, или «отрицательное» — то, чего надо избегать, подобно рывку поводка или нахмуренным бровям — происходит именно во время поведения, на которое надо воздействовать. Подкрепление изменяет поведение только тогда, когда дается в правильно выбранный момент.
Впервые я услышала об обучении с положительным подкреплением на Гавайях, куда в 1963 году я была приглашена старшим тренером дельфинария «Жизнь моря». Раньше я дрессировала собак и лошадей, пользуясь традиционными методами, но дельфины — другое дело; на животное, которое просто уплывает от тебя, не воздействуешь поводком, уздечкой или даже кулаком. Положительное подкрепление — в основном ведро с рыбой — единственное, чем мы располагаем. Психологи в общих чертах познакомили меня с принципами обучения с подкреплением. Искусство применения этих принципов я постигла при работе с дельфинами. Имея биологическое образование и всю жизнь интересуясь поведением животных, я оказалась очарованной не столько дельфинами, сколько моим с ними взаимным общением во время дрессировки. То, чему я обучилась, работая с дельфинами, я стала применять и в дрессировке других животных. И я начала замечать, как эта система входит в мою повседневную жизнь. Например, я перестала кричать на своих детей, потому что заметила, что крик не помогает. Подмечать поведение, которое мне нужно, и сразу подкреплять его — это гораздо более действенно, да к тому же еще и сохраняет мирные отношения в семье.
Тот опыт, который я извлекла из дрессировки дельфинов, имеет солидное теоретическое обоснование. В этой книге я постаралась держаться подальше от теоретизирования, так как, насколько мне известно, правила по применению этих теорий обычно не описываются наукой и, с моей точки зрения, ученые часто неправильно ими пользуются. Но основные законы уже твердо установлены и должны приниматься во внимание при обучении.
I. Подкрепление: лучше, чем вознаграждение
Что такое положительное подкрепление
Положительное подкрепление — это событие, совпадающее с каким-либо действием и ведущее к увеличению вероятности повторного совершения этого действия.
Запомните это положение. В нем заложен секрет успешного обучения.
Существуют два вида подкрепления: положительное и отрицательное. Положительное подкрепление — это нечто, желаемое субъектом: пища, ласка или похвала. Негативное подкрепление — это то, чего субъект хотел бы избежать: шлепок, нахмуривание бровей, неприятный звук (предупреждающий зуммер в машинах, который раздается, если вы забыли пристегнуть ремень безопасности, — это отрицательное подкрепление).
Поведение, которое уже встречается вне зависимости от того
,
насколько оно спорадично, всегда можно усилить с помощью положительного подкрепления. Если вы зовете щенка, и он подходит к вам, а вы его ласкаете, то в дальнейшем подход щенка на зов становится все более и более надежным даже безо всякого другого обучения. Предположим, что вы хотите, чтобы кто-то позвонил вам — ваш отпрыск, родитель или любимый. Если он или она не звонит, то тогда уж ничего не поделаешь. Самое главное в обучении с подкреплением то, что вы не можете подкрепить поведение, которое не встречается. С другой стороны, если вы всегда проявляете радость, когда любимые вам звонят, то это значит что их поведение положительно подкрепляется, вероятность частоты их звонков, очевидно, увеличится. Конечно, если вы примените отрицательное подкрепление — «Почему ты не позвонил, почему я должна тебе звонить, ты мне никогда не звонишь» и т. д., замечания, которые вызывают раздражение, — вы создаете ситуацию, при которой звонящий избегает неприятностей тем, что не звонит; фактически вы обучаете их не звонить. Простое введение положительного подкрепления за поведение является наиболее элементарной частью этого вида обучения. В научной психологической литературе встречаются такие выражения: «Были использованы поведенческие методики» или «Проблема была решена с помощью поведенческого подхода».
Обыкновенно это означает, что они отдают предпочтение положительному подкреплению перед другими использованными ими методами. Это совсем не означает, что они использовали весь арсенал приемов, описанных в этой книге; они могут и не знать о них. Однако введение положительного подкрепления часто является единственно необходимым мероприятием. Кстати, например, наиболее действенный способ приучить ребенка не мочиться в постель — лично похвалить его и выразить свое удовольствие, если утром простынки оказались сухими. Положительное подкрепление можно применить и к себе. В Шекспировской студии, которую я в свое время посещала, я встретила юриста с Уолл-стрит, которому было под пятьдесят и который был страстным любителем игры в сквош (игра, в которую играют ракетками и мягким мячом в закрытых кортах). Однажды он услышал, как я рассказываю об обучении, и уходя заметил, что можно испробовать положительное подкрепление на его игре в сквош. Вместо того что бы как обычно сокрушаться об ошибках, он попробует вознаграждать себя за хорошие удары. Через две недели я снова встретила его. «Как сквош?» — спросила я. На его лице потаилось выражение заинтересованности и радости, что нечасто бывает с юристами с Уолл-стрит. «Сначала я чувствовал себя жутким дураком, — ответил он, — говоря: „Хорошо, Пит, молодец!“ при каждом удачном ударе. Черт возьми, когда я тренировался один, я даже поглаживал себя по спине. Но затем моя игра начала улучшаться. И сейчас я на четыре ранга выше в клубной лестнице, чем был когда-либо раньше. Я побеждаю тех, у которых прежде не мог выиграть даже очко. И получаю гораздо больше удовольствия. С тех пор как я не ору на себя все время, я не кончаю игру злым и разочарованным. Если удар не получился, ничего страшного, следующие будут хорошими. И я обнаруживаю, что мне просто смешно, когда кто-нибудь другой делает ошибку, бесится, бросает ракетку — я знаю, что это не улучшит его игру, я только улыбаюсь. Какой жестокий противник. И это сразу же как только перешел на положительное подкрепление». Подкрепление относительно, не абсолютно. Дождь является положительным подкреплением для уток, отрицательным для кошек, довольно безразличен, по крайней мере во влажную погоду, для коров. Пища не является положительным подкреплением, если вы сыты. Улыбки и похвалы могут быть непригодными в качестве подкрепления, если субъект хочет вывести вас из себя. В качестве подкрепления надо выбирать нечто желаемое субъектом. Для любой тренировочной ситуации полезно иметь набор подкреплений.
Отрицательное подкрепление
Психологи спорят по поводу определения отрицательного подкрепления. Для наших целей отрицательное подкрепление можно определить как то, что субъект будет стараться избегать. Отрицательные подкрепления имеют градации от слегка неприятных стимулов — едва заметный сквозняк от кондиционера в ресторане, который все-таки заставляет вас перейти за другой столик, — до всевозможных крайностей, например удара электрическим током. Наказание происходит после поведения, на которое оно должно воздействовать. Таким образом, вы не можете избежать наказания, изменив взгляды или поступки, так как неправильное поведение уже осуществилось. Малыш, которого отшлепали за плохой табель успеваемости, может в дальнейшем учиться лучше или хуже, но уже не сможет изменить того табеля, который он уже принес. Напротив, отрицательное подкрепление можно остановить или избегнуть сиюминутным изменением поведения. Допустим, сидя в гостиной у тетушки, я случайно положила ноги на кофейный столик. Тетушка неодобрительно поднимает брови. Я ставлю ноги на пол. Ее лицо мягчеет. Я чувствую облегчение. И поскольку я смогла остановить сигнал нерасположенности, совершившееся поведение было подкреплено. Я усвоила: в тетушкином доме держи ноги по дальше от мебели. Поведение может быть полностью сформировано на основе отрицательного подкрепления, как в большинстве случаев традиционной дрессировки животных: лошадь учится поворачивать налево, когда тянут за левый повод, потому что поворот прекращает неприятное давление; лев вспрыгивает на тумбу, чтобы избежать назойливого хлыста или острой палки, которые держат около его морды.
В общем, термин «подкрепление» в этой книге относится к положительному подкреплению; если я захочу обсудить отрицательное подкрепление, я оговорю это особо. Вообще же оба вида подкрепления подчиняются одинаковым правилам применения. Например, ошибка во времени подачи подкрепления не даст результатов (или результаты будут плохими) при использовании как одного, так и другого метода подкрепления.
Время подачи подкрепления
Как уже говорилось, подкрепление должно совершаться в связи с действием, которое предполагается видоизменить. Подкрепление — это информация. Оно
говорит
субъекту, что именно вам нравится. Когда субъект пытается обучиться, информационное содержание подкрепления становится важнее самого подкрепления. В тренировке спортсменов или при обучении танцоров именно восклицания инструктора «Да!» или «Хорошо!», отмечающие нужное движение, а не разбор тренировки или репетиции в раздевалке дают требующуюся информацию. Запоздалое подкрепление является наибольшим недочетом начинающего дрессировщика. Собака садится, но к тому времени, когда хозяин говорит: «Хорошая собака», собака уже снова стоит. За что, думает животное, его хвалят? За то, что оно встает. Если у вас возникают трудности в дрессировке, первый вопрос, который надо себе задать, не запаздывает ли ваше подкрепление. Если вы при работе с животным вдруг застряли в самый разгар дела, то иногда полезно, чтоб кто-нибудь со стороны понаблюдал за запаздыванием подкреплений.
Мы всегда слишком запаздываем подкрепляя друг друга. «Послушай, дорогая, вчера вечером
ты
выглядела замечательно», — звучит совсем не так, как та же
фраза,
сказанная вовремя. Отсрочка подкрепления может даже оказать вреднее воздействие («А что, разве я сейчас не выгляжу замечательно?»). Мы свято верим, что сила слов перекроет ошибки во времени подкрепления. Слишком раннее подкрепление тоже неэффективно. В зоопарке Бронкса служители замучились с гориллой. Им было нужно, чтобы она выходила в вольер, чтобы можно было почистить внутреннюю клетку, но она взяла манеру сидеть в дверном проеме, и, обладая недюжинной силой, не давала закрываться скользящей двери. Когда же служители клали пищу снаружи или подманивали ее бананами, горилла либо не обращала на них внимания, либо хватала пищу и бежала обратно к своей двери, прежде чем ту успевали закрыть. Дрессировщика, работавшего при зоопарке, попросили разобраться. Он объяснил служителям, что размахивание бананами и подбрасывание пищи было попыткой подкрепить действие, которое еще не совершилось. Это называется взяточничеством. Надо было не замечать животное, пока оно сидело в дверях, но подкреплять пищей, если оно выйдет оттуда самостоятельно. Проблема была решена.
Мне кажется, что иногда и детей мы подкрепляем слишком рано, находясь под ложным впечатлением, будто мы их подбадриваем («Молодец, хорошо, ты уже почти все сделала правильно»). Возможно, при этом мы подкрепляем попытки. Но существует разница между попыткой сделать что-то и выполнением этого. Причитания типа «я не могу» иногда отражают фактическое положение вещей, но они могут являться и признаками того, что часто подкреплялись просто попытки. Вообще, подкрепление поведения, которое еще не совершилось, — подарками, обещаниями, комплиментами или чем-нибудь в этом роде — ни капельки не подкрепляет это поведение. Если что-то и подкрепляется, так это поведение, совершающееся в данное время: вероятнее всего — выпрашивание подкрепления. Соблюдение времени очень важно и при обучении с отрицательным подкреплением. Лошадь учится поворачивать налево, когда тянут за левый повод, но только если после поворота натяжение ослабевает. Прекращение натяжения является подкреплением. Вы садитесь на лошадь, пришпориваете ее, и она движется вперед — тогда вам надо перестать ее пришпоривать (если, конечно, вы не хотите, чтобы она двигалась быстрее). Начинающие наездники часто тычут лошадь в бока непрерывно, как будто шпоры это своего рода педаль газа в автомобиле, необходимая для движения. Пришпоривание не прекращается и тем самым не несет никакой информации для лошади. Так в школах верховой езды появляются лошади с железными боками, которые передвигаются черепашьим шагом независимо от того, как часто их пришпоривают.
То же происходит и с людьми, к которым постоянно придираются и бранят родители, начальство или учителя. Если отрицательное подкрепление не прекращается в момент достижения желаемых результатов, то оно не является подкреплением и не несет информации. Оно становится как буквально, так и в терминах теории информации «шумом».
Когда я смотрю по телевизору футбол или бейсбол, я всегда поражаюсь замечательной своевременности подкреплений, вновь и вновь получаемых игроками. Как только забивают гол или бегун пересекает финишную линию, рев толпы сигнализирует полное одобрение; а только посмотрите на бешеный обмен взаимоподкреплений игроков в тот момент, когда счет открыт или игра выиграна. С артистами, особенно с киноактерами, дело обстоит совершенно иначе. Даже на сцене аплодисменты раздаются после того, как работа кончается. У артистов кино не существует своевременного подкрепления, за исключением редкого отзыва режиссера или оператора об их работе или рукопожатия; письма поклонников и положительные рецензии, приходящие спустя недели и месяцы, бледнеют в сравнении с неистовством американского стадиона в минуту успеха. Нет ничего удивительного, что некоторые звезды кино проявляют болезненную страсть к низкой лести, и сенсациям; работа может совершенно не удовлетворять, если подкрепления, даже самые блестящие, всегда опаздывают.
Величина подкрепления
Начинающие тренеры, использующие пищевое подкрепление при работе с животными, часто не знают, какова должна быть величина каждого подкрепления. Ответ таков: чем меньше, тем лучше. Чем меньше подкрепление, тем быстрее животное съест его. Это не только экономит время, но и позволяет дать большее количество подкреплений за один сеанс, прежде чем животное насытиться. В 1979 г. Национальный зоопарк в Вашингтоне, штат Колумбия, пригласил меня в качестве консультанта для обучения группы работников зоопарка технике положительного подкрепления. Одна из смотрительниц в моей группе жаловалась, что обучение панды продвигается у нее очень медленно. Мне показалось это странным, потому что интуитивно я чувствовала, что панды — эти большие, прожорливые, активные животные — должны легко поддаваться обучению с пищевым подкреплением. Я понаблюдала за ее занятиями и обнаружила, что, когда смотрительнице удавалось добиться какого-либо движения, она давала панде целую морковку. Панда долго смаковала каждую морковку, поэтому в течение пятнадцати минут отведенного ей драгоценного времени она зарабатывала только три подкрепления (а кроме того, морковь ей надоедала). Один ломтик моркови на подкрепление был бы лучше.
Вообще, подкрепление величиной в один глоток животного вполне достаточно для поддержания его заинтересованности — одно-два зернышка для цыпленка, кубик мяса в 6 мм для кошки, половина яблока для слона. Особо любимой пищи можно давать и еще меньше — например чайную ложку зерна для лошади. Служители Национального зоопарка обучали белых медведей многим полезным вещам, таким, как переход по команде в другую клетку, используя изюминки.
Основное правило дрессировщика заключается в том, что если вы собираетесь провести в день одно занятие, то можете рассчитывать на хорошую работу животного примерно за четверть его дневного рациона, остальное дается после окончания работы. Если же вам надо провести три или четыре занятия в день, то дневную порцию пищи надо разделить примерно на восемьдесят частей и за один сеанс давать двадцать или тридцать. Восемьдесят подкреплений, видимо, являются максимумом, способным заинтересовать субъекта в течение дня. (Может быть, поэтому слайдовая кассета содержит восемьдесят слайдов; по крайней мере, когда лектор просит демонстратора показать вторую кассету слайдов, я тяжело вздыхаю.)
Размер подкрепления зависит также от сложности задачи. В океанариуме «Жизнь моря» мы сочли необходимым давать каждому [дельфину] по большой макрели за их олимпийские 6-7-метровые вертикальные прыжки. Они просто отказывались делать это за обычное вознаграждение в виде двух маленьких корюшек. У людей почти всегда более трудная работа вознаграждается лучше. А если этого нет, то как мы ненавидим тяжелую работу, если нам приходится ее делать.
Большой куш
Одним из наиболее полезных приемов пищевого или какого-либо другого подкрепления для человека и животных является получение куша. Это награда, которая во много, иногда в 10 раз больше обыкновенного подкрепления и являющаяся сюрпризом для субъекта. В рекламном агентстве, где я когда-то работала, бывали официальные вечера на Рождество, а также неофициальные праздники по поводу окончания большой работы или заполучения нового клиента. Но у председателя правления была еще привычка устраивать в год один-два абсолютно неожиданных вечера. Внезапно в середине дня он проносился по всем комнатам конторы, крича, чтоб все кончали работу. Коммутаторы выключались, появлялась процессия поставщиков провизии, музыканты, буфетчики, шампанское, копченая семга, и все это только для нас и безо всякой особенной причины.
Это было неожиданным кушем для пятидесяти человек. Я думаю, что это очень способствовало поднятию духа коллектива. Куш можно использовать и для того, чтоб отметить внезапное озарение. Один мой знакомый наездник, когда лошадь впервые проделывает какой-нибудь сложный маневр, соскакивает с нее, освобождает от седла и уздечки и свободно выпускает на манеж — куш полной свободы, который часто, по-видимому, может привести к образованию новой линии поведения. Как ни странно, получение всего одного куша может так же улучшить ответы непокорного, испуганного или сопротивляющегося субъекта, который вообще не проявлял нужного поведения. В океанариуме «Жизнь моря» мы проводили исследования по заданию ВМС США, в которых дельфин получал подкрепление за новые реакции, осуществляемые вместо старого, ранее выработанного поведения. Испытуемой была понятливая самочка по имени Хоу, которая редко давала новые ответы. Когда ей не стало удаваться получать подкрепления за свои действия, она стала неактивной, и в конце концов в течение одного занятия за двадцать минут не дала ни одного ответа. Наконец, тренер кинул ей пару рыбок «ни за что». Явно ошарашенная такой щедростью, Хоу снова стала активной и вскоре выполнила движение, которое можно было подкрепить, что привело к несомненному прогрессу на последующих занятиях. Я сама бывала в таком же положении, как этот дельфин. Когда мне было пятнадцать лет, самым большим удовольствием для меня были уроки верховой езды. Конюшни, где я занималась, продавали билеты, каждый на десять уроков; по своим деньгам я могла позволить себе один билет в месяц. В то время я жила с отцом, Филиппом Уили, и мачехой, Рики; и хотя они относились ко мне очень хорошо, я вступила в один из тех периодов юности, когда беспрерывно целыми днями бываешь невыносимо грубым и противным. Однажды вечером супруги Уйди, которые были любящими и изобретательными родителями, сказали, что они ужасно устали от моего поведения и поэтому решили меня наградить. И они презентовали мне ослепительно новый, дополнительный бесплатный билет на верховую езду. Один из них не поленился съездить на конюшни, чтобы купить его. Поразительно! Незаслуженный куш. Как мне помнится, я с ходу переменилась, и Рики Уйди подтвердила это много лет спустя, когда я писала эту книгу. Почему назаработанный куш может оказать такое внезапное и далеко идущее влияние, я не совсем понимаю. Может быть, со временем кто-нибудь напишет диссертацию по этому поводу и объяснит нам это. Я только знаю, что дополнительный билет на верховую езду мгновенно снял у меня сильные чувства угнетенности и обиды, и я подозреваю, что и дельфин чувствовал то же самое.