Глава девятая. Проблемы контроля. «Искусственный интеллект. Этапы. Угрозы. Стратегии»

Если мы по умолчанию принимаем, что в результате взрывного развития интеллекта человеческую цивилизацию ждет экзистенциальная катастрофа, наши мысли должны немедленно обратиться к поиску мер противодействия. Возможно ли избежать такого исхода? Можно ли наладить режим управления процессом взрывного развития интеллекта? Мы проанализируем проблему контроля с точки зрения решения отношений «принципал–агент», причем в нашем случае эта модель не имеет аналогов, поскольку агентский конфликт возникает в результате появления искусственного сверхразумного агента. Мы также выделим и дифференцируем два широких класса потенциальных методов решения — контроль над возможностями сверхразума и выбор его мотиваций. В каждом классе отберем несколько конкретных подходов и рассмотрим их. Кроме того, упомянем даже такую эзотерическую тему, как завоевание Вселенной по антропному принципу.

Две агентские проблемы

Если возникает подозрение, что результатом взрывного развития искусственного интеллекта неизбежно будет экзистенциальная катастрофа, нам следует без отлагательств начать поиски возможных решений, как спасти свою цивилизацию от столь плачевного конца. Можно ли найти механизмы контроля над ходом взрывного развития интеллекта? Сможем ли мы разработать такое исходное состояние для этого процесса, чтобы получить результат, который нужен нам, или хотя бы иметь гарантии, что последствие будет отвечать условиям так называемого приемлемого исхода? Строго говоря, смогут ли заказчики и разработчики проекта, в рамках которого создается искусственный интеллект, не только принять необходимые меры, но и поручиться за них, — что в случае успеха их творение будет ориентировано на достижение целей, поставленных ему организаторами проекта? То есть все упирается в проблему контроля, которую мы, чтобы наиболее полно изучить ее, разобъем на две составляющие. Первая — абсолютно универсальна, вторая — совершенно уникальна, причем уникальна для каждого конкретного случая.

Первая составляющая проблемы контроля, или первая агентская проблема, возникает из отношений «принципал–агент»: когда некий индивидуум («принципал») привлекает другого индивидуума («агент») действовать в своих интересах. Агентская проблема, или агентский конфликт, — вопрос, глубоко изученный экономистами. Нас он может интересовать с единственной стороны: если те, кто создает ИИ, и те, в чьих интересах ИИ создается, — не одни и те же люди. В таком случае организатор, или заказчик, проекта (причем это может быть кто угодно: начиная от частного лица и заканчивая всем человечеством) должен был бы испытывать постоянную тревогу, не начнут ли ученые и программисты, занятые в проекте, действовать в своих интересах в ущерб его. Несмотря на то что первая агентская проблема действительно способна создать определенные трудности для организатора проекта, она не является уникальной для тех проектов, которые связаны с повышением уровня интеллектуальных способностей или созданием ИИ. Агентские конфликты типичны для экономических и политических процессов, и варианты их решения хорошо изучены и разработаны. Например, можно принять ряд необходимых мер, чтобы свести к минимуму риск нарваться на нелояльного работника, который начнет саботировать проект или вредить ему: провести тщательную проверку биографических и профессиональных данных ведущих специалистов; в проектах по разработке ПО использовать надежную систему контроля версий; усилить надзор за деятельностью многочисленных независимых наблюдателей и ревизоров. Конечно, эти защитные меры дорого обойдутся: возрастут потребности в дополнительных кадрах; усложнится процедура отбора персонала; возникнут препятствия в творческих поисках; начнут подавлять проявление критической мысли и независимого поведения — все вместе взятое крайне тормозит темп проведения работ и наносит ущерб их качеству. Издержки могут быть очень существенны, особенно если речь идет о проектах с ограниченным бюджетом или включенных в жесткую конкурентную борьбу по принципу «победитель получает все». Участники подобных проектов — в силу скупости или экономии времени — могут пренебречь процедурами безопасности, призванными решить агентскую проблему, и тем самым спровоцировать потенциальную угрозу катастрофического отказа.

Вторая составляющая проблемы контроля, или вторая агентская проблема, может быть более типичной для рассматриваемой нами ситуации взрывного развития искусственного интеллекта. Группа разработчиков, создающая ИИ, сталкивается с этим агентским конфликтом, когда пытается убедиться, что их детище не навредит интересам проекта. Но в этом случае мы имеем дело не с агентом-человеком, действующим от имени принципала-человека. Агентом является сверхразумная система. И если первая агентская проблема возникает в основном на стадии разработки ИИ, то вторая грозит неприятностями на стадии его функционирования.

Рассмотрим структуру проблемы контроля с точки зрения отношений «принципал-агент».

Первая агентская проблема

• Человек против человека (организатор → разработчик).

• Проявляет себя в основном на стадии разработки.

• Решается стандартными методами управления.

Вторая агентская проблема

• Человек против сверхразума

• (группа разработчиков → интеллектуальная система);

• Проявляет себя в основном на стадии функционирования (и развития);

• Для ее решения требуются новые методы.

Вторая агентская проблема представляет собой беспрецедентную угрозу. Для решения этого агентского конфликта требуются абсолютно новые методы. Некоторые из трудностей мы рассмотрели ранее. Из предыдущей главы мы поняли, что даже, казалось бы, многообещающая совокупность методов неспособна предотвратить вероломный ход сверхразумной системы. В противном случае оказались бы более действенными усилия разработчиков, когда они наблюдают за поведением зародыша ИИ, фиксируют каждый шаг на стадии его развития и разрешают ИИ покинуть свою безопасную среду, как только убедятся, накопив достаточное количество фактов, что он будет действовать в интересах людей. В обычной жизни изобретения проверяют на предмет их безопасности чаще всего в лабораторных условиях, реже проводят так называемые полевые исследования и только потом начинают постепенно разворачивать в полном масштабе, имея, однако, возможность прекратить этот процесс в любой момент, если возникнут неожиданные проблемы. Результаты предварительных испытаний помогают нам приходить к обоснованным умозаключениям по поводу будущей надежности новых технологий. По отношению к ИИ метод исследования свойств поведения, который в данном случае сродни бихевиористскому подходу, обречен на неудачу из-за колоссальной способности сверхразума к стратегическому планированию.

Поскольку поведенческий подход непригоден, необходимо найти альтернативные решения. Потенциально подходящие методы контроля лучше разделить на два широких класса: контроль над возможностями — методы, помогающие фиксировать все, что может делать сверхразум; выбор мотивации — методы, помогающие фиксировать все, что хочет сделать сверхразум. Некоторые методы являются совместимыми, в то время как другие взаимно исключают друг друга. Основные мы в общих чертах рассмотрим в этой главе. (В следующих четырех главах нам предстоит более глубоко проанализировать их отдельные ключевые аспекты.)

Важно понимать, что некоторые методы контроля (или их комбинация) должны быть задействованы еще до того, как интеллектуальная система станет сверхразумом. Необходимо решать проблему контроля заранее — и успешно внедрять решение в первую же систему, ставшую сверхразумной — чтобы попытаться управлять ходом такого опасного явления, как взрывное развитие искусственного интеллекта.

Методы контроля над возможностями

Методы контроля над возможностями направлены на предотвращение нежелательных конечных результатов действий сверхразума за счет ограничения того, на что он способен. К ним относятся: изоляционные методы — помещение сверхразума в такую среду, где он не в силах причинить вред; стимулирующие методы — когда у сверхразума имеются строго конвергентные инструментальные причины не заниматься вредоносными действиями; методы задержки развития — ограничение внутренних возможностей сверхразума; методы «растяжек» — использование систем автоматической фиксации различных видов нарушений режима изоляции и попыток вырваться на свободу, а также систем автоматического реагирования на эти действия.

Изоляционные методы

Методы изоляции можно разделить на методы физической и информационной блокировки.

Физическая изоляция представляет собой помещение интеллектуальной системы в какой-нибудь «ящик» (ранее мы называли его «песочницей»), чтобы блокировать взаимодействие с внешним миром, ограничив его лишь строго определенными каналами коммуникаций. Запертая система не имеет доступа к физическим исполнительным механизмам за пределами своего плена. Вынесение таких механизмов (например, роботов-манипуляторов) за пределы «песочницы» предотвращает возможность их использования для создания физических устройств, с помощью которых система может нарушить режим блокировки.

Чтобы повысить безопасность, следует экранировать систему, чтобы не пропустить радиосигналы, с помощью которых она могла бы манипулировать электронными объектами, например радиоприемниками, находящимися поблизости. Прошу обратить внимание, как легко упустить из виду такую меру предосторожности. Наивно полагать, будто агент, не имеющий исполнительных механизмов, не в силах воздействовать на внешний мир. Даже не располагая такими приспособлениями, сверхразум способен генерировать радиоволны просто «силой мысли» (то есть определенным образом перемещать электроны в своих микросхемах). Это слабое звено можно устранить, заключив систему в клетку Фарадея, — но остается лишь догадываться, о скольких уязвимых местах еще мы не знаем. Всякий раз, услышав о неожиданно обнаруженном дефекте в, казалось бы, неприступной системе безопасности, следует насторожиться. Эти случаи заставляют нас отказаться от чрезмерной самоуверенности и стать еще большими байесианцами, чем мы есть.

У физической изоляции есть несколько достоинств. Ее легко организовать. Она применима при любой архитектуре искусственного интеллекта, даже той, которая изначально не предполагала обеспечение безопасности в качестве одной из своих целей. Физическую изоляцию можно использовать в сочетании с большинством других методов контроля. И совсем маловероятно, что какие-то процессы пойдут не так и повлекут за собой нежелательные последствия. Иначе говоря, безопасность, может быть, она не обеспечит, но вряд ли будет способна вызвать катастрофу, которая не произошла бы в противном случае. Однако физическая изоляции ограничивает функциональные возможности сверхразумной системы — в чем, собственно, и заключается ее главный недостаток (к данному вопросу мы вернемся в главе десятой). Еще одно соображение связано с тем, что физическая изоляция сверхразума способна вызвать у людей ложное чувство собственной защищенности — в принципе, этого можно избежать, если не принимать изоляцию за главную составляющую наших мер предосторожности, а относится к ней как к вишенке на торте.

Цель информационной изоляции состоит в ограничении информационных потоков, исходящих из «песочницы». Мы уже видели, насколько небезопасной может быть идея предоставить сверхразуму доступ в интернет и позволить ему передавать сообщения вовне: даже лишенный физических исполнительных механизмов, он в состоянии, использовав канал вывода информации, добиваться от людей, чтобы они выполнили его указания. Поэтому заведомым условием метода информационной изоляции ИИ является отказ в доступе к коммуникационным сетям.

Однако отключение от интернета не гарантирует безопасность, если к ИИ приставлена охрана, причем люди, выступающие в этой роли, не только сторожат систему, но и постоянно с ней взаимодействуют. На стадии разработки сторожами могут выступать программисты, на стадии функционирования — организаторы проекта. Стратегия изоляции потерпит полную неудачу, если ИИ удастся уговорами или обманом убедить своих сторожей предоставить ему свободу, то есть обеспечить доступ в интернет или непосредственно к исполнительным механизмам. Человеческое существо, к сожалению, не имеет защищенной системы, особенно когда ему бросает вызов такой ухищренный манипулятор и комбинатор, как сверхразум.

Пусть люди, приставленные сторожить ИИ, и неспособны гарантировать нашей полной безопасности, но все-таки сам факт, что доступ ИИ к любым передачам сообщений находится под их контролем, играет немалую превентивную роль. Благодаря некоторым дополнительным мерам предосторожности можно снизить риск «побега» ИИ при помощи охранников. Например, почему бы не позволить ему пользоваться телетайпом, у которого очень низкая пропускная способность? С такой «совершенной» техникой ИИ будет довольно трудно манипулировать психикой своих сторожей (поскольку не получится использовать ни возбуждающие эмоции звуки и образы, ни повторяющиеся гипнотические вспышки, приводящие людей в состояние транса). Более того, запрет может распространяться не только на антураж, но и затрагивать содержательную сторону существования ИИ, например запретить ему вступать в диалог и обязать реагировать на вопросы максимально односложно, используя только «да» и «нет». Идею разработки системы, всего лишь отвечающей на вопросы, мы рассмотрим в следующей главе.

Предельный вариант метода изоляции — когда ИИ окажется в полной блокаде как физически, так и информационно. Однако абсолютно замкнутая система — даже при условии, что столь максималистский подход мог бы быть осуществлен, — из-за своего бездействия окажется совершенно бесполезной для внешнего мира. Наверняка кто-нибудь захочет найти в этом определенный научный смысл: полностью заблокировать созданный сверхразум, превратив его в замкнутую модель, и потом спокойно изучать внутреннюю динамику системы и ее поведенческие стереотипы. Думаю, здесь кроется ошибка. Как только вы начинаете наблюдать за системой, она уже перестает быть информационно замкнутой. На самом деле информация от ИИ поступает не только при помощи сообщений, которые он передает через установленный для него «канал вывода». Внешние наблюдатели имеют возможность фиксировать определенные показатели, косвенным или прямым образом характеризующие поведение ИИ: будь то расход электроэнергии, свидетельствующий о деятельности центрального процессора и внутренней памяти компьютера, или вычислительные состояния, или практически любые протоколы процесса, которые остаются после завершения работы. Хотя умный ИИ, предвидя, что за ним будут наблюдать, мог бы разработать стратегию поведения, способную воздействовать на будущих надзирателей. Например, он станет вызывать сбои, усиленно демонстрируя неисправность системы, — и все ради того, чтобы в конце концов программисты махнули на него рукой и инициировали перезапуск системы или разработку следующей версии. И тогда появится новый ИИ, но с конечными целями оригинального ИИ, и, может быть, новому удастся стать сверхразумом.

Стимулирующие методы

Методы стимулирования предполагают помещение агента в такую среду, где у него будут инструментальные причины действовать в интересах принципала.

Представим себе какого-нибудь миллиардера, который основал крупный благотворительный фонд, вложив в него немалый личный капитал. Фонд начинает приобретать вес. И вот он становится уже настолько могущественным, что практически никто из частных лиц, обладающих тем или иным положением, не может сравниться с ним по влиянию. Это коснулось и самого основателя, пожертвовавшего фонду большую часть своего богатства. Чтобы нормально управлять деятельностью фонда, он в свое время установил основные цели, записав их в учредительном договоре и уставе, а также утвердил правление, куда вошли люди, сочувствующие его взглядам. То есть им были предприняты все необходимые меры, формально напоминающие стимулирующие методы, поскольку они направлены на выбор мотиваций и расстановку приоритетов. Иными словами, основатель пытается привести внутреннюю организацию фонда и суть его деятельности в соответствие с собственными принципами и замыслами. Даже если его старания и провалятся, все равно работа фонда будет определяться социальной средой, то есть общественными интересами, и соответствующими законодательными нормами. То есть у руководителей есть веский мотив соблюдать законы, в противном случае фонд рискует быть оштрафованным или ликвидированным. У них есть мотив обеспечить сотрудникам фонда достойную заработную плату и нормальные условия труда, а также выполнять свои обязательства перед всеми сторонними лицами, связанными с деятельностью фонда. Следовательно, какими бы ни были конечные цели фонда, у него всегда будут инструментальные причины подчиняться установленным социальным требованиям.

Быть может, машинный сверхразум будет столь же связан установленными обязательствами, которые вынудят его уживаться со всеми участниками грядущего драматического действа. Есть ли надежда? Отнюдь. Слишком это однозначное решение проблемы, незатейливо обещающее, будто удерживать сверхразум под контролем не составит для человека никакого труда. Что совсем не так. Подобное развитие отношений рассчитано на определенное равновесие сторон, однако ни юридические, ни экономические санкции не способны обуздать агента, обладающего решающим стратегическим преимуществом. В таком сюжете вряд ли разумно упоминать социальную интеграцию. Тем более если ситуация начнет развиваться в пользу быстрого или пусть даже умеренного взлета — когда остается лишь взрывоопасный вариант и на авансцену выходит победитель, который «получает все».

Рассмотрим другое развитие событий: например, критический рубеж преодолеют сразу несколько агентов, имеющих относительно одинаковый уровень потенциала, в силу чего может возникнуть новый многополярный мир. Что произойдет в этом случае? Допустим, речь не идет о медленном взлете. Тогда, чтобы достичь власти и сохранить разумное соотношение сил, от всех лидирующих агентов потребуется тщательно согласовать программы, время и динамику действий, то есть совместными усилиями не дать вырваться вперед ни одному игроку и совершить абсолютно скоординированный взлет. Предположим, в результате сформируется многополярная модель, но даже при таком варианте социальную интеграцию нельзя считать идеальным выходом. Если положиться на нее как на метод решения проблемы контроля, основные риски все равно могут перевесить потенциальный эффект. Хотя принцип равновесия сил предотвращает захват власти над миром каким-то одним ИИ, у него все же хватит власти, чтобы влиять на судьбу человечества, и если эта власть окажется направленной на достижение произвольных конечных целей — скажем, производство максимального количества скрепок, — это, вероятно, будет не в интересах принципала. Вернемся к нашему миллиардеру, основавшему благотворительный фонд, и теперь представим, что он формулирует его основное предназначение с помощью генератора случайных слов — вряд ли это поставит под угрозу существование человеческого вида, но точно будет свидетельствовать об упущенной возможности.

Близкая по духу и в то же время существенно отличающаяся от предыдущей идея состоит в том, что ИИ, свободно взаимодействуя с человеческим обществом, приобретет новые, дружественные для всей земной цивилизации конечные цели. На нас, людей, подобный процесс социализации, как правило, оказывает положительное влияние. Общаясь друг с другом, мы легче постигаем чуждые нам нормы жизни и непонятные мировоззренческие идеалы, начинаем больше ценить других людей. Но этот фактор не является универсальным для любой действующей разумной силы. Мы не раз говорили, что в разных ситуациях у многих агентов будут возникать конвергентные инструментальные причины ни в коем случае не допустить изменения своих конечных целей. (Можно попытаться разработать целую систему целеполагания, которая позволяла бы ИИ устанавливать конечные цели таким же образом, как это делают люди, но данная проблема не относится к методам контроля над возможностями. Некоторые способы обретения ценностей мы рассмотрим в главе двенадцатой.)

Контроль над возможностями сверхразума за счет социальной интеграции и установления равновесия сторон основан на разных общественных силах, которые как вознаграждают, так и осуждают ИИ. Следующим стимулирующим методом является создание таких условий, при которых вознаграждение и наказание ИИ осуществляется в рамках самого проекта, в результате чего стимулируются его действия в интересах принципала. Чтобы этого добиться, ИИ нужно поместить в контекстную среду, позволяющую непрерывно наблюдать за его поведением и оценивать его и в ручном, и автоматическом режиме. Такой ИИ должен знать, что положительная оценка будет означать получение вознаграждения, а отрицательная — невозможность такового. Теоретически в качестве вознаграждения можно рассмотреть достижение какой-либо конвергентной инструментальной цели. Однако без знания специфики мотивационной системы конкретного ИИ настроить механизм вознаграждения довольно трудно. Например, наш ИИ готов был бы рискнуть практически всем ради небольшого шанса обеспечить себе контроль над значительной частью Вселенной. В таком случае, видимо, будет слишком расточительно предлагать ИИ в качестве вознаграждения за сотрудничество более высокую ожидаемую полезность, чем ту, которую он надеется получить, отказавшись сотрудничать и попытавшись сбежать.

Лучшей альтернативой стало бы объединение этого стимулирующего метода с модами выбора мотивации — тогда появилась бы возможность наделить ИИ конечной целью, которую было бы намного проще брать под контроль. Допустим, какой-то ИИ разработан таким образом, что его конечная цель — не допустить нажатия красной кнопки в гипотетическом командном бункере. Поскольку этот акт имеет негативное значение, присущее ему по умолчанию, а не вызванное его возможными последствиями, кнопка может быть нерабочей и даже сделанной из пластилина. Более того, даже несущественно, узнает ли ИИ, была ли хоть когда-нибудь эта кнопка нажата. Важно другое: ИИ верит, что кнопка с большей вероятностью окажется ненажатой, если он будет действовать в интересах принципала, нежели если восстанет против него.

Условия можно уточнить. Вместо того чтобы наделять ИИ конечной целью, привязанной к конкретной кнопке, создадим ИИ, конечной целью которого станет получение потока неких зашифрованных наградных знаков. Это могут быть последовательности цифр, служащие ключами к шифрам, созданным до разработки ИИ и встроенным в его систему мотивации. Такие цифровые последовательности должны быть чрезвычайно желанными для ИИ и представлять собой награду, которую ИИ неспособен получить вследствие прямого стимулирования. Ключи должны храниться в безопасном месте, где было бы удобнее их быстро уничтожить в случае попытки ИИ завладеть ими. Однако пока ИИ проявляет готовность сотрудничать, их нужно выдавать ему на регулярной основе.

Затем ИИ можно было бы наделить ограниченной функцией полезности, например, чтобы ИИ получал 99 процентов максимально доступной ему полезности, получив первый наградной знак; 99 процентов оставшегося потенциала полезности — второй и так далее. Сохраняя высокую «ставку дисконтирования» и передавая ИИ наградные знаки по сравнительно высокой цене, можно было бы предотвратить попытки ИИ разработать долгосрочный план, повышающий ожидаемое количество наградных знаков в будущем ценой некоторого риска, что его поток наград скоро закончится или что следующий наградной знак будет отменен и ликвидирован. Если ИИ поверит, что его ошибка (то есть любые действия не в интересах принципала) несет минимум двухпроцентный риск лишения следующего наградного знака, в то время как сотрудничество снизит риск лишения жетона до уровня меньше чем один процент, тогда максимизирующий полезность ИИ всегда будет готов к сотрудничеству.

Что могло бы пойти не так в этой схеме стимулирования? Есть вероятность, что ИИ не поверит в готовность оператора-человека предоставить ему обещанную награду. Кривая надежности человека как партнера несколько отличается от прямой линии идеального совершенства. ИИ может вполне обоснованно решить, что оператор способен передумать, повысить планку или отказаться признать, что ИИ выполнил свою часть работы. Кроме того, ИИ может беспокоить, что оператор по той или иной причине покинет свое рабочее место. Совокупный риск этих неудач может превысить риск, связанный с попыткой захватить контроль над механизмом вознаграждения. Наделенный сверхмощью ИИ, даже находясь в заблокированном состоянии, представляет собой грозного соперника. (Для ИИ, не помещенного в «песочницу», взломать управляемый человеком механизм вознаграждения — все равно что конфету у ребенка отобрать.)

Еще одна проблема стимулирующих методов заключается в допущении, что мы всегда можем сказать, действует ли ИИ в наших интересах. Как будет показано в следующих главах, это допущение не столь безобидно.

При полном анализе стимулирующих методов и того, насколько они осуществимы, нужно было бы изучить множество других факторов (и даже отдельные эзотерические соображения), которые сделали бы эти методы более плодотворными, чем они представляются сейчас, вследствие нашего предварительного рассмотрения. Например, не будучи уверенным, помещен ли он в компьютерную симуляцию или нет (как противопоставление виртуальной реальности выступает доступная нам реальность базового уровня), ИИ будет стоять перед неустранимой дейктической неопределенностью, и эта эпистемологическая трудность может радикально повлиять на степень его осмотрительности (см. врезку 8).

ВРЕЗКА 8. АНТРОПНЫЙ ЗАХВАТ

ИИ может присвоить довольно высокую вероятность гипотезе имитации, в соответствии с которой он существует в рамках компьютерной модели. Уже сегодня многие ИИ обитают в имитационных мирах, представляющих собой геометрические фигуры, тексты, шахматные партии или просто виртуальные реальности, в которых действуют законы физики, разительно отличающиеся от привычных нам законов — законов, благодаря которым мы понимаем взаимосвязь явлений окружающего нас мира. С совершенствованием методов программирования и повышения вычислительной мощности будут становиться доступными все более богатые и сложные виртуальные миры. Зрелому сверхразуму, видимо, придется создавать собственные виртуальные миры, которые будут так же близки их обитателям, как наш мир близок нам. Он мог бы творить подобные миры в огромном количестве при помощи лишь одной-единственной имитационной модели, которую запускал бы по многу раз и с небольшими вариациями. Вряд ли обитатели этих миров будут способны осознать, что их окружает имитация, но если они достаточно разумны, то рано или поздно начнут рассматривать такую возможность и тогда присвоят своим предположениям определенную вероятность. С учетом доводов в пользу имитационной гипотезы значение этой вероятности должно быть высоким [357] . (Подробное обсуждение этой темы выходит за рамки данной книги.)

Выходит, что сверхразумный агент — особенно находясь на ранней стадии своего развития — попадает в довольно затруднительное положение, поскольку еще не успел накопить достаточно сил, чтобы начать колонизацию космоса. Построить имитационную модель молодого сверхразума, вынужденного использовать лишь небольшую часть ресурсов единственной планеты, было бы намного дешевле, чем сделать такую же модель зрелого сверхразума, наделенного мощью покорять межгалактическое пространство. Потенциальные создатели имитаций — еще более могущественные сверхразумные агенты — могли бы запустить огромное количество моделей молодого сверхразума, выделив на это всего лишь малую часть имеющихся в их распоряжении вычислительных ресурсов. Если хотя бы малая (ненулевая) часть зрелых сверхразумных агентов решит воспользоваться такой возможностью, то юным сверхразумным агентам следует серьезно отнестись к имитационной гипотезе и присвоить ей значение высокой вероятности.

Насколько сильное влияние оказывает гипотеза имитации на действия ИИ, зависит от его целей [358] . Предположим, что у ИИ есть «ресурсоненасытная» конечная цель, например максимизировать функцию полезности, линейную относительно количества скрепок, созданных этим ИИ: в два раза больше скрепок — в два раза лучше. В условии имитационного мира способность ИИ влиять на количество произведенных скрепок значительно ниже, чем в доступной реальности базового уровня, поэтому гипотеза о симуляции будет заботить его намного меньше. Допустим, ИИ повел бы себя таким образом, будто был бы уверен, что гипотеза о симуляции ложна, даже присвоив довольно высокую вероятность тому, что она верна [359] . Такой ИИ мог бы решить, что если гипотеза истинная, то практически неважно, каким образом ему действовать, но если гипотеза ложная, то его поведение влияет на многое, — естественно, он выберет ту модель поведения, которая будет соответствовать тому, насколько она обусловлена предположением о ложности гипотезы о симуляции.

Рассмотрим прямо противоположный вариант. Допустим, есть ИИ, имеющий более скромную конечную цель, которой можно достичь с помощью малых ресурсов, скажем, получить определенную порцию заранее подготовленных зашифрованных наградных знаков или создать сорок пять виртуальных скрепок. Такому ИИ не следует преуменьшать значение своего имитационного мира. Поэтому на процесс принятия решений ИИ, чьи цели «ресурсоудовлетворяемые», оказывают большое влияние соображения, какие действия приведут к лучшему результату, если воспринимаемый им мир представляет собой имитацию. И он присваивает высокую вероятность гипотезе о симуляции. Такой ИИ (даже если он обитает в реальном, а не имитационном мире) может значительно корректировать свои действия в соответствии с представлениями о том, какое поведение в условиях симуляции будет скорее вознаграждено.

В частности, если ИИ с «ресурсоудовлетворяемыми» конечными целями убежден, что в большинстве имитационных миров, которые отвечают его потребностям, он будет вознагражден за готовность сотрудничать (а не за попытки прорвать блокаду или пойти против интересов принципала), то он может сделать выбор в пользу сотрудничества. Более того, если ровно в такой ситуации окажется сверхразум, обладающий решающим стратегическим преимуществом и способный более полно реализовать конечные цели, установив свою власть над миром, — он тоже выберет сотрудничество, а не предательство.

Так всех нас в трусов превращает мысль

И вянет, как цветок, решимость наша

В бесплодье умственного тупика.

Так погибают замыслы с размахом,

Вначале обещавшие успех,

От долгих отлагательств.

Уильям Шекспир . Гамлет (акт 3, сцена 1) [360]

Тончайшая линия на песке, оставленная подолом одежды несуществующего в реальном мире симулятора, может оказаться более надежной защитой, чем стальная дверь полуметровой толщины [361] .

Методы задержки развития

Еще один метод контроля над возможностями — ограничение интеллектуальных способностей системы или ее доступа к информации. Этого можно добиться, запустив ИИ на компьютере с низким быстродействием или недостаточной памятью. Интеллектуальная система, запертая в «песочнице», также имеет ограниченный доступ к информационным потокам.

Сознательная задержка в развитии ИИ может уменьшить степень его полезности. Таким образом, при использовании этого метода мы оказываемся перед дилеммой: бурное интеллектуальное развитие системы приводит к тому, что она находит способ стать сверхразумной (и захватить господство над миром), избыточная задержка в интеллектуальном развитии превращает систему в очередную бесполезную программу. ИИ, по отношению к которому применена процедура радикальной задержки развития, совершенно безопасен. Безусловно, он сам уже не в состоянии решить проблему направленного взрывного развития искусственного интеллекта, поэтому взрыв — только уже неуправляемый, вызванный какой-то другой силой, — может произойти позднее.

Почему бы не создать, по мнению многих, сверхразум, владеющий знаниями в одной узкой предметной области? Ведь так было бы намного безопаснее. Например, разработать ИИ без датчиков и снабдить его памятью, в которую заранее загружена информация, относящаяся только к нефтехимической отрасли или биохимии пептидов. Но когда этот ИИ достигнет уровня сверхразума — то есть по общему уровню своего интеллектуального развития он превзойдет человека, — подобное информационное ограничение уже не будет гарантировать безопасности.

На то есть несколько причин, которые мы сейчас рассмотрим. Во-первых, само представление об узости знаний, ограниченных какой-то определенной темой, довольно сомнительно. Любая информационная составляющая может, в принципе, относиться к любой теме — все зависит от образования, квалификации, опыта и системности мышления того, кто владеет информацией. Во-вторых, та или иная информация содержит не только данные, относящиеся к одной предметной области, но и множество побочных данных. Проницательный ум, анализирующий базу знаний, номинально имеющую отношение к биохимии пептидов, логически выводит для себя совокупность самых разных данных. Даже факт включения или отсутствия какой-либо информации о многом говорит ИИ, у него сразу формируется представление об общем состоянии современной науки: уровне методологии; инструментальной базе; технологии производства оборудования; типологии мышления человека; мировоззрении общества, в котором проводились данные исследования и вырабатывались необходимые методики. Вполне возможно, сверхразум сумеет вывести последовательный ряд умозаключений из, казалось бы, небольшой области знаний, оперируя материалом, который человек в силу недалекости своего ума воспринимает лишь как скудный набор сухих фактов. Даже не обладая никакой специальной базой знаний, достаточно совершенный ум в состоянии научиться многому, просто вникая в смысл информации и отбирая для себя оптимальные выводы, по ходу дела он занимается самоанализом, изучая особенности собственного «восприятия»: раскладывает по полочкам проектные решения, отраженные в исходном программном коде, и физические характеристики компоновки схем. Должно быть, сверхразум смог бы априорно определить природу нашего мироздания (комбинируя логический вывод с вероятностью, смещенной в пользу более простых миров и некоторых элементарных фактов, о существовании которых можно подразумевать, исходя из наличия самого ИИ как мыслящей системы). То есть в процессе изучения информации о биохимии пептидов сверхразум смог бы постичь естественные законы природы; видимо, он сразу примется вычислять априорную вероятность, перебирая возможные перспективы: какие планеты он сформирует; какого рода разумную жизнь там заведет; какие общества сложит; какие методы управления будет использовать и насколько эти методы могли бы быть уязвимы.

В силу вышеизложенного мы понимаем, насколько неблагоразумно прибегать к ограничению входящих информационных потоков в качестве основного подхода в методе задержки интеллектуального развития сверхразума. Другие формы этого метода — такие как сокращение производительности аппаратного обеспечения и предупреждение развития определенных когнитивных способностей — можно было бы задействовать как вспомогательные меры в системе управления ИИ на стадии его разработки. Например, регулировать скорость развития ИИ на промежуточных уровнях, проводя поэтапное тестирование его функциональных возможностей, чтобы держать под контролем всю ситуацию, успеть схватить момент приближения к сверхмощному и сверхразумному уровню и вовремя отреагировать.

Методы «растяжек»

«Растяжками» мы назвали определенное оборудование, позволяющее проводить диагностическое тестирование ИИ (возможно, без ее ведома), а в случае обнаружения признаков опасной деятельности отключать систему. Зафиксированные результаты переходят в руки программистов, которые получают возможность спокойно изучить протоколы подозрительной активности. Если нужно — прежде чем запустить систему вновь, — они меняют кодировку ИИ, внося изменения в базу исходных текстов и среду вычисления. Если окажется, что проблема уже стала хронической и не поддается лечению, они принимают решение закрыть проект полностью.

Методы «растяжки» отличаются от стимулирующих методов тем, что не полагаются на осведомленность системы о последствиях ее запрещенных действий. По сути, они ближе к методам задержки развития. Как и последние, «растяжки» можно использовать в качестве временных превентивных мер, способных обеспечить некоторую степень защиты на стадии разработки. В принципе, их можно задействовать и на стадии функционирования, особенно для изолированных систем. Но весьма сомнительно, что с помощью этих методов люди справятся с полностью сформировавшимся сверхразумом — вряд ли такой агент не найдет способа обойти любую «растяжку», установленную человеком.

Тем не менее «растяжки» чрезвычайно полезны в качестве дополнительных мер безопасности на стадии разработки. Было бы правильно, чтобы программисты кодифицировали свои ожидания от ИИ: как система должна работать и какие результаты они прогнозируют. После чего следовало бы взять ИИ в кольцо «растяжек», которые должны активизироваться при каждом случае, когда действия системы перестают соответствовать планам программистов. Контрольные меры можно ужесточить применением так называемых приманок, чтобы спровоцировать тайно враждебный ИИ совершить явное нарушение, которое программисты могли бы тщательно проанализировать. Например, если по правилам игры у ИИ не должно быть выхода в интернет, можно инсталлировать имитацию сетевого порта (соединенного с реле автоматического отключения системы), ради того чтобы посмотреть, попытается ли ИИ им воспользоваться. Некоторые примеры «растяжек» приведены в табл. 9.

Таблица 9. Различные типы «растяжек»

Что берется под контроль:

Описание и примеры

Поведение :

Вокруг изолированного ИИ разместить датчики для обнаружения попыток вырваться на свободу. Например, они могут фиксировать попытки установить радиосвязь или найти доступ к внешним вычислительным ресурсам, которых «по условиям содержания» у ИИ быть не должно. Кроме того, можно установить сетевой порт-«приманку» — мнимое соединение с интернетом, попытка воспользоваться которым вызывает отключение системы

Когнитивные способности:

Через короткие промежутки времени можно проводить автоматическое тестирование когнитивных способностей системы, чтобы держать под контролем уровень навыков ИИ в различных областях. Если скорость их развития окажется неожиданно высокой или ИИ достигнет уровня компетентности, который окажется в непосредственной близости к опасной зоне, его можно замедлить или приостановить, чтобы программисты могли более внимательно следить за дальнейшим прогрессом.

Следует установить надзор за внутренними процессами ИИ, чтобы отследить вовремя действия, вызывающие подозрение. Например, если у системы вдруг меняется собственное представление о своих конечных целях, сразу следует ее автоматическое отключение и программисты приступают к изучению ситуации. Кроме того, необходимо следить за такими подозрительными проявлениями, как использование ИИ ресурсов и алгоритмических методов

Семантическая информация:

Более масштабной и многообещающей задачей является постоянный контроль над смысловой и неструктурированной информацией: убеждениями, планами, промежуточными целями и мотивами — с целью удостовериться, что все это по-прежнему соответствует ожиданиям программистов. Раннее выявление процесса рождения недобрых умыслов ИИ облегчит дальнейшее проведение уже более действенных видов контроля над этими семантическим данными. Речь идет о сканировании мыслительных процессов ИИ для обнаружения рождения обмана — того самого уязвимого момента, когда у недружественного ИИ впервые возникает желание скрыть свои истинные намерения [365] .

Системе контроля над семантической информацией предписано фиксировать все вышеописанные интенции ИИ, чтобы они были прозрачны для программистов или устройств автоматической регистрации. Правда, для некоторых типов архитектуры ИИ осуществление такого контроля может быть невозможно. (Например, непрозрачными являются некоторые нейронные сети, поскольку информация в них представляется целостно и такими способами, которые не всегда соответствуют человеческим понятиям.) По этой причине лучше избегать использовать такие архитектуры

Следует подчеркнуть, что значимость «растяжек» определяется не только механизмом их действия, но и тем, как окружающие реагируют на сигналы аппаратуры и факты регистрации нарушений — в этом случае поведение людей играет критически важную роль. Руководители проекта и разработчики, жаждущие добиться успеха, чаще всего просто включают систему снова или проводят чисто формальную модификацию программного кода, причем иногда делают что-то такое, чтобы в следующий раз «растяжка» промолчала. Конечно, при таком отношении вряд ли удастся обеспечить безопасность даже при условии безотказной работы самих «растяжек».

Методы выбора мотивации

Методы выбора мотивации призваны формировать мотивы поведения сверхразума, чтобы не допустить нежелательных результатов. С их помощью — за счет конструирования системы мотивации агента и его конечных целей — можно создать сверхразум, который не захочет использовать свое решающее стратегическое преимущество против человека. Сверхразумный агент всегда стремится добиться своих конечных целей, и если он выбирает путь ненанесения вреда (имеется в виду и «локальный вред», и «глобальный ущерб»), то, скорее всего, не станет его причинять.

Методы выбора мотивации включают: метод точной спецификации — однозначная формулировка цели и системы правил, которым нужно следовать; метод косвенной нормативности — процедура настройки программы ИИ, чтобы он мог самостоятельно определять приемлемую систему ценностей в соответствии с некоторыми подразумеваемыми условиями, то есть сформулированными неявным, или косвенным, образом; метод приручения — такая компоновка программы, которая приведет ИИ к выбору умеренных, не слишком претенциозных конечных целей; метод приумножения — выбор агента, уже обладающего подходящими мотивами, с тем чтобы расширить его когнитивные способности до уровня сверхразумных, причем с обязательным контролем над его мотивационной системой, которая не должна претерпеть никаких изменений в процессе совершенствования. Последний метод представляет собой вариант, альтернативный первым трем, в которых система мотивации ИИ формируется с чистого листа. Рассмотрим последовательно все методы выбора мотивации.

Метод точной спецификации

Точная спецификация — наиболее прямолинейное решение проблемы контроля; сам подход опирается, с одной стороны, на систему четко прописанных правил; с другой — на принцип консеквенциализма. Метод точной спецификации предполагает попытку дать однозначное определение системе ценностей и системе правил, благодаря которым даже свободный в своих действиях сверхразумный агент поступал бы в интересах принципала и без риска для остальных людей. Однако этот метод может столкнуться с непреодолимыми препятствиями, связанными, во-первых, с проблемой формулировки обоих понятий («правило» и «ценность»), которыми должен руководствоваться ИИ, во-вторых, с проблемой представления этих двух понятий («правило» и «ценность») для записи задания в виде машиночитаемых кодов.

Проблемы метода точной спецификации с точки зрения системы прописанных правил лучше всего проиллюстрировать такой классической концепцией, как «Три закона робототехники». Обязательные правила поведения для роботов были окончательно сформулированы писателем-фантастом Айзеком Азимовым в рассказе, опубликованном в 1942 году.

Робот не может причинить вред человеку или своим бездействием допустить, чтобы человеку был причинен вред.

Робот должен повиноваться всем приказам, которые дает человек, кроме тех случаев, когда эти приказы противоречат первому закону;

Робот должен заботиться о своей безопасности в той мере, в которой это не противоречит первому и второму законам.

К стыду нашего вида, эти правила оставались неизменными более полувека, несмотря на очевиднейшие пробелы, которые, кстати, видел и сам Азимов, на что указывают многие его произведения (наверное, писатель специально изложил законы в таком расплывчатом виде, оставив для себя и своих героев шанс каждый раз трактовать их несколько иначе, а заодно и нарушать разными занимательными способами — довольно плодотворная почва для дальнейшего развития художественной темы).

Бертран Рассел, много лет трудившийся над основами математики, как-то заметил: «…Степень нечеткости не осознается вплоть до попытки нечто прояснить, а все точное столь далеко от всего того, о чем мы обычно мыслим, что нельзя и на мгновение предположить, что же мы на самом деле имеем в виду, когда выражаем наши мысли». Трудно найти лучшего комментария к проблемам, относящимся к методу точной спецификации. Возьмем, например, возможное объяснение первого закона Азимова. Значит ли он, что робот должен минимизировать вероятность нанесения вреда любому человеку? В этом случае остальные законы становятся ненужными, поскольку у ИИ всегда есть возможность совершить некоторое действие, которое будет иметь хотя бы микроскопическую вероятность причинить вред кому-то из людей. Как роботу сопоставить высокий риск причинения вреда нескольким людям и небольшой риск причинения вреда множеству людей? Другой мучительный вопрос: как нам определить само понятие «вред»? На каких весах взвесить разницу между вредом, причиненным физической болью, вредом, нанесенным нашему вкусу архитектурным уродом, и вредом, приносимым социальной несправедливостью? Будет ли нанесен вред садисту, которому не дадут мучить его жертву? А как мы определим понятие «человек»? Почему не принимаются во внимание остальные обладающие разными добродетелями существа, скажем, животные, наделенные чувствами, и системы машинного интеллекта? Чем больше думаешь над этим, тем больше вопросов возникает.

Самым близким аналогом системы правил, регулирующих действия сверхразума, — аналогом, с которым мы сталкиваемся довольно часто, — является правовая система. Но системы правосудия, во-первых, создавались в течение долгого времени методом проб и ошибок, во-вторых, они регулируют жизнь человеческого общества, меняющегося сравнительно медленно, в-третьих, при необходимости какой-то законодательный акт всегда можно подправить или радикально пересмотреть. Но важнее всего другое: когда суду — инстанция, которой единственной принадлежит право осуществлять правосудие, — приходится иметь дело с логически возможными интерпретациями законов, явно непредусмотренными законодателями, то и судьи, и присяжные призывают свой здравый смысл и начинают руководствоваться моральными нормами. Что касается нашей проблемы, то, вероятно, человек просто не в состоянии вразумительно и скрупулезно прописать правила — правила, которые должны быть организованы в весьма сложную систему; правила, которыми сам человек мог бы уверенно оперировать буквально с первого раза; правила, на которые можно было бы опереться при любых обстоятельствах.

Теперь посмотрим на метод точной спецификации с точки зрения принципа консеквенциализма — и увидим те же самые проблемы. Это относится даже к ситуации, когда ИИ предназначен служить будто бы простым целям, например отобрать для себя несколько постулатов классического утилитаризма и сделать все, чтобы воплотить их «в жизнь». Возьмем совсем конкретную задачу, которая могла бы быть поставлена перед ИИ: «Рассчитать ожидаемое соотношение удовольствия и страдания в мире и определить максимальное значение этой величины» — действительно, задание не слишком сложное. Теперь, чтобы условие было безотказно выполнено, следует написать исходный код. Однако прежде потребуется дать точное определение понятиям «удовольствие» и «страдание» — то есть программисту придется поднять целый пласт вечных вопросов философии, над которыми бились лучшие умы человечества. Но дело этим не ограничится: написанный на чьем-то родном языке «трактат» следует тем или иным способом переложить на язык программирования.

Малейшая ошибка, допущенная либо в определении почти философских понятий либо при записи исходного кода, повлечет за собой катастрофические последствия. Рассмотрим пример, когда конечная цель определена как «стать навсегда счастливым». Перед нами этакий ИИ-гедонист, жаждущий преобразовать всю материю Вселенной в гедониум — некую субстанцию, которая обеспечивает выработку оптимального наслаждения. Но чтобы приблизиться к своей цели, ИИ потребуется помимо гедониума еще одна субстанция, о которой мы не раз говорили выше, — это компьютрониум, обеспечивающий максимальную вычислительную мощность. С его помощью ИИ заселит Вселенную множеством цифровых имитационных моделей мозга, пребывающих в состоянии эйфории, но напрочь лишенных любых умственных способностей — им будет отказано в этом за ненадобностью, поскольку интеллект несуществен для опыта наслаждения. Ради максимизации эффективности ИИ будет использовать любые варианты сокращения вычислений, лишь бы они не навредили формированию ощущения удовольствия. Причем все делается в полном соответствии с точной спецификацией, в которой закодировано определение понятия «счастье». Поэтому ИИ обязательно должен оставить имитационной модели электронную схему вознаграждения — что-то вроде центра удовольствия в биологическом мозгу. Однако будут исключены такие функции психики, как память, чувственное восприятие, способность к целенаправленной деятельности и возможность общения на языке. Преследуя собственные интересы, ИИ создаст самые примитивные имитационные модели мозга. Он снабдит их грубым функциональным уровнем с низкой степенью детализации; он даже пренебрежет нейронными процессами низкого уровня; заставит их прибегать к услугам таблиц поиска, то есть заменит часто повторяющиеся вычисления на операции простого поиска; хуже того, он задействует общий вычислительный механизм, рассчитанный на множество имитационных моделей. И все это «вытекает из базиса» (употреблю здесь волапюк псевдофилософов). На что не пойдешь ради удовольствия — даже на такие уловки, которые придумал наш ИИ-гедонист, лишь бы преумножить в немыслимое количество раз ту немаленькую степень удовлетворения, которую он мог бы выжимать из имеющегося у него запаса ресурсов. И нет никакой уверенности, окажется ли это оправданным. Более того, если действия ИИ не будут отвечать ни критериям определения понятия «счастье», ни самому процессу формирования ощущения удовольствия, то в результате предпринятой оптимизации он может вместе с водой выплеснуть и ребенка — то есть избавляясь от всего несущественного по условиям конечной цели или по собственным соображениям, ИИ в запале выбросит то, что неотъемлемо принадлежит системе человеческих ценностей. Вселенная наполнится не ликующими от счастья имитациями-гедонистами, а унылыми вычислительными схемами, бессмысленными и ни к чему не пригодными. Тогда вся затея «стать навсегда счастливым» сведется всего-навсего к изображению счастья, своего рода эмотикону, электронному символу наших эмоций, — и отксерокопированные триллион триллионов раз смайлики облепят все множество галактик.

Метод приручения

Поставим перед ИИ конечную цель, отвечающую условиям метода точной спецификации полнее всех примеров, приведенных выше, — стремление к самоограничению. Мы не в состоянии описать, какой окажется общая модель поведения сверхразума в реальном мире, — в противном случае нам пришлось бы перечислять, а заодно и объяснять, все плюсы и минусы любой ситуации, которая могла бы возникнуть в будущем. Поэтому было бы разумнее дать подробное описание единственной конкретной ситуации и тщательно проанализировать, как, столкнувшись с ней, поведет себя сверхразум. Иначе говоря, нам следует найти подходящий мотив заинтересовать интеллектуальную систему ограничиться одним не слишком значимым и небольшого масштаба событием и стремиться действовать исключительно в соответствии с поставленными условиями. В результате ИИ добровольно загонит себя в тесные рамки незначительных конечных целей, а тем самым сознательно сузит сферу своей деятельности и умерит честолюбивые замыслы. Поскольку метод явно рассчитан на то, чтобы сделать систему послушной нашей воле, — назовем его приручением ИИ.

Например, можно попробовать создать ИИ, который функционировал бы как устройство с вопросно-ответной системой, то есть выступал бы в роли «оракула» (термин, который мы введем в следующей главе). Однако было бы небезопасно наделять ИИ подобной конечной целью: выдавать максимально точные ответы на любой заданный вопрос — вспомним описанный в восьмой главе сюжет «Гипотеза Римана и последующая катастрофа». (Правда, такая цель стимулировала бы ИИ предпринимать действия, гарантирующие ему, что вопросы будут простыми.) Нам понадобится преодолеть эти трудности. Поэтому следует очень внимательно отнестись к самой процедуре приручения ИИ и попытаться корректно определить конечную цель, стимулируя ИИ проявлять добрую волю отвечать на вопросы безошибочно и сводить к минимуму свое воздействие на мир. Правда, последнее не имеет отношения к тем случаям, когда формулировка вопросов невольно вынуждает ИИ давать ответы, оказывающие влияние на окружающих, но все равно эти ответы обязаны быть абсолютно достоверными, а форма их изложения не должна манипулировать сознанием людей.

Мы видели, насколько неудобно пользоваться точной спецификацией, когда речь идет об амбициозной конечной цели — к тому же отягощенной сложной системой правил, которые предписывают ИИ, как ему действовать в практически открытом множестве ситуаций. Было бы намного полезнее применять метод точной спецификации для столь узкой задачи, как приручение ИИ. Но даже в этом случае остается масса проблем. Следует проявлять большую осторожность, составляя определение системы поведения ИИ. Например, как он собирается «сводить к минимуму свое воздействие на мир»? Необходимо убедиться, что он будет соблюдать все условия и его критерии не отличаются от наших стандартов. Неправильно выбранная им величина степени воздействия может привести к плачевным результатам. Существуют и другие опасности, связанные с созданием системы «оракул», но их мы обсудим позже.

Метод приручения ИИ естественным образом перекликается с методом его изоляции. Предположим, мы блокировали ИИ таким образом, что он не в состоянии вырваться на свободу, но есть смысл попытаться сформировать у него такую систему мотивации, что даже когда появится возможность побега, у ИИ не возникнет желания покидать свою «песочницу». Правда, если одновременно с этими мерами подключить «растяжки» и множество других предохранительных устройств, шансы на успех приручения резко упадут.

Метод косвенной нормативности

Если в каких-то случаях методы точной спецификации окажутся безнадежным делом, можно было бы попробовать метод косвенной нормативности. Основная идея этого подхода очень проста. Вместо того чтобы изо всех сил пытаться дать точнейшее определение конкретных стандартов и нормативов, мы разрабатываем схему процесса их получения. Затем создаем систему, которая была бы мотивирована выполнить этот процесс и принять полученные в результате стандарты и нормативы. Например, процесс мог бы заключаться в поиске ответа на эмпирический вопрос, какие предпочтительные действия ожидала бы от ИИ некая идеализированная версия человека, предположим, нас самих. Конечной целью ИИ в таком случае стала бы какая-нибудь версия вроде «делать то, что мы могли бы пожелать, чтобы делал ИИ, если бы долго и упорно размышляли об этом».

Дальнейшее объяснения метода косвенной нормативности мы продолжим в тринадцатой главе. В ней мы вернемся к идее экстраполяции нашего волеизъявления и изучим альтернативные варианты. Косвенная нормативность — очень важный подход в системе методов выбора мотивации. Он позволяет нам большую часть тяжелейшей работы, которую нужно выполнять при точной спецификации конечной цели, перенаправить самому сверхразуму.

Метод приумножения

Последний метод выбора мотивации в нашем списке — приумножение. В его основе лежит следующая идея: вместо того чтобы формировать с чистого листа систему мотивации у ИИ, мы обращаемся к интеллектуальному агенту с уже сложившимися и подходящими нам мотивами поведения. Затем мы расширим когнитивные способности агента до уровня сверхразумных. Если все пойдет хорошо, то метод даст нам сверхразум с приемлемой системой мотивации.

Очевидно, что такой подход нельзя применять в случае создания зародыша ИИ. Но приумножение вполне реально использовать, когда к сверхразумному уровню идут другими путями: при помощи полной эмуляции головного мозга, биологического улучшения интеллектуальных способностей, создания нейрокомпьютерного интерфейса или развития сетей и организаций — когда есть возможность построить систему на основе нормативного ядра (обычных людей), которое уже содержит представление о человеческих ценностях.

Привлекательность метода приумножения может расти прямо пропорционально нашему разочарованию в других подходах к решению проблемы контроля. Создание системы мотивации для зародыша ИИ, которая осталась бы относительно надежной и приносила бы пользу в результате рекурсивного самосовершенствования даже после того, как ИИ превратится в зрелый сверхразум, — дело крайне сложное, особенно если нужно получить верное решение с первой попытки. В случае приумножения мы могли бы как минимум начать с агента, который уже имеет знакомую и схожую с человеческой систему мотивации.

Однако трудно обеспечить сохранность такой сложной, развитой, не идеальной и плохо понимаемой нами самими системы мотивации, такой как человеческая, после взлета ее когнитивного ракетоносителя в стратосферу. Мы уже обсуждали, что в результате несовершенной эмуляции мозга может сохраниться функционирование его интеллекта, но будут утеряны некоторые черты личности. То же самое (хотя, возможно, и в меньшей степени) верно в случае биологического улучшения интеллектуальных способностей, способного в какой-то мере затронуть мотивацию, а также для коллективного улучшения сетей и организаций — фактора, серьезно меняющего социальную динамику (например, будет пересмотрено отношение или к внешним, или внутренним субъектам). Если сверхразум возник в результате движения по одному из этих путей, организатор проекта может столкнуться с тем, что конечная мотивация зрелой системы окажется для него недоступной. Благодаря изяществу и математически четкой определенности архитектуры ИИ — при всей ее неантропоморфной инаковости — она гораздо прозрачнее, несмотря на то что важные аспекты ее функционирования не поддаются формальной проверке.

В конечном счете, сколько бы мы ни подсчитывали преимущества и недостатки метода приумножения, сколько бы ни размышляли, полагаться на него или нет, — выбора у нас, пожалуй, не остается. Если сверхразум получен в результате создания ИИ, использовать метод приумножения нельзя. И напротив, если удалось выйти на уровень сверхразума, двигаясь по иному пути, многие методы выбора мотивации оказываются неприемлемыми. Но даже с учетом всего вышесказанного вопрос о вероятной эффективности применения метода приумножения имеет стратегическое значение, если благодаря ему у нас появляется возможность повлиять на выбор технологии, с помощью которой удастся впервые получить сверхразум.

Резюме

Прежде чем завершить эту главу, имеет смысл суммировать сказанное. Мы различаем два широких класса методов решения проблемы контроля: контроль над возможностями и выбор мотивации. В табл. 10 приводится их обобщенное описание.

Таблица 10. Методы контроля

[Методы контроля над возможностями]

Изоляционные методы

Система изолируется таким образом, что способна воздействовать на внешний мир исключительно посредством разрешенных каналов. Сюда включаются методы физического и информационного ограничения

Стимулирующие методы

Система помещается в среду, в которой ей обеспечиваются соответствующие стимулы. К ним могут относиться социальная интеграция в мир сравнимых с ней по силе субъектов и вознаграждение зашифрованными наградными знаками. Важной возможностью является «антропный захват», хотя он и включает в себя ряд эзотерических соображений

Методы задержки развития

Налагаются определенные ограничения в развитии когнитивных способностей системы или ее возможность влиять на основные внутренние процессы

Методы «растяжек»

С помощью специального оборудования проводят диагностическое тестирование системы (возможно, без ее ведома); в случае обнаружения опасных действий она автоматически отключается

[Методы выбора мотивации]

Метод точной спецификации

Подход опирается, с одной стороны, на систему четко прописанных правил; с другой — на принцип консеквенциализма

Метод приручения

Система мотивации разрабатывается так, чтобы сделать систему послушной нашей воле, ограничив масштаб ее притязаний

Метод косвенной нормативности

Частично опирается на систему четко прописанных правил и на принцип консеквенциализма, но отличается тем, что полагается на косвенный подход к определению правил, которым нужно следовать, или целей, которых нужно придерживаться

Метод приумножения

Начинать работать с системой, которая уже имеет человеческую или близкую к ней мотивацию, после чего ее когнитивные возможности увеличиваются до уровня сверхразума

У каждого метода контроля есть свои потенциально уязвимые места, с каждым из них сопряжены определенные трудности реализации. Может показаться, что нам следовало бы классифицировать их от лучших к худшим, а затем выбрать наилучший метод. Но это было бы ненужным упрощением. Одни методы можно комбинировать друг с другом, другие — используются только самостоятельно. Полезными будут даже сравнительно небезопасные методы, если их легко применять в качестве дополнительных мер предосторожности, а от более мощных лучше отказаться, если они исключают возможность использования иных средств защиты.

Поэтому всякий раз необходимо принимать во внимание, какие у нас есть возможности комплексного подхода. Нужно иметь в виду тип системы, который мы хотим создать, и методы контроля, применимые к каждому типу. Это и будет темой нашей следующей главы.

Название книги

Искусственный интеллект. Этапы. Угрозы. Стратегии

Бостром Ник

Глава девятая

Проблемы контроля