Предположим, мы можем назначить зародышу ИИ любую конечную ценность. Тогда принятое нами решение — какая это должна быть цель — имеет далекоидущие последствия. Нам придется определить некоторые параметры выбора, связанные с аксиомами теории принятия решений и эпистемологии. Но откуда черпать уверенность, будто мы, люди — существа недалекие, невежественные и ограниченные, — можем принимать правильные решения по этому вопросу? Сможем ли мы сделать выбор, не предопределенный предрассудками и предубеждениями нашего поколения? В этой главе мы рассмотрим, как с помощью косвенной нормативности переложить большую часть умственной работы, связанной с принятием этих решений, на сам сверхразум, но при этом не забывая, что точкой отсчета всегда должны быть фундаментальные ценности человеческой жизни.
Необходимость в косвенной нормативности
Как заставить ИИ делать то, что мы хотим? Что мы хотим, чтобы хотел ИИ? До этого момента мы искали ответ на первый вопрос. Теперь пришло время обратиться ко второму.
Предположим, что мы решили проблемы контроля и теперь способны загрузить в мотивационную систему сверхразума любую ценность и убедить его считать ее своей конечной целью. Какую ценность нам все-таки следует выбрать? Выбор непрост. Если сверхразум обретет решающее стратегическое преимущество, именно его система ценностей начнет определять судьбу всего вселенского пространства.
Поэтому так важно не допускать ошибок при выборе цели. Но реально ли в подобных делах всерьез надеяться на безошибочность принятых решений? Мы можем заблуждаться относительно нравственных ценностей; не понять, что есть благо для нас самих; промахнуться даже в собственных желаниях. Похоже, в поисках конечной цели придется продираться сквозь колючие заросли философских проблем. Если пойти прямым путем, можно наломать дров. Особенно риск неверного выбора велик в том случае, когда имеешь дело с незнакомым контекстом принятия решения. Ведь выбор конечной цели для машинного сверхразума — цели, от которой зависит будущее всего человечества, — видимо, из всех возможных сюжетов для нас это наиболее неведомый.
Скорее всего, у нас мало шансов победить в лобовой атаке, что подтверждается отсутствием среди специалистов полного согласия по проблемам, касающимся человеческих систем ценностей. Ни одна этическая теория не получила признания большинства философов, таким образом, можно считать, что большинство неправо. Об этом свидетельствует и постоянное изменение этических норм — изменение, связанное с ходом времени, что мы традиционно воспринимаем как свидетельство прогресса. Например, в средневековой Европе считалось вполне респектабельным развлечением наблюдать за пытками и казнями противников власти. В Париже XVI века популярным действом было сжигание кошек. Всего сто пятьдесят лет назад на американском Юге широко практиковалось рабство, причем при полной поддержке закона и в полном согласии с моральными нормами поведения. Оглядываясь назад, видишь вопиющие нарушения не только в поступках, но и в этических воззрениях людей, живших в прежние времена. Вероятно, с тех пор мы чему-то научились в вопросах этики, хотя вряд ли можно утверждать, что наша мораль поднялась на недосягаемую высоту. Вполне вероятно, что какие-то этические концепции, которыми мы руководствуемся сегодня, имеют серьезные недостатки. При таких обстоятельствах выбирать конечную ценность, основанную на наших нынешних убеждениях, да еще так, чтобы исключить любую возможность дальнейшего развития этической системы, означало бы брать на себя ответственность за будущий риск, ведущий к экзистенциальному разрушению моральных норм.
Даже если у нас существовала бы рациональная уверенность, что мы обнаружили правильную этическую теорию — которой у нас нет, — по-прежнему оставался бы риск совершения ошибок при ее детальной проработке. У внешне простых этических теорий может иметься множество скрытых противоречий. Рассмотрим, например, консеквенциалистскую теорию гедонизма (кстати, необыкновенно простую). Если совсем кратко, то она о том, что удовольствие — это ценность, а страдание — нет. Даже если мы поставим все наши моральные фишки на эту теорию и она окажется верной, останутся открытыми множество важных вопросов. Следует ли присваивать более высокий приоритет «высшим удовольствиям» по сравнению с «низшими» по примеру Джона Стюарта Милля? Как учитывать интенсивность и продолжительность удовольствия? Могут ли страдание и удовольствие взаимно исключать друг друга? Какие типы мышления ассоциируются с морально допустимыми удовольствиями? Увеличится ли в два раза количество удовольствия в результате появления двух точных копий одного такого типа разума? Существуют ли подсознательные удовольствия? Как быть с чрезвычайно низкими шансами хоть когда-нибудь получить предельное удовольствие? Как объединить удовольствие членов неограниченной популяции в одно целое?
Неверный ответ на любой из этих вопросов приведет к катастрофе. То есть при выборе конечной ценности для сверхразума, в попытках нащупать хоть какое-то действенное решение, нам придется по-крупному ставить не только на этическую теорию в ее цельном состоянии, но и на частные особенности, на многочисленные интерпретации, всевозможные вкрапления и исключения — при таком обороте наши шансы на точный выстрел, кажется, начнут стремиться к нулю. Глупцы с радостью ухватятся за возможность одним махом решить все важные этические проблемы, а найденные ими удобные ответы сразу загрузить в зародыш ИИ. Мудрецы отправятся в трудный путь поисков альтернативных подходов и разыскивания способов подстраховки.
Все эти размышления подводят нас к варианту косвенной нормативности. Объективная причина создания сверхразума заключается в том, что на него можно переложить инструментальную задачу поиска эффективных путей достижения той или иной ценности. А за счет косвенной нормативности мы можем буквально свалить на него и сам выбор этой системы ценностей.
Косвенная нормативность позволяет решить проблему незнания того, что мы на самом деле хотим, что входит в наши интересы, что является моральным правом или идеалом. Вместо размышлений, основанных на сегодняшнем понимании (которое, вероятно, глубоко ошибочно), можно делегировать некоторую часть когнитивной работы по выбору системы ценностей самому сверхразуму. Он, несомненно, сможет выявить и ошибки и противоречия, искажающие наши представления, поскольку с такой работой лучше него не справится никто. Можно обобщить эту идею и выразить ее в качестве эвристического принципа.
Принцип эпистемологического превосходства
Будущий сверхразум занимает эпистемологически более высокий наблюдательный пункт: его убеждения (видимо, относительно большинства вопросов) с большей вероятностью окажутся истинными, чем наши. Поэтому при любых возможных обстоятельствах следует полагаться на его мнение [496] .
Косвенная нормативность позволяет применить этот принцип к проблеме выбора системы ценностей. Будучи неуверенными в своей способности задать конкретный нормативный стандарт, мы можем определить какое-то более абстрактное условие, которому должен удовлетворять любой нормативный стандарт, в надежде, что сверхразум справится сам и отыщет конкретный стандарт, удовлетворяющий этому абстрактному условию. А затем мы поставим перед зародышем ИИ его ценностную конечную цель: вести себя в соответствии со своими представлениями о правильных действиях, основанных на этом стандарте, определенном косвенным образом.
Прояснить эту идею нам помогут несколько примеров. Вначале рассмотрим модель косвенной нормативности, предложенную Элиезером Юдковским, — когерентное экстраполированное волеизъявление. Затем разберем несколько вариантов и альтернатив этой модели, чтобы составить представление о диапазоне возможных решений.
Когерентное экстраполированное волеизъявление
Юдковский предложил, что зародышу ИИ следует задать в качестве конечной цели следование когерентному экстраполированному волеизъявлению (далее по тексту — КЭВ) человечества, которое он определял так:
Наше когерентное экстраполированное волеизъявление — это наше желание знать больше; думать быстрее; быть в большей степени людьми, которыми нам хотелось бы быть; стать ближе друг к другу; сделать так, чтобы наши мысли сближали нас, а не разделяли, чтобы наши желания совпадали, а не пересекались; экстраполировать так, как нам хотелось бы экстраполировать; понимать так, как нам хотелось бы понимать [497] .
Когда Юдковский писал это, он не ставил перед собой задачу создать инструкцию по воплощению в жизнь своего предписания, более напоминающего поэтическое воззвание. Его целью было набросать эскиз того, как могло бы быть определено КЭВ, а также пояснить, зачем нужен именно этот подход.
Многие идеи, лежащие в основе КЭВ, имеют аналоги и предшественников в философской литературе. Например, в этике существует теория идеального наблюдателя, которая исследует понятия (например, «хороший» и «плохой») с точки зрения тех суждений, которые сделал бы гипотетический идеальный наблюдатель (под таковым понимается всеведущий, логически мыслящий, беспристрастный и свободный от любой предвзятости субъект). Однако модель КЭВ не является (и не должна считаться) этической теорией. Никто не утверждает, что есть связь между целью и нашим когерентным экстраполированным волеизъявлением. КЭВ можно считать полезным способом аппроксимации всего, что имеет конечную цель без какой-либо связи с этикой. Будучи основным прототипом метода косвенной нормативности, КЭВ заслуживает более подробного изучения.
Некоторые комментарии
Отдельные термины из приведенной выше цитаты требуют пояснения. Желание «думать быстрее» в понимании Юдковского означает стремление быть умнее и глубже проникать в суть вещей. «Стать ближе друг к другу» — видимо, учиться, развиваться и самосовершенствоваться в тесной связи друг с другом.
Требуют своего объяснения некоторые фразы.
«…Чтобы наши мысли сближали нас, а не разделяли…»
ИИ следует работать над тем или иным свойством результата своих размышлений только в той степени, в какой это свойство может быть предсказано им с высокой долей вероятности. Если он неспособен предсказать, что «идеальные мы» желали бы это свойство, ему следует отказаться от реализации своих фантазий и воздержаться от действий. Однако, несмотря на то что многие детали наших идеализированных желаний могут быть неопределенными или непредсказуемыми, есть некие общие рамки наших предпочтений, которые ИИ способен осознать и хотя бы минимально стремиться к тому, чтобы события в будущем развивались в границах этого. Например, если ИИ может уверенно сказать, что наше КЭВ не имеет ничего общего с желанием пребывать в состоянии постоянной агонии или увидеть Вселенную, превращенную в скрепки, то должен действовать так, чтобы не допустить подобных исходов.
«…Чтобы наши желания совпадали, а не пересекались…»
ИИ следует действовать в соответствии с довольно широким консенсусом экстраполированных волеизъявлений отдельных людей. Небольшое количество сильных, ясно выраженных желаний способно иногда перевесить слабые и невнятные желания большинства. Также Юдковский считает, что для ИИ требуется меньший консенсус, чтобы предотвратить некий конкретный негативный исход, и больший, чтобы действовать с целью реализации некоего конкретного позитивного исхода. «Исходным принципом для КЭВ должен быть консервативный подход к “да” и внимательное отношение к “нет”», — пишет он.
«Экстраполировать так, как нам хотелось бы экстраполировать; понимать так, как нам хотелось бы понимать…»
Идея, лежащая в основе этих последних модификаторов, похоже, заключается в том, что правила экстраполяции сами должны учитывать экстраполированное волеизъявление. Индивидуум может иметь желание второго порядка (желание относительно того, что желать), чтобы некоторые его желания первого порядка не имели веса при экстраполяции его волеизъявления. Точно так же у нас могут быть желания относительно того, как должен развиваться процесс экстраполирования, и все это должно быть принято во внимание.
Можно возразить, что если удастся правильно определить понятие когерентного экстраполированного волеизъявления человечества, все равно окажется невозможным — даже для сверхразума — выяснить, что человечество хотело бы в гипотетических идеальных обстоятельствах, предусмотренных методом КЭВ. Если у ИИ не будет никакой информации о содержании нашего экстраполированного волеизъявления, в его распоряжении не останется никаких зацепок, которыми он мог бы руководствоваться в своем поведении. Хотя точно узнать КЭВ человечества действительно трудно, однако вполне возможно сформировать о нем информированное суждение. Причем возможно уже сегодня, не имея под рукой машинного сверхразума. Например, наше КЭВ видит людей будущего как людей, скорее живущих богато и счастливо, чем испытывающих невыносимые страдания. Если мы способны делать такие разумные предположения, то сверхразум тем более справится. То есть с самого начала поведение сверхразума может определяться его оценками относительно содержания нашего КЭВ. У него будут сильные инструментальные причины уточнять эти первоначальные смыслы (например, изучая человеческую культуру и психологию, сканируя мозг людей и размышляя, каким образом мы поступали бы, если знали бы больше, думали бы глубже и так далее). В своих исследованиях сверхразум руководствовался бы собственными первоначальными оценками КЭВ. Поэтому он не станет проводить бесчисленные опыты над имитационными моделями, сопровождающиеся безмерными страданиями этих сущностей, зная, что наше КЭВ сочтет такие эксперименты преступной безнравственностью.
Приведем еще одно возражение: в мире существует такое разнообразие образов жизни и сводов этических норм, что вряд ли получится объединить их в единую систему КЭВ. Даже если удастся это сделать, результат может быть не особенно аппетитным — маловероятно сделать что-то съедобное из сваленных в одну тарелку лучших кусочков любимейших блюд всех людей и народов. Ответ здесь прост: метод КЭВ не предполагает смешивать воедино все формы жизнедеятельности, все мировоззрения, этические нормы и личностные ценности человека. КЭВ по определению работает лишь в том случае, когда наши волеизъявления когерентны. Если разногласие между ними нарастает, несмотря на перебор различных идеальных условий, процесс должен воздержаться от определения результата. Продолжим кулинарную аналогию: хотя у людей различных культур могут быть разные любимые блюда, тем не менее люди способны достичь согласия в том, что еда не должна быть токсичной. То есть КЭВ могло бы действовать с общей целью не допустить токсичности еды, а в остальном люди совершенствовали бы свое кулинарное мастерство без его руководства и вмешательства.
Целесообразность КЭВ
Юдковский приводит семь аргументов в пользу метода КЭВ. Три из них, по сути, говорят, что даже при наличии гуманной и полезной цели может оказаться довольно трудно определить и явно выразить набор правил, не имеющих ненамеренных интерпретаций и нежелательных следствий. Метод КЭВ видится его автору строгим и способным к самокоррекции, предполагается, что КЭВ обращается к источникам наших целей, вместо того чтобы полагаться на нашу способность перечислить и раз и навсегда правильно сформулировать самые существенные из них.
Оставшиеся четыре аргумента выходят за рамки фундаментальных (и важнейших) вопросов. Они представляют собой конкретные пожелания к потенциальным решениям проблемы: как давать определения системам ценностей, — предполагая, что КЭВ удовлетворит этим пожеланиям.
«Воплощать совершенствование этических норм»
Пожелание того, чтобы решение допускало возможность прогресса в морально-нравственных вопросах. Мы предполагаем, что наши нынешние этические нормы могут иметь множество недостатков, и, скорее всего, серьезных недостатков. Если мы сформулировали бы для ИИ список конкретных и неизменных этических норм, которым он должен следовать, мы фактически зафиксировали бы нынешнее состояние моральных установок со всеми их ошибками, что убило бы всякую надежду на их совершенствование. Напротив, метод КЭВ оставляет возможность такого роста, поскольку позволяет ИИ пробовать делать то, что мы сами сделали бы, если продолжили бы развиваться в благоприятных условиях, и вполне возможно, что в этом случае нам удалось бы избавиться от имеющихся недостатков и ограничений своих этических норм.
«Избегать взлома судьбы человечества»
Юдковский имеет в виду сценарий, по которому небольшая группа программистов создает зародыш ИИ, превращающийся в сверхразум и обретающий абсолютное стратегическое преимущество. То есть в руках программистов сосредоточена судьба как человечества, так и всего космического пространства. Несомненно, это накладывает колоссальную ответственность, которая может обернуться непосильным бременем для любого смертного. Причем когда программисты окажутся в такой ситуации, то полностью уклониться от ответственности им уже не удастся, так как любой сделанный ими выбор, включая отказ от дальнейшего осуществления проекта, будет иметь исторические последствия для мира. Юдковский считает, что КЭВ не даст создателям ИИ возможности получить привилегию и позволит избежать непомерной тяжести определять судьбу всего мира. Запустив процесс, который руководствуется когерентным экстраполированным волеизъявлением человечества — в противовес их собственной воле или предпочитаемой этической теории, — программисты фактически разделяют с другими свою ответственность за влияние на будущее человеческой цивилизации.
«Избегать создания мотивов для борьбы за исходные параметры системы»
Разделение со всем человечеством ответственности за его будущее не только предпочтительнее с точки зрения этики по сравнению с фиксацией собственных предпочтений, но и позволяет группе программистов снизить вероятность конфликта между создателями первого сверхразума. Метод КЭВ предполагает, что у программистов (и у организаторов проекта) не больше влияния на результат его действий, чем у любого другого человека — хотя они, конечно, играют главную причинную роль в определении структуры экстраполирования и в решении применить КЭВ, а не какой-то иной метод. Избегать конфликта важно не только из-за его непосредственного вреда, но и потому что он подрывает возможности сотрудничества в ходе решения важнейших проблем, связанных с безопасностью и эффективностью развития сверхразума.
Предполагается, что КЭВ способно получить широкую поддержку. И не только из-за того, что равномерно распределяет ответственность. Этот метод обладает большим миротворческим потенциалом, поскольку позволяет многим человеческим сообществам надеяться на реализацию предпочтительного для них варианта будущего. Представим афганского талиба, дискутирующего с членом Шведской гуманистической ассоциации. Не надо объяснять, насколько разные их мировоззренческие позиции: что для одного — утопия, для другого — антиутопия. Причем ни одного из них может не устроить даже компромиссное решение, например: разрешить девочкам получать образование, но только до девятого класса; или шведским девочкам разрешить получать образование, а афганским — нет. Однако и талиб, и гуманист могут согласиться с тем, что грядущее человечества будет определяться его когерентным экстраполированным волеизъявлением. Талиб может рассуждать следующим образом: если его религиозные взгляды истинны (а в этом он убежден) и если имеются серьезные основания для их приятия (в чем он также убежден), тогда человечество в итоге их признает — только людям надо стать менее предвзятыми, тратить больше сил на изучение священных текстов, уразуметь наконец, как устроен мир, правильно расставлять приоритеты, избавиться от иррациональной воинственности и малодушия, ну и так далее. Гуманист точно так же решит, что в этих идеальных условиях человечество в конечном счете станет руководствоваться принципами, которые поддерживает он.
«Ответственность за судьбу человечества должна лежать на нем самом»
Нас может не устроить исход, при котором патерналистски настроенный сверхразум начнет постоянно следить за нами и управлять нашей жизнью на всех ее уровнях, пытаясь каждую мелочь оптимизировать в соответствии с неким великим планом. Даже если допустить, что сверхразум будет идеально доброжелательным и начисто лишенным самонадеянности, высокомерия, властности, ограниченности и прочих человеческих недостатков, нам может не понравится потеря собственной самостоятельности. Вероятно, мы предпочтем сами определять свою судьбу, даже ценой ошибок. Возможно, нам хотелось бы, чтобы сверхразум выступал в качестве страховки, не допуская катастрофического развития событий, а в остальном предоставил нас самим себе.
Метод КЭВ дает такую возможность. Предполагается, что его нужно запустить лишь в начале, а затем он сам будет развиваться и меняться вместе с изменением экстраполированного волеизъявления. Если экстраполированное волеизъявление человечества склонится к тому, чтобы жить под присмотром патерналистски настроенного сверхразума, тогда процесс КЭВ создаст такой ИИ и передаст ему бразды правления. Если, напротив, экстраполированное волеизъявление человечества придет к тому, чтобы создать демократическое мировое правительство, состоящее из людей, тогда КЭВ инициирует формирование такого института. Если экстраполированное волеизъявление человечества будет заключаться в наделении каждого человека ресурсами, которыми он может пользоваться в свое удовольствие, пока уважает такие же права других людей, тогда процесс КЭВ осуществит и эту идею; причем сверхразум будет присутствовать на заднем плане в качестве этакого воплощения закона природы — чтобы пресекать злоупотребления, кражи, убийства и прочие действия, не согласованные с их объектом.
Таким образом, структура модели КЭВ допускает практически неограниченный диапазон исходов. Можно даже допустить, что экстраполированное волеизъявление человечества будет состоять в том, чтобы сверхразум вообще ничего не делал. В этом случае он может безопасно отключить себя, предварительно убедившись в действительно высокой вероятности того, что этого хочет КЭВ.
Дополнительные замечания
Описание модели КЭВ в том виде, как оно дано выше, конечно, очень схематично. Остается множество параметров, которые можно бы описать по-разному и получить в результате разные варианты реализации.
Одним из таких параметров является база экстраполяции: чье волеизъявление следует учитывать? Можно сказать «всех», но этот ответ порождает массу новых вопросов. Должна ли база экстраполяции включать «маргинальные» состояния человека и какие? Примут ли во внимание эмбриональное и плодное состояние? Как быть с людьми, у которых наступила смерть мозга, людьми с тяжелыми психическим расстройствами и пациентами, находящимися в коме? Должны ли оба полушария людей с расщепленным мозгом иметь одинаковый вес, и должен ли он совпадать с весом, который присвоен мозгу среднестатистического здорового человека? Как быть с людьми, которые жили раньше и уже умерли? А с теми, кто родится в будущем? С высшими млекопитающими и другими существами, обладающими чувствами? Имитационными моделями мозга? Инопланетянами?
Одно из мнений заключается в том, чтобы включать в популяцию лишь взрослых людей, живущих на Земле на момент начала создания ИИ. После этого первая экстраполяция, полученная на этой базе, решит, нужно ли ее расширять. Поскольку количество «маргиналов» на периферии этой базы сравнительно невелико, результат экстраполяции не должен сильно зависеть от того, где именно будет проведена граница — например, будут или нет учитываться и эмбрион, и плод или только плод.
Однако если кого-то исключат из исходной базы экстраполяции, это не будет означать, что их желания и благополучие принесли в жертву. Если КЭВ тех, кто в базу включен (например, живущие на Земле взрослые люди), будет состоять в том, что этические соображения следует распространить и на другие существа, результат КЭВ учтет эти предпочтения. Тем не менее возможно, что интересы людей, включенных в исходную базу экстраполяции, будут учтены в большей степени, чем всех остальных. В частности, если процесс начинает действовать только в случае согласия между индивидуальными экстраполированными волеизъявлениями (как предполагается в оригинальном предложении Юдковского), то возникает значительный риск преобладания голосов тех, кто не самым благородным образом начнет выступать против заботы о благополучии высших млекопитающих или эмуляторов. Тогда был бы нанесен серьезный ущерб нравственной атмосфере всего человеческого сообщества.
Метод КЭВ выгодно отличается от других еще и тем, что снижает конкуренцию между людьми за создание первого сверхразума. Но даже признав, что метод выглядит лучше многих других, мы не можем исключить совсем возникновение конфликтных ситуаций. Всегда найдутся те, кто начнет преследовать собственные корыстные интересы: и отдельные личности, и сообщества, и целые государства могут стремиться увеличить свою долю будущего пирога за счет исключения других из базы экстраполяции.
Такое стремление к власти объясняется по-разному. Например, собственник проекта, полностью финансирующий разработку ИИ, имеет право влиять на дальнейшие результаты. Этичность этого права сомнительна. Оспорить ее можно, например, тем, что проект по созданию первого успешного зародыша ИИ несет огромные риски гибели всего человечества, которые, соответственно, должны быть как-то компенсированы. Но справедливая величина компенсации настолько высока, что единственно возможная ее форма — это предоставление каждому доли тех благ, которые удастся получить в случае успеха.
Другой аргумент сторонников концентрации власти над ИИ заключается в том, будто значительные слои народонаселения имеют примитивные или аморальные предпочтения, поэтому включение их в базу экстраполяции только увеличит риск превращения будущего человечества в антиутопию. Трудно определить соотношение добра и зла в душе человека. Так же трудно оценить, как оно изменяется в зависимости от его принадлежности к различным группам, социальным стратам, культурам и странам. Независимо от того, оптимистично или пессимистично смотришь на природу человека, вряд ли возникнет желание стремиться к освоению космических пространств на основании одной лишь надежды, что в экстраполированном волеизъявлении большинства из семи миллиардов живущих сейчас на планете людей преобладают добрые черты. Конечно, исключение определенной группы из базы экстраполяции не гарантирует победы; вполне возможно, что в душах тех, кто первым готов исключить других или концентрировать власть над проектом, зла намного больше.
Еще одна причина борьбы за контроль над исходными условиями состоит в том, что кто-то может считать, будто предложенные другими подходы к созданию ИИ не сработают так, как должно, даже если предполагается, что ИИ будет следовать КЭВ человечества. Если у нескольких групп разработчиков сформируются разные представления о научных направлениях, которые с наибольшей вероятностью приблизят успех, они вступят между собой в беспощадную борьбу. Каждая группа начнет стремиться к тому, чтобы воспрепятствовать остальным создать ИИ. В подобной ситуации конкурирующие проекты должны урегулировать свои эпистемологические противоречия, не прибегая к вооруженным конфликтам, а с помощью методов, позволяющих более надежно определять, кто прав больше, а кто — меньше.
Модели, основанные на этических принципах
Модель КЭВ — не единственно возможная форма косвенной нормативности. Например, вместо моделирования когерентного экстраполированного волеизъявления человечества можно пойти иным путем. Разработать ИИ, цель которого будет состоять в том, чтобы выполнять только то, что правильно с этической точки зрения. Причем люди, прекрасно осознавая, насколько когнитивные способности ИИ превосходят их собственные, будут полагаться на его оценочные суждения, какие действия отвечают этому определению, а какие нет. Это можно назвать моделью моральной правоты (далее в тексте — МП). Мысль предельно простая. Человек не обладает абсолютными представлениями, что хорошо, а что плохо; еще хуже он разбирается в том, как лучшим образом проанализировать концепцию моральной правоты с философской точки зрения. Сверхразум в состоянии справиться с подобными проблемами лучше человека.
Но как быть, если мы не уверены в истинности концепции моральной правоты? Даже тогда можно попытаться использовать этот метод. Нужно лишь обязательно определить, как должен поступать ИИ в том случае, если выяснится, что его предположения о сути моральной правоты ошибочны. Например, можно указать следующее: если ИИ с довольно высокой вероятностью выяснит, что с концепцией моральной правоты не связано ни одной абсолютной истины, тогда он может вернуться к использованию метода КЭВ или просто отключиться.
По всей видимости, у метода МП есть несколько преимуществ по сравнению с методом КЭВ. В случае МП не важны различные свободные параметры метода КЭВ, в частности степень когерентности экстраполированных волеизъявлений, которая требуется для работы КЭВ, легкость, с которой большинство может взять верх над меньшинством, и природа социального окружения, в котором наши экстраполированные личности должны «стать ближе друг к другу». В этом случае, кажется, невозможна нравственная катастрофа в результате использования слишком узкой или слишком широкой базы экстраполяции. Более того, МП будет подталкивать ИИ к этически правильным действиям даже в том случае, когда наши когерентные экстраполированные волеизъявления могли бы вызвать недопустимые с точки зрения морали шаги ИИ. Однако в границах метода КЭВ — и мы говорили об этом — они вполне возможны. В человеческой природе высокие моральные качества, видимо, скорее являются редким металлом, их не встретишь в изобилии, и даже после того, как золото добыто и очищено в соответствии с методом КЭВ, никто не знает, что получится в результате — драгоценный металл, нейтральный шлак или токсичный осадок.
По всей видимости, метод МП тоже не лишен недостатков. Они основаны на чрезвычайно сложной концепции, вокруг которой ломают копья философы на протяжении многих веков, но в отношении которой так и не достигли согласия. Выбор ошибочного представления о моральной правоте может привести к очень негативным с этической точки зрения результатам. Казалось бы, эта сложность в определении моральной правоты может быть сильнейшим аргументом против использования метода. Однако пока неясно, насколько серьезным недостатком является эта особенность МП. В методе КЭВ тоже используются термины и концепции, которые не слишком легко определить (например, «знания», «быть в большей степени людьми, которыми нам хотелось бы быть», «стать ближе друг к другу»). Даже если терминологические единицы КЭВ чуть менее непрозрачны, они все-таки очень далеки от тех возможностей, которые сегодня есть у программистов, чтобы выразить все это в исходном коде. Чтобы ИИ справился с любой подобной концепцией, ему нужно обладать хотя бы общими лингвистическими знаниями и способностями (сравнимыми с теми, которые есть у взрослого человека). Но такую общую способность понимать обычный язык можно использовать и для познания того, что означает «моральная правота». Если ИИ способен понять смысл, он выберет и действия, которые соответствуют этому значению. По мере продвижения в сторону сверхразума ИИ может прогрессировать в двух направлениях: в осознании значения моральной правоты с точки зрения философской проблемы и в решении практической задачи по применению этого понимания к оценке конкретных действий. Хотя это и нелегко, но вряд ли труднее, чем моделирование когерентного экстраполированного волеизъявления человечества.
Более фундаментальная проблема МП заключается в другом. Даже будучи примененным, этот метод может не привести к нужному результату, то есть ИИ не остановится на том правильном варианте, который выбрали бы мы сами, если были бы такими же разумными и информированными, как он. Причем это не просто случайная ошибка, а существенный недостаток модели МП, к тому же чрезвычайно опасный для нас самих.
Можно попытаться сохранить основную идею МП и при этом снизить ее требовательность, сосредоточившись на моральной допустимости — идее о том, что можно сделать так, что ИИ будет действовать в соответствии с КЭВ человечества до тех пор, пока эти действия будут морально допустимыми. Например, возможна следующая цель ИИ:
Среди морально допустимых для ИИ действий выбирать те, которые соответствовали бы КЭВ человечества. Однако если какая-то часть этой инструкции определена не строго, или если есть серьезные сомнения в ее значении, или если концепция моральной правоты ложна, или если, создавая ИИ с этой целью, мы действовали морально недопустимо, тогда перейти к контролируемому отключению [515] Следовать значению этой инструкции, которое имелось в виду разработчиками.
Кого-то может по-прежнему беспокоить факт, что в модели моральной допустимости (далее по тексту — МД) отводится неоправданно большая роль требованиям этики. Но степень жертвы, которую придется принести, зависит от того, какая этическая теория является истинной. Если предполагается этика, отвечающая принципу разумной достаточности, то есть удовлетворяющая в том смысле, что считает морально допустимыми любые действия, которые удовлетворяют нескольким моральным ограничениям, — тогда МП может предоставить нам большую свободу во влиянии нашего когерентного экстраполированного волеизъявления на действия ИИ. Если предполагается этика, отвечающая критерию доведения до максимума, то есть максимизирующая в том смысле, что морально допустимы лишь те действия, которые имеют наилучшие последствия с этической точки зрения, — тогда метод МД почти или совсем не оставляет возможности, чтобы наши предпочтения влияли на результаты работы ИИ.
Чтобы лучше разобраться в этом соображении, вернемся на минуту к нашему примеру гедонистического консеквенционализма. Предположим, что эта этическая теория верна и ИИ знает об этом. Для наших целей мы можем определить гедонистический консеквенционализм как утверждение, что действие является этически правильным (и морально допустимым) тогда и только тогда, когда среди всех возможных действий никакое другое не способно обеспечить больший баланс удовольствия и страданий. Тогда ИИ, работающий по методу МД, мог бы максимизировать удовольствие, превратив всю доступную ему часть Вселенной в особую субстанцию гедониум, другую особую субстанцию, компьютрониум, использовать для максимального расширения вычислений, которые обеспечат ощущения, приносящие абсолютное наслаждение. Даже если полная эмуляция головного мозга любого из живущих сейчас людей была бы осуществима, она все равно не стала бы самым эффективным способом, чтобы обеспечить весь мир получением удовольствия, — тогда получается, что все мы погибнем.
Таким образом, применяя метод МП или МД, мы столкнемся с риском отдать свои жизни ради чего-то лучшего. Это может оказаться слишком большой жертвой, чем кажется, поскольку мы потеряем не просто шанс жить обычной человеческой жизнью, но и возможность наслаждаться жизнью гораздо более длинной и наполненной, которую мог бы обеспечить дружественный сверхразум.
Эта жертва представляется еще менее привлекательной, когда понимаешь, что сверхразум мог бы получить почти столь же хороший результат, пожертвовав при этом гораздо меньшей долей нашего потенциального благополучия. Предположим, мы согласились бы допустить, что почти вся достижимая Вселенная превращается в гедониум, за исключением какой-то малой ее части, скажем, Млечного Пути, который мы оставим для своих нужд. Даже в таком случае можно будет использовать сотни миллиардов галактик для максимизации удовольствия. И при этом в нашей галактике на протяжении миллиардов лет существовали бы процветающие цивилизации, обитатели которых — и люди, и все другие создания — не просто выжили бы, но благоденствовали в своем постчеловеческом мире.
Если предпочитаешь этот последний вариант (как склонен предпочитать его я), вряд ли будешь настаивать на применении принципа моральной допустимости. Что, естественно, не отменяет значимости морали.
Даже с чисто этической точки зрения, возможно, лучше защищать метод, который не настолько требователен в отношении морали, как МП или МД. Если лучшие модели, но основанные на нравственном принципе, не имеют шансов быть использованными — возможно, из-за их чрезмерной требовательности, — может быть, было бы правильнее защищать другое предложение, пусть лишь приближенное к идеалу, но имеющее большие шансы быть примененным.
Делай то, что я имею в виду
Мы можем испытывать неуверенность в том, какой метод выбрать: КЭВ, МП, МД или какой-либо еще. Можем ли мы снять с себя ответственность за решение даже такого высокого уровня и переложить ее на ИИ, у которого достаточно развита когнитивная деятельность? Где предел допустимости нашей лени?
Рассмотрим, например, цель, основанную на «разумном подходе»:
сделать так, чтобы разумнее всего стало обращаться к ИИ для выполнения той или иной работы .
Эту цель можно было бы свести к экстраполированному волеизъявлению, морали или чему-то еще, главное, что она могла бы избавить нас от усилий и риска, связанных с попыткой самим выяснять, какую конкретную цель нам было бы разумнее всего выбрать.
Однако здесь также присутствуют некоторые проблемы, характерные для целей, основанных на морали. Во-первых, нас может пугать, что эта цель, основанная на разумном подходе, оставляет слишком мало пространства для наших собственных желаний. Некоторые философы убеждены, что человеку всегда разумнее делать то, что для него лучше всего с этической точки зрения. Может быть, они и правы, но что тогда нас ожидает? Во-первых, цель, основанная на разумности, сжимается до МП — с соответствующим риском, что сверхразум, использующий этот метод, убьет всех, до кого дотянется. Во-вторых, как и в случае всех прочих методов, описанных техническим языком, есть вероятность, что мы ошибочно понимаем значение своих утверждений. Мы видели, что в случае целей, основанных на морали, просьба ИИ делать то, что правильно, способна привести к слишком непредвиденным и нежелательным последствиям. Знай мы об этом заранее, то никогда не наделили бы ИИ подобной целью. Аналогично и с просьбой, обращенной к ИИ, делать то, что мы считали бы самым разумным действием.
Попробуем избежать этих трудностей, описав цель подчеркнуто нетехническим языком, скажем, использовав слово милый:
вести себя очень мило; если не получается очень мило, тогда вести себя как минимум просто мило .
Как можно возражать против создания милого ИИ? Но мы должны спросить, что означает это слово. В словарях можно найти разные значения слова милый, которые явно не предполагались для нашего случая. Нам совсем не нужно, чтобы ИИ был что-то типа «любезный», «вежливый», «изысканный» или «утонченный». Если можно было бы положиться на то, что ИИ распознает предполагавшуюся нами интерпретацию слова милый и будет мотивирован на милые действия именно в этом смысле, тогда цель, похоже, свелась бы к команде ИИ делать то, что программисты имели в виду. Аналогичное указание было включено в формулировку КЭВ («…понимать так, как нам хотелось бы понимать») и в критерий моральной допустимости, описанный ранее («…следовать предполагаемому значению этой инструкции»). Употребив фразу «делай, что я имею в виду», мы фактически сообщаем машине, что все остальные слова в описании не следует понимать буквально. Но говоря, что ИИ должен быть «милым», мы не добавляем ничего — вся реальная нагрузка ложится на команду «делай, что я имею в виду». Если бы мы знали, как адекватно отразить в коде команду «делай, что я имею в виду», ее можно было бы также использовать в качестве отдельной цели.
Как можно было бы использовать этот процесс «делай, что я имею в виду»? То есть как создать ИИ, мотивированный доброжелательно интерпретировать наши желания и невысказанные намерения и действовать в соответствии с ними? Начать можно с попытки прояснить, что мы подразумеваем под фразой «делай, что я имею в виду». Как выразить тот же смысл, но используя другую терминологию — скажем, бихевиористской теории. Почему бы нам не применить термины предпочтения, которые проявляются в тех или иных гипотетических ситуациях, например, когда у нас больше времени для размышления над вариантами решения, в которых мы умнее, в которых мы знаем больше фактов, имеющих отношение к делу, — в общем, в таких, когда складываются благоприятные условия, чтобы мы могли четко показать на конкретных примерах, что мы имеем в виду, когда хотим видеть ИИ дружелюбным, полезным, милым…
Здесь мы замкнули круг. И вернулись к косвенной нормативности, с которой начали. В частности, к методу КЭВ, предполагающему, что из описания цели исключается все конкретное, после чего в нем остается лишь абстрактная цель, определенная в чисто процедурных терминах: делать то, что мы хотели бы, чтобы делал ИИ в соответствующих идеальных обстоятельствах. Идя на такую уловку, то есть используя косвенное называние, мы надеемся переложить на ИИ большую часть интеллектуальной работы, которую пришлось бы выполнять нам самим, попытайся мы сформулировать более конкретное описание целей ИИ. Следовательно, если мы стремимся в полной мере использовать эпистемологическое превосходство ИИ, КЭВ становится выражением принципа эпистемологического уважения.
Перечень компонентов
До сих пор мы рассматривали различные варианты того, как должна быть описана цель ИИ. Но на поведение разумной системы оказывают влияние и другие компоненты архитектуры. Особенно критически важно, какие методы теории принятия решений и теории познания в нем используются. И еще: будет ли ИИ сообщать людям о своих планах до начала их реализации.
В табл. 13 приведен список проектных решений, которые необходимо выполнить в процессе создания сверхразума. Разработчики проекта должны уметь объяснить, какие решения были приняты по отношению к каждому случаю и почему были приняты именно эти, а не иные решения.
Таблица 13. Перечень компонентов
Описание цели
Какую цель должен преследовать ИИ? Как он должен интерпретировать описание этой цели? Должна ли цель предполагать специальное вознаграждение для тех, кто внес свой вклад в успех проекта?
Принятие решений
Должен ли ИИ использовать причинный подход к принятию решений, подход на основе ожиданий, безусловный подход или какой-то еще?
Эпистемология, то есть познание мира
Какой должна быть функция априорной вероятности ИИ, какие другие явные и неявные предположения о мире ему следует сделать? Как он должен учитывать влияние человека?
Ратификация, то есть подтверждение
Должны ли планы ИИ проходить проверку человеком прежде, чем будут реализованы? Если да, как будет организован этот процесс?
Описание цели
Мы уже обсуждали, как можно использовать косвенную нормативность для определения цели, которую должен преследовать ИИ, и рассмотрели некоторые варианты, например модели, основанные на морали и когерентном экстраполированном волеизъявлении. Если мы остановились на каком-то из вариантов, это создает необходимость делать следующий выбор. Например, есть множество вариаций модели КЭВ, зависящих от того, кого включают в базу экстраполяции, от ее структуры и так далее. Другие формы мотивации могут означать необходимость использовать иное описание цели. Предположим, создается ИИ-оракул, цель которого — давать точные ответы. Если при этом используется метод приручения, в описании цели должна присутствовать формулировка о недопустимости чрезмерного использования ресурсов при подготовке этих ответов.
При выборе вариантов устройства ИИ следует также ответить на вопрос, должна ли цель предполагать специальное вознаграждение для тех, кто внес свой вклад в успех проекта, например за счет выделения им дополнительных ресурсов или оказания влияния на поведение ИИ. Любое упоминание этого обстоятельства можно назвать «стимулирующий пакет». Благодаря стимулирующему пакету мы повысим вероятность успешной реализации проекта, пусть и ценой некоторого компромисса с точки зрения достижения стоящих перед ним целей.
Например, если целью проекта является создание процесса, реализующего когерентное экстраполированное волеизъявление человечества, тогда стимулирующий пакет может представлять собой указание, что желаниям некоторых людей при экстраполировании будет присвоено большее значение. Если такой проект окажется успешным, его результатом не обязательно станет реализация когерентного экстраполированного волеизъявления всего человечества. Скорее, будет достигнута некоторая близкая к этому цель.
Поскольку стимулирующий пакет включается в описание цели, а сверхразуму придется обязательно интерпретировать и реализовывать это определение, можно воспользоваться преимуществами, предлагаемыми методом косвенной нормативности, и сформулировать в описании сложные положения, довольно трудные, если реализацией будет заниматься человек. Например, вместо того чтобы вознаграждать программистов за какую-то наспех сколоченную, но понятную системой показателей, например сколько часов они проработали и сколько ошибок исправили, в стимулирующем пакете может быть указано, что программисты «должны получать вознаграждение пропорционально их вкладу, который увеличил ожидаемую вероятность успешной реализации проекта так, как этого хотели заказчики». Более того, нет причины ограничивать круг тех, на кого распространяется стимулирующий пакет, только участниками проекта. Можно указать, что вознагражден будет каждый человек в соответствии с его вкладом. Распределение благодарности — задача трудная, но от ИИ можно ожидать разумной аппроксимации критерия, явно или неявно указанного в стимулирующем пакете.
Предположим, сверхразум отыщет какой-то способ вознаградить даже тех, кто умер задолго до его создания. И тогда стимулирующий пакет может быть расширен за счет некоторых умерших людей, причем не только до начала проекта, но и, возможно, до первого упоминания о концепции стимулирующего пакета. Конечно, проведение такой ретроспективной политики уже ни к чему людям, лежащим в могилах, но это было бы правильно по этическим соображениям. Правда, есть одно техническое возражение: если цель проекта — воздать по заслугам, то тогда об этом нужно упомянуть в самом описании цели, а не в рамках стимулирующего пакета.
Мы не можем слишком глубоко погружаться в этические и стратегические вопросы, связанные с созданием стимулирующего пакета. Однако позиция разработчиков ИИ по этим вопросам является важным аспектом концепции его устройства.
Принятие решений
Еще один важный компонент проекта по созданию ИИ — система принятия решений. Выбор того или иного подхода влияет на стратегию поведения ИИ в судьбоносные моменты его существования. От этого может зависеть, например, будет ли ИИ открыт для договорных отношений с другими гипотетическими сверхразумными цивилизациями или, напротив, станет объектом шантажа с их стороны. Специфика процесса принятия решений также играет роль в трудных ситуациях вроде тех, когда имеется ограниченная вероятность неограниченных выигрышей («пари Паскаля») или чрезвычайно низкая вероятность чрезвычайно высоких ограниченных выигрышей («ограбление Паскаля»), а также когда ИИ сталкивается с фундаментальной нормативной неопределенностью или многочисленными копиями той же программы-агента.
Варианты, приведенные в таблице, включают в себя причинный подход к принятию решений (у которого есть множество вариаций) и подход на основе ожиданий, а также более современных кандидатов вроде «безусловного» и «вневременного» подхода, которые еще только разрабатываются. Может оказаться не слишком просто подобрать верный вариант и убедиться, что мы правильно его используем. Хотя перспективы прямого описания подхода ИИ к принятию решений кажутся более реальными, чем прямого описания его конечных целей, значительный риск ошибки все-таки существует. Многие сложности, способные поставить в тупик наиболее популярные теории принятия решений, были обнаружены совсем недавно, откуда следует, что могут существовать и иные проблемы, пока невидимые глазу. В случае ИИ результаты применения ошибочного подхода могут быть катастрофическими, вплоть до гибели всего человечества.
Учитывая эти сложности, возникает идея описать подход к принятию решений, который должен использовать ИИ, непрямым методом. Можно предложить ИИ использовать «тот подход к принятию решений D, который мы предложили бы ему применить после долгих размышлений над этим вопросом». Однако ИИ должен иметь возможность принимать решения еще до того, как узнает, что такое D. Отсюда возникает потребность в промежуточном подходе к принятию решений D’, которым ИИ мог бы руководствоваться в процессе поиска D. Можно попытаться определить D’ как своего рода суперпозицию текущих гипотез ИИ о D (взвешенных на их вероятности), хотя остаются нерешенными некоторые технические проблемы, в частности, как сделать это в общем виде. Есть еще один повод для беспокойства: ИИ способен сделать непоправимо неверный выбор (например, перезаписать себя, зафиксировав ошибочный подход к принятию решений) на стадии обучения, прежде чем у него появится возможность определить правильность того или иного подхода. Чтобы уменьшить риск ошибки в период повышенной уязвимости ИИ, можно попробовать наделить зародыш ограниченной рациональностью в той или иной форме — сознательно упрощенным, но более надежным подходом к принятию решений, который стойко игнорирует эзотерические соображения, даже если мы думаем, что они в конечном счете могут оказаться правильными, и который впоследствии должен заменить себя на более сложный (непрямой) подход к принятию решений, удовлетворяющий определенным критериям. Можно ли это сделать, и если да, то как — вопрос открытый.
Эпистемология, или Познание мира
В рамках проекта необходимо сделать фундаментальный выбор в отношении методов теории познания, которыми будет пользоваться ИИ, и описать принципы и критерии оценки эпистемологических гипотез. Можно, например, остановиться на байесовском подходе и принять эпистемологию как функцию априорного распределения вероятности — имплицитного присвоения ИИ значений вероятности возможным мирам до того, как им будут рассмотрены и учтены какие-либо воспринимаемые свидетельства. В других условиях методы познания могут принимать иную форму, однако в любом случае необходимо некоторое индуктивное правило обучения, если ИИ должен обобщать наблюдения, сделанные в прошлом, и делать предсказания относительно будущего. Однако, как и в случае с описанием цели и подходом к принятию решений, есть риск, что наше определение эпистемологии окажется ошибочным.
На первый взгляд может показаться, что размер ущерба от неправильного выбора методов теории познания ограничен. Ведь если они совсем не будут работать, ИИ просто окажется не слишком интеллектуальным и не будет представлять угрозу, о которой говорится в этой книге. Но остается опасность, что эпистемология будет определена достаточно хорошо для того, чтобы ИИ был инструментально эффективен в большинстве ситуаций, но при этом в определении будет содержаться некий изъян, из-за которого ИИ собьется с пути в каком-то жизненно важном вопросе. Такой ИИ станет походить на умного человека, абсолютно убежденного в истинности ложной догмы, на которой выстроена его философия; он начнет «бороться с ветряными мельницами» и всего себя посвятит достижению фантастических или опасных целей.
Незначительные различия в априорном распределении вероятностей способны привести к серьезным отличиям в поведении ИИ. Например, может быть приравнена к нулю априорная вероятность того, что Вселенная бесконечна. И тогда независимо от количества астрономических свидетельств в пользу этого ИИ будет упрямо отвергать все космологические теории, построенные на идее бесконечной Вселенной, делая в результате неправильный выбор. Или окажется нулевой априорная вероятность того, что Вселенная не является вычислимой по Тьюрингу (на самом деле это общее свойство многих априорных распределений вероятностей, которые обсуждаются в научной литературе, включая уже упомянутую в первой главе колмогоровскую сложность), что также приведет к плохо понимаемым последствиям, если это допущение — известное как тезис Чёрча–Тьюринга — окажется ложным. ИИ может быть наделен априорным распределением вероятностей, которое приведет к появлению у него тех или иных сильных метафизических воззрений разного рода, например предположение о возможности истинности дуализма разума и тела или возможности существования не поддающихся улучшению моральных фактов. Если какие-то из этих воззрений окажутся ошибочными, возникнет шанс того, что ИИ будет стремиться достичь своих конечных целей способами, которые мы бы отнесли к порочной реализации. И при этом нет никакой очевидной причины полагать, что такой ИИ, будучи фундаментально неправым в каком-то одном очень важном аспекте, не сможет стать достаточно эффективным в инструментальном смысле, чтобы обеспечить себе решающее стратегическое преимущество. (Еще одной областью, где может играть ключевую роль выбор эпистемологических аксиом, является изучение эффекта наблюдателя и его влияния на выводы, которые можно сделать на основе дейктической информации)
У нас есть все основания сомневаться в своей способности разрешить все фундаментальные эпистемологические проблемы к моменту начала создания первого зародыша ИИ. Поэтому лучше исходить из того, что для задания его методов познания мира будет использован непрямой подход. Но тогда возникает множество вопросов, аналогичных случаю применения непрямого подхода к определению процесса принятия решений. Однако в случае эпистемологии есть больше надежд на позитивную конвергентность, поскольку любой из широкого спектра подходов теории познания обеспечивает создание безопасного и эффективного ИИ и в конечном счете приводит к одним и тем же результатам. Причина заключается в том, что различия в априорном распределении вероятностей, как правило, стираются при наличии довольно большого количества эмпирических свидетельств и в результате проведения глубокого анализа.
Было бы неплохо поставить себе цель наделить ИИ фундаментальными эпистемологическими принципами, аналогичными тем, которые управляют нашим собственным мышлением. Тогда, если последовательно применять свои стандарты, любой ИИ, отклоняющийся от этого идеала, должен считаться мыслящим неправильно. Конечно, это применимо лишь к нашим действительно фундаментальным эпистемологическим принципам. Не относящиеся к фундаментальным принципы ИИ должен постоянно создавать и пересматривать самостоятельно по мере развития своих представлений о мире. Задача ИИ — не потворствовать человеческим предубеждениям, а избавляться от следствий нашего невежества и глупости.
Ратификация, или Подтверждение
Последним пунктом в нашем списке вариантов выбора различных аспектов устройства ИИ является ратификация. Должны ли планы ИИ проходить проверку человеком прежде, чем будут реализованы? В случае ИИ-оракула ответ на этот вопрос утвердительный по определению. Оракул выдает информацию; человек решает, использовать ли ее и если да, то как. Однако в случае ИИ-джинна, ИИ-монарха и ИИ-инструмента вопрос о том, нужна ли какая-то форма ратификации, остается открытым.
Чтобы посмотреть, как может работать ратификация, возьмем ИИ, который должен действовать как монарх, реализующий КЭВ человечества. Представим, что прежде чем запустить его, мы создаем оракула, единственной целью которого будет отвечать на вопросы о том, что должен делать монарх. В предыдущих главах мы видели, что с созданием оракула-сверхразума связаны определенные риски (в частности, риск проявления преступной безнравственности или риск инфраструктурной избыточности). Но мы примем за данность, что ИИ-оракул будет успешно создан и указанные подводные камни удастся обойти.
Итак, есть ИИ-оракул, выдающий нам свои оценки последствий запуска тех или иных фрагментов кода, в которых реализуется КЭВ человечества. Оракул не может прогнозировать во всех деталях, что произойдет, но его предсказания, скорее всего, окажутся точнее наших. (Если сверхразум ничего не сможет сказать о том, что будет делать программа, было бы безумием ее запускать.) В общем, оракул немного думает и выдает результат. Чтобы он был понятнее, оракул может предложить оператору набор инструментов, с помощью которых можно изучить различные аспекты предсказанного исхода. Помимо картины, как может выглядеть будущее, оракул представит статистику количества мыслящих существ, которые будут жить в разные времена, и нижние, средние и пиковые показатели их благополучия. Он также может составить подробные биографии нескольких случайных людей (возможно, воображаемых, выбранных в силу репрезентативности). И обратить внимание оператора на некоторые аспекты, о которых тот мог бы не спросить, но которые действительно заслуживают его внимания.
Такая способность заранее проанализировать возможные исходы дает нам очевидные преимущества. В ходе анализа можно увидеть последствия ошибки в определениях, которые планируется заложить в ИИ-монарха или записать в его исходном коде. Если «хрустальный шар» показывает нам будущее в руинах, можно удалить код планируемого к созданию монарха и попробовать что-то еще. Будем считать, что изучать возможные последствия нашего выбора прежде, чем сделать его, следует непременно, особенно в тех случаях, когда на кону — будущее всего человеческого вида.
Потенциально серьезные недостатки ратификации не лежат на поверхности. Желание противоборствующих фракций заранее увидеть, каким будет вердикт высшего разума, вместо того чтобы просто положиться на его мудрость, может подорвать миротворческую суть КЭВ. Сторонники подхода, основанного на морали, могут беспокоиться из-за того, что решимость спонсора улетучится, как только он увидит, к каким жертвам приведет стремление к оптимальному решению с точки зрения этики. Кроме того, у нас могут быть все основания предпочитать жизнь, в которой потребуется постоянно преодолевать себя, то есть будущее, полное сюрпризов и противоречий, — будущее, контуры которого не так тесно привязаны к нынешним исходным условиям, но оставляющее определенный простор для резкого движения и незапланированного роста. Мы с меньшей вероятностью строили бы амбициозные планы, если бы могли подбирать каждую деталь будущего и отправлять на доработку его черновики, не полностью отвечающие нашему преходящему настроению.
Итак, вопрос ратификации планов ИИ организаторов не слишком прост, как может показаться вначале. Тем не менее правильнее было бы воспользоваться возможностью и ознакомиться с вариантами, если такой функционал будет реализован. Но не стоит ждать от наблюдателя детального изучения и корректировки каждого аспекта предполагаемого результата, будет лучше, если мы наделим его правом вето, которое он мог бы использовать ограниченное число раз, прежде чем проект был бы окончательно прекращен.
Выбор правильного пути
Главной целью ратификации является уменьшение вероятности катастрофической ошибки. В целом кажется, что правильнее ставить перед собой именно эту цель, нежели максимизировать шансы оптимизации каждой детали плана. На то есть две причины. Во-первых, распространение человечества имеет космические масштабы — есть куда развиваться, даже если с нашим процессом будут связаны некоторые потери или ненужные ограничения. Во-вторых, есть надежда, что если исходные условия для взрывного развития интеллекта мы выберем более или менее верно, то сверхразум в конечном счете реализует наши ожидания. Здесь важно попасть в правильный аттрактор.
Что касается эпистемологии, то есть познания мира, можно предположить, что широкий спектр априорных распределений вероятностей в конечном счете сойдется к очень близким апостериорным распределениям (если вычислениями будет заниматься сверхразум, определяя условную вероятность на реалистичных данных). Поэтому нам не нужно беспокоиться о том, чтобы эпистемология была идеально правильной. Нужно лишь избежать ситуации, в которой ИИ получит такое экстремальное априорное распределение вероятностей, что не сможет обучиться важным истинам, даже несмотря на интенсивные исследования и анализ.
Что касается принятия решений, то здесь риск непоправимой ошибки кажется более высоким. Но надежда прямо описать достаточно хороший подход к принятию решений все-таки есть. ИИ, обладающий сверхразумом, способен в любой момент переключиться на новый подход, но если начнет с совсем неудачного, то может не увидеть причину для переключения. Или ему не хватит времени выбрать заведомо лучший подход. Возьмем, например, агента, который не должен поддаваться шантажу и умеет отсеивать потенциальных вымогателей. Вполне возможно, что при его создании использовался оптимальный подход к принятию решений. Но если агент получит угрозу и решит, что она заслуживает доверия, ему будет нанесен ущерб.
При наличии адекватных подходов к принятию решений и познанию мира можно попробовать создать систему, использующую КЭВ или какое-то иное косвенное описание цели. В этом случае снова есть надежда на конвергентность — разные способы реализации КЭВ должны привести к одинаково благоприятным для человечества исходам. Если не предполагать конвергентность, то остается лишь надеяться на лучшее.
У нас нет необходимости тщательно оптимизировать систему. Скорее, следует сосредоточить внимание на надежном проекте, который внушит уверенность, что ИИ достанет здравого смысла распознать свою ошибку. Несовершенный ИИ, построенный на прочном основании, постепенно исправит себя сам, после чего приложит к миру не меньше позитивной оптимизирующей силы, чем мог бы приложить, будучи совершенным с самого начала.