Эволюция разума

Курцвейл Рэймонд

Глава третья

Модель новой коры; теория мысленного распознавания образов

 

 

Иерархия образов

Я повторял описанные выше простые эксперименты и наблюдения тысячи раз в самых разных ситуациях. Выводы из этих наблюдений неизбежно ограничивают мое представление о том, как должен работать мозг — точно так же, как простые эксперименты XIX в. по анализу времени, пространства и массы сдерживали размышления молодого Эйнштейна об устройстве Вселенной. Далее я остановлюсь на некоторых наблюдениях из нейробиологии, стараясь избегать многих пока еще неизвестных подробностей.

Прежде всего, позвольте мне объяснить, почему в этом разделе я считаю нужным поговорить о неокортексе (что в переводе с латыни буквально означает «новая кора»). Мы знаем, что именно новая кора отвечает за нашу способность обрабатывать информацию и что функционирует она по иерархическому принципу. Животные, не имеющие новой коры (в основном не млекопитающие), в большинстве своем не способны понимать иерархические построения. Понимание и использование иерархической природы реальности являются исключительной способностью млекопитающих и объясняются наличием у них этой новой в эволюционном плане структуры головного мозга. Новая кора отвечает за чувственное восприятие, распознавание видимых объектов и абстрактных понятий, контроль движений, размышления (от пространственной ориентации до рационального мышления) и речь, то есть за все то, что мы называем «разумом».

Новая кора человеческого мозга, его самый внешний слой, представляет собой тонкую, практически двумерную структуру (ее толщина составляет около 2,5 мм). У грызунов она гладкая и имеет толщину почтовой марки. Эволюционной инновацией у приматов стала сложная складчатость этой структуры, образующей на поверхности остального мозга глубокие морщины, складки и бороздки, увеличивающие площадь ее поверхности.

Благодаря этой сложной складчатости новая кора составляет основную часть человеческого мозга — около 80 % по массе. Высокий лоб Homo sapiens позволяет дополнительно увеличить размер новой коры. В частности, лобная доля мозга отвечает за обработку абстрактной информации и формирование сложных понятий.

Эта тонкая структура мозга состоит из шести основных слоев — от слоя I (внешний) до слоя VI. Аксоны (выходные контакты), отходящие от нервных клеток на уровне слоев II и III, проецируются в другие участки новой коры. Аксоны, отходящие от слоев V и VI, вне новой коры связываются с таламусом, стволом мозга и спинным мозгом. Нейроны слоя IV принимают синаптические (входные) сигналы от нейронов, находящихся вне новой коры, особенно в таламусе. В разных отделах мозга число слоев коры может незначительно изменяться. В моторной коре слой IV очень тонкий, поскольку в этой зоне он практически не принимает сигналов от таламуса, ствола мозга или спинного мозга. Напротив, в затылочной доле (зоне новой коры, ответственной за зрение) слой IV имеет три дополнительных подслоя, поскольку в эту область приходит множество сигналов, в том числе от таламуса.

Важнейшая особенность новой коры — удивительная однородность ее основных структур. Впервые это заметил американский нейробиолог Вернон Маунткасл (1918–2015). В 1957 г. он открыл колончатую структуру новой коры. В 1978 г. он обнаружил закономерность, которая была так же важна для нейробиологии, как эксперименты Майкельсона и Морли в 1831 г. для физики. Он описал удивительно однородную организацию новой коры и высказал гипотезу, в соответствии с которой кора построена по единому принципу, воспроизводимому множество раз, а в качестве основного модуля этой структуры Маунткасл назвал кортикальную колонку. Изменение высоты некоторых слоев в различных отделах мозга объясняется лишь разным числом связей этих отделов с другими структурами.

Маунткасл предположил, что колонки состоят из миниколонок, но эта гипотеза не получила поддержки, поскольку не было найдено никаких видимых границ подобных структур. Однако активные экспериментальные исследования показали, что, действительно, в нейронной ткани каждой колонки имеются повторяющиеся единицы. Я считаю, что основной структурной единицей новой коры являются распознающие модули. В отличие от мини-колонок Маунткасла, эти модули не разделены никакими физическими границами, поскольку расположены очень близко друг к другу и связаны между собой, так что кортикальная колонка — это просто агрегат большого числа таких модулей. Со временем распознающие модули могут скручиваться друг с другом, так что сложное соединение модулей, которое мы наблюдаем в новой коре, не определяется генетическим кодом, а формируется постепенно в зависимости от тех образов, которые нам приходится распознавать. Я подробнее остановлюсь на этом позднее; важно, чтобы вы поняли, как организована новая кора.

Прежде чем мы продолжим исследовать структуру новой коры, хочу заметить, что чрезвычайно важно осуществлять моделирование поведения сложных систем на правильно выбранном уровне. Хотя химия теоретически основана на физике и может быть выведена из законов физики, на практике сделать это невозможно, поэтому химия создала собственные законы и модели. Аналогичным образом из законов физики можно вывести законы термодинамики, но, если у нас имеется достаточное количество частиц, чтобы мы могли назвать их скопление газом, решение физических уравнений для взаимодействий всех частиц становится безнадежным делом, а вот законы термодинамики отлично работают. Точно так же биология создала свои собственные законы и модели. Единственная клетка поджелудочной железы чрезвычайно сложна, особенно если мы рассматриваем ее поведение на уровне молекул; значительно проще осуществить моделирование функций клеток поджелудочной железы в регуляции уровня инсулина и пищеварительных ферментов.

Тот же принцип применим к моделированию и изучению функций мозга. Безусловно, важной и необходимой задачей для проектирования мозга является создание моделей взаимодействий на межмолекулярном уровне, однако цель всего процесса главным образом заключается в уточнении модели, которая описывает, каким образом мозг перерабатывает информацию, превращая ее в знания.

Американский ученый Герберт А. Саймон (1916–2001), которого считают одним из отцов теории искусственного интеллекта, очень красочно выразился по поводу того, насколько важно выбрать правильный уровень абстракции для анализа сложных систем. В 1973 г. по поводу созданной им программы искусственного интеллекта ЕРАМ (elementary perceiver and memorizer) Саймон писал следующее: «Представьте себе, что вы хотите понять имеющуюся у меня загадочную программу ЕРАМ. Я могу дать вам две версии этой программы. Первая версия — это та, в которой программа была исходно написана, — со всеми составляющими ее компонентами и подпрограммами… Вторая — полностью трансформированная версия ЕРАМ, переведенная на машинный язык… Я думаю, не стоит долго объяснять, какая версия представляет более краткое, значимое и понятное описание… Третью я вам предлагать не стану, поскольку это окажется даже не программа, а электромагнитные уравнения и граничные условия, которым компьютер как физическая система должен подчиняться. И это будет кульминация сокращения и непостижимости».

В новой коре человека содержится около полумиллиона кортикальных колонок, каждая из которых составляет около 2 мм в высоту и 0,5 мм в ширину и содержит около 60 тыс. нейронов (таким образом, в сумме в новой коре содержится около 30 млрд нейронов). В общем, каждый распознающий модуль кортикальной колонки содержит около 100 нейронов, а всего в новой коре имеется порядка 300 млн распознающих модулей.

Теперь мы обратимся к рассмотрению механизмов работы распознающих модулей, однако должен заметить, что, честно говоря, совершенно непонятно, с чего же следует начинать. В новой коре все происходит одновременно, так что в этих процессах нет ни начала, ни конца. Мне часто придется упоминать явления, которые я еще не объяснил, а только собираюсь объяснить, так что прошу вас запастись терпением.

Человек лишь в небольшой степени способен к логическим размышлениям, зато прекрасно умеет распознавать образы. Для логического мышления нам приходится использовать новую кору, которая и является большим распознающим модулем. Это далеко не идеальный механизм для осуществления логических преобразований, но другого у нас нет. Сравним, к примеру, как играют в шахматы человек и специальная компьютерная программа. В 1997 г. компьютер DeepBlue, обыгравший чемпиона мира среди людей Гарри Каспарова, был способен за секунду логически анализировать последствия 200 млн комбинаций на доске (то есть последовательностей ходов и ответных ходов). Сейчас на такое способны некоторые персональные компьютеры. Каспаров в ответ на вопрос, сколько комбинаций он может анализировать за секунду, ответил, что менее одной. Как же в таком случае он вообще мог сражаться против DeepBlue? Ответ заключается в исключительной способности человека распознавать образы. Однако эту способность нужно тренировать — вот почему не каждый из нас мастерски играет в шахматы.

Каспаров знал примерно 100 тыс. шахматных комбинаций. Это реальное число — по нашим расчетам, специалист в какой-либо сфере деятельности должен уметь оперировать примерно 100 тыс. «элементами» знаний. В пьесах Шекспира использовано около 100 тыс. предложений (в которых задействовано около 29 тыс. слов, но большинство из них использовано разными способами). Анализ медицинской экспертной системы, созданной для воспроизведения знаний обычного врача, показал, что врач оперирует примерно 100 тыс. понятий в своей области. Распознавание «элемента» знаний из такого хранилища информации является далеко не простой задачей, поскольку все элементы слегка изменяются при каждом новом обращении к ним.

Вооруженный этими знаниями, Каспаров смотрит на шахматную доску и сравнивает каждую конкретную комбинацию со всеми знакомыми ему 100 тыс. комбинаций, причем все 100 тыс. сравнений он производит одновременно. В этом вопросе наблюдается полный консенсус: все наши нейроны одновременно участвуют в обработке изображения. Это не означает, что все они одновременно возбуждаются (в такой ситуации мы, возможно, не могли бы удержаться на ногах), но выполнение их функции подразумевает возможность возбуждения.

Сколько образов может хранить новая кора? Здесь необходимо учесть явление избыточности. Например, лицо любимого человека хранится не в виде единого образа, а записано тысячи раз. Некоторые из этих повторов представляют собой изображения практически одного и того же лица, тогда как другие показывают его в разных ракурсах, при разном освещении, с разным выражением и т. д. Никакие из этих повторяющихся образов не хранятся в виде истинных рисунков (то есть в виде двумерного набора пикселов). Скорее, они хранятся в виде списков признаков, в которых составные элементы образа сами являются образами. Чуть позже мы подробнее поговорим о том, как устроена эта иерархия признаков.

Если принять, что база знаний специалиста в какой-либо области состоит из 100 тыс. «единиц» знания (то есть образов) при избыточности примерно 100:1, получается, что мозг хранит около 10 млн образов. Эти специфические знания основаны на более общих знаниях и дополняются более глубокими и узкоспециальными знаниями, так что общее число образов повышается до 30 или 50 млн. Однако наши «бытовые» знания, которые мы используем в каждодневной жизни, еще шире; знание «законов улицы» требует от нашей новой коры значительно больше, чем «книжное знание». Если учесть эти бытовые знания и упомянутый выше фактор избыточности, мы получим, что общее число образов, хранящихся в нашей новой коре, превышает 100 млн. Отметим, что фактор избыточности не постоянная величина — часто используемые образы могут повторяться тысячи раз, а новые явления имеют фактор избыточности менее десяти.

Как я расскажу позднее, наши действия и навыки также составляют образы и тоже хранятся в отделах коры, так что, по моим оценкам, общий объем информации в человеческой новой коре составляет несколько сотен миллионов образов. Эта приблизительная оценка вполне соответствует числу распознающих элементов коры, которое, как мы уже определили, составляет около 300 млн. Поэтому вполне резонно предположить, что функция каждого распознающего элемента новой коры состоит в обработке одной итерации образа (то есть одной копии среди множества повторяющихся копий образов). Наши оценки числа образов, которые может обрабатывать человеческий мозг (с учетом необходимой избыточности), и числа физических распознающих элементов привели нас к величинам одного порядка. Замечу, что, когда я говорю об «обработке» образа, я имею и виду все процессы, которые мы можем с ним (и его частями) проделать: изучить, предсказать, узнать и использовать (либо путем дальнейшего осмысления, либо путем применения образа физического перемещения).

Процессор, обрабатывающий 300 млн образов, кажется весьма серьезным аппаратом; и действительно, он позволил Homo sapiens создать устную и письменную речь, все наши многочисленные инструменты и творения. Одни изобретения вызывали к жизни другие, что привело к экспоненциальному росту информационного содержания технологий, который я описываю с помощью закона ускорения отдачи. Никакие другие существа не способны на такое. Как я уже говорил, ряд животных, включая шимпанзе, по-видимому, обладают рудиментарными способностями понимать и произносить слова, а также использовать примитивные орудия. У них, вообще говоря, тоже есть новая кора, однако их способности ограничиваются небольшим размером коры, особенно лобных долей. Размер нашей новой коры позволил нам создавать еще более мощные инструменты, включая те, которые теперь помогают нам изучать собственный разум. Когда-нибудь наш мозг вместе с созданными нами технологиями позволит сотворить искусственную новую кору, и которой будет не 300 млн процессоров, а значительно больше. Может быть, миллиард? Или триллион?

 

Структура образа

Теория мысленного распознавания образов, которую я хочу нам представить, основана на распознавании образов распознающими модулями новой коры. Эти образы (и модули) организованы иерархическим путем. Ниже я расскажу о том, как возникла эта идея, в том числе поведаю о собственных экспериментах 1980–1990-х гг. и о модели коры Джефа Хокинса и Дайлипа Джорджа, созданной в начале 2000-х гг.

Каждый образ (распознаваемый одним из примерно 300 млн распознающих модулей новой коры) состоит из трех элементов. Первый — это входной сигнал из образов низшего порядка, формирующих основной образ. Нет необходимости в повторении описания каждого из этих образов низшего порядка для каждого образа более высокого порядка, в котором они содержатся. Например, многие образы слов содержат букву «А». Нет нужды повторять описание буквы «А» во всех этих образах слов — они используют одно и то же описание. Это можно сравнить со страничкой в Интернете: в Интернете есть одна страница с описанием буквы «А» (один образ), и все страницы для слов (образы слов), содержащих букву «А», связаны с этой страницей (с образом буквы «А»). Вместо ссылок новая кора использует реальные нервные связи. Аксон от модуля, распознающего букву «А», связан с множеством дендритов — по одному для каждого слова с буквой «А». Но не забывайте и об избыточности коры: для распознавания буквы «А» существует несколько модулей. Любой из них может посылать сигнал модулям, распознающим слова с буквой «А».

Второй элемент каждого образа — его имя. Если речь идет о звуковых образах, этот образ более высокого порядка — просто слово, например «яблоко» (apple). Хотя мы напрямую применяем новую кору для понимания и использования речи, большинство образов в коре не являются языковыми образами. «Имя» образа и новой коре — это просто аксон, выходящий из каждого модуля; возбуждение аксона означает распознавание соответствующего образа. Возбуждение аксона означает, что распознающий модуль «называет имя» образа: «Эй, ребята, я увидел слово „яблоко“!»

Три повторяющихся (но слегка отличных друг от друга) образа «А» включаются в образы более высокого порядка, содержащие букву «А».

Третий и последний элемент образа — это набор образов более высокого порядка, в состав которых он входит. Для буквы «А» это все слова с буквой «А». Здесь вновь уместно сравнение с веб-страницей. Каждый распознанный образ более низкого порядка запускает распознавание образа более высокого порядка, содержащего первый образ. В новой коре эти связи осуществляются дендритами, соединяющимися с нейронами в каждом распознающем модуле коры. Помним, что каждый нейрон может получать сигналы от множества дендритов, но выдает единственный сигнал на аксон. Этот аксон, однако, может, в свою очередь, передавать сигнал множеству дендритов.

В качестве примера рассмотрим набор знаков, использующихся для изображения печатных букв. Здесь каждый уровень — это образ. Формы — это образы, буквы — образы, слова — тоже образы.

Каждый образ характеризуется серией входных сигналов, процессом распознавания образа в модуле и выходным сигналом, поступающим к распознающему модулю более высокого порядка.

Из нижней левой точки к центру верхней линии:

Из нижней правой точки к центру верхней линии:

Горизонтальная перекладина:

Левая вертикаль:

Дуга в нижней области:

Нижняя горизонталь:

Верхняя горизонталь:

Средняя горизонталь:

Петля в верхней левой области:

Перечисленные образы составляют образ более высокого порядка, относящийся к категории печатных букв (в новой коре, конечно, таких формальных категорий не существует).

Буква А:

Два разных образа, составляющих букву «А» и два разных образа более высокого порядка (APPLE и PEAR), в состав которых входит «А».

Буква Р:

Образы, из которых складывается образ более высокого порядка — буква «Р».

Буква L:

Образы, из которых складывается образ более высокого порядка — буква «L».

Буква E:

Образы, из которых складывается образ более высокого порядка — буква «E».

Эти образы букв соединяются в образ еще более высокого порядка, относящийся к категории слов (в нашем с вами языке — для новой коры это лишь образ определенного порядка): APPLE.

В другой части коры имеет место аналогичная иерархия распознающих модулей, участвующих в обработке образов реальных объектов (а не печатных букв). Если вы смотрите на настоящее яблоко, модули низшего уровня находят округлые формы и образы цвета кожицы, в результате чего происходит возбуждение соответствующего аксона и подается знак: «Эй, ребята, я увидел настоящее яблоко!» Возбуждение аксонов распознающих модулей в слуховой коре, участвующих в определении частоты звуковых сигналов, в ответ на произнесенное кем-то слово «яблоко» даст знак: «Только что прозвучало слово „яблоко“!»

Опять же, помним об избыточности модулей — мы имеем не по одному распознающему модулю для каждого вида яблока (увиденного или услышанного слова «яблоко» и реального яблока). Скорее всего, происходит возбуждение сотен таких модулей, если не больше. Избыточность не только повышает вероятность успешного узнавания всех форм яблока, но и помогает распознавать варианты настоящих яблок. Существуют распознающие модули для узнавания самых разных видов яблок — всех сортов, цветов и форм.

Кроме того, не забываем о том, что описанная выше иерархия является иерархией понятий. Распознающие элементы на самом деле не выстраиваются каким-либо иерархическим образом относительно друг друга; новая кора тонкая и по высоте равна лишь одному распознающему элементу. Концептуальная иерархия создается за счет взаимодействий между отдельными распознающими элементами.

Важным элементом теории мысленного распознавания образов является описание процесса распознавания в каждом распознающем модуле. В модель заложен параметр «веса» входного сигнала каждого дендрита; этот параметр определяет важность данного сигнала для распознавания. Модули характеризуются пороговым значением возбуждения (преодоление этого значения говорит о том, что сигнал успешно узнается соответствующим распознающим модулем). Для возбуждения распознающего модуля не обязательно нужны все входные сигналы. Модуль может возбуждаться, например, при отсутствии входного сигнала с малым весом, но при отсутствии важного сигнала возбуждение вряд ли возможно. Возбуждение распознающего модуля обычно означает следующее: «Образ, за узнавание которого я отвечаю, скорее всего, присутствует».

Однако успешное распознавание модулем соответствующего образа заключается не только в подсчете входных сигналов (и в учете параметра их значимости). Важна также величина сигнала. Каждый входной сигнал, кроме того, описывается параметром, указывающим ожидаемую величину сигнала, и параметром, учитывающим вариабельность этой величины. В качестве примера рассмотрим распознающий модуль, ответственный за узнавание в речи слова steep (произносится «стиип» — «крутой», «высокий»). Слово состоит из четырех звуков: [s], [t] [e] и [p]. Звук [t] относится к так называемым зубным согласным; это означает, что звук производится воздухом, нарушающим контакт между языком и верхними зубами. Звук [t] практически невозможно произносить медленно. Глухой звук [p] относится к «взрывным согласным»; он образуется при открытии блокированного голосового тракта (перекрытого губами в случае [p]). Это тоже быстрый звук. Гласный звук [e] образуется за счет резонанса голосовых связок при открытом рте. Он относится к долгим гласным звукам, то есть длится гораздо дольше, чем согласные [t] и [p], однако его длительность может изменяться в широких пределах. Звук [s] относится к свистящим согласным; он возникает при прохождении воздуха через щель между сжатыми зубами. Его длительность обычно меньше, чем у долгих гласных звуков, таких как [e], но тоже может изменяться (звук [s] можно произнести быстро, а можно протянуть).

В нашей работе по распознаванию речи мы установили, что для распознавания звуковых образов этот тип информации должен быть закодирован. Например, слова steep и step (произносится «стэп» — «шаг», «этап») достаточно похожи. Хотя звуки [e] в слове step и [e] в слове steep звучат немного по-разному (имеют разные резонансные частоты), нельзя достоверно различить эти два слова лишь на этом основании. Гораздо надежнее основываться на длительности звучания гласных в этих двух словах: [e] в слове step звучит короче, чем [e] в слове steep.

Эту информацию можно закодировать с помощью двух параметров — ожидаемой величины (в данном случае длительности) и степени ее вариабельности. В нашем примере звуки [t] и [p] в слове steep характеризуются очень малой ожидаемой длительностью и малой вариабельностью (это означает, что мы не ожидаем услышать долгих звуков [t] и [p]). Звук [s] характеризуется малой ожидаемой длительностью, но большей вариабельностью, поскольку этот звук можно протянуть. Наконец, звук [e] имеет большую ожидаемую длительность и высокую степень вариабельности.

В этом примере величина — это длительность, но длительность — лишь одна из нескольких возможных характеристик величины сигнала. В нашей работе по распознаванию знаков мы обнаружили, что для распознавания печатных букв важна соответствующая пространственная информация (например, ожидается, что точка над i будет значительно меньше палочки). На более высоком понятийном уровне новая кора имеет дело с самыми разными совокупностями информации, такими как уровень притягательности, иронии, удовольствия, расстройства, и множеством других. Мы можем найти сходство между еще более различающимися совокупностями, чем Дарвин, который связал размер геологических разломов с различиями между видами организмов.

Источником данных параметров для головного мозга является собственный опыт мозга. Когда мы родились, мы ничего не знали о фонемах (звуковых единицах языка), кроме того, разные языки очень сильно различаются по фонетическим характеристикам. Это означает, что многочисленные примеры образа записываются в виде параметров для каждого распознающего модуля (поскольку ожидаемое распределение величин входных сигналов определяется в результате множества экспозиций). В некоторых программах искусственного интеллекта такие параметры кодируются экспертами (например, лингвисты могут назвать ожидаемую длительность различных фонем). В ходе наших исследований мы поняли, что лучше заставить программу самостоятельно определить параметры на основе тренировочных данных (примерно так, как это делает мозг). Иногда мы использовали смешанный подход, то есть снабжали систему человеческой интуицией (для начальных установок параметров), а затем заставляли ее уточнить эти оценки путем обучения на реальных речевых примерах.

Что же делает распознающий модуль? Он вычисляет вероятность (основанную на предыдущем опыте) того, что тот образ, за распознавание которого он отвечает, действительно представлен активными входными сигналами. Каждый поступающий на модуль сигнал активен в том случае, если возбужден соответствующий распознающий модуль более низкого порядка (это означает, что произошло распознавание образа более низкого порядка). Каждый входной сигнал также кодирует наблюдаемую величину сигнала (в подходящем измерении — в единицах времени, каких-то физических величин или иных параметров), так что эти величины сравниваются модулем с соответствующими величинами предыдущих сигналов для расчета вероятности того, что это «правильный» образ.

Как мозг (и система искусственного интеллекта) рассчитывает общую вероятность присутствия образа (за распознавание которого отвечает соответствующий модуль) на основании: 1) входных сигналов (определенной величины), 2) предыдущих параметров величины (ожидаемая величина и ее вариабельность) каждого сигнала и 3) значимости каждого сигнала? Для определения этих параметров и их использования для изучения иерархии образов в 1980-х и 1990-х гг. я и некоторые другие ученые предложили математический метод, называемый методом скрытых моделей Маркова. Мы применили этот подход для распознавания и понимания человеческой речи. Я опишу его и седьмой главе.

В примере с распознаванием слов, идущем от образов низшего порядка к образам высшего порядка, мы видим, как строится иерархия информационного потока от отдельных элементов букв к целым буквам, а затем к словам. Далее процесс распознавания поднимается до уровня фраз и более сложных речевых конструкций. Если мы поднимемся выше еще на несколько десятков уровней, мы дойдем до таких концептуальных образов, как ирония или зависть. Хотя все распознающие модули функционируют одновременно, продвижение по этой иерархической лестнице должно занимать определенное время. Переход с одного уровня на другой занимает от сотых до десятых долей секунды. Эксперименты показывают, что узнавание такого образа средней сложности, каким является человеческое лицо, происходит за десятые доли секунды. Если образ сильно изменен, процесс распознавания может длиться целую секунду. Если бы мозг функционировал последовательно (как обычный компьютер) и распознавал все образы в иерархическом порядке, он должен был бы обрабатывать каждый образ низшего уровня и лишь затем переходить к образам следующих уровней. В таком случае он должен был бы совершать миллионы циклов распознавания при переходе от одного уровня к другому. Именно это происходит, когда мы моделируем данный процесс на компьютере. Не будем забывать, однако, что компьютеры функционируют в миллионы раз быстрее биологических систем.

Очень важно обратить внимание на то, что поток информации не только поднимается по иерархической лестнице, но и опускается по ней. Этот нисходящий поток информации чрезвычайно важен. Например, если мы читаем слева направо и уже увидели и узнали буквы А, Р, Р и L, модуль, ответственный за распознавание слова apple, предскажет, что, скорее всего, в следующей позиции окажется буква E. Он отправит сигнал вниз модулю, ответственному за распознавание буквы E, и сообщит: «будь внимателен, вероятно, очень скоро возникнет образ буквы E». Модуль, распознающий букву E, скорректирует пороговые параметры в соответствии с высокой вероятностью появления буквы E. И если на месте следующей буквы возникает образ, напоминающий E, но искаженный таким образом, что «в нормальных условиях» он не был бы воспринят как E, теперь распознающий модуль узнает в нем E, поскольку таковы были его ожидания.

Таким образом, новая кора предсказывает события. Необходимость предсказания будущего — одна из главных причин появления у нас новой коры. На высшем понятийном уровне мы постоянно осуществляем предсказания — кто сейчас войдет в дверь, что именно скажет этот человек в следующий момент, что мы увидим за углом, какими будут результаты наших действий и т. д. Эти предсказания непрерывно осуществляются в новой коре на всех уровнях иерархии. Мы часто путаем людей, предметы и слова из-за слишком низкого порогового значения для подтверждения ожидаемого образа.

Кроме положительных сигналов, существуют также отрицательные (ингибирующие) сигналы, указывающие на сниженную вероятность появления того или иного образа. Эти сигналы могут поступать с более низкого уровня иерархии (например, если я вижу у человека в очереди усы, понижается вероятность того, что это моя жена) или с более высокого уровня (например, я знаю, что моя жена отправилась в путешествие, поэтому человек в очереди — не она). Когда распознающий модуль получает ингибирующий сигнал, он повышает порог распознавания, но возбуждение все еще возможно (так что, если человек в очереди — действительно моя жена, я все-таки смогу ее узнать).

 

Природа данных, поступающих в распознающие модули новой коры

Давайте более подробно поговорим о том, как кодируются образы. Если образ — это лицо человека, данные о нем представляются как минимум в двух измерениях. Но мы не можем сказать, что первой подается информация, скажем, о глазах, потом о носе и т. д. То же самое относится и к восприятию звука. Музыкальная информация также имеет как минимум два измерения. Пьесу может исполнять не один, а несколько инструментов или голосов. Кроме того, одна нота, исполненная на сложном инструменте, таком как фортепьяно, содержит несколько частот. Голос человека одновременно раскладывается на множество составляющих с разной энергией и частотой. Так что звуковой образ в каждый конкретный момент времени может быть сложным, плюс растягиваться во времени. Тактильные сигналы тоже двумерные, поскольку кожа — двумерный чувствительный орган, и, опять-таки, возможно изменение этих сигналов к третьем, временно м, измерении.

Таким образом, кажется очевидным, что образы передаются на распознающие модули новой коры в виде двумерных или трехмерных сигналов. Однако структура новой коры такова, что входные сигналы не могут иметь больше одного измерения.

Наши исследования в области создания искусственных систем распознавания образов (речевых и зрительных) показывают, что мы можем представлять (и действительно представляем) двумерные и трехмерные явления в виде одномерных списков. О том, как это происходит, я расскажу в седьмой главе, а теперь мы просто должны принять, что входной сигнал на каждый распознающий модуль представляет собой одномерный список, даже если сам образ не является одномерным.

Здесь я должен обратить ваше внимание на тот факт, что образы, которые мы научились распознавать (например, образ конкретной собаки или «собаки» вообще, музыкальную ноту или музыкальную пьесу), организованы в соответствии с тем же самым механизмом, что и наши воспоминания. Наши воспоминания на самом деле представляют собой организованные в виде списков образы (и каждый пункт в каждом списке соответствует отдельному образу в иерархии новой коры), которые мы выучили и распознали под действием соответствующего стимула. Воспоминания хранятся в новой коре, чтобы быть узнанными.

Единственное исключение из этого правила относится к низшему понятийному уровню, на котором входные сигналы образа несут специфическую сенсорную информацию (например, изображение, поступающее от зрительного нерва). Однако даже этот образ низшего уровня в значительной мере трансформируется в более простые образы к моменту его поступления в кору головного мозга. Списки образов, составляющих воспоминание, организованы в хронологическом порядке, и мы можем «вспомнить наши воспоминания» только в этом порядке, вот почему нам бывает трудно обратить нашу память вспять.

Воспоминание возникает в ответ на какую-либо мысль или другое воспоминание (что одно и то же). Действие этого механизма запуска воспоминания можно пронаблюдать на примере восприятия образа. Если мы различили буквы А, Р, Р и L, образ слова APPLE предсказывает, что мы сейчас увидим букву E, и запускает образ E, который теперь является ожидаемым. Таким образом, наша новая кора «думает», что видит букву E, еще до того, как мы ее увидели на самом деле. Если такое конкретное взаимодействие в коре привлекло наше внимание, мы будем думать о букве E до того, как увидим ее, и даже если ее не увидим. Аналогичный механизм запускает воспоминания.

Обычно существует целая цепочка подобных связей. Даже если нам кажется, что мы понимаем, какие воспоминания (то есть образы) вызвали в памяти старые воспоминания, следует понять, что воспоминания (образы) не имеют языковых или визуальных ярлыков. Вот почему иногда кажется, что старые воспоминания возникают внезапно. Возможно, они хранились, не активируясь, годами и были запущены по тому же механизму, как страничка в Интернете активируется по ссылке. И, подобно страничке в Интернете, которая может остаться «сиротой», если больше нет других страниц, дающих на нее ссылку, то же может происходить и с нашими воспоминаниями.

Наши мысли активируются направленным или ненаправленным образом в соответствии с описанными выше кортикальными связями. При ненаправленной активации эти связи действуют самостоятельно, то есть мы не пытаемся направить их в какую-то определенную сторону. Например, по такому принципу осуществляются некоторые виды медитации (в частности, практикуемая мной трансцендентальная медитация). Так же устроены сны.

При направленном способе мышления мы пытаемся пойти более упорядоченным путем, вызывая воспоминание (например, какую-то историю) или решая проблему. Однако и в одном, и в другом случае нам приходится пробираться сквозь списки образов, хранящихся в нашей новой коре. Таким образом, общий ход нашей мысли — весьма разупорядоченный процесс, ярко отраженный Джеймсом Джойсом в его манере «потока сознания».

Когда мы мыслим, используя наши воспоминания (истории или образы) — касаются ли они встреченной на прогулке молодой мамы с ребенком в коляске или первого знакомства с собственной женой, — эти воспоминания состоят из последовательностей образов. Поскольку образы не помечены словами, звуками или картинками, при попытке вспомнить какое-то событие нам приходится восстанавливать изображения в голове, поскольку никаких реальных изображений не существует.

Если бы мы захотели «прочесть» чьи-то мысли и точно описать, что же происходит в новой коре, было бы чрезвычайно сложно интерпретировать воспоминания этого человека — вне зависимости от того, были бы это хранящиеся в коре образы, ожидающие того момента, когда их вызовут в качестве воспоминаний, или те, которые в данный момент активно обрабатываются в виде текущих мыслей. Мы бы «увидели» одновременную активацию миллионов распознающих модулей. Через сотую долю секунды мы бы обнаружили, что активирован другой набор примерно такого же числа модулей. Каждый такой образ был бы списком других образов, а каждый из тех — списком третьих и так далее до самых примитивных образов на самом нижнем уровне. Было бы чрезвычайно сложно определить, что означают образы высоких порядков, если не скопировать всю информацию на каждом уровне новой коры. Таким образом, каждый образ в коре имеет какое-то значение исключительно в свете всей информации, находящейся ниже него на иерархической лестнице. Более того, другие образы того же уровня и более высоких уровней тоже важны для интерпретации конкретного образа, поскольку обеспечивают контекст для его интерпретации. Поэтому истинное чтение мыслей требовало бы не только поиска активированных аксонов в голове человека, но и анализа всей новой коры со всеми воспоминаниями, что помогло бы интерпретировать активацию аксонов.

Когда речь идет о нас самих, мы «знаем», что означают наши мысли или воспоминания, но они не существуют в виде легко объяснимых мыслей или наборов изображений. Если мы хотим поделиться ими с другими людьми, нам нужно облечь их в речевую форму. Эту задачу тоже выполняет новая кора с помощью распознающих модулей, натренированных на образах, которыми мы пользуемся для речевого общения. Язык сам по себе обладает строгой иерархией и эволюционировал таким образом, чтобы использовать иерархическую природу новой коры, которая, в свою очередь, отражает иерархическую природу реальности. Врожденная способность человека познавать иерархическую структуру языка, о которой писал Ноам Хомский, отражает структуру новой коры. В статье 2002 г. Хомский называет рекурсию уникальной особенностью человеческой речи. Согласно Хомскому, рекурсия — это способность соединить мелкие элементы в более крупный элемент, а затем использовать этот более крупный элемент в качестве составной части еще одной структуры, и так до бесконечности. Действуя по такому принципу, мы можем выстраивать сложные структуры предложений, фраз и абзацев из ограниченного набора слов. Хотя Хомский в этой статье не говорил о структуре мозга, описанная им функция — именно то, что делает новая кора.

Низшие виды млекопитающих активно используют новую кору в своей каждодневной жизни. Люди приобрели дополнительные способности благодаря значительному увеличению размера коры в связи с формированием устного и письменного языка. Одни люди владеют этими способностями лучше, другие хуже. Если мы вынуждены пересказать какую-то историю много раз подряд, мы начнем заучивать фразы в виде набора отдельных предложений. Но даже в этом случае наши воспоминания являются не прямой последовательностью слов, а скорее языковыми структурами, которые мы должны переводить в специфические фразы при каждом пересказе. Вот почему всякий раз мы пересказываем историю чуточку иначе (если только не заучиваем точную последовательность слов как единый образ).

При описании специфических мыслительных процессов нельзя забывать об избыточности коры. Как я уже говорил, важные элементы нашей жизни, вне зависимости от того, относятся ли они к категории ощущений, речи или воспоминаний, записаны в нашей голове не по одному разу. Каждый важный образ на каждом уровне повторяется множество раз. В некоторых случаях это простые повторы, а иногда — те же образы, но в другом ракурсе. Именно поэтому мы можем узнать знакомое лицо в разной ориентации и при разной освещенности. Избыточность характерна для каждой ступени иерархической лестницы, что позволяет распознавать различные вариации образов и понятий.

Итак, если бы мы захотели изучить процессы в нашей новой коре, например, в тот момент, когда смотрим на любимого человека, мы бы обнаружили множество возбужденных аксонов распознающих модулей всех уровней — от модулей, распознающих самые простые чувственные образы, до многих других, распознающих изображение близкого человека. Мы бы также обнаружили возбуждение многих других клеток, реагирующих на различные аспекты ситуации: движения человека, его слова и т. д. Таким образом, картина гораздо шире, чем просто упорядоченное перемещение по иерархической лестнице.

Компьютерная симуляция одновременного возбуждения множества распознающих модулей новой коры.

Но общий механизм иерархического сопряжения распознающих модулей, при котором каждый более высокий концептуальный уровень отвечает за более абстрактное и интегрированное понятие, все же справедлив. Еще активнее осуществляется передача информации в обратном направлении, поскольку активированные распознающие модули каждого уровня посылают предсказательные сигналы нижестоящим модулям, сообщая о приближающемся событии. Кажущееся богатство человеческого опыта объясняется тем, что все сотни миллионов распознающих модулей нашей новой коры одновременно обрабатывают поступающие к ним сигналы.

В пятой главе мы поговорим о том, как тактильная, зрительная, звуковая и другая информация, полученная с помощью наших органов чувств, передается в новую кору. Эти исходные сигналы обрабатываются отделами коры, специально предназначенными для восприятия соответствующих импульсов (хотя функциональность различных областей мозга чрезвычайно пластична, что связано с универсальностью механизмов действия новой коры). Понятийная иерархия продолжается и за пределами наивысших понятий в каждой сенсорной зоне новой коры. В ассоциативных зонах коры происходит интеграция сигналов от различных чувствительных органов. Когда человек слышит что-то, напоминающее голос его жены, и видит что-то, что может говорить о ее присутствии, он не прибегает к сложным логическим умозаключениям, а на основании сочетания этих чувственных образов тотчас понимает, что жена где-то рядом. Он интегрирует все сенсорные и перцептивные доказательства — возможно, даже запах духов — в виде единого многоуровневого ощущения.

На уровне выше ассоциативных зон коры мы можем воспринимать, запоминать и осмысливать еще более сложные абстрактные понятия. На высшем понятийном уровне мы воспринимаем такие образы, как «это хорошо», «она привлекательна», «это забавно» и т. д. Наша память сохраняет эти абстрактные образы наравне с другими. Например, мы можем вспомнить, что говорили с какой-то женщиной, она сказала что-то забавное и мы смеялись, хотя не можем вспомнить, в чем именно заключалась шутка. Память сохранила наше ощущение смешного, но не содержание разговора.

В предыдущей главе я обратил внимание на то, что часто нам удается распознать образ, даже если мы не в состоянии его описать. Например, мне кажется, я смог бы выбрать из набора фотографий разных женщин фотографию той женщины с коляской, которую встретил на прогулке, хотя и не могу ее как следует себе представить или описать. В данном случае моя память о ней представляет собой список некоторых образов высокого уровня иерархии. Эти образы не имеют никаких речевых или зрительных пометок и не выражаются пикселами, поэтому я могу думать о ней, но не могу ее описать. Однако, если мне показать фотографии, мысленная обработка визуальной картинки приведет к узнаванию тех образов высокого уровня иерархии, которые были зарегистрированы при первой встрече. Так я смогу найти совпадение и выбрать ее фотографию среди других.

Даже если я встретил эту женщину на прогулке всего один раз, вполне возможно, что в моей новой коре сохранилось несколько копий ее образа. Однако, если я не думаю о ней какое-то время, соответствующие распознающие модули займутся обработкой других образов. Вот почему со временем воспоминания стираются: избыточность сокращается, и в какой-то момент некоторые воспоминания исчезают. Тот факт, что я написал об этой женщине в книге, скорее всего, позволит мне сохранить более устойчивое воспоминание о ней.

 

Самоассоциация и инвариантность

В первой главе я уже писал о том, что нам удается распознать образ, даже если он представлен не целиком или в искаженном виде. Первая способность, называемая самоассоциацией, заключается в умении ассоциировать образ и его часть. Структура каждого распознающего модуля позволяет реализовать эту функцию.

В процессе распознавания каждый сигнал поднимается от распознающего модуля более низкого уровня к модулю более высокого уровня, и эта связь имеет определенный «вес», указывающий на важность этого конкретного элемента в общем образе. Более важные элементы имеют больший вес при распознавании образа. Таким образом, бородка Линкольна, бачки Пресли и знаменитый высунутый язык Эйнштейна, по-видимому, имеют большой вес в тех образах, с которыми у нас ассоциируются эти знаменитости. Распознающие модули рассчитывают фактор вероятности, учитывающий параметр значимости элемента. Таким образом, общая вероятность распознавания снижается, если один или несколько элементов отсутствуют, но порог узнавания все же может быть преодолен. Как я уже говорил, расчет общей вероятности присутствия образа сложнее, чем расчет просто взвешенной суммы, в которой величина параметров тоже учитывается.

Если распознающий модуль получил сигнал от модуля более высокого уровня об «ожидании» образа, пороговое значение понижается (то есть его легче достичь). В альтернативном варианте такой сигнал может просто прибавляться к остальным входным сигналам, компенсируя недостающий элемент. Это происходит на всех уровнях, так что такой образ, как лицо, находящийся на несколько уровней выше базового, может быть распознан даже при отсутствии нескольких элементов.

Способность распознавать трансформированные образы называется инвариантностью и реализуется четырьмя способами. Во-первых, важные превращения образа происходят до того, как сигналы попадают в новую кору. О передаче сигнала от кожи, глаз и ушей мы поговорим в разделе «Сенсорное восприятие».

Второй способ основан на избыточности информации, хранящейся в новой коре. Особенно если речь идет о важных или распространенных вещах, мы многократно встречаемся с разными вариантами и ракурсами одного и того же образа. Поэтому в новой коре независимо хранится и обрабатывается множество вариантов таких образов.

Третий и самый мощный способ заключается в способности объединять два списка. В одном может содержаться набор трансформаций, которые способны происходить с определенной категорией образов. Новая кора применит этот список возможных трансформаций к другому образу. Именно так мы понимаем речевые приемы типа метафор и сравнений.

Например, мы постепенно узнаём, что некоторые фонемы в разговорной речи могут выпадать (например, «кода» вместо «когда»). Если затем мы слышим другое слово (например, «всегда»), то узнаём его, даже если в нем отсутствует одна из фонем («вседа»), поскольку уже знакомы с явлением выпадения некоторых фонем. Другой пример. Мы знаем, что какой-то актер любит подчеркивать (увеличивать) размеры части лица (например, носа). Это позволяет нам узнать знакомое лицо, с которым проделан такой же трюк, даже если раньше с этим лицом подобные модификации не производились. Некоторые варианты актерского грима подчеркивают те самые черты, которые распознаются распознающими модулями новой коры. На этом же строится прием карикатуры.

Четвертый метод основан на величине параметров и позволяет одному модулю кодировать множество примеров образа. Например, мы много раз слышали слово steep. Модуль, ответственный за распознавание этого слова в речи, может кодировать множество примеров его произношения с разной длительностью [E]. Если все модули, распознающие слова с [E], обладают этим общим свойством, такая вариабельность должна быть зарегистрирована в самом образе [E]. Однако разные слова с этим звуком (а также со многими другими фонемами) могут различаться по параметру ожидаемой вариабельности. Например, слово peak (читается «пик») не содержит фонемы [E], как в слове steep.

 

Обучение

До сих пор мы говорили о том, как мы распознаём (сенсорно-перцептивными методами) образы и вызываем в памяти последовательности образов (наши воспоминания о вещах, людях или событиях). Однако, когда мы родились, ничего этого в нашей новой коре не было. При формировании мозга новая кора девственно чиста. Она обладает способностью учиться и, следовательно, создавать связи между распознающими модулями, но все эти связи появляются только с опытом.

Процесс обучения начинается еще до нашего рождения — одновременно с биологическими процессами в развивающемся мозге. У месячного зародыша уже есть головной мозг, хотя он пока еще напоминает мозг рептилии, поскольку в процессе внутриутробного развития зародыш в ускоренном темпе проходит все этапы эволюции. К третьему триместру беременности мозг плода — уже очевидно человеческий мозг с человеческой новой корой. В этот период плод набирается определенного опыта, и его новая кора обучается. Он слышит звуки, особенно сердцебиение матери, кстати, это одна из возможных причин, объясняющих ритмичность музыки во всех человеческих культурах. Музыка является составной частью культуры всех известных на сегодня человеческих цивилизаций, чего нельзя сказать о других видах искусства, например о живописи. Кроме того, музыкальные ритмы сравнимы с ритмом нашего сердца. Конечно, музыкальные ритмы сильно различаются, иначе было бы неинтересно, но и ритмы сердца тоже различаются. Между прочим, абсолютно регулярное биение сердца является симптомом заболевания. Через 26 недель после зачатия глаза плода начинают открываться, а через 28 недель — практически постоянно открыты. Внутри матки мало интересного, но новая кора плода начинает распознавать образы света и темноты.

Таким образом, опыт новорожденного ребенка весьма ограничен. Новая кора может учиться и у старого мозга (мы поговорим об этом в четвертой главе), но, в общем, ребенку предстоит многое узнать, начиная от распознавания самых примитивных звуков и форм и заканчивая метафорами и сарказмом.

Обучение играет важнейшую роль в формировании человеческого разума. Если бы мы смогли создать идеальную модель человеческой новой коры (что и планируется сделать в рамках проекта Blue Brain) и всех других отделов мозга, которые нужны для его функционирования (таких как гиппокамп и таламус), такой мозг мало на что был бы способен — как и мозг новорожденного ребенка (за исключением того, чтобы делать этого ребенка милым, поскольку это важнейшее условие выживания).

Обучение и распознавание происходят одновременно. Мы начинаем обучаться сразу, и как только мы изучили образ, мы сразу же начинаем его узнавать. Новая кора постоянно пытается определить смысл поступающих в нее сигналов. Если какой-то иерархический уровень не справляется со своей задачей и не может полностью идентифицировать образ, сигналы направляются на уровень более высокого порядка. Если же распознавание не происходит ни на одном из уровней, образ воспринимается как новый. Отнесение образа к категории новых образов не обязательно означает, что новыми являются все его элементы. Если мы смотрим на картину какого-то художника и видим на ней кошачью морду со слоновьим хоботом, мы узнаем все элементы, но понимаем, что этот комбинированный образ является новым, и запоминаем его. На более высоких понятийных уровнях иерархии новой коры, воспринимающих контекст (например, что данная картина является плодом творчества конкретного художника и что мы пришли на новую выставку его работ), будет зарегистрирован необычный комбинированный образ слонокота, а все детали контекста сохранятся в виде дополнительных воспоминаний.

Новые вспоминания вроде морды слонокота записываются в доступном распознающем модуле. В этом процессе задействован гиппокамп, и о том, как все происходит на самом деле, мы поговорим в следующей главе. В рамках обсуждаемой модели новой коры достаточно сказать, что неопознанные образы сохраняются в виде новых образов и связаны с составляющими их образами более низкого уровня. В частности, морда слонокота записывается несколькими способами: регистрируется новое расположение черт, а также имя художника, ситуация, возможно, наше воспоминание о том, как мы смеялись, впервые увидев картину.

Успешно распознанные воспоминания также могут сформировать новый образ, позволяющий дополнительно увеличить избыточность информации. Если же образы распознаны недостаточно хорошо, они, скорее всего, сохраняются как варианты распознанного образа в новом ракурсе.

Каким же методом в целом можно определить, какие образы сохраняются? На языке математики проблема формулируется так: как оптимальным образом представить входные сигналы, которые уже встречались ранее, чтобы не превышать доступной емкости новой коры? Некоторая избыточность необходима, но было бы нерационально заполнять все отпущенное для хранения информации пространство (то есть всю новую кору) повторяющимися образами, поскольку в таком случае сокращается разнообразие запоминаемых образов. Например, образ звука [и] мы встречали бесконечное число раз. Это простой образ звуковой частоты, который, несомненно, представлен в коре с очень большой избыточностью. Мы можем заполнить всю кору повторами образа звука [и], однако полезная избыточность имеет пределы, которые в случае такого распространенного образа, конечно же, были достигнуты.

Подобная математическая проблема оптимизации решается с помощью так называемого линейного программирования, позволяющего наилучшим образом использовать ограниченные ресурсы (в нашем случае — ограниченное число распознающих модулей) для представления всех примеров, на которых отрабатывалась модель. Метод линейного программирования был разработан для систем с одноразмерными входными параметрами, и это еще одна причина, по которой она оптимально подходит для описания линейной последовательности входных сигналов. Мы можем использовать этот математический подход для создания компьютерных программ, и хотя реальный мозг ограничен имеющимися физическими связями, которые он распределяет между распознающими модулями, метод тем не менее очень похожий.

Важным результатом подобной оптимизации является то, что постоянно встречающиеся образы распознаются, но не приводят к возникновению стойких воспоминаний. На утренней прогулке я пережил множество впечатлений, распознаваемых на всех иерархических уровнях, — от простых видимых углов и теней до более сложных объектов, таких как фонарные столбы, почтовые ящики, люди, животные и растения. Скорее всего, ни один из них не был уникален, и распознанные мной образы уже давно достигли оптимального уровня избыточности. В результате у меня не осталось практически никаких воспоминаний об этой прогулке. Те немногие детали, которые я запомнил, по-видимому, были вытеснены записанными поверх них новыми образами, зарегистрированными мозгом во время следующих прогулок, а эту конкретную прогулку я запомнил лишь по той причине, что написал о ней в книге.

Один важный аспект касательно функционирования нашей новой коры и попыток ее моделирования заключается в трудности одновременного постижения образов, относящихся сразу ко многим понятийным уровням. Вообще говоря, мы можем одновременно осваивать один, максимум два уровня. Если процесс обучения проходит стабильно, мы можем переходить на следующий уровень. Мы можем продолжать более тонкую настройку нижних уровней, но сфокусированы на следующем более высоком уровне абстракции. Это справедливо как в самом начале жизни, когда новорожденный ребенок осваивает основные формы и предметы, так и впоследствии, когда мы осваиваем новые материи — один уровень сложности за раз. То же самое можно сказать и о компьютерном моделировании новой коры. Если машине представлять материал в порядке увеличения абстрактности — за один раз один уровень, машины способны обучаться точно так же, как обучается человек (хотя пока не воспринимают такого множества понятийных уровней).

Выходные сигналы от каких-то распознающих модулей могут идти обратно к образам более низкого уровня или возвращаться к тем же самым образам, что объясняет мощную рекурсивную способность человеческого мозга. Отдельный элемент образа может быть точкой принятия решений для другого образа. Это особенно полезно для списков, в состав которых входят действия: например, нужно взять новый тюбик зубной пасты, если закончился старый. Такие условные зависимости существуют на всех уровнях. Каждый, кто пытался создать компьютерную программу, знает, что условные зависимости — обязательный элемент для описания последовательности действий.

 

Язык мысли

Чтобы суммировать все то, что мы узнали о функционировании новой коры, вернитесь, пожалуйста, к диаграмме «Распознающий модуль новой коры» в начале данной главы (см. рис. 8).

А. Дендриты входят в модуль, распознающий конкретный образ. Даже если образы кажутся двумерными или трехмерными, они представляются в виде одномерных последовательностей сигналов. Чтобы произошло распознавание, образ должен быть представлен в виде такой последовательности. Каждый дендрит связывается с одним или несколькими аксонами распознающих модулей более низкого понятийного уровня, распознавших более простые образы, являющиеся частью данного образа. Для каждого входного сигнала может существовать несколько модулей более низкого уровня, способных генерировать сигналы. Необходимое для распознавания образа пороговое значение вероятности может быть достигнуто даже в том случае, если получены не все входные сигналы. Модуль рассчитывает вероятность присутствия образа, за распознавание которого он отвечает. Этот расчет основан на параметрах «значимости» и «величины» сигналов (см. ниже).

Обратите внимание, что одни дендриты передают сигналы в модуль, а другие — из модуля. Если все дендриты, входящие в распознающий модуль, сигнализируют о том, что распознаны все образы более низкого уровня, за исключением одного или двух, распознающий модуль отправит нисходящие сигналы в модули, ответственные за распознавание этих оставшихся неузнанными образов, с указанием высокой вероятности того, что образ скоро будет распознан и что эти модули более низкого порядка должны быть к этому готовы.

Б. Когда распознающий модуль узнаёт соответствующий образ (на основании активации всех или большинства входных дендритов), активируется выходной аксон этого распознающего модуля. Этот аксон, в свою очередь, может сообщаться со всей сетью дендритов, ведущих ко многим распознающим модулям более высокого порядка, для которых данный образ является входным сигналом. Сигнал и его величина учитываются распознающими модулями следующего уровня.

В. Если распознающий модуль более высокого уровня получает положительные сигналы ото всех или от большинства составляющих образов, за исключением сигнала от данного конкретного распознающего модуля, распознающий модуль более высокого уровня может послать нисходящий сигнал этому модулю, указывая на большую вероятность «ожидания» соответствующего образа. Этот сигнал заставляет распознающий модуль понизить пороговые параметры, в результате чего он с большей вероятностью передает по своему аксону положительный сигнал (что означает, что соответствующий образ распознан), даже если некоторые из входных сигналов отсутствуют или сомнительны.

Г. Ингибирующие сигналы снизу понижают вероятность распознавания модулем соответствующего образа. Это может происходить в результате распознавания на более низком уровне образов, несовместимых с образом, за который отвечает данный распознающий модуль (например, распознавание усов снижает вероятность того, что увиденное мной лицо принадлежит «моей жене»).

Д. Ингибирующие сигналы сверху тоже могут снижать вероятность распознавания образа соответствующим модулем. Это может происходить при распознавании образа более высокого порядка сложности, который несовместим с образом, распознанным данным модулем.

E. Каждому сигналу соответствует ранее определенный набор параметров, таких как значимость, ожидаемая величина и ожидаемая вариабельность. Распознающий модуль рассчитывает общую вероятность присутствия образа на основании значений всех этих параметров для входных сигналов. Оптимальный математический метод решения данной задачи называется методом скрытых моделей Маркова. Если такие модели организованы иерархическим образом (как в новой коре или в математических моделях, воспроизводящих ее функции), мы называем их иерархическими скрытыми моделями Маркова.

Распознавание корой одних образов запускает распознавание следующих. Частично распознанные образы посылают нисходящие сигналы, полностью распознанные образы — восходящие сигналы. Эти распознанные новой корой образы являются языком мышления. Как и разговорный язык, язык мышления имеет иерархическую структуру, но не является «языком» в обычном понимании. Поначалу наши мысли не выражены словами, однако, поскольку речь тоже формируется в новой коре в виде иерархических образов, у нас бывают и мысли, основанные на языковых образах. Однако по большей части мысли выражаются неязыковыми образами.

Как я уже отмечал ранее, даже если бы мы умели регистрировать активацию образов в новой коре живого человека, мы все равно не смогли бы определить значение этих образов, если бы не имели доступа к полной иерархической системе вышестоящих и нижестоящих образов. Это сильно затрудняет доступ к мыслительному процессу другого человека. Достаточно сложно понять содержание наших собственных мыслей, а для понимания мыслей другого человека требуется овладеть его новой корой. Конечно же, пока нам это недоступно. Пока нам приходится использовать способность другого человека выражать свои мысли с помощью речи (а также других средств, включая жесты). Учитывая недостаточную способность людей справляться с этой задачей, нет ничего удивительного в том, что мы зачастую плохо понимаем друг друга.

У нас два способа мышления. При ненаправленном способе мышления мысли подталкивают друг друга нелогичным образом. Иногда, когда мы заняты чем-то отвлеченным, например сгребаем опавшие листья или просто идем по улице, у нас неожиданно возникают воспоминания о том, что мы делали несколько лет или десятилетий назад. Мы не можем немедленно восстановить в памяти те события, не прибегая к множеству других воспоминаний, которые помогают нам воссоздать более слаженную картину. Если нам удается воссоздать визуальное изображение давно забытой сцены, это происходит в настоящий момент, поскольку память не хранит визуальные образы или изображения. Как я уже говорил, не всегда очевидно, какие стимулы вызывают у нас в голове появление подобных мыслей. Последовательность мыслей, вызвавших воспоминание, может быть немедленно забыта. Но если даже нам удастся ее восстановить, это окажется нелинейная, кружная последовательность ассоциаций.

Второй способ — направленное мышление, которое мы используем для решения задач или формулировки логичного ответа. Например, так мы готовимся кому-то что-то сказать или формулируем в уме фразу, которую собираемся написать (например, в книге о разуме). Когда мы обдумываем подобную проблему, мы расчленяем ее на иерархические составляющие. Например, чтобы написать книгу, нужно написать отдельные главы. Каждая глава строится из разделов, разделы состоят из параграфов, параграфы — из предложений, в которых сформулированы идеи. Каждая идея построена из нескольких элементов в определенной конфигурации. Все элементы идеи и все связи между элементами тоже должны быть произнесены. Кроме того, наша новая кора действует по определенным правилам. Если мы выполняем письменную работу, нужно постараться избегать ненужных повторений, обеспечить читателю возможность следить за ходом изложения, использовать грамматические и стилистические правила и т. д. Следовательно, писатель должен создать в своей голове образ читателя, и этот образ также является иерархическим. При направленном мышлении мы продвигаемся по спискам новой коры, каждый из которых, в свою очередь, состоит из подсписков, а те — из еще более простых наблюдений. Помним также, что элементы списков могут содержать условные зависимости, так что наши мысли и действия зависят от оценок, сделанных в ходе мыслительного процесса.

Кроме того, каждая направленная мысль запускает иерархический путь ненаправленного мышления. Происходит постоянный наплыв воспоминаний, связанных как с нашим чувственным опытом, так и с нашими попытками направленного мышления. Наш мыслительный опыт сложен и запутан и состоит из наплывов образов, изменяющихся сотни раз в секунду.

 

Язык снов

Сны — пример ненаправленных мыслей. В них есть некий смысл, поскольку одни мысли запускают другие в соответствии с реальными связями между образами, хранящимися в новой коре. Неосмысленные элементы снов мы пытаемся зафиксировать с помощью нашей способности к конфабуляции (фантазии). Как я расскажу в девятой главе, больные с расщепленным мозгом (при поражении мозолистого тела, связывающего между собой полушария мозга) прибегают к конфабуляциям (с помощью левого полушария, контролирующего речевой центр) для объяснения того, что делает с полученными сигналами правое полушарие, к которому у левого полушария нет доступа. Мы постоянно прибегаем к конфабуляциям для объяснения исхода различных событий. Хотите яркий пример — просто прослушайте дневные комментарии по поводу состояния финансовых рынков. Вне зависимости от того, как изменяется ситуация на рынках, всегда можно найти причины этих изменений. И примеров подобных комментариев можно привести множество. Если бы комментаторы действительно понимали ситуацию, они не тратили бы время на составление подобных комментариев.

Конечно же, за конфабуляции тоже отвечает новая кора; они возникают в тех случаях, когда мы встречаемся с некоторыми трудностями при пересказе каких-то историй или объяснении каких-то фактов. Мы заполняем свой рассказ недостающими или забытыми подробностями, и он становится более осмысленным. Вот почему истории в устах разных рассказчиков, возможно, имеющих разные намерения, изменяются со временем. Однако с появлением письменного языка у нас появилась возможность фиксировать окончательную версию истории и предотвращать подобные вариации.

Истинное содержание сна в том виде, в каком мы его запоминаем, опять-таки представляет собой последовательность образов. Образы составляют основу истории, а мы дополняем ее конфабуляциями, ограниченными существующими образами. Эта фантазия и есть та версия сна, которую мы можем пересказать или вспомнить. Пересказывая сон, мы запускаем каскад образов, дополняющих наш сон в том виде, в каком мы увидели его изначально.

В этом заключается одно из ключевых различий между нашими мыслями во сне и при бодрствовании. В процессе жизни мы узнаём, что существуют действия и даже мысли, недопустимые в реальном мире. Например, мы узнаём, что не можем немедленно осуществить свои желания. Закон запрещает вытаскивать деньги из кассы в магазине или вступать в связь с любым человеком, который просто показался физически привлекательным. Мы узнаём, что какие-то мысли недопустимы ввиду культурных ограничений. Когда мы приобретаем профессиональные навыки, мы учимся мыслить таким способом, который признаётся и вознаграждается в нашей профессии, и привыкаем избегать того образа мыслей, что может нарушать нормы и методы профессии. Многие из этих табу имеют смысл, поскольку поддерживают социальный порядок и способствуют прогрессу. Но они могут и тормозить прогресс, усиливая непродуктивный консерватизм. Именно такой консерватизм преодолел Эйнштейн, когда в своих мысленных экспериментах попытался прокатиться на световом луче.

Культурные правила закрепляются в новой коре с помощью старого мозга, особенно миндалевидной железы. Каждая наша мысль запускает другие мысли, и некоторые из них связаны с определенной опасностью. Например, мы узнаём, что нарушение культурных норм даже в нашей частной жизни, может при вести к остракизму, и новая кора понимает, что это опасно для нашего благополучия. Если у нас рождается подобная мысль, начинает работать миндалевидная железа, вызывая страх, и мысль прерывается.

Однако во сне табу ослаблены, и нам часто снится нечто запрещенное в культурном, сексуальном или профессиональном плане. Как будто наш мозг понимает, что во сне мы не являемся реальными действующими лицами. Об этом писал Фрейд, который также отмечал, что мы прячем опасные мысли, по крайней мере, когда пытаемся их вспомнить, так что проснувшийся мозг продолжает быть защищенным.

Ослабление профессиональных табу может быть полезным для творческого решения проблем. Каждый вечер перед тем, как идти спать, я думаю о какой-либо специфической задаче. Это запускает последовательность мыслей, которая продолжается во сне. Во сне я могу обдумывать — видеть во сне — решение задачи, не ограничивая себя теми профессиональными табу, что действуют днем. Утром между сном и пробуждением я могу вспомнить эти мысли; такое состояние иногда называют «осознанными сновидениями».

Всем известно, что Фрейд писал о возможности понять психологию человека путем интерпретации его снов. О различных аспектах этой теории существует обширная литература, но основное положение о возможности изучения самих себя путем анализа собственных мыслей вполне осмысленно. Наши сны создаются в новой коре, поэтому отражают ее содержимое и имеющиеся в ней связи. Ослабление мыслительных запретов, действующих при бодрствовании, тоже полезно для анализа содержимого коры, к которому в противном случае мы не имели бы прямого доступа. Резонно предположить также, что образы, формирующие наши сны, важны для нас и поэтому являются ключом к пониманию наших скрытых страхов и желаний.

 

Суть модели

Как я уже говорил ранее, в 1980–1990-х гг. я руководил группой исследователей, пытавшихся применить метод иерархических скрытых моделей Маркова для распознавания и понимания человеческой речи. Эта работа предшествовала появлению широко распространенных сегодня коммерческих систем, распознающих и понимающих нашу речь (автомобильных навигационных систем, Сири в айфонах и многих других). Созданная нами технология строилась практически по тем же принципам, что реализуются при мысленном распознавании образов. Она также была основана на иерархии образов, при которой каждый более высокий уровень отличался от нижестоящего уровня большей абстрактностью. Например, в системе распознавания речи основные образы звуковой частоты формировали нижние уровни, за ними следовали фонемы, затем слова и фразы (часто распознававшиеся так, как будто были словами). Некоторые системы распознавания речи могут понимать речевые команды и в таком случае включают в себя еще более высокие иерархические уровни, содержащие такие структуры, как именные и глагольные группы. Каждый распознающий модуль умеет распознавать линейную последовательность образов с нижестоящего понятийного уровня. Каждый входной сигнал характеризуется значимостью, величиной и вариабельностью величины. Существуют также и нисходящие сигналы, указывающие на ожидание образа низшего уровня. Подробнее я расскажу об этих исследованиях в седьмой главе.

В 2003 и 2004 гг. создатели карманного персонального компьютера Джеф Хокинс и Дайлип Джордж сформировали иерархическую модель коры, названную временной иерархической памятью. В соавторстве с писательницей Сандрой Блейксли Хокинс описал эту модель в книге «Об интеллекте» (On Intelligence). Хокинс доказывает универсальность алгоритма действия коры и ее иерархической организации в виде списков. Между моделью Хокинса и моделью, которую предлагаю вам я в своей книге, есть несколько существенных различий. Как следует из названия модели, Хокинс настаивает на временной (основанной на времени) природе списков. Другими словами, списки составляются всегда в одном и том же направлении — вперед во времени. Наличие временного направления у элементов двумерных образов, таких как печатная буква «А», он объясняет движением глаз. Он объясняет, что мы визуализируем изображения при помощи саккад — очень быстрых непроизвольных движений глаз. Таким образом, информация поступает в новую кору не в виде двумерных наборов данных, а скорее в виде списков организованных во времени элементов. Это правда, что наши глаза совершают очень быстрые движения, однако они не всегда видят элементы образов (таких как буква «А») в последовательном временном порядке. Например, глаза не обязательно сначала регистрируют верхний угол буквы «А», а затем ее нижнюю часть. Кроме того, мы способны распознать зрительный образ, видимый лишь на протяжении нескольких десятых миллисекунды, а за это время саккадные движения глаз просто не успевают его просканировать. Верно, что распознающий модуль новой коры сохраняет образ в виде списка и что список этот хранится в соответствии с определенным порядком, только порядок этот не обязательно временной. Он действительно может быть временным, но также может быть пространственным или понятийным, как я объяснял выше.

Но самое главное различие между моделями заключается в наборе параметров, с помощью которых я характеризую каждый сигнал, входящий в распознающий модуль, в частности параметров величины и ее вариабельности. В 1980-х гг. мы пытались распознавать человеческую речь без учета информации подобного рода. Тогда лингвисты уверяли нас, что информация о длительности сигнала не играет решающей роли. Такой подход используется в словарях, в которых произношение каждого слова передается в виде последовательности фонем. Например, слово steep записывается как последовательность звуков [s], [t], [E] и [p] без указания ожидаемой длительности каждой фонемы. В результате, если созданная нами программа, способная распознавать фонемы, встречает в речи эту специфическую последовательность четырех фонем, она сможет распознать слово. Созданная по такому принципу программа работала, но недостаточно хорошо, чтобы справляться с большим набором слов, распознавать речь нескольких говорящих или слова, произнесенные без пауз. Качество программы выросло в значительной степени, когда мы с помощью иерархических скрытых моделей Маркова ввели для каждого входного сигнала параметр распределения величины.