В результате тестирования программного обеспечения (ПО) для распознавания лиц выяснилось, что сразу три системы дают около 1% ошибок при распознавании светлокожих мужчин и около 30% ошибок — при идентификации темнокожих женщин. Все эти программы активно используются в бизнесе и разработке других интеллектуальных систем.

Согласно исследованиям, проведенным учеными Стэнфорда и Массачусетского технологического института (МТИ), три интеллектуальные системы идентификации, основанные на распознавании лица, предвзято относятся к цвету кожи и полу. Все эти программы коммерческие и активно рекламируются на рынке ПО.

В ходе экспериментов выяснилось, что количество ошибок распознавания пола светлокожих мужчин никогда не превышает 0,8%. Однако при идентификации женщин с темным цветом кожи количество ошибок резко возрастает и достигает 20% в одной серии экспериментов, и 34% — в двух других.

Возникает закономерный вопрос: каким же образом обучаются современные нейросети, которые должны анализировать большие объемы данных и выявлять закономерности?

Ранее ученые одной из ведущих технологических компаний США заявили о 97-процентной точности распознавания лиц разработанной ими системой. Тем не менее набор данных, на основе которого оценивалась точность ПО, на 77% состоял из мужчин и более чем на 83% — из людей со светлой кожей.

«В этом вопросе важнее всего то, какой используется метод и насколько он подходит для применения в той или иной сфере, — говорит Джой Буоламвини, исследователь интеллектуальных систем в лаборатории МТИ. — Методы, основанные на анализе данных, которые используются для определения пола, в равной степени применяются и для поиска преступников, и для разблокирования телефона. И речь идет не только о технических возможностях машинного зрения. Необходимо более детально исследовать работу ПО в привязке к сфере применения, чтобы сократить число ошибок».

Люди без лиц

Джой изучала поведение систем по распознаванию лиц совместно с Тимнит Гебру, которая на тот момент была выпускником Стэнфорда, а теперь является научным сотрудником исследовательского центра корпорации Microsoft.

Три программы, которые исследовали Джой и Тимнит, представляют собой универсальные системы распознавания лиц. Они способны найти одного и того же человека на различных фотографиях, определить пол, возраст и настроение по изображению лица. Во всех трех системах при идентификации пола использовалось двоичное решение (мужчина или женщина), и в ходе тестов было предельно просто оценить точность ПО на основе статистики.

Изъяны в работе программ, вероятно, отрицательно сказались и на выполнении других задач. Предвзятость систем отслеживания лиц была обнаружена случайно — в первой программе, которую изучала Джой. Несколько лет назад, будучи еще выпускницей университета и сотрудницей лаборатории, Джой работала над мультимедийной инсталляцией Upbeat Walls. Она позволяла пользователям с помощью движений головы управлять цветными орнаментами, которые проецировались на отражающую поверхность. В системе использовалась коммерческая программа распознавания лица.

В группе сотрудников под управлением Джой были представители различных этнических групп. Сама Джой — негритянка, и благодаря этому обстоятельству выяснилось, что демонстрировать возможности Upbeat Walls на презентации может только человек со светлой кожей.

В системе возникало большое количество ошибок распознавания, когда с ней работали темнокожие пользователи. Тогда Джой решила отправить фотографии своего лица в программы распознавания. Оказалось, что они в большинстве случаев ошибочно определяли ее пол. Иногда ПО вообще не обнаруживало ее лицо на изображении.

Количественные стандарты

Для исследования предвзятости программ Джой составила набор изображений с гораздо большим процентом как людей с темным цветом кожи, так и женщин — по сравнению с выборкой, которая обычно используется для тестирования систем распознавания лица. Получившийся набор содержал более 1200 фотографий.

Затем при содействии врача-дерматолога изображениям были присвоены номера в соответствии с 6-балльной шкалой цвета кожи (от светлого к темному), изначально разработанной для оценки риска солнечного ожога.

После этого Джой протестировала три популярные коммерческие системы распознавания лиц на своем новом наборе данных. Все три программы гораздо чаще ошибались при распознавании пола, когда анализировали фотографии женщин. Анализируя фотографии чернокожих пользователей, ПО также работало гораздо менее эффективно. Для темнокожих женщин с индексом цвета кожи IV, V и VI по шкале Фитцпатрика количество ошибок составило 20,8%, 34,5% и 34,7% соответственно.

В двух системах число ошибок при распознавании лиц женщин с самой темной кожей оказалось еще больше — 46,5% и 46,8%. По сути, при распознавании лиц этих людей система зачастую просто пыталась угадать пол.

«Коммерческая система ошибается каждый третий раз при определении параметра, имеющего всего два возможных значения. Допустимо было бы такое количество ошибок, если бы речь шла о подгруппе со светлым цветом кожи? — рассуждает Джой Буоламвини. — Эта ситуация в очередной раз говорит о том, что стандарты, в соответствии с которыми мы измеряем успех, могут ввести нас в заблуждение».

«Существует область, в которой выборка данных имеет большое влияние на работу всей модели, — говорит Ручир Пури, главный архитектор системы искусственного интеллекта Watson компании IBM. — Наша новая модель гораздо более сбалансирована с точки зрения точности распознавания, нежели та, которую исследовала Джой. В ней содержится полмиллиона изображений. Кроме того, в нашей системе применяется другая, более надежная нейронная сеть».

«Подобная работа занимает очень много времени, — продолжает представитель IBM. — Я исследую эту систему уже примерно 8 или 9 месяцев. Наша новая модель — это не только и не столько реакция на публикацию упомянутого исследования, сколько стремление дать ответ на вопросы, которые были напрямую подняты Джой. Она обнаружила некоторые очень важные моменты, и мы должны сделать так, чтобы они были учтены».