Судя по всему, алгоритмы YouTube воспринимают беседы шахматистов, в которых обсуждаются, к примеру, угрозы черным фигурам, как расистские комментарии.
Это то, что, по подозрению пары исследователей из Университета Карнеги-Меллона в США, произошло с Антонио Радичем, хорватским шахматистом, ведущим популярный канал на YouTube. В прошлом году его аккаунт был заблокирован за «вредный и опасный» контент, пишет eurekalert.
YouTube так и не представил объяснений и восстановил канал в течение 24 часов, сказал Ашикур Р. ХудаБухш, научный сотрудник Института языковых технологий Университета Карнеги-Меллона (CMU). Тем не менее, возможно, что разговор «черное против белого» во время интервью Радича с мастером Хикару Накамурой запускал программное обеспечение, которое автоматически обнаруживает расистские высказывания.
«Мы не знаем, какие инструменты использует YouTube, но если они полагаются на искусственный интеллект для обнаружения расистских высказываний, может произойти такая ситуация», — сказал ХудаБухш. И если это случилось публично с кем-то столь же известным, как Радич, это вполне может происходить незаметно для многих других людей, которые не так хорошо известны.
Чтобы увидеть, возможно ли это, ХудаБухш и Рупак Саркар, инженер-исследователь курса LTI, протестировали два современных классификатора речи — тип программного обеспечения ИИ, которое можно обучить обнаруживать признаки языка ненависти. Они использовали классификаторы, чтобы просмотреть более 680 000 комментариев, собранных на пяти популярных шахматных каналах YouTube.
Затем они случайным образом отобрали 1000 комментариев, которые по крайней мере один из классификаторов пометил как разжигание ненависти. Когда они вручную просмотрели эти комментарии, они обнаружили, что подавляющее большинство — 82% - не содержало языка вражды. По их словам, программа реагировала на такие слова, как черный, белый, нападение и угроза.
Как и в случае с другими программами искусственного интеллекта, которые зависят от машинного обучения, эти классификаторы обучаются на большом количестве примеров, и их точность может варьироваться в зависимости от набора используемых примеров.
Например, Худабухш вспомнил упражнение, с которым он столкнулся в студенческие годы, цель которого заключалась в том, чтобы идентифицировать «ленивых собак» и «активных собак» на наборе фотографий. На многих тренировочных фотографиях активных собак видны широкие просторы травы, потому что бегущие собаки часто находятся на расстоянии. В результате программа иногда определяла фотографии с большим количеством травы как примеры активных собак, даже если на фотографиях не было собак