Любой из языков, на котором говорят люди, немного изменяется со временем. В разговорной речи люди нередко объединяют различные слова, разделяют обычные слова на два слова, сокращают их тем или иным способом. Из-за этого иногда в обычной речи возникают весьма необычные и курьезные обороты, применять которые могут только люди определенного склада и только в определенных ситуациях. Любой человек, независимо от его интеллектуальных способностей, без особого труда может отфильтровать свою речь в зависимости от окружающей ситуации, но это является огромной проблемой для компьютерного искусственного интеллекта, который запрограммирован для общения на естественном языке.
В 1999 году Аарон Пэкхем (Aaron Peckham), который в тот момент являлся студентом Калифорнийского политехнического университета, создал
онлайн-сервис Urban Dictionary. Этот сервис является англоязычным онлайн-словарем в который заносятся сленговые слова и выражения, сопровождаемые словарными определениями. На февраль месяц 2012 года в словаре Urban Dictionary уже содержалось около 6.4 миллиона слов и выражений, среди которых достаточно много "крепких" нецензурных выражений.
У исследователей, занимающихся разработкой и совершенствованием системы искусственного интеллекта
суперкомпьютера Watson компании IBM, появилась замечательная на их взгляд идея "скормить" содержимое словаря Urban Dictionary суперкомпьютеру. По мнению исследователей, такая формализация неофициального языка общения могла бы стать хорошей помощью Watson-у в понимании способа, которым общаются обычные люди, И после недолгих раздумий команда исследователей позволила суперкомпьютеру загрузить словарь Urban Dictionary в его память, произвести обработку и индексацию полученных данных.
Тут же возникла проблема, связанная с тем, что неофициальный язык является "грязным" и грубым языком, полным проклятий, оскорблений, новых названий старых "грязных" терминов и т.п. Система искусственного интеллекта Watson-а не смогла определить различий между вежливым языком и множеством профанаций, которыми полон словарь Urban Dictionary. Помимо этого суперкомпьютер Watson успел нахвататься словечек и из других источников, в том числе и из Википедии. В результате речь, синтезируемая суперкомпьютером, превратилась в поток ругательств и оскорблений, на некоторые вопросы исследователей суперкомпьютер отвечал просто, коротко и доходчиво: "bullshit" -)).
После этого исследователям ничего не оставалось делать, кроме как очистить память суперкомпьютера Watson от данных словаря Urban Dictionary. Помимо этого, команда из 35 специалистов разработала программный фильтр, который будет препятствовать суперкомпьютеру ругаться и употреблять нецензурные выражения в будущем, независимо от источника, через который они к нему попали.