Нелли, немного подумал над твоей задачей и вот какие соображения возникли.
1. Как уже писал тебе, сама по себе задача вычленения нежелательного текстового контента решается несложно (Regex и парсеры). Проблема, как мне представляется, в другом.
2. Есть тьма готовых "тупых" контент-фильтров, которые просто блокируют сайты и домены на основе всяких "чёрных списков", анализируя поток, идущий по http-протоколу. Это, очевидно, не то, что нужно.
3. Продвинутые CMS - системы управления контентом (это обобщенное название всяких форумов, блогов, чатов и т.д.) имеют свои встроенные средства фильтрации. Это делают серверные скрипты. Опять не то, что нужно.
4. Нужно фильтровать контент на клиентской стороне, блокируя некоторые фрагменты, но не блокируя web-страницы. Строго говоря, это может делать только браузер. То есть, чтобы решить задачу в такой постановке, нужно писать плагины для браузеров. Очень большой геморрой. Думаю, это не для студентов.
Такие вот пока печальные предварительные соображения.