Главная
Новости
Статьи и обзоры
Горожанин
Обнинск в Internet
Web Design
Hardware
Software
Безопасность
Серфинг
Игродром
Relax
Технологии
Web-обзор
Интернет-ликбез
Опросник
УП-Технологии
ART.net
Ссылки
Архив
О нас
Контакты
Форумы
Основатель: К.Николаенко
Главный Редактор: С.Коротков
Web Design: Neutron
|
|
= Безопасность =
ФИЛЬТРАЦИЯ СПАМА ПО БАЙЕСУ
Продолжение: начало в №7 (195),№8 (196)
ДВА ПОДХОДА К ОПРЕДЕЛЕНИЮ "СПАМНОСТИ"
Допустим, что в оценочной базе некий токен "корова" встретился в 200 письмах спама и 100 не-спама, а токен "бык" - в 1 письме спама и 0 не-спама. Легко понять, что "спамность" первого токена в 2 раза превышает его не-спамность (и составляет 2/3), но как быть во втором случае? Можно сказать, что "бык" означает абсолютную спамность, но ведь он встретился лишь единожды! Может, он вообще случайно оказался в базе…
Существует, по крайней мере, два подхода к этой проблеме. Один из них выражен в статье Пауля Грэхема "План по спаму". Второй - в статье Гари Робинсона, аналогичного содержания. Согласно первому подходу, все токены, общая частота которых меньше определенной величины (пусть, для определенности будет 5), просто игнорируются. Согласно второму, их "спамность" вычисляется по формуле, которая при нулевой частоте дает нейтральный результат (0.5 или 0.4), а при увеличении частоты асимптотически приближается к реальной оценке.
Другая проблема касается токенов, впервые встретившихся в проверяемом письме и не существовавших до этого в базе. Подход Робинсона, как было уже упомянуто, легко справляется с этой проблемой. Пауль Грэхем же предлагает для таких токенов дать оценку 0.4, из соображения, что спамеры редко придумывают новые слова, и если где-то встретилось абсолютно новое слово, то пусть оно воспринимается с легким сдвигом в сторону не-спамности.
ЭВРИСТИЧЕСКИЙ ИНТЕРВАЛ
Когда вы визуально оцениваете письмо, вам необязательно читать его целиком. Обычно вы догадываетесь о том, что это спам, по нескольким ключевым признакам, срабатывающим на уровне подсознания. Точно так же, для статистической фильтрации вовсе необязательно вычислять оценку письма по всем его токенам. Достаточно выбрать лишь некоторые из них, наиболее "интересные" с точки зрения оценок. Уровень "интересности" определяется тем, насколько оценка токена отличается от нейтральной.
Эвристическим параметром для статистической фильтрации писем будет количество токенов, по которым оценивается то или иное письмо. Пауль Грэхем предлагает в качестве такого параметра число 15.
Наличие эвристического параметра позволяет существенно улучшить эффективность оценки и практически довести эффективность фильтра до 99.7 %.
ТРЮКИ СПАМЕРОВ
В последнее время спам тоже не стоит на месте. Появились новые технологии, позволяющие спамерам с легкостью обманывать многие автоматические фильтры. Например, писать текст, невидимый для пользователя, но, естественно, "видимый" фильтрам и убеждающий их в том, что, мол, здесь все в порядке. В последнее время для спамеров стало очень популярным оформлять свою рекламу в виде сравнительно небольшой картинки - в формате gif или jpg - посылать ее как вложение. Однако с таким трюком легко справляется фильтр, который распознает файл-картинку не просто как вложение, но именно как картинку, причем определенного размера. Иногда это работает, но на практике обычно фактическая фильтрация производится по другим признакам - незначительным деталям заголовков писем, известным только фильтру благодаря набранной статистике.
Другой, становящийся популярным вариант - отправка текстовых писем, в которых ключевые слова разрежены при помощи пробелов. Но и это не срабатывает: поскольку нормальные письма обычно не содержат отдельно стоящих букв (не считая коротких предлогов и союзов), то уже после нескольких подобных спамерских проделок такие буквы начинают действовать на фильтр, как красная тряпка на быка…
Можно опробовать, таким образом, множество возможных трюков спамеров. Однако практика показывает, что при достаточно большой собранной базе фильтр даже без распознавания спецтрюков на клиентской машине легко справляется практически с любым (даже с самым новым) спамом, отфильтровывая 99.4%…99.9% всего спама, попадающего в ящик.
|
|