Еженедельник Свет в Интернет

Главная

Новости

Статьи и обзоры
  Горожанин
  Обнинск в Internet
  Web Design
  Hardware
  Software
  Безопасность
  Серфинг
  Игродром
  Relax
  Технологии
  Web-обзор
  Интернет-ликбез
  Опросник
  УП-Технологии
  ART.net

Ссылки

Архив

О нас

Контакты

Форумы


Основатель:
К.Николаенко

Главный Редактор:
С.Коротков

Web Design:
Neutron


Наш спонсор






Порт POPULAR.RU
POPULAR.RU RegionalBanner Network.






Океан


НПП Метра - промышленные электронные автомобильные вагонные весы
Goldy Interior - салон офисной мебели: кабинеты руководителей, мебель для персонала

= Безопасность =

АНТИСПАМЕРСКИЙ ФИЛЬТР BayesIt!

Продолжение: начало в №14(202), №15(203), №16(204)
© Алексей Виноградов

Технические ограничения модуля

Обучение байесова метода

Работа байесова метода целиком основана на статистической информации, которую фильтр собирает из входящей почты. Фактически работа плагина начинается по мере накопления этой статистики. При получении письма плагин сообщает БАТу его оценку, а также в зависимости от этой оценки автоматически выполняет действие "пометить как спам" или "пометить как не-спам". Изначально (сразу после установки) у плагина нет никаких предустановленных правил для фильтрации почты - поэтому сперва спам отфильтровываться не будет.
Обучать плагин можно двумя способами, которые, впрочем, не имеют принципиальной разницы и зависят лишь от вашего желания как можно скорее добиться максимально эффективной работы.
v Первый способ - "естественное" обучение

При получении нежелательных писем вам нужно не удалять их, а вызывать для них команду из меню "Специальное" - "пометить как спам". Для удобства этой команде можно назначить "горячую клавишу", и тогда пометка спама будет настолько же проста, как обычное удаление. При этом фильтр автоматически "выучит" помеченные письма как нежелательные, а The Bat!, при соответствующих настройках, может сразу же перемещать их в специальную папку для спама. Довольно скоро (после пометки около 5-10 писем) вы заметите, что некоторые нежелательные письма начнут попадать в папку "спам" уже без вашего участия. Надо заметить, что при таком "естественном" обучении вам нет необходимости вручную помечать ВСЕ входящие письма.
Однако для тех, на которых фильтр ошибся, это делать необходимо. Связано это с тем, что фильтр сам помечает для себя все входящие письма как спам или не-спам в соответствии с собственной оценкой. Поэтому, если фильтр сработал правильно, то письма уже помечены им должным образом. Если же он ошибся, и вы не исправили ошибку, то и вероятность подобных ошибок в дальнейшей работе резко возрастет.
В работе с фильтром (а особенно на начальной стадии, когда собранная статистика сравнительно мала) рекомендуется периодически просматривать папку спама и при необходимости ОБЯЗАТЕЛЬНО помечать как не-спам те письма, которые попали туда по ошибке. К сожалению, The Bat! при этом не сможет переместить письмо обратно в папку, откуда оно попало в спам, однако фильтр должен быть обязательно уведомлен о совершенных им ошибках оценки.

Второй способ обучения - "форсированный"

Если на момент установки фильтра у вас уже есть достаточное количество писем, которое вы могли бы предоставить фильтру для обучения, то вам, возможно хотелось бы обучить фильтр сразу по этим письмам. Для этого вам достаточно просто пометить их как спам или не-спам. Заметьте, что если письма находятся в папке, в которой включен режим просмотра цепочек, то при выделении содержимого папки командой "Выделить все" фактически выбранными окажутся лишь письма, являющиеся "началами" цепочек. Сами цепочки при этом останутся не выделенными! Поэтому перед выделением рекомендуется отключить просмотр цепочек в нужной папке.
Пометка большого количества писем может занять значительное время, при этом может создаться впечатление, что программа зависла. В этом случае, если в "параметрах" фильтра включен флажок "показывать заставку", вы увидите окошко с числом обработанных писем, которое будет меняться. Обратите внимание, что в случае "принудительного" обучения вам необходимо не только пометить нежелательную почту как спам, но также пометить желательную как не-спам, иначе фильтр не сможет работать!
Следует заметить, что сбалансированность, или относительное количество обученных писем спама/не-спама на ранних стадиях обучения играет весьма существенную роль. Например, если фильтр обучен на 100 писем спама и на 10 письмах не-спама, то это фактически означает, что он очень хорошо "знает", что такое спам, и в то же время весьма смутно "представляет", как выглядят нормальные письма. А это неизбежно приведет к ошибкам - фильтр будет ошибочно классифицировать как спам большое количество нормальных писем. С накоплением общего количества писем относительная сбалансированность базы фильтра уже не играет такой существенной роли. Желательно, чтобы число писем в каждой категории не различалось более чем в 5-10 раз. Вы сами убедитесь экспериментально, в каких пределах допустим "дисбаланс" базы.
Обычная ситуация с "форсированным" обучением - когда письма спама лежат в одной общей папке (или в отдельной папке в каждом ящике), а письма не-спама отсортированы по различным критериям в десятки, а то и сотни различных папок. В этом случае выделение всех писем в каждой папке может показаться утомительным и неудобным. Однако, к счастью, из этой ситуации существует весьма изящный выход.
Допустим, вам нужно пометить как не-спам все письма в ваших двадцати папках, раскиданных по разным ящикам. Для этого в главном окне The Bat! просто нажимаем "Ctrl+F" или выбираем на панели инструментов команду "найти письма". Строку поиска оставляем пустой, область поиска также не имеет значения. Главное, что нужно установить - это папки, в которых должен производиться поиск. Здесь нужно установить галочки на тех папках, где у вас находятся письма искомых категорий.
Пометив все паки, нажимаем кнопку "найти". Поиск по папкам без критериев - чрезвычайно быстрая операция, и даже если у вас несколько сотен тысяч писем, вы получите полный результат поиска буквально через несколько секунд. Далее, просто выделяем все письма прямо в окне результата и там же помечаем их так, как необходимо.

Диагностическая информация о плагине

Выбрав плагин в списке установленных плагинов The Bat! и нажав Ctrl+Enter, вы можете вывести на экран окно информации о плагине. Данное окно содержит диагностическую информацию о текущем состоянии плагина, а также графически отображает статистическую информацию. В частности, в этом окне вы можете узнать о том, сколько спама и не-спама вы получили за последний день/неделю/месяц, сколько писем плагин ошибочно пропустил (и вы их исправили), а также узнать общую долю спама в вашем почтовом трафике (и на основании этого даже оценить ущерб, причиненный спамерами). Помимо статистической информации в этом окне вы также можете узнать список макросов, реализуемых плагином (то, что было перечислено выше), а также найти контактную информацию о том, как связаться с автором и где можно найти обновления плагина.

Версии и обновления

Плагин постоянно обновляется: исправляются найденные ошибки, добавляются новые возможности, доделываются нереализованные ранее детали. Последняя версия, как правило, входит в дистрибутив, а промежуточные тестовые версии анонсируются в специальном листе рассылки, на который можно подписаться, отправив пустое письмо по адресу: bayesit-list-on@nobat.ru

Copyright © Свет в Internet   Designed by Свет в Internet