Фильтрация спама в связке Spamassassin + Qmail + Debian [Версия для КПК]

Unspammer

22-10-2008, 21:30

Почтовый сервер Qmail установлен на Debian 4.0. Установил spamassassin используя apt-get. Почта с сервера провайдера забирается при помощи fetchmail, передается spamassassin-у, а spamassasin уже кладет в очередь qmail-а.
Версия ассассина: 3.1.7-2
В конфиге spamassassin-а local.cf установил следующие значения:
rewrite_header Subject *****SPAM*****
trusted_network 192.168.0.
required_score 4.5
use_bayes 1
bayes_auto_learn 1
bayes_auto_learn_spam 8.0
bayes_ignore_header X-Bogosity
bayes_ignore_header X-Spam-Flag
bayes_ignore_header X-Spam-Status
whitelist_from ..
skip_rbl_checks 1
bayes_path /etc/spamassassin/bayes/bayes

Хозяин директори /etc/spamassassin/bayes и файлов bayes_seen bayes_toks - root
Права на эту директорию и файлы -rw-------

Приходит очень много спама, но помечаются из них только часть. Уже прошло около 10 дней как происходит обучение. Было скормленно около 1500 писем со спамом и около 100 хама.

Но настораживает вот что, в заголовках писем со смамом, спамассассин вот что пишет:
3.2 HELO_DYNAMIC_IPADDR2 Relay HELO'd using suspicious hostname (IP addr
2)
2.3 DATE_IN_FUTURE_12_24 Date: is 12 to 24 hours after Received: date
0.0 HTML_MESSAGE BODY: HTML included in message
0.3 HTML_FONT_BIG BODY: HTML tag for a big font size
---- ---------------------- --------------------------------------------------
1.5 SUBJECT_ENCODED_TWICE Subject: MIME encoded twice
2.3 DATE_IN_FUTURE_12_24 Date: is 12 to 24 hours after Received: date
0.0 HTML_MESSAGE BODY: HTML included in message
0.9 HTML_10_20 BODY: Message is 10% to 20% HTML
---- ---------------------- --------------------------------------------------
3.3 HELO_DYNAMIC_HCC Relay HELO'd using suspicious hostname (HCC)
3.2 HELO_DYNAMIC_IPADDR2 Relay HELO'd using suspicious hostname (IP addr
2)
0.2 HTML_TAG_BALANCE_BODY BODY: HTML has unbalanced "body" tags
0.8 HTML_IMAGE_ONLY_32 BODY: HTML: images with 2800-3200 bytes of words
0.0 HTML_MESSAGE BODY: HTML included in message
0.0 MIME_HTML_ONLY BODY: Message only has text/html MIME parts
pts rule name description
---- ---------------------- --------------------------------------------------
1.5 SUBJECT_ENCODED_TWICE Subject: MIME encoded twice
1.3 RCVD_NUMERIC_HELO Received: contains an IP address used for HELO
2.6 FUZZY_XPILL BODY: Attempt to obfuscate words in spam
0.0 HTML_MESSAGE BODY: HTML included in message
0.3 HTML_FONT_BIG BODY: HTML tag for a big font size

Если я правильно понимаю все очки спам набирает не за счет знаний, полученных спамассассином при обучении, а каких то общих признаках присущих спамерам.
Такое чувство что обучение проходит пока что впустую.
Обучаю кстате пока что вручную командами:
sa-learn --spam * (находясь в директории со спамом)
sa-learn --ham * (находясь в директории с хамом)