рассылка корреспонденция
Журнал Спамтест:: Детектирование массовых рассылок на Яндекс.Почте
Поиск
Контакты
Техподдержка
RSS
Сервис «Спамтест»
Новости рассылка корреспонденция Публикации
Антиспам-решения
Сервис «Спамтест»
Новости
Публикации
Защита от спама
Юридические методы
Технические методы
Практические советы
Аналитика
Статистика
Что такое спам
Технологии спам-рассылок
Записки антиспамеров
4-я международная конференция «Проблема спама рассылка корреспонденция ее решения»
Журнал «Спамтест»
RSS
Последние обсуждения
29 апр17:12
«Нигерийские» невесты
29 апр14:38
Особенности "нигерийского" бизнеса
29 апр13:43
Энциклопедия спама. Поддельные уведомления о выигрыше в лотерею
29 апр10:00
«Нигерийские» письма
24 апр21:45
Кому - бедствие, рассылка корреспонденция спамерам - нажива
Главная /
Новости рассылка корреспонденция Публикации / Публикации / Защита от спама / Технические методы версия для печати
Детектирование массовых рассылок на Яндекс.Почте
Подробно о методах фильтрации мы рассказали в статье "Принципы рассылка корреспонденция технические методы работы с незапрашиваемой корреспонденцией". Ниже мы расскажем о применении методов фильтрации в повседневной борьбе со спамов на Почте Яндекса. О почтовой службе Яндекс.Почта На Почте Яндекса письма проходят три уровня фильтрации. На первом этапе отбрасывается явный спам - сообщения, приходящие от неадминистрируемых (взломанных, открытых) почтовых серверов, либо пойманные в спамовые ловушки. Затем каждое письмо проверяется антивирусной программой DrWeb. При этом зараженные письма, не содержащие ничего, кроме самого вируса, отбрасываются, рассылка корреспонденция зараженные письма с текстом помечаются "осторожно, вирус". Последним работает фильтр, помещающий в папку "Рассылки" подозрительно похожие письма, разосланные по слишком большому списку адресов. На странице mail.yandex.ru/monitoring/ публикуются ежедневные данные, по которым можно следить за ходом борьбы со спамом на Яндекс.Почте. Обратная связь На Яндекс.Почте реализован (благодаря наличию специальной папки "Рассылки") оба вида обратной связи, как по ошибкам первого рода (Кнопка "ФУ! ЭТО СПАМ"), так рассылка корреспонденция по ошибками второго рода: ссылка "Это не рассылка" в папке Рассылки. Зачем детектировать повторы? Многочисленные повторы текста некоторого письма сами по себе не есть спам. Это могут быть технические рассылки самой разной природы, например, счета за мобильный телефон или письма, уведомляющие о важной регистрации. Однако, как писалось выше, спама не бывает без повторов, т.е. массовость - важный родовой признак спама. Заметим, что определение повторов важно не столько рассылка корреспонденция не только как отсекатель известного "заведомого" спама (надежно детектированного иным методом: например черным IP, ловушкой spam-trap), но рассылка корреспонденция в процессе принятия решения рассылка корреспонденция вообще при любой классификации корреспонденции. В частности, на Яндекс.Почте этот признак в настоящий момент (сентябрь 2003) используется для направления корреспонденции в папку "Рассылки". Что такое контрольная сумма? fnv, md5, crc Контрольная сумма (или "сигнатура") - это уникальное число, поставленное в соответствие некоторому тексту и/или функция его вычисления. Функция вычисления контрольных сумм может преследовать несколько целей: например "невзламываемость" (минимизируется вероятность того, что по значению контрольной суммы можно подобрать исходный текст) или "неповторяемость" (минимизируется вероятность того, что два разных текста могут иметь одну контрольную сумму). Существует обширная литература по алгоритмам вычисления контрольных сумм, я упомяну здесь самые известные: fnv, md5, crc. Обычно более-менее все равно, какой из них выбрать, но в любом случае при выборе алгоритма его положительной стороной можно считать хорошее быстродействие. Нечеткие дубликаты. Постановка задачи Однако, даже при наличии быстрой, не взламываемой рассылка корреспонденция точной функции, проблему нельзя считать решенной. Дело в том, что повторяющиеся письма очень часто незначительно отличаются, в результате для двух писем, разнящихся, предположим, на одно слово, получатся две совершенно разные контрольные суммы. Не вдаваясь в ситуацию активного противодействия спамеров системам детектирования спама (этому чуть ниже будет посвящен отдельный пункт, содержащий небольшой анализ), отметим, что наиболее типичная ситуация для порождения разных писем в рассылках это вставка имени получателя в текст рассылка корреспонденция заголовок. Опыт современных поисковых систем Задача, схожая с этой, но на гораздо больших масштабах данных, уже встречалась в нашей компании, когда нам приходилось решать проблему "почти дубликатов" в веб-поиске [Ilyinsky2002]. И хотя тот алгоритм (представленный на всемирной конференции по интернет-вычислениям WWW2002 на Гавайях) не годился в использовании напрямую, однако общий круг идей рассылка корреспонденция методов нам был хорошо знаком. Шинглы Наиболее известным способом обработки почти-дубликатов в веб-поиске, изящно представленным Андреем Бродером в 1997 году, является метод "шинглов". Очевидно, чтобы повысить вероятность того , чтобы в результате небольших изменения текста контрольная сумма не изменилась, можно попытаться выбрать из текста несколько подстрок. Шингл (от английского shingle - чешуйка, черепичка) это рассылка корреспонденция есть подстрока текста, по которой происходит вычислений контрольной суммы. Выбирать такие подстроки можно по-разному. Во-первых, можно брать разный шаг, например: символ, слово, предложение. Во-вторых, решить, как они должны идти - внахлест (как раз так рассылка корреспонденция получаются именно "шинглы"), или встык. В-третьих, следует понять, какого размера должны быть подстроки (выбранный размер должен свести к минимуму случайные повторы, то есть должен быть достаточно большим, но при этом оставаться достаточно малым, чтобы типичные изменения текста не разрушили все сигнатуры, конкретные цифры я здесь не привожу, по понятным причинам они не должны афишироваться), рассылка корреспонденция делать ли их фиксированного размера. И, в-четвертых, поскольку возможных подстрочек в тексте чересчур много, надо решить - какие запоминать, рассылка корреспонденция какие выбрасывать. Встык Если запоминать контрольные суммы для строчек фиксированной длины, идущих встык, то вставка рассылка корреспонденция удаление одного символа (особенно в начале текста) разрушит их все, как их ни выбирай. Это - безусловно, самый неудачный вариант. Однако, если отменить фиксацию длины рассылка корреспонденция считать подстрочки от одной характерной точки в тексте до другой (например, от буквы "ю" до буквы "ю", или от двухбуквия, сумма численных значений символов (букв) которого кратна 50, до следующего такого же), вставка (или удаление) с большой вероятностью разрушит только тот шингл, где она случилась. Когда заведомо известно, что документ изменяется, пусть рассылка корреспонденция сильно, но в малом количестве мест, этот тип сигнатур успешно применяют. Например: передача HTML-файлов или синхронизация репозитория исходных текстов программ рассылка корреспонденция т.п. К сожалению, в этом варианте сигнатур остается слишком много, если, конечно, не выбирать характерные точки, отстоящие друг от друга в среднем далеко. Но тогда строчки становятся слишком большого размера рассылка корреспонденция алгоритм слишком неустойчив к небольшим изменениям в тексте. Для вероятностного сравнения двух документов все равно необходимо как-то сокращать выборку, рассылка корреспонденция об этом позже. Внахлест Поначалу кажется, что считать контрольные суммы по всем строчкам внахлест - странная идея. Нам же нужно сократить объем данных для сравнения, рассылка корреспонденция в таком варианте он страшно возрастает? Однако именно так мы гарантируем, что не пропускаем ни одной подстроки текста (заданной длины) и, при условии, что удастся придумать устойчивый способ отбирать шинглы, нам удастся очень точно отождествлять документы, имеющие совпадающие части. Выборка. Какие шинглы запоминать? Классический алгоритм Бродера предлагает отбирать либо фиксированное количество минимальных по значению шинглов, либо все шинглы, значение которых делятся на какое-нибудь небольшое число (10-30). В первом случае мы получаем фиксированную по размеру выборку (что иногда удобно) рассылка корреспонденция приличный по размеру набор шинглов даже для относительно коротких документов, но нельзя будет судить о вложенности документов. Во втором случае число шинглов пропорционально размеру документа, то есть оно переменное, зато можно по набору шинглов оценивать такие интересные вещи, как вложение документов друг в друга или процент их пересечения. Наконец, последний самый "модный" алгоритм формирует фиксированную выборку, размер которой определяется заданным числом (например, 85 для веб-документов) разных независимых случайных функций, для каждой из которых запоминается ровно один шингл, минимальный по значению контрольной суммы. Этот подход комбинирует преимущества двух предыдущих. Короткие документы. Что можно сделать? Что делать с совсем короткими документами, для которых алгоритм отбора шинглов (например, второй) может вообще не выбрать ни одного подходящего? Или выбрать слишком мало? Я знаю два альтернативных решения: одно из них: закольцевать текст документа, то есть виртуально продолжить его начало после окончания, чтобы добиться получения необходимого количества шинглов даже в таких условиях. Второй подход, применяемый в Яндекс-Почте, состоит в использовании выборки, размер которой имеет логарифмическую зависимость от размера документа. Супершингл Если для каждого письма отбирать более одного шингла, мы столкнемся с задачей отождествления документов, имеющих только несколько совпавших шинглов. Как бы мы не сокращали число шинглов, все равно остается нетривиальный объем работы: данных очень много, даже если отбрасывать слишком редкие рассылка корреспонденция слишком частые шинглы; не существует мгновенно работающего запроса по отождествлению документа рассылка корреспонденция т.д. Поэтому на практике часто над набором шинглов документа считают еще одну контрольную сумму, так называемый "супершингл". Очевидно, в этом случае совпавшими будут считаться только документы с полностью совпавшими наборами шинглов. Однако при правильном подборе алгоритма рассылка корреспонденция его параметров этого может оказаться достаточно рассылка корреспонденция для работы неплохого детектора рассылок. Задача будет сводиться к вычислению всего одного числа рассылка корреспонденция нахождению его в простейшей базе данных. Замена супершингла: лексические сигнатуры Совсем необязательно искать очень похожие документы по контрольным суммам рассылка корреспонденция хитрым подстрочкам. Вполне успешно (по крайней мере в задачах веб-поиске) работают рассылка корреспонденция лексические (основанные на словах) методы. Все разнообразие этих методов сейчас разбивают на два класса, локальные рассылка корреспонденция глобальные лексические сигнатуры. Если локальные сигнатуры рассматривают документ изолированно от коллекции рассылка корреспонденция пытаются извлечь несколько характерных слов, основываясь только на их статистике в самом документе - TF (характерный пример: взять 5 самых частотных слов в документе длиннее пяти букв рассылка корреспонденция упорядочить их по убыванию частоты), то глобальные либо пытаются при анализе документа учитывать информацию о глобальной статистике слова - IDF, либо, вообще выбирают опорные слова, опираясь исключительно на уже существующий инвертированный индекс (см. метод Яндекса). Для работы глобальных методов необходимо как-то считать глобальную статистику слов, что в интенсивной антиспамовой системе вполне возможно, например в рамках байесовского подхода. Антидетекторы. Борьба борьбы с борьбой Рассмотрим несколько типичных способов, с помощью которых спам-программы могут пытаться обходить детектор рассылки. Речь идет, конечно же, об автоматической генерации небольших изменений для каждого письма или группы писем. Эту автогенерацию можно разделить на несколько категорий, механизм детектирования которых рассмотрим по отдельности. Генерация невидимого (или очень слабо видимого) текста средствами HTML-форматирования. В этом случае, детектирование рассылок по контрольным суммам может быть полностью разрушено. Однако, чтобы добиться такого эффекта, спам-системам придется интенсивно пользоваться разными приемами HTML. Существует целый букет эвристик, связанных с оформлением письма, надежно детектирующий эту технику. Это рассылка корреспонденция отсутствие plain-text части рассылка корреспонденция масса специфичных тегов HTML или нестандартные стилей CSS (например visibility: hidden). В любом случае здесь речь идет не столько о расчете сигнатуры, сколько о хорошем детекторе особенностей html-формата. Генерация видимого "мусора", то есть случайных буквенных цепочек, добавляемых в заголовки рассылка корреспонденция текст письма. В этом случае существенно помогает исключение из шинглов "несловарных" слов (по сути приравнивание их к пробелу). Обратите внимание что "словарь" в данном случае - это не канонический словарь русского языка Ожегова, рассылка корреспонденция частотный словарь, накопленный по реальным письмам. Кстати, доля несловарных слов будет с таким "антидетектором" необычно высокой, рассылка корреспонденция это может послужить отдельным неплохим детектирующим признаком. Вставка пробелов в текст в случайных местах внутри слов рассылка корреспонденция удаление их между словами. Против такого приема может помочь подсчет шинглов с гранулярностью в один символ с предварительно удаленными пробелами (все слова текста склеить в одну цепочку из букв, фиксированным окошком вычислить шинглы). Кроме того, доля "несловарных" слов с таким антидетектором тоже будет аномально высока. Вставка значащих слов в текст в случайных позициях. Этот вид антидетектора редок, так как затрудняет понимание текста письма. Генерировать же бесконечное количество синтаксически связанных перефразирований спамеры еще не научились. В любом случае с таким антидетектором остается надеяться на снижение эффективности спама рассылка корреспонденция соответственно существенное повышение цены вхождения в этот рынок. Низкий порог срабатывания Даже с учетом того, что супершингл с большой вероятностью склеивает два документа, отличающиеся на одно-два ("значащих") слова, даже с учетом всех возможных методов очистки рассылка корреспонденция препроцессинга, показатели эффективности супершингла на Яндекс-Почте (45-60%) кажутся слишком высокими. В чем же дело? Дело в том, что букет писем с наложенными автогенерированными изменениями кластеризуется (собирается) пусть рассылка корреспонденция не в один супершингл (это был бы недостижимый идеал), но в относительно небольшое количество супершинглов. С учетом огромного спам-трафика на Яндекс-Почте рассылка корреспонденция аккуратно установленного, достаточно низкого порога срабатывания по числу повторов, почти все такие кластеры обычно переходят этот порог. Заключение Детектор массовых рассылок внедрен в Яндексе в ноябре 2002 года. Мы продолжаем его совершенствовать рассылка корреспонденция считаем, что это относительно простой в реализации, но эффективный механизм, предназначенный как для облегчения ежедневной работы пользователей с почтой, так рассылка корреспонденция для использования его в составе более сложной антиспам-фильтрации. Не существует рассылок, на которые нет жалоб пользователя. Не существует спама, который люди не просят реабилитировать. Границу часто провести невозможно. Следовательно, даже после открытия пользователю понятного интерфейса по обучению системы ("ЭТО ПИСЬМО = СПАМ","ЭТО ПИСЬМО - НЕ СПАМ") рассылка корреспонденция налаживанию сбора всей информации, следующим шагом должна быть максимальная индивидуализация антиспамовой системы. И еще. Не стоит путать спам рассылка корреспонденция нежелательную почту. Да, не все в жизни происходит так, как хочется; в частности, кое-кто шлет ерунду, которую рассылка корреспонденция читать-то смысла нет. Это не означает, что эта ерунда - спам. Не надо ждать от антиспамового фильтра ни решения всех жизненных проблем, ни превращения почтового ящика в интереснейшее или захватывающее чтение, от него надо ждать всего лишь исчезновения спама.
2.12.2003
Илья Сегалович, Яндекс
комментировать
 
Copyright © 1997 - 2008 Kaspersky Lab
разделы
кулер бесшумный
vps vds
купить мобильник
бордюр обоев
доставка
купить отвед
купить k800i
квн съемка
газонокосилка stiga
кулер винчестер
три цвета: синий
метробонд
магнитный доска
southpark
mobihel краска
грунт стяжка
доставка кулеров
крупный жилищный комплекс
крупный жилищный комплекс
интеллектуальный электросчетчик
пленка пэ
магнитный решетка
стелаж пищеблок
мистер бин
доставка ноутбук
эдас-934 аденома предст.ж-зы
rittal
sikkens краска
утюг
конвейер
renu multiplus 355мл
куллер 478
гелусил лак
лечение головокружение
трость доставка
карбид кальций
красный объявление
теплогенераторы master
флаг заказ
измеритель освещенность
5440.13 (крышка)
кулер бесшумный
медицинский перевод
время архангельск
de luxe 5040.11
откачка туалет
флеш презентация
вкус цвет
огнезащитный состав
измерительный комплекс к2-79
очистка подогреватель
вытяжка
подводный гидромассаж
i`m o.k./герои гроб
snr
шелкография
цвет гармония
портативный радиостанция
гильза цилиндр
помидор купля
геомаш-центр
авиатакси
кулер бесшумный
кофе дорога
мини пекарня
комплексный сайт
пошив корпоративный костюм
сейфовые ячейка
огнезащитный покрытие
вышивка флаг
стимулирующий лотерея
нужный билет
купить айсбест
купить 6131
рассылка
диспорт
решетка дренажный
управление архангельск
спецобувь производитель
зубной камень
подгонный компенсатор danfoss
зона ограничение доступ
ларсен центр
ковры резиновый
эфирный антенна funke
урок охота
уличный барбекю
уцененный холодильник
ведро шампанский
кулер 478
touch screen
дефектоскопия сварной швов
гравировальный бур
медикаментозный прерывание беременность
лак orly
гидрант
мытье потолок
отбеливание белье
юр.адрес
газонокосилка stiga
телематические служба
дмитрий шумок
купить архиватор
купить угольник перех
центр консультирование
листогибы
профессиональный фарфор
купить конвертер
холодильник zanussi
антенна радиочастотный
лекарство рак
пакет гриппер
стенд
тонирование стекла
motorola v3i купить
лечение иглоукалыванием
клеить 88 люкс
сглаз
купить угольник
контакт контактор
протеин
лад
intex
система видеоконференция
градирня вентиляторные
катушка контактор
рассылка корреспонденция