Improving the performance of anti-spam filters using out-of-vocabulary statistics
Mejora del desempeño de filtros anti-spam usando estadísticas de palabras fuera de vocabulario
Este artículo presenta una característica basada en estadísticas de palabras desconocidas (fuera del vocabulario) quecomplementa las fuentes de información usadas en la decisión por parte de los filtros anti-spam actuales. Los experimentosincluyeron filtros anti-spam disponibles libremente como referencia: SpamAssassin, Bogofilter, SpamBayes y SpamProbe,así como también un clasificador puramente bayesiano. Los resultados muestran que la decisión basada en la característicapropuesta mejora el rendimiento de todos los filtros anti-spam sujetos a estudio.
INTRODUCCIÓN
El correo electrónico comercial no solicitado, comúnmente conocido como spam, sigue siendo un problema importante para los usuarios de Internet. Los principales efectos molestos del spam son la disminución de la productividad de los empleados, el desperdicio de un valioso espacio de almacenamiento en los servidores de correo, el perjuicio para el tráfico de Internet y el aumento de la posible pérdida de información en función de las políticas de filtrado. Por ejemplo, los autores de este trabajo estuvieron a punto de perder un correo electrónico de aceptación de trabajos debido a los filtros de spam.
Según varias fuentes de información, como Softscan [1] o Marshal [2], más del 90% del tráfico de correo electrónico es spam, con un índice de volumen creciente durante los últimos años. Los mayores porcentajes proceden de Europa y Asia (65% según las estadísticas de Marshal), seguidos de Norteamérica (18%).
Los spammers utilizan la estrategia de enviar una gran cantidad de correos electrónicos prácticamente sin coste, con un alto beneficio probable. Si un spammer obtiene tan sólo 100 respuestas por cada 1.000.000 de mensajes de correo electrónico, puede obtener un atractivo beneficio. Para más detalles, puede leer "Inside the SPAM Cartel: Trade Secrets From the Dark Side" [3].
En la literatura encontramos dos tendencias principales sobre técnicas de filtrado de spam: enfoques basados en reglas y en el aprendizaje [4-10].
Los filtros de spam basados en reglas analizan tanto la cabecera como el cuerpo de los mensajes de correo electrónico en busca de contenido sospechoso. Cada regla activada suma una puntuación al correo electrónico. Si la puntuación alcanza un valor umbral, el correo electrónico se clasifica como spam.
Las reglas abarcan diferentes amenazas, como el formato sospechoso (las partes de HTML y de texto son diferentes o el cuerpo del mensaje tiene entre un 80 y un 90% de líneas en blanco), un origen débil propenso a enviar spam (el remitente es un relé abierto confirmado o el remitente es un proxy abierto), palabras comunes en el spam (contiene una versión enmascarada de cialis o viagra), codificaciones o caracteres ilegales (demasiados caracteres ilegales en bruto en el asunto), etc [11].
Recursos
-
Formatopdf
-
Idioma:inglés
-
Tamaño:146 kb