Arquitectura del pipeline de inteligencia mediática

El núcleo del stack es un pipeline de inteligencia mediática que ingesta noticias de múltiples fuentes, las normaliza, deduplica y analiza en busca de narrativas y señales relevantes.

Fuentes soportadas

RSS / Atom — feeds estándar de medios
GDELT — eventos geopolíticos globales
MediaCloud — archivo de medios digitales
Google News — búsquedas en tiempo real
Apify — scrapers para fuentes sin API
YouTube Transcripts — transcripción automática de vídeos
IPTV — importación de canales y metadatos
Boletines legales — BOE y boletines autonómicos

Etapas del pipeline

Extracción — cada conector normaliza al modelo interno Document
Deduplicación — hash de contenido + similitud semántica
Calidad de texto — filtro de ruido, longitud mínima, idioma
Análisis NLP — entidades, temas IPTC, sentimiento
Análisis narrativo — detección de frames y narrativas recurrentes
Correlación — agrupación de documentos relacionados
Señales — alertas cuando se detectan patrones de interés

Scheduler

El pipeline corre en un thread interno con intervalo configurable. El modo puede ser internal (thread propio), external (disparado por webhook) o disabled. El estado del scheduler es visible en tiempo real a través de /health y los WebSockets de alertas.

Arquitectura del pipeline de inteligencia mediática

Fuentes soportadas

Etapas del pipeline

Scheduler

También te puede interesar

Deduplicación: Jaccard, clustering y circuit breaker de contenido

Análisis narrativo: framing, fact-checking y cobertura comparada

Extractores legales: BOE, boletines autonómicos y congreso