Arquitectura del pipeline de inteligencia mediática
El núcleo del stack es un pipeline de inteligencia mediática que ingesta noticias de múltiples fuentes, las normaliza, deduplica y analiza en busca de narrativas y señales relevantes.
Fuentes soportadas
- RSS / Atom — feeds estándar de medios
- GDELT — eventos geopolíticos globales
- MediaCloud — archivo de medios digitales
- Google News — búsquedas en tiempo real
- Apify — scrapers para fuentes sin API
- YouTube Transcripts — transcripción automática de vídeos
- IPTV — importación de canales y metadatos
- Boletines legales — BOE y boletines autonómicos
Etapas del pipeline
- Extracción — cada conector normaliza al modelo interno
Document - Deduplicación — hash de contenido + similitud semántica
- Calidad de texto — filtro de ruido, longitud mínima, idioma
- Análisis NLP — entidades, temas IPTC, sentimiento
- Análisis narrativo — detección de frames y narrativas recurrentes
- Correlación — agrupación de documentos relacionados
- Señales — alertas cuando se detectan patrones de interés
Scheduler
El pipeline corre en un thread interno con intervalo configurable. El modo puede ser internal (thread propio), external (disparado por webhook) o disabled. El estado del scheduler es visible en tiempo real a través de /health y los WebSockets de alertas.