Arquitectura del pipeline de inteligencia mediática

admin · 1 min

El núcleo del stack es un pipeline de inteligencia mediática que ingesta noticias de múltiples fuentes, las normaliza, deduplica y analiza en busca de narrativas y señales relevantes.

Fuentes soportadas

  • RSS / Atom — feeds estándar de medios
  • GDELT — eventos geopolíticos globales
  • MediaCloud — archivo de medios digitales
  • Google News — búsquedas en tiempo real
  • Apify — scrapers para fuentes sin API
  • YouTube Transcripts — transcripción automática de vídeos
  • IPTV — importación de canales y metadatos
  • Boletines legales — BOE y boletines autonómicos

Etapas del pipeline

  1. Extracción — cada conector normaliza al modelo interno Document
  2. Deduplicación — hash de contenido + similitud semántica
  3. Calidad de texto — filtro de ruido, longitud mínima, idioma
  4. Análisis NLP — entidades, temas IPTC, sentimiento
  5. Análisis narrativo — detección de frames y narrativas recurrentes
  6. Correlación — agrupación de documentos relacionados
  7. Señales — alertas cuando se detectan patrones de interés

Scheduler

El pipeline corre en un thread interno con intervalo configurable. El modo puede ser internal (thread propio), external (disparado por webhook) o disabled. El estado del scheduler es visible en tiempo real a través de /health y los WebSockets de alertas.

admin

Editor en D4R.