RGPD en copilot o RAG: qué revisar antes

David Aldomar

RGPDRAG copilotprotección de datosIA

RGPD en un copilot interno o sistema RAG: qué revisar antes de conectar tus documentos

Qué revisar en RGPD antes de indexar SharePoint, Drive o documentación interna para un copilot o sistema RAG que vaya a usar tu equipo.

David Aldomar19 de marzo de 2026Actualizado: 23 de marzo de 20268 min lectura

📌 En resumen

Antes de conectar documentos corporativos a un copilot o sistema RAG, hay que decidir qué datos personales deben entrar, quién puede acceder a qué, qué base legal sostiene el tratamiento y cómo evitar que el asistente devuelva información sensible sin control de acceso. El RGPD exige que el tratamiento tenga una base legal clara, que los datos personales se limiten a lo necesario y que existan medidas técnicas para controlar el acceso. En la práctica, esto implica filtrar documentos con datos personales antes de indexarlos, replicar los permisos del repositorio original en el sistema RAG y documentar el tratamiento en el registro de actividades. Una evaluación de impacto es recomendable si se procesan datos sensibles.

La conversación suele empezar así: ?Queremos conectar SharePoint y que el asistente responda sobre nuestros documentos?. La idea es buena. El problema aparece cuando ?nuestros documentos? significa, en la práctica, contratos, nóminas, correos, expedientes, anexos legales, PDFs duplicados y carpetas a las que hoy ya accede más gente de la que debería. Un sistema RAG o un copilot interno no arregla ese desorden: lo hace más visible y más rápido.

Desde el punto de vista del RGPD, el error más caro no es usar IA. Es conectar un corpus documental sin decidir qué datos deben entrar, quién puede ver qué, qué base legal sostiene el tratamiento y cómo vas a evitar que el asistente devuelva información que el usuario no debería conocer. El proyecto técnico puede ser muy bueno y seguir siendo un problema de privacidad si el diseño de acceso y minimización está mal resuelto.

⚠️ Atención

Este artículo es una guía operativa, no asesoramiento jurídico. Si tu caso toca datos sensibles, empleados, clientes a gran escala o decisiones de impacto relevante, alinea el proyecto con tu DPO o asesoría legal antes del despliegue.

El error más habitual: indexarlo todo ?y luego ya afinaremos?

Eso casi siempre sale mal. Cuando metes todo el repositorio en el índice desde el primer día, arrastras duplicados, versiones antiguas, carpetas sin gobierno y documentos que nunca debieron entrar. Además, fuerzas al equipo a resolver el problema de permisos en el momento más delicado: cuando el asistente ya está respondiendo y la gente asume que si el sistema lo devuelve es porque ?se podía verá.

Normalmente sí tiene sentido empezar con políticas, procedimientos, manuales internos, FAQs y documentación funcional vigente.
Normalmente no conviene empezar por nóminas, expedientes laborales, documentación médica, buzones personales o carpetas históricas sin depurar.
Los documentos con datos personales pueden entrar, pero solo si el caso de uso lo justifica, los permisos están bien heredados y el riesgo se ha evaluado de verdad.
Si no sabes quién es el propietario de una carpeta o cómo se actualiza, esa carpeta no está lista para alimentar un copilot.

Las 6 preguntas que deberías responder antes de conectar el corpus

1?Qué datos personales van a entrar en el sistema? No ?en teoría?, sino colecciones, carpetas y tipos documentales concretos.
2?Cuál es la finalidad exacta del tratamiento? Un asistente para responder dudas operativas no justifica indexar cualquier documento de la empresa.
3?Qué usuarios podrán consultar qué contenido? El sistema debe heredar permisos o aplicar controles equivalentes, no crear una vía paralela de acceso.
4?Qué información debe quedar fuera desde el primer día? Especialmente datos sensibles, documentación disciplinaria, información muy privada o carpetas sin propietario claro.
5?Cómo se gestionan la retención, la actualización y el borrado? Si el documento cambia o deja de ser válido, el índice debe reflejarlo.
6?Qué terceros intervienen? Modelo, hosting, vector store, logs, soporte y cualquier transferencia o acceso que deba revisarse contractualmente.

Controles mínimos que esperamos ver en un proyecto serio

Permisos por documento o colección heredados del sistema fuente o replicados de forma fiable.
Exclusión explícita de carpetas o bibliotecas fuera de alcance, en lugar de ?meter todo y filtrar luego?.
Logs de acceso y trazabilidad básica: quién consulta, sobre qué corpus y con qué resultado.
Versionado y política de actualización del índice para no responder con documentos obsoletos.
Revisión humana o escalado en consultas sensibles, ambiguas o que puedan exponer datos personales de forma indebida.
Pruebas de fuga de permisos antes del despliegue: usuarios de distintos perfiles validando que el sistema no devuelve contenido cruzado.

Cuándo deberías elevar el nivel y hacer una evaluación de impacto de verdad

No todos los copilots internos exigen el mismo nivel de análisis, pero sí hay señales claras de que debes parar y profundizar más. Por ejemplo: si el sistema trata datos de empleados a gran escala, si entra en categorías especiales de datos, si puede facilitar monitorización o profiling, si se conecta a varias fuentes con permisos heterogéneos o si sus respuestas influyen en decisiones relevantes. En esos escenarios, el proyecto ya no se gestiona bien con un simple checklist.

El papel del DPO y del equipo legal en el proyecto

En muchos proyectos de RAG o copilot interno, el equipo técnico arranca la implementación sin involucrar al DPO o a la asesoría legal hasta que el sistema ya está funcionando. Eso es un error que se paga caro: si el DPO detecta un problema una vez que el sistema está en uso, la corrección es mucho más costosa (técnica y organizativamente) que haberlo resuelto en la fase de diseño.

Lo recomendable es involucrar al DPO (o al responsable de privacidad, sea interno o externo) desde el momento en que se define el alcance del corpus. No necesita participar en cada decisión técnica, pero sí debe validar tres cosas: qué datos entran, con qué base legal y qué controles de acceso se aplican. Si esas tres preguntas están resueltas antes de empezar a indexar, el proyecto tiene mucho menos riesgo regulatorio.

Terceros y encargados del tratamiento: qué revisar en los contratos

Un sistema RAG o copilot interno rara vez se ejecuta exclusivamente con infraestructura propia. Normalmente intervienen terceros: el proveedor del LLM (OpenAI, Azure OpenAI, Anthropic), el servicio de hosting del vector store, el integrador que implementa el sistema y, en muchos casos, un servicio de OCR o procesamiento de documentos. Cada uno de estos terceros puede tener acceso a los datos que se indexan o que se pasan como contexto al modelo.

Revisa si el proveedor del LLM procesa los datos fuera del Espacio Económico Europeo. Azure OpenAI permite seleccionar la región de procesamiento; otras APIs pueden no ofrecer esa garantía.
Verifica que el contrato de encargado del tratamiento (DPA) cubre el uso específico que vas a hacer. Un DPA genérico de un servicio cloud puede no cubrir el tratamiento de datos personales dentro de un flujo RAG.
Confirma que los datos no se usan para entrenar el modelo del proveedor. La mayoría de proveedores enterprise lo garantizan, pero conviene tenerlo por escrito en el contrato, no solo en la página de FAQ.
Documenta la cadena de subencargados. Si tu integrador usa un servicio de OCR de un tercer proveedor que a su vez procesa en servidores de otro país, la cadena de responsabilidades debe estar clara.

Escenarios habituales y nivel de riesgo

No todos los copilots internos tienen el mismo perfil de riesgo desde la perspectiva del RGPD. El nivel de análisis y control necesario varía mucho según qué datos se indexan y quién accede al sistema.

Nivel de riesgo RGPD según el tipo de corpus y usuarios del sistema RAG.
Escenario	Nivel de riesgo	Qué requiere como mínimo
Copilot sobre documentación operativa (SOPs, manuales, FAQs) sin datos personales	Bajo	Revisión básica de contenidos, control de acceso estándar
Copilot sobre documentación que incluye nombres de clientes, contactos o datos de facturación	Medio	Base legal definida, permisos por rol, logs de acceso, revisión con DPO
Copilot sobre expedientes de RRHH, nóminas, evaluaciones o datos de salud laboral	Alto	Evaluación de impacto (EIPD), permisos estrictos, exclusiones explícitas, validación legal completa
Copilot con acceso a buzones de correo o carpetas personales de empleados	Muy alto	Evaluación de impacto obligatoria, consentimiento o base legal muy justificada, control exhaustivo

⚠️ Atención

Si tu proyecto toca el nivel medio o superior, no lo lances sin validación del DPO. La diferencia entre «legal» e «ilegal» puede estar en un detalle de permisos o en una base legal mal elegida. El coste de la consulta previa es muy inferior al de una sanción o una reclamación de un empleado.

Qué pasa cuando un usuario hace una pregunta que no debería poder responder

Este es uno de los riesgos más sutiles de un sistema RAG en empresa. Un usuario hace una pregunta aparentemente inocua y el sistema, al recuperar fragmentos de documentos, incluye información de un documento al que ese usuario no debería tener acceso. El usuario no pidió ver ese documento, pero el sistema se lo ha mostrado como parte de la respuesta. Desde la perspectiva del RGPD, eso puede constituir una brecha de confidencialidad.

Para prevenir esto, el sistema debe filtrar los documentos recuperados según los permisos del usuario antes de pasarlos al LLM como contexto. No basta con filtrar la respuesta final: si el documento llega al prompt del modelo, ya ha sido «procesado» en el sentido técnico. El filtrado debe ocurrir en la fase de recuperación (retrieval), no después de la generación.

Un enfoque pragmático por fases suele funcionar mejor

1Fase 1: corpus pequeño y de bajo riesgo. Procedimientos, FAQs, documentación operativa y fuentes bien gobernadas.
2Fase 2: revisión de permisos y ampliación selectiva. Se añaden nuevas fuentes solo cuando el modelo de acceso está validado.
3Fase 3: hardening. Logs, exclusiones avanzadas, métricas de respuesta, pruebas de fuga y gobierno continuo del corpus.
4Fase 4: extensión a casos más sensibles solo si el valor de negocio compensa claramente el esfuerzo de compliance y control.

Si estás preparando el proyecto, te conviene leer también qué necesita tu empresa para implementar RAG y qué cambia al conectar SharePoint, Drive o Confluence. Y si además te preocupa el marco regulatorio más amplio, enlázalo con AI Act para pymes.

Siguiente paso recomendado

Copilot RAG empresarial

Conecta documentos internos a un copilot con permisos y gobierno correctos desde el diseño.

Ver Copilot RAG empresarial Reservar diagnóstico (20 min)

Sin compromiso · Respuesta en < 24h

Autor

David Aldomar

Fundador y Consultor de Datos e IA

David Aldomar es fundador y consultor principal de MERIDIAN Data & IA, consultora especializada en ayudar a pymes y empresas medianas en España a tomar mejores decisiones con sus datos. Su trabajo se centra en cuatro áreas: diseño e implantación de plataformas de datos (data warehouses, pipelines ETL con dbt, integración de ERPs y CRMs), reporting y dashboards ejecutivos en Power BI, automatización de procesos de negocio con herramientas como n8n, y desarrollo de soluciones de inteligencia artificial aplicada — desde modelos de forecasting de demanda hasta copilots internos basados en RAG con LangChain y FastAPI. Ha liderado proyectos en sectores como logística y transporte, retail y distribución, servicios financieros, manufacturing y construcción, siempre con un enfoque pragmático: diagnóstico corto, entregables concretos y transferencia de conocimiento al equipo del cliente para que sea autónomo desde el primer día. Antes de fundar MERIDIAN, acumuló experiencia en consultoría de datos y transformación digital trabajando con stacks variados — desde entornos Microsoft (SQL Server, Power BI, Azure) hasta ecosistemas open source (Python, dbt, BigQuery). Su filosofía es que un buen proyecto de datos no se mide por la tecnología que usa, sino por las decisiones de negocio que permite tomar. Escribe regularmente en el blog de MERIDIAN sobre reporting, gobierno del dato, automatización e IA aplicada, con guías prácticas orientadas a responsables de negocio y equipos técnicos de empresas que quieren sacar partido real a sus datos sin depender de grandes consultoras.

Ver perfil

Contenido y servicios relacionados

Seguir leyendo

RGPD en un copilot interno o sistema RAG: qué revisar antes de conectar tus documentos

El error más habitual: indexarlo todo ?y luego ya afinaremos?

Las 6 preguntas que deberías responder antes de conectar el corpus

Controles mínimos que esperamos ver en un proyecto serio

Cuándo deberías elevar el nivel y hacer una evaluación de impacto de verdad

El papel del DPO y del equipo legal en el proyecto

Terceros y encargados del tratamiento: qué revisar en los contratos

Escenarios habituales y nivel de riesgo

Qué pasa cuando un usuario hace una pregunta que no debería poder responder

Un enfoque pragmático por fases suele funcionar mejor

Copilot RAG empresarial

Contenido y servicios relacionados

Artículos relacionados

Base de conocimiento con IA: qué necesita tu empresa para implementar RAG

¿Qué es RAG y cuándo merece la pena en tu empresa?

Qué documentos sirven de verdad para alimentar un copilot interno

RGPD en un copilot interno o sistema RAG: qué revisar antes de conectar tus documentos

El error más habitual: indexarlo todo ?y luego ya afinaremos?

Las 6 preguntas que deberías responder antes de conectar el corpus

Controles mínimos que esperamos ver en un proyecto serio

Cuándo deberías elevar el nivel y hacer una evaluación de impacto de verdad

El papel del DPO y del equipo legal en el proyecto

Terceros y encargados del tratamiento: qué revisar en los contratos

Escenarios habituales y nivel de riesgo

Qué pasa cuando un usuario hace una pregunta que no debería poder responder

Un enfoque pragmático por fases suele funcionar mejor

Copilot RAG empresarial

Contenido y servicios relacionados

Artículos relacionados

Base de conocimiento con IA: qué necesita tu empresa para implementar RAG

¿Qué es RAG y cuándo merece la pena en tu empresa?

Qué documentos sirven de verdad para alimentar un copilot interno