📌 En resumen
Antes de conectar documentos corporativos a un copilot o sistema RAG, hay que decidir qué datos personales deben entrar, quién puede acceder a qué, qué base legal sostiene el tratamiento y cómo evitar que el asistente devuelva información sensible sin control de acceso. El RGPD exige que el tratamiento tenga una base legal clara, que los datos personales se limiten a lo necesario y que existan medidas técnicas para controlar el acceso. En la práctica, esto implica filtrar documentos con datos personales antes de indexarlos, replicar los permisos del repositorio original en el sistema RAG y documentar el tratamiento en el registro de actividades. Una evaluación de impacto es recomendable si se procesan datos sensibles.
La conversación suele empezar así: ?Queremos conectar SharePoint y que el asistente responda sobre nuestros documentos?. La idea es buena. El problema aparece cuando ?nuestros documentos? significa, en la práctica, contratos, nóminas, correos, expedientes, anexos legales, PDFs duplicados y carpetas a las que hoy ya accede más gente de la que debería. Un sistema RAG o un copilot interno no arregla ese desorden: lo hace más visible y más rápido.
Desde el punto de vista del RGPD, el error más caro no es usar IA. Es conectar un corpus documental sin decidir qué datos deben entrar, quién puede ver qué, qué base legal sostiene el tratamiento y cómo vas a evitar que el asistente devuelva información que el usuario no debería conocer. El proyecto técnico puede ser muy bueno y seguir siendo un problema de privacidad si el diseño de acceso y minimización está mal resuelto.
⚠️ Atención
Este artículo es una guía operativa, no asesoramiento jurídico. Si tu caso toca datos sensibles, empleados, clientes a gran escala o decisiones de impacto relevante, alinea el proyecto con tu DPO o asesoría legal antes del despliegue.
Eso casi siempre sale mal. Cuando metes todo el repositorio en el índice desde el primer día, arrastras duplicados, versiones antiguas, carpetas sin gobierno y documentos que nunca debieron entrar. Además, fuerzas al equipo a resolver el problema de permisos en el momento más delicado: cuando el asistente ya está respondiendo y la gente asume que si el sistema lo devuelve es porque ?se podía verá.
No todos los copilots internos exigen el mismo nivel de análisis, pero sí hay señales claras de que debes parar y profundizar más. Por ejemplo: si el sistema trata datos de empleados a gran escala, si entra en categorías especiales de datos, si puede facilitar monitorización o profiling, si se conecta a varias fuentes con permisos heterogéneos o si sus respuestas influyen en decisiones relevantes. En esos escenarios, el proyecto ya no se gestiona bien con un simple checklist.
En muchos proyectos de RAG o copilot interno, el equipo técnico arranca la implementación sin involucrar al DPO o a la asesoría legal hasta que el sistema ya está funcionando. Eso es un error que se paga caro: si el DPO detecta un problema una vez que el sistema está en uso, la corrección es mucho más costosa (técnica y organizativamente) que haberlo resuelto en la fase de diseño.
Lo recomendable es involucrar al DPO (o al responsable de privacidad, sea interno o externo) desde el momento en que se define el alcance del corpus. No necesita participar en cada decisión técnica, pero sí debe validar tres cosas: qué datos entran, con qué base legal y qué controles de acceso se aplican. Si esas tres preguntas están resueltas antes de empezar a indexar, el proyecto tiene mucho menos riesgo regulatorio.
Un sistema RAG o copilot interno rara vez se ejecuta exclusivamente con infraestructura propia. Normalmente intervienen terceros: el proveedor del LLM (OpenAI, Azure OpenAI, Anthropic), el servicio de hosting del vector store, el integrador que implementa el sistema y, en muchos casos, un servicio de OCR o procesamiento de documentos. Cada uno de estos terceros puede tener acceso a los datos que se indexan o que se pasan como contexto al modelo.
No todos los copilots internos tienen el mismo perfil de riesgo desde la perspectiva del RGPD. El nivel de análisis y control necesario varía mucho según qué datos se indexan y quién accede al sistema.
| Escenario | Nivel de riesgo | Qué requiere como mínimo |
|---|---|---|
| Copilot sobre documentación operativa (SOPs, manuales, FAQs) sin datos personales | Bajo | Revisión básica de contenidos, control de acceso estándar |
| Copilot sobre documentación que incluye nombres de clientes, contactos o datos de facturación | Medio | Base legal definida, permisos por rol, logs de acceso, revisión con DPO |
| Copilot sobre expedientes de RRHH, nóminas, evaluaciones o datos de salud laboral | Alto | Evaluación de impacto (EIPD), permisos estrictos, exclusiones explícitas, validación legal completa |
| Copilot con acceso a buzones de correo o carpetas personales de empleados | Muy alto | Evaluación de impacto obligatoria, consentimiento o base legal muy justificada, control exhaustivo |
⚠️ Atención
Si tu proyecto toca el nivel medio o superior, no lo lances sin validación del DPO. La diferencia entre «legal» e «ilegal» puede estar en un detalle de permisos o en una base legal mal elegida. El coste de la consulta previa es muy inferior al de una sanción o una reclamación de un empleado.
Este es uno de los riesgos más sutiles de un sistema RAG en empresa. Un usuario hace una pregunta aparentemente inocua y el sistema, al recuperar fragmentos de documentos, incluye información de un documento al que ese usuario no debería tener acceso. El usuario no pidió ver ese documento, pero el sistema se lo ha mostrado como parte de la respuesta. Desde la perspectiva del RGPD, eso puede constituir una brecha de confidencialidad.
Para prevenir esto, el sistema debe filtrar los documentos recuperados según los permisos del usuario antes de pasarlos al LLM como contexto. No basta con filtrar la respuesta final: si el documento llega al prompt del modelo, ya ha sido «procesado» en el sentido técnico. El filtrado debe ocurrir en la fase de recuperación (retrieval), no después de la generación.
Si estás preparando el proyecto, te conviene leer también qué necesita tu empresa para implementar RAG y qué cambia al conectar SharePoint, Drive o Confluence. Y si además te preocupa el marco regulatorio más amplio, enlázalo con AI Act para pymes.
Siguiente paso recomendado
Conecta documentos internos a un copilot con permisos y gobierno correctos desde el diseño.
Sin compromiso · Respuesta en < 24h
Autor
Fundador y Consultor de Datos e IA
David Aldomar es fundador y consultor principal de MERIDIAN Data & IA, consultora especializada en ayudar a pymes y empresas medianas en España a tomar mejores decisiones con sus datos. Su trabajo se centra en cuatro áreas: diseño e implantación de plataformas de datos (data warehouses, pipelines ETL con dbt, integración de ERPs y CRMs), reporting y dashboards ejecutivos en Power BI, automatización de procesos de negocio con herramientas como n8n, y desarrollo de soluciones de inteligencia artificial aplicada — desde modelos de forecasting de demanda hasta copilots internos basados en RAG con LangChain y FastAPI. Ha liderado proyectos en sectores como logística y transporte, retail y distribución, servicios financieros, manufacturing y construcción, siempre con un enfoque pragmático: diagnóstico corto, entregables concretos y transferencia de conocimiento al equipo del cliente para que sea autónomo desde el primer día. Antes de fundar MERIDIAN, acumuló experiencia en consultoría de datos y transformación digital trabajando con stacks variados — desde entornos Microsoft (SQL Server, Power BI, Azure) hasta ecosistemas open source (Python, dbt, BigQuery). Su filosofía es que un buen proyecto de datos no se mide por la tecnología que usa, sino por las decisiones de negocio que permite tomar. Escribe regularmente en el blog de MERIDIAN sobre reporting, gobierno del dato, automatización e IA aplicada, con guías prácticas orientadas a responsables de negocio y equipos técnicos de empresas que quieren sacar partido real a sus datos sin depender de grandes consultoras.
Checklist técnico y documental antes de meter un repositorio en producción.
La base para situar este tipo de proyecto antes de entrar en privacidad y permisos.
Implantación de un asistente interno con permisos, fuentes y trazabilidad bien resueltos.
El marco regulatorio general para no revisar RGPD y AI Act por separado ni demasiado tarde.