Marc Vidal
👤 SpeakerAppearances Over Time
Podcast Appearances
La industria no se ha cruzado de brazos.
Hay técnicas, la RLHF, Reinforcement Learning from Human Feedback, es decir, aprendizaje por refuerzo con retroalimentación humana, o una evolución que es por refuerzo con recompensas verificables, la RLVR o algo así, han supuesto un avance real.
La idea es, yo diría que interesante, porque en lugar de reentrenar el modelo entero,
algo que es absurdamente caro en tiempo y también económicamente hablando, se le da retroalimentación sobre sus propias respuestas.
Respuestas que humanos evalúan o que se contrastan con resultados verificables generando una señal de recompensa que guía al modelo hacia comportamientos cada vez más deseables.
ese RLVR va un paso más allá cuando el resultado es verificable se hace una pregunta la respuesta matemática es correcta el código compila se usan recompensas objetivas en lugar de evaluadores humanos es decir eso permite afinar modelos de forma más escalable pero el problema del criterio no desaparece con todo esto sólo se está desplazando quién decide que es correcto que humanos evalúan las respuestas de estos sistemas con qué conocimiento del dominio un LLM
o lo que sea, puede sugerirte código que funciona perfectamente cuando por lo menos tiene una vulnerabilidad de seguridad que expone datos sensibles.
¿Cómo sabe el modelo que eso es un problema si nadie se lo ha dicho con un criterio técnico riguroso?
Las capas de filtrado y restricción que se añaden sobre el modelo son exactamente eso, parches.
Correcciones externas que intentan compensar lo que el modelo, por su naturaleza, no puede resolver internamente.
Son necesarios, son útiles, pero no son inteligencia.
Son solo reglas.
Y las reglas las escriben personas.
Y aquí es donde todo conecta con el empleo, porque hay una narrativa que lleva meses circulando cada vez más.
Pronto no harán falta programadores.
Construir software nunca ha sido solo escribir código.
Hazme una app de gestión de tareas no es una especificación, es el punto de partida de una conversación que dura semanas entre el cliente, el equipo de diseño, el de negocio, el de marketing.
¿Qué flujo de usuario tiene?
¿Qué modelo de datos?
¿Qué normativa de privacidad aplica?