Investigación en IA
07/11/2025 | 20:05
Redacción Cadena 3
La Universidad Nacional de Seúl anunció que un equipo de investigación liderado por el profesor Hyun Oh Song, del Departamento de Ciencias de la Computación e Ingeniería, desarrolló una nueva tecnología de inteligencia artificial llamada KVzip. Esta innovadora herramienta permite comprimir inteligentemente la memoria de conversación de chatbots basados en modelos de lenguaje de gran tamaño (LLM), utilizados en tareas de contexto largo como diálogos extendidos y resúmenes de documentos. El estudio fue publicado en el servidor de preprints arXiv.
La memoria de conversación se refiere al almacenamiento temporal de oraciones, preguntas y respuestas que un chatbot mantiene durante la interacción, lo que utiliza para generar respuestas coherentes en contexto. Con KVzip, un chatbot puede comprimir esta memoria eliminando información redundante o innecesaria que no es esencial para reconstruir el contexto. Esta técnica permite al chatbot mantener la precisión mientras reduce el tamaño de la memoria y acelera la generación de respuestas, lo que representa un gran avance en los sistemas de diálogo de IA eficientes y escalables.
Los chatbots modernos de LLM realizan tareas como diálogos, programación y respuestas a preguntas utilizando contextos enormes que pueden abarcar cientos o incluso miles de páginas. Sin embargo, a medida que las conversaciones se alargan, la memoria acumulada de la conversación aumenta los costos computacionales y ralentiza el tiempo de respuesta.
Para abordar este problema, los investigadores han desarrollado métodos de compresión de memoria que permiten a los chatbots retener solo la información contextual esencial, en lugar de almacenar cada detalle de los intercambios previos. Sin embargo, la mayoría de las técnicas de compresión existentes son dependientes de la consulta, lo que significa que optimizan la memoria solo para la pregunta actual. Cuando se formula una nueva pregunta o una pregunta de seguimiento, el rendimiento del chatbot generalmente se deteriora significativamente.
Para superar esta limitación, el equipo del profesor Song propuso KVzip, un método novedoso que reduce efectivamente el tamaño de la memoria de conversación en diálogos de contexto largo mientras mantiene el mismo nivel de precisión. KVzip realiza la compresión al retener solo la información necesaria para la reconstrucción del contexto, permitiendo que el chatbot maneje múltiples consultas futuras sin necesidad de recomprimir su memoria cada vez.
En una amplia gama de tareas, incluyendo respuestas a preguntas, recuperación, razonamiento y comprensión de código, KVzip logró una reducción de memoria de 3 a 4 veces y tiempos de respuesta aproximadamente 2 veces más rápidos, todo sin pérdida de precisión. La técnica también demostró escalabilidad a contextos extremadamente largos de hasta 170,000 tokens utilizando importantes LLM de código abierto como Llama 3.1, Qwen 2.5 y Gemma 3.
Además, KVzip mantuvo una calidad de respuesta estable a través de múltiples rondas de preguntas de seguimiento diversas, superando los límites de generalización de los métodos de compresión de memoria anteriores. Notablemente, la tecnología ha sido integrada en la biblioteca de compresión de caché KV de código abierto de NVIDIA, KVPress, lo que la hace fácilmente accesible para su implementación práctica.
En un futuro cercano, se espera que KVzip sea ampliamente adoptado en sistemas LLM a escala empresarial, incluyendo pipelines de generación aumentada por recuperación (RAG) y servicios de chatbots personalizados. Al reducir el uso de memoria en un 75% y acortar la latencia de respuesta en aproximadamente un 50%, el método permite que los servidores manejen más usuarios concurrentes y conversaciones más largas, mientras reduce significativamente los costos operativos.
El profesor Hyun Oh Song, quien asesoró la investigación, declaró: "KVzip es significativo en que permite una memoria comprimida reutilizable que retiene solo la información más esencial, incluso en agentes de LLM que requieren una comprensión contextual larga".
El Dr. Jang-Hyun Kim, quien es el principal contribuyente del proyecto, afirmó: "KVzip puede aplicarse sin problemas a aplicaciones LLM del mundo real y sistemas en dispositivos para garantizar calidad constante y velocidad mejorada para interacciones de contexto largo".
El primer autor, el Dr. Jang-Hyun Kim, se unirá al equipo de Modelos de Fundamentos de IA/ML en Apple como investigador en aprendizaje automático.
El Laboratorio de Aprendizaje Automático dirigido por el profesor Song también tuvo dos trabajos adicionales aceptados como presentaciones de póster en NeurIPS 2025 y un trabajo publicado en la revista Transactions on Machine Learning Research (TMLR).
En el artículo de NeurIPS 2025 titulado "Q-Palette: Quantizadores de Fracción de Bit para la Asignación Óptima de Bits para el Despliegue Eficiente de LLM", el equipo presentó un análisis teórico de la asignación óptima de ancho de bit a través de capas en la cuantización de modelos de lenguaje grandes e introdujo "Q-Palette", un conjunto de cuantizadores de fracción de bit que realizan esta asignación óptima.
El método logró una mejora del 36% en la velocidad de inferencia en comparación con los enfoques de cuantización existentes a niveles de rendimiento equivalentes.
Otro artículo de NeurIPS 2025, "Aprender a Buscar Mejor con Modelos de Lenguaje a través del Autoentrenamiento Reforzado Guiado", propuso Guided-ReST, un nuevo algoritmo de aprendizaje por refuerzo que permite a los modelos de lenguaje grandes aprender de manera autónoma estrategias de razonamiento y búsqueda mejoradas. En el desafiante benchmark de razonamiento Countdown, Guided-ReST mejoró la precisión en un 10% y la eficiencia de razonamiento en un 50%.
Además, el artículo del equipo en TMLR, "Descubrimiento de Causas Dirigido a Gran Escala a través del Aprendizaje de Datos Simulados", introdujo un método de inferencia causal supervisada para identificar de manera eficiente variables causales de factores objetivo. El método propuesto escala linealmente con el número de variables, lo que lo hace adecuado para sistemas a gran escala, y logró un rendimiento de descubrimiento causal de última generación en benchmarks de redes regulatorias de genes.
¿Qué es KVzip?
KVzip es una nueva tecnología de IA que comprime la memoria de conversación de chatbots, permitiendo una reducción de 3 a 4 veces en el tamaño de la memoria.
¿Quién lideró el desarrollo de KVzip?
El desarrollo de KVzip fue liderado por el profesor Hyun Oh Song de la Universidad Nacional de Seúl.
¿Cuándo se publicó el estudio sobre KVzip?
El estudio sobre KVzip fue publicado el 7 de noviembre de 2025 en el servidor de preprints arXiv.
¿Dónde se puede aplicar KVzip?
KVzip se puede aplicar en sistemas LLM a escala empresarial y en servicios de chatbots personalizados.
¿Por qué es importante KVzip?
KVzip permite a los chatbots manejar múltiples consultas futuras sin necesidad de recomprimir su memoria, mejorando la eficiencia y reduciendo costos operativos.
Te puede Interesar
Legislación digital en la UE
La Unión Europea analiza modificaciones a su ley de inteligencia artificial, el AI Act, tras recibir inquietudes de empresas tecnológicas y estados miembros. Se espera un paquete de medidas el 19 de noviembre.
Investigación de la Universidad de New Hampshire
Un equipo de la Universidad de New Hampshire creó una base de datos de 67,573 materiales magnéticos, incluyendo 25 compuestos que mantienen su magnetismo a altas temperaturas, lo que podría reducir costos en tecnología.
Investigación de la Universidad Estatal de Pensilvania
Un estudio de la Universidad Estatal de Pensilvania demuestra que las preguntas intuitivas pueden provocar respuestas sesgadas en chatbots de IA, igual que las técnicas avanzadas.
Investigación de la Universidad de Nevada
La interacción con chatbots ha transformado la forma en que las personas se conectan emocionalmente, generando tanto beneficios como riesgos en la salud mental.