Mundo, 18 de abr 2025 (ATB Digital).- En un pipeline de RAG (Retriever–Augmented Generation), a menudo se pone todo el foco en lograr embeddings de alta fidelidad y un índice semántico muy preciso. Sin embargo, la elección del modelo generativo (tamaño, arquitectura y cantidad de parámetros) es igual de decisiva para la calidad final de las respuestas. Un embedding “perfecto” solo asegura que el fragmento correcto llegue al prompt: cómo lo interpreta y reproduce el modelo depende enteramente de su capacidad interna.
1. Capacidad de “memoria” y síntesis de información
- Modelos pequeños (0.5 B)
- Memoria interna reducida: aunque reciban el texto exacto recuperado, carecen de patrones finos de lectura y extraen con menos precisión.
- Tendencia a parafrasear o recortar: en vez de copiar literalmente (incluso si el prompt lo pide), pueden omitir detalles o cambiar la redacción.
- Modelos medianos y grandes (7 B–13 B+)
- “Reconocen” mejor las instrucciones de copia literal y producen salidas más fieles al texto fuente.
- Mayor robustez para sintetizar múltiples fragments sin perder coherencia ni mezclar información.
2. Gestión de la ventana de contexto
- Cada token del contexto que se acerca al límite representa una carga de cálculo y de memoria interna.
- Modelos grandes manejan mejor contextos extensos o complejos, evitando “olvidos” o mezclas de pasajes.
- Modelos pequeños pueden empezar a “saltar” de un fragmento a otro cuando el prompt alcanza el tope, incluso aunque los chunks sean muy precisos.
3. Alineamiento con instrucciones y parámetros de generación
- Las redes con más parámetros han visto más ejemplos de “cumplir instrucciones” durante el pre‑entrenamiento y el fine‑tuning, por lo que siguen mejor órdenes como “devuélvelo exactamente” o “formatea en JSON”.
- En un modelo 0.5 B, es frecuente tener que ajustar parámetros (temperatura, top‑p) al mínimo para forzar la copia, pero sin garantía absoluta de éxito.
4. Impacto en la fidelidad y la confiabilidad
- Fidelidad textual
- Si necesitas citas literales (normativas, contratos, artículos de Constitución), cualquier error de puntuación o palabra cambiada puede invalidar el texto.
- Los modelos ≥ 7 B ofrecen una tasa de exactitud superior en pruebas de extracción de fragmentos normativos.
- Confiabilidad de respuesta
- Un modelo grande, aunque reciba el mismo chunk, “sabe” mejor qué hacer con él: resumir, parafrasear o citar según lo pidas.
- El modelo pequeño suele improvisar más, introduciendo riesgo de “alucinaciones” o resúmenes incompletos.
5. Recomendaciones para tu pipeline en Ollama
- Define el caso de uso
- ¿Buscas prototipado rápido y económico? Un 0.5 B puede valer.
- ¿Necesitas producción con alta precisión? Ve a 7 B–13 B o más.
- Combina embeddings óptimos y modelo adecuado
- Embeddings de alta calidad aseguran recuperación precisa.
- Modelo generativo de mayor tamaño asegura interpretación y generación fiables.
- Ajusta chunking y prompts
- Chunking fino (un chunk = un artículo, un párrafo) para facilitar la recuperación.
- Prompt claro: solicita copia literal, formato estricto y parámetros de generación conservadores.
- Mide y valida
- Realiza tests de extracción: compara el texto original vs. la salida del modelo.
- Define métricas de exactitud (¿cuántos caracteres o palabras coinciden?).
Elegir un buen modelo en Ollama no es solo cuestión de embeddings: incluso con la mejor recuperación semántica, la capacidad interna del modelo definirá si la información se procesa y reproduce con fidelidad. Para aplicaciones donde la precisión normativa o la literalidad son críticas, vale la pena invertir en redes de 7 B o superiores. En cambio, para prototipos o tareas menos sensibles, un modelo de 0.5 B puede ofrecer un trade‑off interesante entre coste y rendimiento.
Fuente: wwwhatsnew.com