Sistemas RAG
Chatbots y búsqueda que responden desde tus datos: ingesta de documentos, chunking, embeddings, búsqueda vectorial (pgvector, Pinecone) y recuperación anclada con citas.
Construyo IA en producción sobre productos reales: generación aumentada por recuperación (RAG) sobre tus propios documentos, sistemas autónomos y multiagente, y funciones con LLM cableadas de punta a punta en apps web y móviles. Trabajo con las APIs de OpenAI, Anthropic y Gemini con el Vercel AI SDK y LangChain — y trato la confiabilidad, el grounding y la evaluación como parte del build, no como un agregado.
Chatbots y búsqueda que responden desde tus datos: ingesta de documentos, chunking, embeddings, búsqueda vectorial (pgvector, Pinecone) y recuperación anclada con citas.
Sistemas autónomos y multiagente que ejecutan acciones, corren de forma programada e integran tus herramientas — como el pipeline de doble agente detrás de TechBlog AI Agent.
Generación, resumen, clasificación y chat añadidos a una app existente, de punta a punta — datos y recuperación, capa de API, y la UI web o móvil.
Salidas estructuradas, validación por esquema, guardrails, sets de evaluación y humano en el loop donde importa — para que la función sea confiable frente a usuarios reales.
Plataforma B2B de agentes conversacionales de IA con base de conocimiento por búsqueda vectorial y avatares 3D. Implementa generación aumentada por recuperación (RAG) sobre los documentos de cada cliente, con entrega multicanal en chat, voz, WhatsApp y widgets web embebibles.
Sistema autónomo de doble agente que descubre noticias de IA/tecnología de más de 20 feeds RSS, las reescribe en español y las publica automáticamente cada tres horas. Usa deduplicación en PostgreSQL y ejecución programada.
App de personalidad (Eneagrama) multiplataforma con reportes generados por IA y coaching personalizado, integrando un LLM para convertir datos de evaluación en narrativa a medida.
Plataforma SaaS de análisis de crédito con un chatbot de IA que redacta cartas de disputa FCRA y explica conceptos de crédito, generando salida estructurada lista para documento.
Plataforma de salud y bienestar con un chatbot de IA y una biblioteca de remedios naturales, que responde preguntas ancladas en una base de contenido curada.
Sí. Ramón construye sistemas de generación aumentada por recuperación (RAG): ingiere y divide tus documentos, genera embeddings, los almacena en una base de datos vectorial (como pgvector o Pinecone) y recupera el contexto adecuado al momento de la consulta para que el modelo responda desde tus datos en lugar de inventar. Lo implementó exactamente así en Clona, una plataforma B2B cuyos agentes conversacionales responden desde una base de conocimiento con búsqueda vectorial en chat, voz y WhatsApp.
Ramón trabaja con las APIs de OpenAI, Anthropic y Gemini, y enruta entre modelos con OpenRouter. En la aplicación usa el Vercel AI SDK y LangChain para la orquestación, más vector stores y embeddings para la recuperación. Elige el modelo y las herramientas según el caso de uso — costo, latencia y calidad — en vez de casarse con un solo proveedor.
Sí. Ramón ha construido sistemas autónomos y multiagente en producción. TechBlog AI Agent es un pipeline de doble agente que descubre noticias de más de 20 feeds RSS, las reescribe y las publica automáticamente cada pocas horas, con deduplicación en PostgreSQL y ejecución programada — agentes haciendo trabajo real de forma agendada, no un demo.
La técnica central es el grounding: RAG para que las respuestas vengan de fuentes reales, salidas estructuradas y validación por esquema para que sean verificables por máquina, y guardrails con fallbacks para cuando el modelo no está seguro. Donde importa, agrega sets de evaluación para medir la calidad entre cambios y mantiene un humano en el loop para acciones críticas. El objetivo es una función de IA confiable frente a usuarios reales, no solo un prompt que funciona.
Depende del alcance, pero una función de IA enfocada — por ejemplo un chatbot RAG o un flujo de generación sobre una app existente — suele lanzarse en alrededor de 2 a 5 semanas. El precio se cotiza por proyecto una vez claro el alcance, no como tarifa fija, así que el primer paso es una llamada corta para definir el caso de uso, los datos involucrados y cómo se medirá la confiabilidad.
Sí — la mayor parte del trabajo de IA de Ramón va sobre un producto existente, no desde cero. Como trabaja full-stack en React, Next.js, React Native y el backend, puede cablear una función con LLM de punta a punta: datos y recuperación, la capa de API y la UI web o móvil, sin coordinar contratistas aparte.
Más de una década enviando producto en web, mobile e IA me dejó algo más valioso que stack: criterio. Si tu equipo está atascado en una decisión técnica, evaluando un stack, o necesita una segunda opinión antes de invertir meses en una dirección — conversemos.