Hacia una IA más comprensible: el impacto de los hallazgos de Anthropic en los grandes modelos lingüísticos


Los investigadores de Anthropic, creadores de la IA Claude, lograron avances clave en entender grandes modelos de lenguaje (LLM), enfrentando el problema de las
"cajas negras". Aunque se sabe qué instrucciones reciben y resultados generan, el proceso interno sigue siendo un misterio incluso para los desarrolladores. La empresa desarrolló herramientas similares a escáneres fMRI, aplicadas al modelo Claude 3.5, que les permitieron analizar comportamientos como el uso de idiomas, cálculos matemáticos y escritura de poemas.

Los hallazgos muestran que Claude utiliza componentes no ligados a idiomas específicos al formular respuestas, y luego selecciona el idioma para responder. En cálculos, adoptó estrategias internas no presentes en sus datos de entrenamiento, y en poesía mostró planificación anticipada, desafiando suposiciones previas.

Anthropic busca que estos descubrimientos ayuden a mejorar la confiabilidad de las IA y sirvan en áreas como la medicina y la genómica. Reconocen limitaciones en su enfoque actual, pues entender circuitos complejos aún requiere mucho esfuerzo humano.

Paralelamente, OpenAI y Google también enfrentan desafíos con las "cajas negras". OpenAI exploró patrones neuronales en IA, mientras Google observó aprendizajes inesperados en sus modelos, destacando las complejidades en la comprensión de estas tecnologías emergentes.

Comentarios

Entradas populares