Experiencias con la IA

Co-fundadora y Directora técnica en Muttu Lab
03 de Junio de 2024
IA

A finales de 2022 irrumpió en nuestras vidas una cosa llamada ChatGPT. No era algo nuevo, desde hacía años que coqueteamos con el machine learning y algunos modelos de chatbots pero nunca habían tenido mucho calado más allá de las áreas de IT o de gente muy geek (como una servidora).

Pero Chat GPT fue el mayor éxito de penetración de un nuevo sistema hasta la fecha. Se alcanzó el dato de 1 millón de usuarios en 5 días, cuando hasta la fecha se había tardado años en conseguir este hito.

Mucha gente se ha preguntado por qué, y seguro que será materia de estudios y tesis en un futuro cercano. Y es que la idea de que era imprescindible probarlo se extendió como la pólvora. Y todos quisimos hacer nuestras preguntas a este nuevo modelo de Large Learning (o LLM por sus siglas en inglés). Y luego han ido apareciendo otras herramientas, plug-ins de integración, ampliaciones, actualizaciones, ... Todo un nuevo ecosistema de herramientas a nuestro alcance que han venido a mejorar nuestro día a día de trabajo. 

Aunque mucha gente hizo 2-3 pruebas, obtuvo un éxito discreto (o un fracaso rotundo) y no lo ha vuelto a tocar. 

No me voy a extender en la importancia de crear buenos prompts (las preguntas que le hacemos a la IA), ni de recuperar los apuntes de bachillerato para colocar las ideas en el orden sintáctico correcto. Nunca hay que olvidar que se trata de modelos de lenguaje, por lo que es muy importante que nosotros dominemos el lenguaje para transmitir la idea adecuada al modelo. Más que nunca es importante hacer las preguntas correctas.

Cuando yo estoy en mi rol de toxicóloga, mi día a día es buscar información y datos, leer artículos técnicos y científicos, calcular y sacar conclusiones. Y es apasionante, pero consume muchísimo tiempo. Así que la idea de contar con un asistente de IA es una idea más que apetecible. Así que he decidido contaros mi experiencia hasta ahora por si a alguien le sirve en su campo.

Lo primero que debo decir es que desde que salieron, los modelos han evolucionado mucho. Sus respuestas cada vez son mejores. Así que si ya hace más de 6 meses que hiciste la última consulta te recomiendo que vuelvas a entrar. 

Lo segundo es que se trata de modelos que se alimentan de la información contenida en internet, por lo que “arrastran” los problemas que tiene la red. Y uno de ellos y para mí el más importante es el desorden.

Os voy a contar un caso a modo de ejemplo. Si yo necesito consultar un dato en bases de datos oficiales, me cuesta mucho transmitirlo al modelo. El modelo interpreta “oficial” como dominios “.gov”. Pero por ejemplo la base de datos de la ECHA no es .gov sino .eu, por lo que la excluye de la búsqueda. Así que o listo una por una las bases o páginas donde quiero que busque, lo que genera un prompt bastante complejo que a veces no funciona, o bien le pido que busque en las páginas una por una, con lo que no gano mucho más tiempo que buscando yo misma.

Este es uno de los puntos que estoy refinando, para poder confiar 100% en las búsquedas que hago.

Otro de los problemas que “arrastra” de internet, es cierto grado de confusión en los temas complejos. Es decir, el modelo no sabe distinguir entre hechos y opiniones. Y cuesta entrenarle, sobre todo en temas controvertidos.

Os cuento otro caso como ejemplo. Al buscar información sobre potencial sensibilizante de sustancias, una de las perlas que me devolvió es que las personas con alta tendencia a la sensibilización cutánea debían preferir aceites esenciales frente a otras sustancias. Siendo los aceites esenciales los productos con mayor potencial alergénico, mi sorpresa fue mayúscula. Obviamente esto es debido a la gran cantidad de contenido en la red que relaciona de forma directa o indirecta natural con seguro y el modelo no tiene herramientas para discriminarlos. Así que cuando busco información sobre sustancias concretas, las respuestas obtenidas son bastante confiables, ya que se basan en datos contenidos en bases de datos, pero cuando la búsqueda es sobre familias químicas o grupos de sustancias, las respuestas están mucho más contaminadas por corrientes de opinión ya que también se nutre del resto de contenido de internet y de momento no es capaz de (o yo no sé) hacer evaluaciones del peso de la evidencia (weight of evidence).

Hace unos días leí que hay gente que filtra las búsquedas como “antes de 2015” para evitar contenidos muy contaminados por estrategias de posicionamiento SEO. Pero esta estrategia no es válida para contenido científico, así que descartada.

Este punto no lo tengo resuelto, así que sigo intentándolo

Pero obviamente la IA no solamente sirve para preguntarle cosas. Ya hay una app por ejemplo que convierte los papers científicos en audio, y además separa por capítulos. Así que puedes ir escuchando y tomando notas, como si fuera una conferencia, en lugar de estar leyendo y escribiendo. Esto si no quieres utilizar directamente uno de los innumerables resumidores de textos científicos que hay disponibles. Además, le podemos incorporar AI a las extensiones para manejar las búsquedas bibliográficas y que nos ayudarán recomendando fuentes, detectando plagios, etcétera.

Y como he dicho al inicio, todo esto se inició hace algo más de un año. No me puedo imaginar lo que podremos hacer en unos pocos años más. Sin embargo, es importante que no nos dejemos cegar por las luces y tengamos presentes las sombras que hay. 

Yo lo resumo en, por un lado, la falta de coherencia en la identificación de las fuentes, que las extensiones de dominio no se usan adecuadamente por lo que los modelos no pueden discriminar el origen de la información.

Por otro lado, y derivado del anterior, que cuando hablamos de temas controvertidos como la seguridad de las sustancias, el modelo se siente perdido y valora por volumen de presencia de una idea. 

Así que, de momento en toxicología, la IA es una gran ayuda para alguien que ya tenga conocimientos y pueda detectar estos sesgos.

Pero ¿qué pasará cuando nos hayamos acostumbrado tanto a usar estas herramientas que ya no sepamos hacer las cosas sin ellas? No es cosa de risa, hoy en día estamos tan acostumbrados a los GPS que poca gente tiene planos o sabe siquiera utilizarlos ¿qué pasaría si la información del GPS no fuera fiable? ¿Y si decide indicar que Finlandia no existe? ¿O que hay tierra entre Galicia y Normandía? No me lo invento, hay páginas en internet que dicen esto mismo. Si el GPS en lugar de guiarse por datos integra IA, podría llegar pasar.

Así que, por el bien de todos, deberíamos depurar estas cosillas entre todos antes que no podamos vivir sin ello y tengamos médicos virtuales recomendando que si tenemos alergias usemos muchos aceites esenciales.