L'année dernière, la sortie de ChatGPT --dont le développeur OpenAI est soutenu par le rival de Google, Microsoft-- a lancé une course entre les géants de la technologie dans le domaine en plein essor de l'IA.
La santé est un domaine où la technologie a déjà montré des progrès tangibles, certains algorithmes se révélant capables de lire des scanners médicaux mieux que les humains.
Contrairement à ChatGPT, il n'a pas été ouvert au grand public.
Google affirme que Med-PaLM a été le premier grand modèle de langage, une technique d'IA entraînée sur de grandes quantités de texte produit par l'homme, à réussir l'USMLE (US Medical Licensing Examination).
La réussite de cet examen permet d’exercer la médecine aux États-Unis. Pour y parvenir, il faut obtenir un score de 60% environ. En février, une étude avait révélé que ChatGPT avait obtenu des résultats plutôt satisfaisants à l'examen.
Dans une nouvelle étude, évaluée par les pairs et publiée hier dans la revue Nature, les chercheurs de Google ont déclaré que Med-PaLM avait atteint 67,6% en répondant aux questions à choix multiples de style USMLE.
Selon le Wall Street Journal, Med-PaLM 2 serait en test dans le prestigieux hôpital de recherche américain Mayo Clinic depuis avril
Ces résultats sont "encourageants, mais restent inférieurs à ceux des humains", indique l'étude.
Pour identifier et réduire ce que l'on appelle les "hallucinations" --le mot qui désigne une réponse manifestement fausse proposée par un modèle d'IA--, Google a indiqué avoir développé une nouvelle référence d'évaluation.
Karan Singhal, chercheur chez Google et auteur principal de la nouvelle étude, a expliqué à l'AFP que son équipe avait testé une version plus récente du modèle.
Med-Palm 2 aurait atteint le score de 86,5% à l'examen USMLE, dépassant la version précédente de près de 20%, selon une étude publiée en mai qui n'a pas été évaluée par des pairs.
Selon le Wall Street Journal, Med-PaLM 2 serait en test dans le prestigieux hôpital de recherche américain Mayo Clinic depuis avril.
Tout test effectué avec Med-PaLM 2 ne sera pas "clinique, ni face au patient, ni susceptible de nuire aux patients", a assuré Karan Singhal. Le modèle sera plutôt testé pour des "tâches administratives qui peuvent être automatisées relativement facilement, avec de faibles enjeux", a-t-il ajouté.
Avec AFP