وقد تم الترويج لأدوات الذكاء الاصطناعي مثل ChatGPT لوعدها بتخفيف عبء عمل الطبيب عن طريق فرز المرضى، وأخذ التاريخ الطبي، وحتى توفير التشخيص الأولي.
هذه الأدوات، المعروفة باسم نماذج اللغة الكبيرة، يتم استخدامها بالفعل من قبل المرضى لفهم أعراضهم ونتائج الاختبارات الطبية.
ولكن في حين أن نماذج الذكاء الاصطناعي هذه تؤدي أداءً مثيرًا للإعجاب في الاختبارات الطبية الموحدة، فما مدى نجاحها في المواقف التي تحاكي العالم الحقيقي بشكل أوثق؟
ليس هذا رائعًا، وفقًا لنتائج دراسة جديدة أجراها باحثون في كلية الطب بجامعة هارفارد وجامعة ستانفورد.
لتحليلهم، نشر في 2 يناير طب الطبيعة، صمم الباحثون إطارًا للتقييم – أو اختبارًا – يسمى CRAFT-MD (إطار تقييم التفكير التحادثي للاختبار في الطب) ونشره على أربعة نماذج كبيرة اللغة لمعرفة مدى جودة أدائهم في إعدادات تحاكي عن كثب التفاعلات الفعلية مع مرضى.
لقد حققت جميع النماذج الأربعة كبيرة اللغات أداءً جيدًا.