يمكن أن تفشل نماذج التعلم الآلي عندما تحاول إجراء تنبؤات للأفراد الذين كانوا ممثلين تمثيلاً ناقصًا في مجموعات البيانات التي تم تدريبهم عليها.
على سبيل المثال، يمكن تدريب النموذج الذي يتنبأ بأفضل خيار علاجي لشخص مصاب بمرض مزمن باستخدام مجموعة بيانات تحتوي في الغالب على مرضى ذكور. قد يقدم هذا النموذج تنبؤات غير صحيحة للمرضى الإناث عند نشرهن في المستشفى.
لتحسين النتائج، يمكن للمهندسين محاولة موازنة مجموعة بيانات التدريب عن طريق إزالة نقاط البيانات حتى يتم تمثيل جميع المجموعات الفرعية بالتساوي. على الرغم من أن موازنة مجموعة البيانات تعد أمرًا واعدًا، إلا أنها تتطلب غالبًا إزالة كمية كبيرة من البيانات، مما يضر بالأداء العام للنموذج.
طور باحثون من معهد ماساتشوستس للتكنولوجيا تقنية جديدة تحدد وتزيل نقاطًا معينة في مجموعة بيانات التدريب التي تساهم بشكل كبير في فشل النموذج في مجموعات فرعية من الأقليات. من خلال إزالة نقاط بيانات أقل بكثير من الأساليب الأخرى، تحافظ هذه التقنية على الدقة الإجمالية للنموذج مع تحسين أدائه فيما يتعلق…