Springe direkt zu Inhalt

مصنفات الغابات العشوائية

كما ذكرنا سابقًا في الفصل الأخير، فإن هرمية قرار واحدة معرضة للتكيف المفرط والاختلافات في البيانات.

لتجنب هذا السيناريو، غالبًا ما يتم استخدام مجموعة من هرميات القرار، تسمى الغابة العشوائية.

بهذه الطريقة، يتم إنشاء مجموعة متنوعة كاملة من هرميات القرار التي تستخدم جميعها عينة مختلفة من مجموعة البيانات بأكملها بالإضافة إلى مجموعة من المتنبئين المختارين عشوائيًا في كل عقدة.

الشيء المريح حقًا بشأن تصنيف الغابات العشوائي هو أن الخوارزميات الأكثر شيوعًا تقوم بهذه الخطوة تلقائيًا بالكامل - كل ما يحتاجه المستخدم عادة لضبطه هو عدد الأشجار التي يجب أخذها في الاعتبار في المجموعة وعدد المتغيرات في المجموعة الفرعية العشوائية.

      

مزايا المصنفات العشوائية للغابات:

يحسن دقة أشجار القرار الفردي عن طريق تقليل فرط التجهيز

أقل عرضة للقيم المفقودة

لا تحتاج البيانات إلى التحويل أو إعادة القياس

يمكن أن تكون البيانات سمات فئوية أو عددية

    

عيوب المصنفات العشوائية للغابات:

اعتمادًا على عدد وتعقيد أشجار القرار، قد يكون الحساب صعبًا.

أهمية المتغيرات الفردية غير واضحة، وبالتالي إعاقة القابلية للتفسير

    

للتعمق أكثر في الجزء النظري يمكننا الرجوع الى العديد من المراجع:

https://blogs.fu-berlin.de/reseda/random-forest/

Liaw, A., Wiener, M. (2002): Classification and Regression by randomForest. Forest, 23.

Pal., M. (2003): Random Forest Classifier for Remote Sensing Classification. In: International Journal of Remote Sensing, Volume 26, Issue 1. Pages 217-222.

https://scikit-learn.org/stable/modules/tree.html