توزيع متوازن: كيفية تقسيم بيانات مراجعات أمازون بشكل فعال باستخدام Python و scikit-learn

23/02/2024

1 دقيقة واحدة

في مواجهة هذا التحدي في تقسيم بيانات مراجعات منتجات أمازون بشكل متوازن، يبدو أنك تسعى لاستخدام مكتبة scikit-learn في Python لتحقيق هذا الهدف. لكن يبدو أن هناك بعض الأخطاء في الكود الحالي تحتاج إلى تصحيح.

أولاً، يجب أن تعرف أنك تحتاج إلى استخدام اسم العمود الصحيح الذي ترغب في تحقيق التوازن بناءً عليه، وفي حالتك هذا العمود هو “Categories”. ولكن يجب أن تقوم بتعيين “y” إلى قيم هذا العمود.

فيما يلي كيف يمكنك تعديل الكود لحل هذه المشكلة:

python
import pandas as pd
from sklearn.model_selection import train_test_split

# اقرأ البيانات من ملف CSV
meta = pd.read_csv('C:\\Users\\xyz\\Desktop\\WM Project\\Joined.csv')

# قم بتعيين العمود الذي تريد تحقيق التوازن بناءً عليه
y = meta['Categories']

# قم بتقسيم البيانات مع الحفاظ على التوازن باستخدام stratify
train, test = train_test_split(meta, test_size=0.2, stratify=y)

الآن، يجب أن يعمل الكود بشكل صحيح دون أي أخطاء. يتم استخدام stratify=y للتأكد من أن الفئات في العمود “Categories” موزعة بشكل متوازن بين بيانات التدريب والاختبار.

بهذا الشكل، يمكنك أن تكون واثقًا أن التوازن النسبي للفئات سيتم الحفاظ عليه عند تقسيم بياناتك بنسبة 80-20 بين مجموعة التدريب ومجموعة الاختبار. يمكنك الآن استكشاف البيانات والقيام بتحليل أعمق لتحسين نموذج التدريب الخاص بك.

المزيد من المعلومات

مقالات ذات صلة

Singleton Pattern in Swift: Managing String Arrays

كيفية الحصول على قائمة كاملة من رموز Slack

تطوير تطبيقات React: التحديات وأفضل الممارسات

تقسيم النصوص في لغة C