تقسيم بيانات Spark: أفضل الممارسات

بدايةً، يبدو أن الكود الذي استخدمته لتقسيم البيانات يعاني من بعض المشاكل التي تؤدي إلى عدم توافق مجموع أعداد السجلات في مجموعات التدريب والتحقق والاختبار مع العدد الكلي للسجلات في البيانات الأصلية.

السبب الأساسي وراء هذا الاختلاف هو الطريقة التي تقوم بها بتقسيم البيانات. يبدو أن الكود يستخدم دالة data_split لتعيين البيانات إلى مجموعات التدريب والتحقق والاختبار باستخدام قيمة عشوائية لكل سجل في البيانات الأصلية. ولكن هذا النهج قد يؤدي إلى عدم التوازن في حجم كل مجموعة، مما يؤثر على مجموع أعداد السجلات في كل مجموعة.

تحتاج إلى ضمان أن عملية الانقسام العشوائي تتم بشكل متوازن بين مجموعات التدريب والتحقق والاختبار. في الوقت الحالي، يبدو أن هناك عدم توازن في الطريقة التي يتم بها اختيار السجلات لكل مجموعة.

لتصحيح هذا الأمر، يمكنك استخدام وظيفة تقسيم البيانات العشوائية المدمجة في مكتبة Spark بدلاً من تنفيذ خوارزمية التقسيم الخاصة بك. يمكنك استخدام وظيفة randomSplit لتقسيم البيانات إلى مجموعات متوازنة بناءً على النسب التي تحددها. ستكون الخطوات التالية:

تقسيم البيانات باستخدام الدالة randomSplit.
تحويل مجموعات البيانات إلى Spark DataFrames إذا لزم الأمر.
فحص مجموع أعداد السجلات في كل مجموعة للتأكد من التوازن.

في الكود أدناه، أوضح كيف يمكن تنفيذ هذه الخطوات:

python
# تقسيم البيانات باستخدام randomSplit
train_data, validation_data, test_data = ratings_sdf.randomSplit([0.6, 0.2, 0.2], seed=123)

# عرض عدد السجلات في كل مجموعة
print("Total Records in training data DataFrame is {}".format(train_data.count()))
print("Total Records in validation data DataFrame is {}".format(validation_data.count()))
print("Total Records in test data DataFrame is {}".format(test_data.count()))

باستخدام هذا النهج، يجب أن يتوافق مجموع أعداد السجلات في مجموعات التدريب والتحقق والاختبار مع مجموع أعداد السجلات في البيانات الأصلية بشكل أفضل. إذا لاحظت أي اختلافات أخرى، فقد يكون هناك عوامل أخرى يجب مراجعتها، مثل تدفق البيانات أو عمليات التحويل الأخرى التي قد تؤثر على البيانات.

المزيد من المعلومات

ثابت بلانك Planck في برمجية R

تحسين أداء أنابيب Angular 2 مع القوائم الكبيرة

مقالات ذات صلة

كيفية استخدام Feign Client بمصادقة Basic Authentication

إدراج صفوف بعد تاريخ محدد في Excel VBA

حل مشكلة Bus Error: 10 في تجميع تعليمات AVX باستخدام Clang

حل مشكلة تنسيق التواريخ في ASP.NET

أنت تستخدم إضافة Adblock