البرمجة

كيفية الحصول على حجم DataFrame في PySpark

في PySpark 2.0، قد تحتاج إلى استخدام عدة أساليب للحصول على حجم (أو شكل) DataFrame بما يشبه shape() في Python. على الرغم من عدم وجود وظيفة واحدة تقوم بهذه المهمة مباشرة، إلا أنه يمكنك استخدام مجموعة متنوعة من الأساليب لتحقيق الغرض المطلوب.

أحد الطرق الممكنة هي استخدام الأساليب التي ذكرتها بالفعل في السؤال، وهي count() لعدد الصفوف و len(data.dtypes) لعدد الأعمدة. على الرغم من أن هذا الحل يعمل، إلا أنه يستلزم اتخاذ عدة خطوات، وقد يكون أقل فعالية في بعض الحالات.

لتبسيط العملية وجعلها أكثر فاعلية، يمكنك استخدام بعض الدوال والخصائص المتاحة في PySpark لتحقيق نفس الغرض بشكل أكثر مباشرة. على سبيل المثال، يمكنك استخدام الخاصية shape المتوفرة في مكتبة pyspark.sql.DataFrame بالطريقة التالية:

python
row_count = data.count() column_count = len(data.columns) shape = (row_count, column_count)

باستخدام هذا الكود، يمكنك الحصول مباشرة على عدد الصفوف والأعمدة، ومن ثم إنشاء tuple يحتوي على الشكل الكامل للـ DataFrame.

بالإضافة إلى ذلك، يمكنك استخدام الخاصية describe() للحصول على معلومات إحصائية حول الـ DataFrame بما في ذلك عدد الصفوف، ولكن هذه الخاصية توفر معلومات إضافية بخلاف العدد الإجمالي للصفوف والأعمدة. لذلك، قد لا تكون الخيار الأمثل إذا كنت ترغب فقط في الحصول على الحجم بشكل مباشر.

باستخدام أي من هذه الأساليب، يمكنك الآن الحصول بسهولة على الحجم أو الشكل الكامل لـ DataFrame في PySpark 2.0 دون الحاجة إلى استخدام حلول معقدة أو تكرارية.

المزيد من المعلومات

بالطبع، دعني أوسع المقال ليشمل المزيد من التفاصيل حول كيفية العمل مع الـ DataFrame في PySpark وكيفية الحصول على معلومات حول حجمها وشكلها.

التعامل مع DataFrame في PySpark:

في بيئة PySpark، يتم استخدام DataFrame كهيكل بيانات رئيسي للتعامل مع البيانات. يمثل DataFrame مجموعة من البيانات المنظمة في أعمدة معينة مع معرفة نوع البيانات في كل عمود. يتيح PySpark للمستخدمين قوة المعالجة الموزعة مع قدرات التحليل والتحويل المتقدمة.

حصول على معلومات حول حجم DataFrame:

للحصول على معلومات حول حجم DataFrame في PySpark، يمكن استخدام الطرق التالية:

  1. استخدام count() و len(data.columns):

    كما ذكرت سابقًا، يمكن استخدام دالة count() لحساب عدد الصفوف في DataFrame واستخدام len(data.columns) لحساب عدد الأعمدة. هذه الطريقة مباشرة وسهلة، وتعتبر خيارًا جيدًا للحصول على معلومات الشكل.

  2. استخدام الخاصية shape:

    بالرغم من أنها غير متوفرة كخاصية مباشرة في PySpark، يمكن إنشاء دالة بسيطة للحصول على الشكل بناءً على عدد الصفوف والأعمدة باستخدام count() و len(data.columns) كما هو موضح في الكود السابق.

  3. استخدام الخاصية describe():

    يمكن استخدام describe() للحصول على معلومات إحصائية حول الـ DataFrame بما في ذلك عدد الصفوف وغيرها من الإحصائيات مثل المتوسط والانحراف المعياري والقيم القصوى والدنيا لكل عمود. يمكن استخدام هذا الخيار إذا كنت ترغب في الحصول على مزيد من المعلومات بخلاف الشكل الأساسي للـ DataFrame.

الاستنتاج:

باستخدام الأساليب المذكورة أعلاه، يمكنك بسهولة الحصول على معلومات حول حجم DataFrame في PySpark. سواء كنت بحاجة إلى معرفة عدد الصفوف والأعمدة فقط أو ترغب في الحصول على معلومات إحصائية أكثر تفصيلاً، يوفر PySpark الأدوات اللازمة لتلبية احتياجات تحليل البيانات الخاصة بك بكفاءة وسهولة.

مقالات ذات صلة

زر الذهاب إلى الأعلى
إغلاق

أنت تستخدم إضافة Adblock

يرجى تعطيل مانع الإعلانات حيث أن موقعنا غير مزعج ولا بأس من عرض الأعلانات لك فهي تعتبر كمصدر دخل لنا و دعم مقدم منك لنا لنستمر في تقديم المحتوى المناسب و المفيد لك فلا تبخل بدعمنا عزيزي الزائر