البرمجة

استكشاف هيكل البيانات في Apache Spark: أساليب فعّالة للحصول على معلومات الـ DataFrame

في Apache Spark، يمكنك الحصول على قائمة بأسماء الأعمدة من مخطط (schema) للـ DataFrame باستخدام الكود التالي:

python
columnNames = df.schema.names

والذي يُرجى من خلاله الحصول على قائمة تحتوي على أسماء الأعمدة الموجودة في الـ DataFrame. ومن خلال هذه الطريقة، يمكنك الوصول إلى بيانات الهيكل الأساسي للـ DataFrame.

والآن، بالنسبة للحصول على قائمة من أنواع البيانات الموجودة في مخطط DataFrame، يجب عليك استخدام الدالة dtypes بدلاً من types:

python
columnTypes = df.dtypes

هذا الكود سيُعيد قائمة تحتوي على أزواج (tuple) حيث يحتوي العنصر الأول في كل tuple على اسم العمود، والعنصر الثاني يحتوي على نوع البيانات الخاص به.

على سبيل المثال، إذا كان لديك DataFrame يحتوي على أعمدة مثل “column1” و “column2” و “column3″، فإن df.dtypes قد يُرجع شيئاً مشابهاً لهذا:

python
[('column1', 'int'), ('column2', 'string'), ('column3', 'double')]

حيث يتم توفير نوع البيانات لكل عمود في الـ DataFrame.

المزيد من المعلومات

بالتأكيد، دعني أوسع لك المعلومات حول الحصول على معلومات البيانات في Apache Spark.

تتيح Apache Spark العديد من الطرق لاستكشاف وفهم هيكل البيانات في DataFrame. يُعتبر مفهوم المخطط (Schema) جزءًا أساسيًا من هذا الاستكشاف، حيث يوفر معلومات حول أنواع البيانات والهيكل العام للبيانات المخزنة في الـ DataFrame.

استعراض هيكل المخطط (Schema)

لعرض مخطط البيانات الخاص بـ DataFrame بشكل كامل، يمكنك استخدام الأمر التالي:

python
df.printSchema()

هذا الأمر سيقوم بطباعة تفصيلي للهيكل الداخلي للبيانات، مع عرض أسماء الأعمدة وأنواع البيانات وإمكانية تضمين هيكل تضمين متداخل إذا كان ذلك متاحًا.

عرض عدد محدد من الصفوف

في بعض الحالات، قد تحتاج إلى عرض محدد عدد من الصفوف في الـ DataFrame لفهم البيانات بشكل أفضل. يمكن القيام بذلك باستخدام الأمر show():

python
df.show(5) # عرض أول 5 صفوف

إحصائيات بسيطة حول البيانات

يمكنك أيضًا الحصول على إحصائيات بسيطة حول البيانات باستخدام الأمر describe():

python
df.describe().show()

هذا سيقوم بعرض إحصائيات مثل العدد الإجمالي للصفوف، المتوسط، الانحراف المعياري، الحد الأدنى، والحد الأقصى لكل عمود.

تحويل أنواع البيانات

في بعض الأحيان، قد تحتاج إلى تحويل أنواع البيانات لتلبية متطلبات تحليلك. يمكنك استخدام الدالة cast لذلك:

python
from pyspark.sql.types import IntegerType df = df.withColumn("columnName", df["columnName"].cast(IntegerType()))

حيث يتم تحويل نوع البيانات إلى IntegerType في هذا المثال.

البحث عن القيم الفارغة

يمكنك البحث عن القيم الفارغة في DataFrame باستخدام الأمر:

python
from pyspark.sql.functions import col df.select([count(when(col(c).isNull(), c)).alias(c) for c in df.columns]).show()

هذا يظهر عدد القيم الفارغة في كل عمود.

باستخدام هذه الأوامر والتقنيات، يمكنك فحص وفهم البيانات بشكل شامل في Apache Spark والعمل على تحليلها بشكل فعّال.

مقالات ذات صلة

زر الذهاب إلى الأعلى
إغلاق

أنت تستخدم إضافة Adblock

يرجى تعطيل مانع الإعلانات حيث أن موقعنا غير مزعج ولا بأس من عرض الأعلانات لك فهي تعتبر كمصدر دخل لنا و دعم مقدم منك لنا لنستمر في تقديم المحتوى المناسب و المفيد لك فلا تبخل بدعمنا عزيزي الزائر