البرمجة

استخدام عملية LIKE في PySpark

في بيئة PySpark، العمليات المشابهة لعملية LIKE في SQL تتطلب استخدام تعبيرات القوالب (Patterns) بواسطة وظيفة like من وحدة التحليل التفاعلية (pyspark.sql.functions). ومع ذلك، يختلف الاستخدام قليلاً عن الطريقة التي تتم بها العملية في SQL العادي.

لنفترض أن لديك DataFrame يسمى df يحتوي على عمود يدعى column، وتريد البحث عن السلاسل التي تحتوي على حرف “s” في أي موضع داخل السلسلة. يمكنك القيام بذلك باستخدام وظيفة like مع قوالب التطابق المناسبة.

لتحقيق هذا الهدف، يمكنك استخدام الشيفرة التالية:

python
from pyspark.sql.functions import col # استخدام وظيفة like للبحث عن السلاسل التي تحتوي على حرف "s" في أي موضع داخل السلسلة df.filter(col("column").like("%s%")).show()

في هذا السياق، % تمثل أي عدد من الأحرف (بما في ذلك لا شيء أو أكثر من حرف واحد)، لذلك %s% سيتطابق مع أي سلسلة تحتوي على “s” في أي موضع داخلها.

هذا الكود يستخدم filter لتحديد الصفوف التي تطابق الشرط المحدد، حيث يستخدم col("column") للإشارة إلى العمود المطلوب، ومن ثم like لتحديد نمط التطابق.

بهذا، يمكنك تنفيذ عملية مشابهة لعملية LIKE في SQL باستخدام PySpark بنجاح.

المزيد من المعلومات

بالطبع! دعنا نواصل توسيع المقال لتشمل مزيدًا من التفاصيل والأمثلة حول استخدام عملية LIKE في PySpark.

عند استخدام وظيفة like في PySpark، يمكنك أيضًا تحديد النمط بشكل أكثر دقة باستخدام حروف استبعاد محددة. على سبيل المثال، إذا أردت البحث عن السلاسل التي تبدأ بحرف “s”، يمكنك استخدام قالب تطابق مثل "s%". وإذا أردت البحث عن السلاسل التي تنتهي بحرف “s”، يمكنك استخدام قالب تطابق مثل "%s".

هناك أيضًا خيار لاستخدام النمط العادي (Regular Expressions) في PySpark باستخدام وظيفة rlike. يمكن أن تكون هذه الطريقة أكثر قوة ومرونة للبحث عن أنماط معقدة داخل السلاسل.

لنوسع النطاق قليلاً، دعونا نقدم مثالًا على كيفية استخدام النمط العادي مع وظيفة rlike:

python
# استخدام وظيفة rlike للبحث عن السلاسل التي تحتوي على "s" أو "t" بشكل منفصل df.filter(col("column").rlike("s|t")).show()

في هذا المثال، النمط “s|t” يعني أي سلسلة تحتوي على حرف “s” أو حرف “t”.

باستخدام هذه الطرق المختلفة، يمكنك تخصيص عمليات البحث في DataFrame الخاص بك بشكل دقيق وفقًا لمتطلبات التحليل الخاصة بك.

لا تنسَ أن PySpark توفر مجموعة واسعة من الوظائف الأخرى لتحليل البيانات وتنقيتها، مما يسمح لك بتنفيذ العديد من العمليات المعقدة على البيانات بشكل فعال ومرن.

مقالات ذات صلة

زر الذهاب إلى الأعلى
إغلاق

أنت تستخدم إضافة Adblock

يرجى تعطيل مانع الإعلانات حيث أن موقعنا غير مزعج ولا بأس من عرض الأعلانات لك فهي تعتبر كمصدر دخل لنا و دعم مقدم منك لنا لنستمر في تقديم المحتوى المناسب و المفيد لك فلا تبخل بدعمنا عزيزي الزائر