البرمجة

استخراج آخر 5 أرقام من عمود CSV في Python باستخدام ريجكس

في هذا السياق، تبحث عن طريقة فعالة لاستخراج آخر خمسة أرقام من عمود في ملف CSV وإضافتها كعمود إضافي. قد يكون استخدام تعبيرات النمط الريجكس (Regex) هو الحلا المناسباً لهذه المهمة.

أولاً وقبل الشروع في كتابة الشيفرة، يجب أن نستخدم مكتبة pandas لتحميل البيانات من ملف CSV والتعامل معها بشكل هيكلي. لنفترض أن لديك إصدارًا من Python يدعم pandas، سنبدأ بتحميل البيانات واستعراضها:

python
import pandas as pd # قراءة ملف CSV df = pd.read_csv('your_file.csv') # عرض البيانات الأولية print(df)

الخطوة التالية هي استخدام تعبير النمط الريجكس لاستخراج آخر خمسة أرقام. سنستخدم مكتبة re لهذا الغرض. الشيفرة قد تكون كالتالي:

python
import re # تعريف دالة لاستخراج آخر خمسة أرقام def extract_last_five_digits(value): match = re.search(r'\d{5}$', str(value)) return match.group() if match else None # إضافة عمود جديد باستخدام الدالة df['Column 5'] = df['Column 4'].apply(extract_last_five_digits) # عرض البيانات بعد إضافة العمود الجديد print(df)

هذه الشيفرة تعتمد على استخدام دالة apply من pandas لتطبيق الدالة extract_last_five_digits على كل قيمة في “Column 4” وإضافة القيمة المستخرجة إلى “Column 5”.

من المهم أن تتأكد من تعديل اسم الملف وأسماء الأعمدة وفقًا لهيكل ملف البيانات الخاص بك.

هذا يمثل بداية لحل المشكلة الخاصة بك، وقد تحتاج إلى إجراء بعض التعديلات والتكييفات حسب هيكل البيانات الفعلي لديك.

المزيد من المعلومات

لزيادة في الفهم حول الحل الذي تم تقديمه، يمكننا أن نلقي نظرة أعمق على الشيفرة وكيفية عملها.

في الشيفرة الأولى، قمنا بتحميل مكتبة pandas لتسهيل عمليات التحليل والتلاعب في البيانات. ثم استخدمنا pd.read_csv('your_file.csv') لقراءة ملف CSV الخاص بك وتخزينه في DataFrame.

ثم، في الشيفرة الثانية، قمنا بتعريف دالة extract_last_five_digits التي تستخدم تعبير النمط الريجكس r'\d{5}$' للبحث عن آخر خمسة أرقام في نهاية النص. تُطبق هذه الدالة على كل قيمة في “Column 4” باستخدام df['Column 4'].apply(extract_last_five_digits)، والقيم المستخرجة تتم إضافتها في عمود جديد يسمى “Column 5”.

يجب أن يكون هذا الحل قادرًا على التعامل مع مجموعة متنوعة من البيانات في “Column 4” واستخراج الخمسة أرقام الأخيرة من كل قيمة. قد تحتاج إلى ضبطه بناءً على تفاصيل هيكل بيانات CSV الفعلي الخاص بك.

من الجيد أن تتأكد من أن البيانات في “Column 4” فعلاً تحتوي على أرقام، وإذا كانت هناك حالات خاصة يجب التعامل معها. إضافةً إلى ذلك، يمكنك استكشاف المزيد من مميزات pandas وكيفية التلاعب بالبيانات باستخدامها لتحقيق مهام أخرى في تحليل البيانات.

زر الذهاب إلى الأعلى