استخدام Selenium لاستخراج البيانات الديناميكية

عند مراجعة الكود الذي قدمته، يبدو أنك تقوم بمحاولة استخراج روابط الصور من صفحة ويب على موقع Flickr باستخدام تقنية BS4 للويب سكرابينغ. ومع ذلك، يبدو أن الكود لا يُعيد أي قيمة.

تأكدت من العنصر الذي تحاول الوصول إليه وهو عنصر div الذي يحمل الفئة “photo-list-photo-interaction”، ولكن النتيجة لم تعد أية قيم.

قد يكون السبب في ذلك هو أن المحتوى الذي تحاول الوصول إليه قد يتم تحميله ديناميكياً بواسطة JavaScript بعد تحميل الصفحة، وليس متاحاً في الاستجابة الأولية التي تسترجعها من الطلب باستخدام requests.

لحل هذه المشكلة، يمكنك استخدام Selenium بدلاً من BS4 إذا كان المحتوى يتم تحميله ديناميكياً. يسمح Selenium بتشغيل متصفح ويب وتفاعل مع المواقع بنفس الطريقة التي يفعلها الإنسان، مما يتيح لك الوصول إلى المحتوى الديناميكي.

فيما يلي مثال على كيفية استخدام Selenium للوصول إلى المحتوى الديناميكي على موقع Flickr:

python
from selenium import webdriver
from selenium.webdriver.common.by import By

# تهيئة المتصفح
driver = webdriver.Chrome()  # يمكن استخدام أي متصفح آخر مثل Firefox أو Edge

# فتح الصفحة
driver.get("https://www.flickr.com/photos/")

# انتظار تحميل المحتوى الديناميكي (يمكنك تعيين وقت الانتظار حسب حاجتك)
driver.implicitly_wait(10)  # انتظر 10 ثواني قبل الاستمرار

# العثور على العناصر المطلوبة
linkItems = driver.find_elements(By.CSS_SELECTOR, 'div.photo-list-photo-interaction a[ref^=/photos]')

# طباعة الروابط
for linkItem in linkItems:
    print(linkItem.get_attribute('href'))

# إغلاق المتصفح بعد الانتهاء
driver.quit()

هذا الكود يستخدم Selenium لفتح متصفح ويب (Chrome في هذا المثال) ويقوم بتحميل الصفحة وانتظار تحميل المحتوى الديناميكي، ثم يقوم بالبحث عن الروابط المطلوبة باستخدام محددات CSS ويطبعها.

يمكنك تعديل وتخصيص هذا الكود وفقاً لاحتياجاتك والعناصر التي ترغب في استخراجها من صفحة Flickr.

المزيد من المعلومات

تحسين استخراج البيانات من ResultSet في Java

Angular2 Two-Way Binding Basics

مقالات ذات صلة

تحسين استقرار اتصال SQL Workbench/J

إنشاء UserManager خارج نظام حقن الإعتماديات

فهم الخطأ في استخدام std::cout في C++

تحويل صفيف PHP المعقد إلى هيكل بيانات بسيط لسهولة الاستخدام في واجهة العرض

أنت تستخدم إضافة Adblock