استخراج البيانات بفعالية باستخدام R و rvest

11/02/2024آخر تحديث: 11/02/2024

12 دقيقة واحدة

في مقالنا اليوم، سنستعرض كيفية استخدام R وحزمة rvest لاستخراج بيانات من جداول الصفحات الإلكترونية باستخدام تقنية XPath. يعاني العديد من المستخدمين من مشكلة استخراج البيانات من مواقع الويب، وهذا هو السبب في أننا سنسلط الضوء على كيفية تجاوز الأخطاء الشائعة والحصول على البيانات بنجاح.

للبداية، يظهر الكود الذي تم استخدامه لاستخراج بيانات الجدول من موقع marketwatch.com. يوجد رابط الموقع ومسار XPath ضمن الكود، ولكن يتم استخدام دالة ‘html()’ التي أصبحت منتهية الصلاحية، وتظهر رسالة تحذير تفيد بذلك. لتجاوز هذه المشكلة، يُفضل استخدام ‘read_html’ بدلاً من ‘html()’، وهو ما سنعدك على تنفيذه في الخطوات التالية.

قبل البدء في إصلاح الكود، يجب عليك التأكد من تحديث حزم R و rvest إلى أحدث الإصدارات. الآن، دعونا نتناول الخطوات بتفصيل.

أولاً، قم بتحديث الحزم:

R
install.packages("rvest")
install.packages("tidyverse")

ثم، يمكنك استخدام الكود التالي بدلاً من الكود السابق:

R
library(rvest)
library(tidyverse)

url <- "http://www.marketwatch.com/investing/stock/IRS/profile"
valuation <- url %>%
  read_html() %>%
  html_nodes(xpath='//*[@id="maincontent"]/div[2]/div[1]') %>%
  html_table()
valuation <- valuation[[1]]

باستخدام ‘read_html()’ بدلاً من ‘html()’، يمكنك تجاوز الرسالة التحذيرية. يمكنك الآن تشغيل هذا الكود ويجب أن يتمكن من استخراج الجدول بدون مشاكل.

يُشدد على أهمية متابعة التوجيهات الصادرة من مجتمع R وتحديث الأكواد والحزم بانتظام لضمان استفادتك الكاملة من أحدث التقنيات والميزات. باستخدام هذه الطريقة، يمكنك بسهولة تجاوز المشكلات الشائعة وضمان نجاح عمليات الاستخراج الخاصة بك.

المزيد من المعلومات

تحويل شيفرة AutoIT إلى Java: تحديات ونصائح

تحسين أداء تطبيق Redis باستخدام StackExchange: استراتيجيات الأداء الفعّالة

مقالات ذات صلة

تحسين تعلم جافا سكريبت: بناء مشاريع عملية لتعزيز المفاهيم البرمجية

تحسين أداء تطوير الويب: أفضل ممارسات تنظيم شفرة CSS

تفادي تضارب تعريف الدوال في PHP

إبداع التحريكات: دمج CSS3 و jQuery في تجارب متقدمة