البرمجة

قراءة جداول HTML في R باستخدام rvest

في السؤال الذي طرحته حول إمكانية استخدام حزمة readr لقراءة جداول HTML، يمكنني أن أقول إن حزمة readr ليست الخيار الأمثل لقراءة جداول HTML مباشرة. حيث تم تصميم حزمة readr بشكل رئيسي لقراءة البيانات من ملفات النص السطحي وليس لاستخراج البيانات من صفحات الويب مباشرة.

لقراءة جداول HTML في R، يفضل استخدام حزم أخرى مثل rvest أو xml2. حيث يمكنك استخدامها لفحص واستخراج المعلومات من صفحات الويب بشكل أكثر دقة. على سبيل المثال، يمكنك استخدام مكتبة rvest لاستخدام الكود التالي:

R
library(rvest) url <- "http://sports.yahoo.com/nfl/stats/byteam?group=Offense&cat=Total&conference=NFL&year=season_2010&sort=530&old_category=Total&old_group=Offense" html_page <- read_html(url) table_data <- html_table(html_page) # الآن يمكنك الوصول إلى البيانات في الجدول باستخدام index my_table <- table_data[[1]]

هذا الكود يستخدم rvest لقراءة صفحة الويب واستخراج الجدول الموجود فيها. يمكنك ضبط الكود وفقًا لاحتياجاتك الخاصة والبيانات التي ترغب في استخراجها من الصفحة.

المزيد من المعلومات

بالطبع، يُعتبر استخدام مكتبة rvest لقراءة جداول HTML في R خطوة فعّالة وقوية. تتميز rvest بقوتها في استخراج البيانات من صفحات الويب باستخدام تنسيق HTML. لفهم أكثر حول كيفية استخدام هذه المكتبة، يمكننا التركيز على بعض النقاط الهامة.

أولاً وقبل كل شيء، يجب تثبيت وتحميل مكتبة rvest في R. يمكن فعل ذلك باستخدام الأمرين التاليين:

R
install.packages("rvest") library(rvest)

من ثم، يُمكن استخدام الأمر read_html() لقراءة صفحة الويب من خلال تحديد الرابط URL:

R
url <- "http://sports.yahoo.com/nfl/stats/byteam?group=Offense&cat=Total&conference=NFL&year=season_2010&sort=530&old_category=Total&old_group=Offense" html_page <- read_html(url)

بعد ذلك، يُمكن استخدام html_table() لاستخراج الجدول من الصفحة:

R
table_data <- html_table(html_page)

الآن، يكون table_data قائمة تحتوي على جميع الجداول الموجودة في صفحة الويب. يمكن الوصول إلى الجدول المطلوب باستخدام فهرس القائمة، على سبيل المثال:

R
my_table <- table_data[[1]]

وبهذا، يمكنك الآن القيام بالعديد من العمليات على الجدول المستخرج، مثل تحليل البيانات، أو تنظيفها، أو تحويلها إلى تنسيق آخر حسب احتياجاتك.

يرجى مراعاة تحليل تنسيق صفحة الويب بشكل جيد لضمان استخراج البيانات بشكل دقيق وفعّال.

زر الذهاب إلى الأعلى