البرمجة

تنقية نتائج الويب سكرابينج في PHP

لتحقيق ما تريده، يتطلب الأمر تنقية نتائج الكود الخاص بك لتحصل على الأسعار دون علامات الإضافة (+) وأسماء الخبز بدون إضافات. يبدو أن النتائج التي تحصل عليها تأتي في شكل سلاسل نصية، وبالتالي يمكنك استخدام تعابير القوالب (regex) لتحقيق هذا الهدف. إليك كيف يمكنك تعديل الكود الخاص بك لتحقيق ذلك:

php
public function onRun() { $client = new Client(); $crawler = $client->request('GET', 'http://www.sandwich-express.nl/online-bestellen/'); $crawler->filter('tr')->each(function ($node) { if(sizeof($node->filter('.table-spacing')) > 0) var_dump('nieuwe headers next TR'); $node->filter('tr.colomn_text td')->each(function ($node) { // Using regex to extract prices without the '+' sign $text = $node->text(); preg_match('/\+(\d+,\d+)/', $text, $matches); if (!empty($matches)) { $price = $matches[1]; var_dump($price); } // Extracting bread names preg_match('/\b(\w+\.\w+)\b/', $text, $matches); if (!empty($matches)) { $bread_name = $matches[1]; var_dump($bread_name); } }); }); }

في هذا التعديل، قمت باستخدام تعابير القوالب (regex) لاستخراج الأسعار بدون علامات الإضافة وأسماء الخبز من كل خلية في الجدول. بعد ذلك، يتم طباعة النتائج المتحقق منها باستخدام var_dump()، يمكنك بالطبع استخدام النتائج بطريقة أخرى تناسب احتياجاتك.

المزيد من المعلومات

بالتأكيد، هذا هو الجزء المتبقي من المقال:


بعد إجراء التغييرات المقترحة على الكود، يجب أن تلاحظ الآن تحسناً في تنقية النتائج المستخرجة من صفحة الويب المستهدفة. تقوم التعابير العادية (regex) بدور مهم في استخراج البيانات بناءً على نمط محدد من النص، مما يتيح لك تحديد القيم التي تبحث عنها بدقة.

ومن الجدير بالذكر أنه يمكنك تنسيق الناتج بأي شكل تريده، سواء كان ذلك لعرضه على صفحة الويب بتنسيق معين، أو لتخزينه في قاعدة بيانات لمعالجته لاحقًا، أو حتى لإجراء تحليلات فورية عليه.

وبالطبع، لا تتردد في تخصيص الكود بما يتناسب مع متطلباتك الخاصة. يمكنك إضافة مزيد من التعبيرات العادية أو التعديل على القواعد الموجودة لتحقيق النتائج التي ترغب في الحصول عليها.

في النهاية، يعتبر تنظيف وتنسيق البيانات المستخرجة جزءًا مهمًا من عملية الويب سكرابينج، حيث يمكن أن تؤثر بشكل كبير على تجربة المستخدم النهائية ودقة البيانات التي يتم استخدامها في تحليلات الأعمال واتخاذ القرارات.


أتمنى أن يكون هذا المقال مفيدًا لك، ولا تتردد في الرجوع إلينا إذا كان لديك أي استفسارات أو تحتاج إلى مساعدة إضافية في أي موضوع آخر.

مقالات ذات صلة

زر الذهاب إلى الأعلى
إغلاق

أنت تستخدم إضافة Adblock

يرجى تعطيل مانع الإعلانات حيث أن موقعنا غير مزعج ولا بأس من عرض الأعلانات لك فهي تعتبر كمصدر دخل لنا و دعم مقدم منك لنا لنستمر في تقديم المحتوى المناسب و المفيد لك فلا تبخل بدعمنا عزيزي الزائر