إذا كنت تخطط لممارسة ألعاب مكثفة ، أو حوسبة GPU ، أو عرض رسومات ، أو التعدين أو التنقيب عن العملات المشفرة على بطاقة الرسومات الخاصة بك ، فقد تكون قلقًا من أن وحدة معالجة الرسومات (GPU) الخاصة بك سوف تتلاشى من الاستخدام الكثيف. لكن هل هذا؟ سنقوم بالتحقيق.
الأجابة هي نعم ، لكنها معقدة
معظم المعلومات حول عمر بطاقات الرسومات التي ستجدها عبر الإنترنت هي قصصية ، مع أرقام يمكن أن تختلف بشكل كبير اعتمادًا على من تسأل. مع المئات من النماذج المختلفة لبطاقات الرسومات التي تم إصدارها خلال العقد الماضي ، من الصعب اختزال البيانات الموجودة على مثل هذه البطاقات المختلفة إلى حد كبير في تعميمات بسيطة.
حتى الآن ، نحن نعلم هذا: وفقًا لتقرير عام 2020 الصادر عن بائع تجزئة ألماني ، فإن أحدث بطاقات الرسومات بها معدل فشل يبلغ 2-5٪ تقريبًا (يُقاس بالعائدات إلى بائع التجزئة) بشكل عام. وفي عام 2021 ، كانت Nvidia لا تزال تقدم تحديثات برنامج التشغيل للبطاقات التي كان عمرها حوالي 9-10 سنوات (مثل سلسلة GTX 600) ، لذلك يمكنك توقع عقد من الاستخدام من بطاقة GPU جيدة المعالجة – على الرغم من أنها قد تكون كذلك القيم المتطرفة ، كما سنرى في المستقبل.
بغض النظر عن الأرقام ، هناك بعض الفيزياء الصعبة في العمل. المواد والمكونات المستخدمة في تكوين بطاقات وحدة معالجة الرسومات ليست سحرية: فكلما زاد استخدامها ، كلما تدهورت الأجزاء بشكل أسرع ، وزادت احتمالية فشلها تمامًا. لذلك فإن الاستخدام المكثف يؤثر على العمر الافتراضي.
كما سترى ، سيؤدي التعدين المشفر إلى تقليل العمر الافتراضي لبطاقة الرسومات.
ما إذا كنت سترى عطلًا في بطاقة GPU الخاصة بك يعتمد على متغيرات مختلفة تمامًا ، بما في ذلك بالضبط مدى استخدام وحدة معالجة الرسومات (GPU) ، وطبيعة ودرجة تقلبات درجة الحرارة في الدائرة ، وعدد مرات تشغيل البطاقة وإيقافها ، ومدى نظافة بيئة التشغيل.
نظرًا لأن بطاقة GPU عبارة عن جهاز معقد يحتوي على العديد من الأجزاء ، يمكن أن تفشل كل بطاقة أو تتحلل بطرق مختلفة. سنستعرض عدة أجزاء رئيسية لبطاقة GPU ونفحص كيف يمكن أن تتآكل من الاستخدام الكثيف بمرور الوقت.
أول من يذهب: مراوح التبريد
من بين جميع أجزاء بطاقة الرسومات التي من المحتمل أن تفشل أولاً ، يجب أن نشير إلى مراوح التبريد (أو المروحة) ، وهي أجزاء متحركة فعلية. تحافظ المراوح على برودة وحدة معالجة الرسومات الخاصة بك عن طريق تحريك الهواء الساخن بعيدًا عن شريحة وحدة معالجة الرسومات (مع المشتت الحراري ) حتى تتمكن من الاستمرار في العمل.
لماذا الحرارة سيئة؟ مع الحرارة الكافية ، لا تعمل الترانزستورات بشكل صحيح ، مما يعني أن بطاقة وحدة معالجة الرسومات لن تعمل. مع زيادة الحرارة ، يمكن أن تتلف الترانزستورات الموجودة في الرقائق على البطاقة بشكل دائم .
بمرور الوقت ، غالبًا ما تسد مراوح التبريد بالغبار ، مما يقلل من قدرتها على تحريك الهواء بكفاءة. أو قد تفشل المراوح تمامًا في حالة تعطل مادة التشحيم الداخلية. سيؤدي أي من السيناريوهين إلى رفع درجة حرارة وحدة معالجة الرسومات.
تعمل كل وحدة معالجة رسومات على حماية نفسها من ارتفاع درجة الحرارة باستخدام الاختناق الحراري ، مما يؤدي إلى إبطاء تشغيل وحدة معالجة الرسومات لخفض درجة حرارة التشغيل. القيام بذلك يحد بشدة من الأداء. لذا ، إذا كان لديك وحدة معالجة رسومات (GPU) أصبحت فجأةً أكثر ضوضاءً من المعتاد (المروحة تدور بشكل أسرع) أو كان أداؤها أسوأ ، فقم بتنظيف مراوح تبريد وحدة معالجة الرسومات والمشتت الحراري تمامًا باستخدام الهواء المضغوط.
إذا تعطلت مروحة تبريد وحدة معالجة الرسومات تمامًا ، يمكنك عادةً استبدالها إذا كان بإمكانك العثور على مروحة مكافئة من مورد أجزاء الكمبيوتر.
مشتبه به آخر: خلل في المركب الحراري
يوجد بين كل مشتت حراري وشريحة GPU طبقة من مادة موصلة للحرارة ، مثل وسادة من المعجون أو المعجون الذي يساعد على نقل الحرارة من شريحة وحدة معالجة الرسومات إلى المشتت الحراري.
بمرور الوقت ، يمكن أن يتشقق المعجون الحراري أو يفقد فعاليته. عندما يحدث ذلك ، لا يبرد المشتت الحراري بشكل فعال ، وسترتفع درجة حرارة وحدة معالجة الرسومات. كما رأينا في قسم المروحة أعلاه ، تؤدي درجات الحرارة العالية لوحدة معالجة الرسومات إلى اختناق حراري ، مما يؤدي إلى إبطاء وحدة معالجة الرسومات الخاصة بك.
أفضل حل في هذا السيناريو هو استبدال المعجون الحراري بنفسك. يمكنك شراء معجون حراري من بائعي قطع غيار الكمبيوتر.
فشل في المكونات الأخرى مثل اللحام
بصرف النظر عن شريحة GPU ، ستشمل بطاقة الرسومات العشرات من المكونات الإلكترونية الأخرى مثل المكثفات والمقاومات وشرائح الذاكرة والمزيد. يمكن أن يفشل أي من هؤلاء من الاستخدام الكثيف أو التعرض للحرارة الزائدة. البعض أكثر عرضة للفشل من البعض الآخر.
المكثفات على وجه الخصوص عرضة للفشل بمرور الوقت. إنها حساسة للتغيرات المتكررة في درجات الحرارة ، وبعضها يكون به عيوب عند إنتاجه لأول مرة. إذا كنت في متناول اليد بدرجة كافية لاستكشاف مشكلات المكثف وإصلاحها ، فيمكنك استبدال المكثفات السيئة على بطاقة وحدة معالجة الرسومات إذا كان بإمكانك العثور على قطع غيار مكافئة.
أيضًا ، يمكن أن يتقادم اللحام الذي يربط الرقائق والمكونات بلوحة الدائرة الخاصة ببطاقة GPU ويتشقق بمرور الوقت من التغيرات المتكررة في درجات الحرارة ، أو المعالجة المادية القاسية ، أو التخزين غير المناسب ، أو التشغيل شديد الحرارة. لذا نعم ، قد يؤدي الاستخدام الكثيف لوحدة معالجة الرسومات إلى زيادة مخاطر فشل مفصل اللحام. قد يكون إصلاح مفاصل اللحام السيئة أمرًا صعبًا من الناحية الفنية ، لكنه ليس مستحيلًا .
فشل في GPU Chip نفسه
لذا يبقى السؤال: هل يمكن لشريحة GPU أن تبلى في النهاية من الاستخدام الكثيف؟ الجواب نعم ، نظريًا ، في ظل ظروف قصوى. لكن من المحتمل أن ترى فشل مكون آخر في بطاقة الرسومات قبل ذلك الوقت بوقت طويل.
تحتوي شريحة وحدة معالجة الرسومات في بطاقة الرسومات الخاصة بك على ملايين أو مليارات الترانزستورات المحفورة في قطعة من السيليكون. تقدم الترانزستورات مع مرور الوقت ، مما يؤثر على أدائها. عندما يسيء عمل عدد كافٍ من الترانزستورات ، ستفشل الشريحة.
وفقًا لهندسة أشباه الموصلات ، هناك عدة أسباب رئيسية لحدوث عطل في الترانزستورات بمرور الوقت من التقادم ( أحدها هو الحرارة ) ، والأخطاء تكون على الأرجح كلما كان حجم الميزة أصغر على الشريحة. يعتقد الخبراء أن رقائق الكمبيوتر المصنوعة اليوم لن تدوم طويلاً مثل الرقائق المصنوعة في التسعينيات ، لكن التنبؤ بعمر افتراضي دقيق لا يزال محض تخمين لأن التكنولوجيا جديدة جدًا.
حاليًا ، لا تنشر NVIDIA تقديرات MTBF (متوسط الوقت بين الفشل) لبطاقات الرسومات الاستهلاكية الخاصة بها ، ولكن الشركة تنشرها لبعض مسرعات الرسومات الصناعية والتجارية الخاصة بها. على سبيل المثال ، تشير ورقة البيانات الخاصة بـ Tesla K20X GPU Accelerator إلى أن MTBF للبطاقة (عند درجة حرارة 35 درجة مئوية / 95 فهرنهايت) يبلغ 14.7 عامًا لـ “بيئة غير خاضعة للرقابة” و 23.8 عامًا “لبيئة خاضعة للرقابة”. (لاحظ أنه بشكل عام ، من المتوقع أن تكون أجهزة الرسومات الصناعية أكثر قوة وأن تتحمل الاستخدام المكثف بشكل أفضل من أجهزة الرسومات الاستهلاكية.)
ومن المثير للاهتمام ، أنه يمكننا مقارنة هذا الرقم النظري ببيانات ثابتة من خارج الميدان. تأتي إحدى الدراسات التجريبية القليلة حول عمر وحدة معالجة الرسومات من باب المجاملة لعام 2020 ورقة بعنوان ” فترات حياة GPU على كمبيوتر عملاق تيتان: تحليل البقاء على قيد الحياة والموثوقية ” من تأليف Oak Ridge National Labs. تشير الورقة البحثية إلى موثوقية 18688 بطاقة Nvidia K20X Kepler GPU المستخدمة في الكمبيوتر العملاق Cray XK7 Titan المتقاعد حاليًا على مدار ما يقرب من 7 سنوات (2012-2019).
قدم الكمبيوتر العملاق Cray XK7 بيانات قيمة حول العمر الافتراضي لوحدة معالجة الرسومات. ORNL
بعد بعض حالات السقطات الأولية بسبب مشكلات الاتصال ، وجدوا موثوقية عالية نسبيًا مع بطاقات رسومات XK7 حتى عام 2016 (حوالي 3-4 سنوات في) ، عندما بدأ الكثيرون في الفشل. لكن خمن ماذا؟ لقد قاموا بتتبع معظم حالات الفشل في الدفعة الأولى من البطاقات (قبل الاستبدال) إلى وجود مقاوم خاطئ على لوحة الدوائر الخاصة ببطاقة الرسومات ، وليس شريحة وحدة معالجة الرسومات نفسها. بشكل عام ، وجد مؤلفو الدراسة أن متوسط MTBF لبطاقات GPU المستخدمة بكثافة K20X يبلغ حوالي 3 سنوات (وليس 14-23 عامًا ، كما هو مذكور في ورقة بيانات Nvidia) ، مع فشل بعض البطاقات الأكثر سخونة في النواة أولاً. وخلصوا إلى أن “موثوقية وحدة معالجة الرسومات تعتمد على تبديد الحرارة.”
لذا فإن الاحتمالات كبيرة أنه إذا كنت تستخدم بطاقة الرسومات الخاصة بك بشكل مكثف كواحد من أكبر أجهزة الكمبيوتر العملاقة في العالم (في ذلك الوقت) ، فستتآكل بشكل أسرع ، وستفشل المكونات الأخرى مثل المراوح والمقاومات قبل وقت طويل من شريحة GPU نفسها . تعتمد المدة التي ستحصل عليها بالضبط على عوامل لا يمكننا التنبؤ بها.
في نهاية المطاف ، فإن الحرارة هي العدو
في النهاية ، من كل مصدر قرأناه ، فإن العامل الأكثر تحديدًا لمدة بقاء بطاقة GPU هو مدى سخونة تشغيلها. كلما زادت سخونة البطاقة ، زادت سرعة تحلل جميع مكوناتها. أيضًا ، كلما زادت سخونة البطاقة ، زاد تضاؤل الأداء لمنع الفشل الذريع. يعمل التبريد الجيد على إطالة عمر بطاقتك ويزيد من أدائها.
لذا ، سواء كنت تقوم بتعدين العملات المشفرة أو اللعب ، إذا احتفظت ببطاقة GPU الخاصة بك باردة بشكل معقول مع مراوح نظيفة وعاملة ومعجون حراري فعال ، فمن المحتمل أن يكون لديك بطاقة عالية الأداء ، إذا كنت محظوظًا ، فقد تستمر حتى تنتهي عفا عليها الزمن وأنت تقوم بالترقية.
إذا كنت تخطط لشراء وحدة معالجة رسومات مستخدمة ، فعليك بالتأكيد أن تأخذ تاريخها في الاعتبار ، بما في ذلك كيفية تعامل مالكها معها واستخدامها. من المرجح أن تعمل البطاقات الأكثر استخدامًا (التي تعمل الآن) بشكل جيد على المدى القصير ولكنها أكثر عرضة للفشل على المدى الطويل. لا يمكننا تحديد أي رقم دقيق لعمر البطاقة ، ولكن الاستخدام الكثيف يؤدي بالتأكيد إلى استهلاك بطاقات الرسومات بشكل أسرع.