Железо,  Статьи

О деградации памяти видеокарт при майнинге

Многие майнеры, занимающиеся добыванием криптовалют с помощью ригов на видеокартах, со временем неизбежно сталкиваются с тем, что память уже не может работать на тех частотах, которые она раньше с легкостью брала.

Из-за этого подвисают программы-майнеры, работа ригов становиться нестабильной. Для устранения проблем приходиться занижать частоту памяти/уменьшать ее разгон, что уменьшает хешрейт и прибыль.

Рассмотрим подробнее, отчего со временем портятся полупроводниковые кристаллы в памяти видеокарт и как можно увеличить продолжительность и качество ее работы.

Почему портится память видеокарт при майнинге?

Эксплуатация полупроводниковых элементов в вычислительных устройствах (особенно при повышенной температуре) со временем приводит к сбоям и поломкам, причину которых подчас трудно найти.

Основными причинами неисправностей в работе чипов памяти являются:

  • перегрев и электромиграция (они взаимосвязаны) – сильно влияет на качество и долговременность работы чипов памяти и (не так сильно) процессоров;
  • электромагнитное излучение (в обычных условиях эффект минимален);
  • влияние электростатики (ESD, electrostatic discharge) – может проявляться при неквалифицированном обслуживании видеокарты;
  • разрушающее физическое воздействие, вибрация и прочее.

Наибольшее влияние на чипы памяти при майнинге оказывают перегрев и диффузный эффект электромиграции.

Иллюстрация возникновения эффекта электромиграции в полупроводниках:

Эффект электромиграции также влияет на процессор/ядро видеокарт, но в этих случаях электромиграция проявляется намного меньше, так как частота CPU и ядра GPU в разы меньше эффективной частоты работы памяти.

Этот эффект связан с переносом вещества в металле/полупроводнике при прохождении тока высокой плотности. Вследствие этого в чипах постепенно происходит диффузионное перемещение ионов, которое ускоряется при высоких плотностях тока и температурах. Если на полупроводниковый элемент одновременно прикладывается высокий ток и возникает его перегрев, то эффект проявляется в сотни и тысячи раз сильнее, что может привести к мгновенному выходу чипа из строя.

Согласно расчетам производителей, при работе в штатных условиях чипы памяти должны отработать около 100 тысяч часов.

При повышенном вольтаже и высокой температуре (такой считается диапазон от 75 до 125°C) на чипах значительно увеличивается влияние эффекта электромиграции и кардинально ускоряется их деградация.

Формула расчета времени наработки на отказ полупроводников (Mean Time To Failure, MTTF):



где:

A = константа, показывающая зависимость связей между частицами вещества;
j = плотность тока;
n = константа масштабируемости (обычно = 2)
Ea = энергия электромиграции (eV);
k = константа Больцмана (8.617 eV.K-1);
T = температура в Кельвинах(K) 

Каждое повышение температуры с шагом в 10 градусов уменьшает срок службы полупроводниковых элементов в два раза.

Похожая деградация происходит и с электролитическими конденсаторами, особенно с теми, в которых используется полужидкий электролит (подробнее об этом можно прочитать в статье «Об износе электролитических конденсаторов блоков питания во время майнинга»).

Электромиграция отдельных микрочастиц внутри полупроводниковых кристаллов особенно сильно проявляется во время переходных процессов, связанных с включением/выключением питания, при которых происходят скачки напряжения. При этом возникают случайные микропробои/замыкания внутри кристаллов чипов, постепенно уменьшается количество работоспособных элементов и нарушается их нормальный порядок работы.

Эффект электромиграции действует постоянно, но особенно сильно проявляется при большом нагреве чипов в условиях воздействия сильного электрического поля. При этом в полупроводниках происходит интенсивный нежелательный перенос (дрейф) веществ вместе с ионами. Он проявляется тем сильнее, чем меньший техпроцесс использовался при производстве полупроводников.

Это явление имеет накопительный эффект, так как на возникающие в результате электромиграции маленькие островки со временем осаждается все больше микрочастиц. Поначалу эти микроучастки слабо влияют на работу чипов, хотя их рабочие характеристики (возможность разгона) постепенно падают из-за возникновения паразитных емкостей и нежелательных соединений. Постепенно они увеличиваются, возникают большие бугорки (очаги) с повышенной плотностью тока и нагревом, которые постепенно приводят к частичному или полному разрушению полупроводникового элемента.

Возникновение бугорков(Hillock) и пустот (Void) в полупроводниковом элементе в результате электромиграции:

Появление пустот приводит к пропаданию полезных контактов, а возникновение бугорков – к появлению нежелательных контактов и коротких замыканий.

Для справки:

Особенно сильно эффект электромиграции проявляется у алюминия, который широко применяется при изготовлении микросхем. Для борьбы с этим эффектом в радиодеталях используют добавки меди (добавление 2-4% меди уменьшает эффект электромиграции в 50 раз). Если в качестве проводника используется чистая медь, то допустимая плотность тока возрастает в разы, что также увеличивает надежность элементов. Поэтому в вопросах долговечности и надежности работы памяти немаловажную роль играет качество изготовления. Если в проводящих элементах больше меди, то они могут выдержать большую плотность тока и меньше нагреваются, что увеличивает их долговечность.

Вследствие деградации полупроводников постепенно увеличиваются задержки сигнала и падает их быстродействие. Чипы еще могут работать, но для этого нужно снижать частоту и корректировать рабочее напряжение в сторону уменьшения. Из-за этого эффекта видеокарты даже с качественной памятью GDDR5 фирмы Самсунг, которая держала разгон до 2100 МГц, через 1-2 года майнинга устойчиво держат частоты порядка 1900 МГц, а память Elpida, итак с трудом работавшая на частотах до 1950 МГц, скатывается до уровня 1800 МГц.

У памяти GDDR6, изготовленной по более компактной технологии, чем GDDR5, эффект деградации проявляется быстрее. По опыту автора, чипы производства фирмы Micron, державшие разгон в +800 МГц через 6-8 месяцев эксплуатации при температурах порядка 59 градусов уже не могут держать стабильный разгон более +500 МГц. Естественно, это привело к падению хешрейта при майнинге на алгоритме Ethash с 31,5 до 29,5 mh/s.

Явление деградации полупроводниковых элементов проявляется тем сильнее, чем более миниатюризированный технологический процесс используется при их изготовлении. Процессоры и память, изготовленные 15-20 лет назад по 45-90 нм процессу с успехом работают и поныне. При этом они сохраняют работоспособность даже при кратковременном перегреве до высокой температуры.

Проблема электромиграции стала сильно проявляться уже при 28-нм процессе. Современные чипы, изготовленные по 7-10 нм технологии, не могут проработать долгий промежуток времени в неблагоприятных условиях из-за очень близкого расположения активных элементов. Они обречены на быстрое старение, если им не обеспечить хорошие условия эксплуатации, особенно охлаждение.

Деградация чипов (в особенности памяти) является очень нежелательным явлением. Такие чипы уже невозможно восстановить, можно только немного улучшить условия их работы, прочистив систему охлаждения и заменив термопрокладки. Эксплуатировать их все равно уже придется при более низких частотах.

Что можно сделать для снижения деградации памяти при майнинге?

Усиленная нагрузка на полупроводниковые элементы памяти и (видео)процессоры при майнинге (высокоинтенсивных вычислениях) неизбежно приводит к их повышенному нагреву, что ускоряет старение чипов.

Для новых видеокарт можно существенно увеличить срок производительной работы полупроводниковых элементов памяти с помощью эксплуатации при более низких температурах и (по возможности) меньшем вольтаже.

Этого невозможно сделать при использовании некачественной системы охлаждения видеокарт и недостаточном вентилировании мест установки ригов.

Для продления срока службы чипов желательно периодически проверять систему охлаждения GPU на предмет правильной установки термопрокладок и обеспечение отвода тепла от зоны с микросхемами памяти. Этому может помочь и установка теплопроводящего бекплейта.

Кроме того, необходимо максимально снижать напряжение на ядре видеокарт для уменьшения их общей температуры. Нужно помнить, что каждый лишний градус на чипах памяти уменьшает срок их плодотворной (скоростной) жизни.

Заключение

Чем новее технология, которая применяется при производстве полупроводниковых элементов, тем меньше расстояния между кристаллами в них. Из-за этого увеличивается влияние температурного фактора, который неизбежно приводит чипы к износу/выходу из строя чипов памяти.

Эксплуатация видеокарт с загрязненной системой охлаждения при высоких температурах, использование некачественных термопрокладок, плохая вентиляция – все эти факторы приводят к ускоренной деградации полупроводниковых приборов и быстрому проявлению эффекта электромиграции. В связи с этим со временем чипы памяти не могут работать с разгоном, начинают сбоить даже на штатных частотах.

Чтобы как можно дольше использовать чипы памяти на высоких частотах, нужно обеспечивать для них благоприятный температурный режим – порядка 40-50 градусов.

Так как при майнинге относительно низкая температура видеокарты возможна только при использовании очень хорошего охлаждения, то деградация чипов видеопамяти практически гарантирована уже после нескольких месяцев майнинга.

Из-за этого не стоит покупать видеокарты с одним/двумя кулерами, особенно б/у, которые долгое время использовались при высоких температурах. По крайней мере, не стоит рассчитывать на их работоспособность при разгоне по памяти.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

English EN French FR German DE Russian RU Spanish ES