Железо,  Статьи

Тестирование памяти видеокарт nvidia с помощью программы MATS диагностического комплекса MODS

При эксплуатации и ремонте большого количества видеокарт неизбежно возникают ситуации, когда нужно проверить микросхемы памяти, установленные на печатных платах видеоускорителей.

Очень удобным инструментом для этих целей является программный комплекс MODS (Modular Diagnostic Software) с программой MATS, которая позволяет провести тестирование видеопамяти видеокарт Nvidia.

Процесс проверки очень прост и заключается в загрузке с помощью загрузочной флешки MODS с последующим анализом ошибок в автоматически создающемся файле repot.txt. При желании эту утилиту можно использовать на любом компьютере под управлением Linux, на котором развернуто необходимое окружение.

В данной статье рассматриваются процесс создания и практическое использование программы MATS из пакета NVIDIA Modular Diagnostic Software для проверки памяти видеокарт.

Что из себя представляют модульный диагностический комплекс MODS и программа MATS?

Комплекс MODS — это фирменное служебное программное обеспечение фирмы NVIDIA, предназначенное для диагностики видеокарт ее производства с помощью скриптов на JavaScript.

Комплекс MODS предназначен для проведения трех основных операций:

  • проверка на низком уровне работоспособности чипа и материнской платы;
  • анализ неисправностей и проблем, выявленных в чипах и на печатной плате GPU;
  • проверка архитектуры видеокарты.

Комплекс MODS работает в операционных системах семейства Linux, в MacOSX, есть также версии для Windows. Релизы MODS до версии 290 могли работать под DOS.

MATS — это программа из состава комплекса MODS для тестирования памяти видеокарт Nvidia.

Она работает только под управлением операционной системы Linux с необходимыми бинарными файлами. MATS помогает при поиске проблемных чипов на плате видеокарт, которые обычно проявляются появлением ошибок с кодом 10 или 43, а также артефактами на изображении:

Пример ошибки, обычно появляющейся в диспетчере задач Windows при неисправностях чипов памяти у видеокарт Nvidia (запуск этого устройства невозможен, код 10):

Рассмотрим подробнее процесс проверки видеокарты штатным способом и на компьютере под управлением LInux.

Создание загрузочной флешки с диагностической программой MATS диагностического комплекса MODS

Программный комплекс MATS с программой MODS может работать в системах с x86_64 или aarch64 процессорами, которые поддерживают Physical Address Extension (PAE) с ОЗУ не менее 4 Гб.

Для создания загрузочной флешки с программой тестирования MATS/MODS нужно:

  1. Скачать образ MODS с программой MATS (файл mats.img), например, с Google-диска:
  • релиз 367.38.1, поддерживает видеокарты до GTX 10XX;
  • версия 400.226, поддерживает видеокарты Nvidia до RTX и GTX 16XX.
  1. Скачать и установить программу Etcher для записи образов.
  2. Подключить к компьютеру USB-флешку объемом не менее 128 Мб.
  3. Записать образ MATS-MODS на флешку с помощью программы balenaEtcher (все данные на хранящиеся на флешке, будут уничтожены, в Windows эта флешка открываться не будет.

Для разворачивания образа на загрузочную флешку можно использовать и другие подходящие программы, например, Rufus. Полученная флешка содержит дистрибутив операционной системы ARCH Linux с автоматически загружающейся программой MATS из комплекса MODS для тестирования VRAM.

Для проверки работоспособности микросхем памяти видеокарт нужно загрузиться с флешки MATS/MODS на компьютере с проблемной видеокартой.

В случае тестирования видеокарт, которые не выводят изображения на монитор, но определяются системой, рекомендуется добавить в конец конфигурационного файла runmats (папка Mods) команду poweroff. После этого компьютер будет автоматически выключаться после проверки видеопамяти и не нужно будет гадать, когда закончится процесс проверки.

Использование программы MODS для проверки чипов памяти видеокарт на ошибки

Для проверки видеопамяти программой MATS-MODS нужно:

  1. Предварительно установить в BIOS материнской платы, в которую будет установлена проверяемая видеокарта, вывод на нее изображения.
  2. Вставить флешку с установленным комплексом MATS-MODS в компьютер, на котором будет тестироваться видеокарта. К ней лучше подключить дисплей, чтобы визуально контролировать процесс проверки.
  3. Загрузиться с флешки MATS-MODS, при этом автоматически запуститься программа тестирования, которая за несколько минут проведет проверку чипов памяти:

и запишет полученные результаты в файл repot.txt.

Просмотреть результаты проверки можно выполнив команду:

nano report.txt

В случае, если выбрана загрузка с интегрированной карты Intel вместо проверяемой Nvidia, программа выдает сообщение об ошибке «This card is not recognised», error code 00000003:

Если проверяемый видеоускоритель не выводит изображения на монитор, но хотя бы его инициализирует (это видно по кратковременному включению монитора после включения), то программа сможет провести тестирование.

Если используются штатная загрузочная флешка и настройки по умолчанию, то программа MATS/MODS тестирует 20 Мб видеопамяти, чего обычно хватает для обнаружения неисправного чипа.

В случае необходимости можно изменить объем тестируемой видеопамяти в файле runmats папки Mods. Параметр, задающий объем тестирования видеопамяти, находится в строке:

"$LOCATION/$PKGNAME/mats" -e 20

где 20 — объем видеопамяти, тестируемый программой при загрузке.

При этом нужно помнить, что увеличение объема проверяемой памяти пропорционально продлевает время тестирования.

Как анализировать результаты, полученные в ходе проверки памяти программой mats

Результаты тестирования памяти сохраняются в файл repot.txt в папке mods:

Пример результатов, полученных в ходе проверки проблемной видеокарты Nvidia GTX 1080 программой MATS пакета MODS, релиз 367.38 (информация в файле repot.txt свидетельствует о небольших проблемах (33 ошибки) в банке памяти FBIOC[ 31: 0]):

mats version 367.38. Testing GP104 with 20 MB of memory starting with 0 MB.

Errors found. Use -matsinfo for details.

This message will only appear once.

 SUBPART RANK0 RD ERR RANK0 WR ERR UNKNOWN ERR

------------- ------------- ------------- ------------

FBIOA[ 31: 0] 0 0 0

FBIOA[ 63: 32] 0 0 0

FBIOB[ 31: 0] 0 0 0

FBIOB[ 63: 32] 0 0 0

FBIOC[ 31: 0] 0 33 0

FBIOC[ 63: 32] 0 0 0

FBIOD[ 31: 0] 0 0 0

FBIOD[ 63: 32] 0 0 0

Rank 0 Failing bits:

 C000 C001 C002 C003 C004 C005 C006 C007 C008 C009 C010 C011 C012 C013 C014 C015 

Read Error Count: 0

Write Error Count: 33

Unknown Error Count: 0

BIT RANK0 WRITE RANK0 READ UNKNOWN

--- ----------- ---------- -------

C000 2 0 0

C000 4 0 0

C000 4 0 0

...

ADDRESS EXPECTED ACTUAL REREAD1 REREAD2 FAILBITS TPSEIB ROW COL

---------- -------- -------- -------- -------- -------- ------ ---- ---

0000002638 00000000 00000763 00000763 00000763 00000763 WC0046 0000 026

...

00000025f8 ffffffff ffff0754 ffff0754 ffff0754 0000f8ab WC0046 0000 05e

if you are getting failure for first MBof FB then try option -no_scan_out

Error Code = 00000001 

В случае получения результата, свидетельствующего о наличии «битой» банки памяти, нужно определить его местонахождение на плате видеокарты и заменить на новую. Ту же самую, хоть и отреболленную микросхему повторно использовать не рекомендуется из-за ее деградации и большой вероятности отставания полупроводникового кристалла от подложки микросхемы памяти.

При отсутствии проблем с видеопамятью, в файле отчет должна быть информация, свидетельствующая об отсутствии ошибок, например:

mats version 400.184. Testing TU106 with 20 MB of memory starting with 0 MB.

Read Error Count: 0

Write Error Count: 0

Unknown Error Count: 0

=== MEMORY ERRORS BY SUBPARTITION ===

SUBPART READ ERRORS WRITE ERRORS UNKNOWN ERRS

------- ----------- ------------ ------------

FBIOA0 0 0 0

FBIOA1 0 0 0

FBIOB0 0 0 0

FBIOB1 0 0 0

FBIOC0 0 0 0

FBIOC1 0 0 0

FBIOD0 0 0 0

FBIOD1 0 0 0

Failing Bits:

None

Error Code = 00000000 (OK)

Для тестовых целей лучше использовать отдельную загрузочную флешку, но, при желании, можно и не делать специальной загрузочной флешки, а запускать Mats на компьютере с Linux, в котором развернуто ядро MODS.

Как определить, где находится неисправный чип видеопамяти?

На видеокартах обычно используется последовательное размещение чипов памяти против часовой стрелки (если смотреть на видеокарту со стороны видеопроцессора, при этом разъем PCI-E находиться снизу).

Пример размещения чипов памяти на видеокарте Nvidia GeForce RTX 2070 (с отборным видеопроцессором TU106-400A-A1):

Примечание: буква A в маркировке чипа Nvidia серии Turing обозначает, что это отборный чип, способный без увеличения питающего напряжения стабильно работать на более высокой частоте.

При проверке видеокарт программой MATS/MODS нужно учитывать, что она поддерживает только видеокарты Nvidia, причем не все модели.

Особенности конкретного релиза и коды ошибок описаны в файле /mats/mods/367.38.1/mods.pdf, где 367.38.1 — версия использующейся программы.

Видеокарты AMD можно проверить с помощью скрипта или с помощью китайской программы TserverLite.

Запуск программы Mats на компьютере под управлением Linux

Проверка видеокарт не со штатной загрузочной флешки сопряжена с рядом проблем.

Чтобы запускать программу Mats в Linux, предварительно нужно установить необходимые пакеты. Это делается скриптом из папки mods/релиз (нужно не забыть присвоить необходимые разрешения на его выполнение):

install_module.sh --install

Запуск программы mats из командной строки Linux из каталога программы осуществляется командой:

./runmats

Чтобы провести тестирование проблемной карты нужно обеспечить автоматический запуск соответствующего скрипта при загрузке системы. Для этого можно использовать cron по методике, описанной в статье «Автозапуск майнеров в Linux с помощью cron«.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Chinese (Traditional) ZH-TW English EN French FR German DE Russian RU Spanish ES