какое самое большое количество ядер на процессорах
Самый большой процессор в мире — Cerebras CS-1. Разбор
Наверняка вы подумали, что это какой-то очередной кликбейт. Что это за самый большой процессор в мире? Похоже сейчас нам будут рассказывать о процессоре, который на 5 процентов больше других, и то если рассматривать этот процессор только с определенной стороны. И да, просмотры и прочтения мы хотим собрать, но…
Сегодня мы расскажем вам о процессоре компании Церебро под названием Cerebras CS-1. И он действительно огромный!
Например, GPU, который считался самым большим раньше — это процессор Nvidia V100, а вот новый процессор Церебро. Он почти в 57 раз больше! Площадь самого чипа — 462 квадратных сантиметра — это почти столько же сколько площадь всей Nvidia 3090, вместе с системой охлаждения и разъемами.
А что вы скажете на то, что этот монстр способен симулировать некоторые физические модели быстрее самих законов физики? Заинтриговали? Что ж, тогда присаживайтесь, наливайте чаек. Сегодня будет разбор по-настоящему огромного однокристального процессора!
Итак, что же это за монстр такой и зачем он нужен? Давайте сразу ответим на второй вопрос — этот процессор создан для машинного обучения и искусственного интеллекта. Кроме того, он сильно расширит возможности для различного сложного моделирования и сможет заглядывать в будущее. Вообще, искусственный интеллект — это невероятно интересная и актуальная тема, а ее главные ограничения — это слабые вычислительные мощности. А если хотите узнать о реальных проектах с использованием искусственного интеллекта — у Илона Маска есть такой в запасе — Open UI.
Если вы думали, что закон Мура со своим увеличением количества транзисторов в процессоре каждые 1,5 года — это быстро, то посмотрите на потребности в области ИИ, ведь спрос на эти вычисления удваивается каждые 3,5 месяца!
Классический подход — это напихать кучу процессоров в серверные стойки, к каждому подвести систему охлаждения и питания, при этом каждый отдельный процессор еще надо связать друг с другом, а это, кстати, неизбежно вызывает задержки.
Скажем так — если вы возьмете двигатель от Ferrari и запихнете ее в старые Жигули, то машина конечно поедет быстрее, но как Ferrari все равно не поедет. Поэтому тут нужен принципиально иной подход, ведь для того, чтобы получить настоящий гиперкар надо взять хорошие тормоза, подвеску, рассчитать аэродинамику: с компьютерами точно также.
Компания Церебро это и сделала — они решили разработать свою систему с нуля, то есть вообще все — от архитектуры самих процессоров, до системы охлаждения и питания.
Это огромная машина, потребляющая 20 килоВатт, и занимающая треть стандартной серверной стойки, то есть можно размещать по три таких компьютера в одной стойке! А сам чип, по своей сути и предназначению, напоминает серверные GPU от NVIDIA, так что давайте их и сравним. Возьмем Nvidia Tesla V100.
Цифр много, приготовьтесь! Кроме размеров самого кристалла, процессор Церебро обладает четырьмя сотнями тысяч ядер, что в 78 раз больше, чем число ядер на NVIDIA Tesla V100! Количество транзисторов взрывает мозг — 1,2 триллиона, против 21 миллиарда у NVIDIA.
А сколько там памяти? 18 гигабайт l2 cache memory прямо на чипе! Это в три тысячи раз больше, чем у V100. Кстати у 3090 от той же NVIDIA, памяти на чипе тоже 6 мегабайт, прямо как у V100. Ну а про ширину полосы пропускания даже говорить страшно — у V100 это 300 Гигабит в секунду, а у Церебро — 100 ПЕТАбит в секунду. То есть разница в 33 тысячи раз!
А чтобы достичь схожей вычислительной мощности они заявляют, что нужна тысяча карт NVIDIA V100, что суммарно будет потреблять в 50 раз больше мощности и занимать в 40 раз больше места — это очень значительная экономия электроэнергии и свободного пространства.
Это конечно прекрасно — цифры поражают. Но как удалось их достичь?
Суть в размере. Чип — большой, нет, даже огромный. Именно это позволяет разместить столько всего на одном кристалле. И главное, что связь между элементами мгновенная, потому что не нужно заниматься сбором данных с разных чипов.
Однако, размер — это одновременно и главный недостаток Церебро.
Давайте по-порядку. Первое и главное — нагрев. Разработчики этого монстра прекрасно понимали, что они создают и какая система охлаждения нужна, поэтому она, как и сам процессор, были разработаны с нуля. Она представляет из себя комбинацию жидкостного охлаждения, которое направляется к охлаждаемым медным блокам! Охлаждающая жидкость, проходя через мощный насос, попадает в радиатор, где с помощью вентилятора происходит ее охлаждение, а горячий воздух уже выдувается наружу четырьмя дополнительными вентиляторами.
При потреблении 20 кВт, которые подаются через двенадцать разъемов питания, четыре уходит только на питание вентиляторов и насосов для системы охлаждения. Но в результате они достигли того, что чип работает при вдвое меньших температурах, чем стандартные GPU, что в конце концов повышает надежность всей системы.
Ну и конечно отдельно хочется сказать, что инженеры создали систему так, что она позволяет быстро менять почти любой компонент, что очень круто, так как в случае поломки — это уменьшает время возможного простоя.
Сам же чип собирает TSMC по, вы не поверите, 16 нанометровому техпроцессу. И тут вы можете справедливо возмутится. Как же так? Все уже делают чипы на 5 нм, какой смысл делать на древних 16 нм?
Тут то и скрывается вторая проблема. При производстве классических чипов неизбежно бывает брак, который приводит к тому, что несколько чипов оказываются негодными и выкидываются или используются для других задач, и чем мельче техпроцесс, тем выше процент брака. Но когда у тебя вся кремниевая подложка — это один чип, то любая ошибка в производстве приводит к тому, что всю пластину можно выкидывать. А при условии, что одна пластина может изготавливаться несколько месяцев и стоит около миллиона долларов, что ж….
Суть в том, что ребята решили, как бы подстраховаться. Ведь 16 нм техпроцессу уже почти семь лет: детали и тонкости при его производстве отлично изучены. Так сказать — уменьшают риски! Но стоит сказать, что уже ведется разработка и тестирование такого чипа на 7 нм, но его выход конечно будет зависеть от спроса на первое поколение! И там цифры просто огромные, только посмотрите на таблицу.
И тут вы можете справедливо заметить, что мы пока что ни слова не сказали о результатах, которых можно достичь с помощью этого монстра. Тут сложно, так как информация, в основном, закрытая, однако какие-то детали все равно просачиваются в медийное пространство.
Национальная лаборатория энергетических технологий Министерства энергетики США заявила, что CS-1 — первая система, которая смоделировала работу более миллиона топливных ячеек быстрее, чем в режиме реального времени.
Это означает, что когда CS-1 используется для моделирования, например, электростанции на основе данных о ее текущем состоянии, она может сказать, что произойдет в будущем быстрее, чем законы физики дадут такой же результат. Вы поняли? С помощью этого ПК можно заглянуть в будущее с высокой точностью, и если нужно подкорректировать и изменить его. И еще, например, в симуляции с 500 миллионами переменных Cerebras CS-1 уже обогнал суперкомпьютер Joule, занимающий 69-е место в рейтинге самых мощных суперкомпьютеров мира. Так что похоже со спросом проблем не ожидается.
Церебро планируется использовать для прогнозирования погоды или температуры внутри ядерного реактора или, например, проектирования крыльев самолета. Несомненно, лаборатории и различные исследовательские центры по всему миру найдут для Церебро области применения. Как вы понимаете, компьютер будет дорогим, но точная цена неизвестна.
Из открытых источников мы нашли только что в 2020 году в суперкомпьютерном центре Питтсбурга было куплено 2 компьютера Cerebras CS-1 за 5 миллионов долларов. Но система делается только под заказ и под каждого конкретного клиента, так что цена может варьироваться.
Выводы
Это явно уникальная система. И такого раньше никто не делал! Большинство производителей считают, что гораздо выгоднее и эффективнее наштамповать кучу маленьких процессоров, так как вероятность брака или поломки сильно падает и каждая ошибка сильно дешевле. Разработчики Церебро же решили пойти рискованным путем и, судя по тому, что процессор Cerebras CS-2 уже тестируют, их путь успешен.
И если все что они заявили — сбудется, то нас ждет абсолютно новая эра серверных вычислений, невероятные возможности для создания компьютерных моделей, новые мощности искусственного интеллекта. Нет сомнений, что и гиганты рынка, такие как Nvidia, Intel, Google, посмотрев на удачный опыт Церебро займутся разработкой своих огромных однокристальных систем. А вы только представьте, что будет если совместить это с квантовыми вычислениями, о которых мы недавно делали разбор? Ух!
Будем следить за развитием технологий, и продолжим дальше делать для вас такие интересные обзорные материалы про самые современные достижения!
PS. Кстати, лайк если поняли пасхалку в Церебро — ведь решетка радиатора выполнена в форме специальной сетки, которая используется в компьютерном моделировании для расчетов. Отсылка к предназначению Церебро!
Cerebras Systems представила самый большой в мире процессор с 2,6 трлн транзисторов и 850 000 ядер
В прошлом году компания Cerebras System представила самый большой в мире процессор. Его размеры составили 220 x 220 мм, площадь — 46 225 мм². Процессор включает 1,2 трлн транзисторов. Чип получил название WSE (Wafer Scale Engine). Представители компании разработали и компьютер CS-1, основой которого стал гигантский процессор. Систему официально представили 18 ноября 2019 года.
Сейчас Cerebras System рассказала о новом процессоре, количество транзисторов в котором увеличится более чем в 2 раза — с 1,2 трлн до 2,6 трлн. Резкое увеличение количества элементов в чипе стало возможным благодаря переходу на 7-нм техпроцесс. Кратно выросло и число ядер — их теперь 850 000.
Размеры первого процессора огромны — 22 x 22 см, что сопоставимо с размерами небольшого ноутбука. Он в 55.9 раз больше самого крупного GPU-чипа, Nvidia A100. Ну а CS-1 назван производителем «самым быстрым компьютером для работы с искусственным интеллектом и обучения нейросетей». Охлаждение — жидкостное с внутренним контуром и двумя насосами. Дополнительно установлены четыре крупных кулера, обеспечивающие скорость воздушного потока в 0,95 м 3 /с.
Процессор первого поколения включал 400 000 вычислительных ядер. Его оснастили 18 ГБ памяти формата SRAM, а пропускная способность при этом достигла 9 петабайт в секунду. Система потребляла 18 кВт энергии, которую подавали 12 блоков питания. Масса компьютера с установленным WSE — 254 килограмма. Для включения системы в единую сетевую инфраструктуру использовались 12 портов 100 Gigabit Ethernet (100GBase-SR4).
Wafer Scale Engine в сборе с системой питания и охлаждения
Генеральный директор и соучредитель Cerebras Systems Эндрю Фельдман на презентации новинки рассказывал, что CS-1 в три раза производительней кластеров TPU от Google. Вычислительные решения от поискового гиганта по энергетическим характеристикам оказались хуже разработки компании, потребляя более 100 кВт электроэнергии.
В 2019 году первые экземпляры CS-1 были переданы заказчикам. Среди них — Аргоннская национальная лаборатория министерства энергетики США, Суперкомпьютерный центр Питтсбурга и Ливерморская национальная лаборатория.
На конференции Hot Chips 2020 компания Cerebras System объявила, что перейдет с 16-нм техпроцесса на 7-нм. Производителем процессора останется тайваньская Taiwan Semiconductor Manufacturing Company (TSMC). Представитель разработчика заявил, что в лаборатории тестируется несколько образцов WSE нового поколения.
Ожидается, что Cerebras System увеличит объем доступной памяти чипа и усилит межкомпонентные соединения микросхем для повышения пропускной способности. Скорее всего, компания продолжит предоставлять в аренду вычислительные мощности для обучения нейросетей корпоративных клиентов. Кто станет клиентом, выяснится в ближайшем будущем, но можно быть уверенным в том, что желающих будет много.
Ядра или тактовая частота процессора: выясняем, что важнее для работы и игр
реклама
Процессоры будут являться «синтетическими», «созданными» на основе многоядерного процессора Ryzen 7 2700. В связи с тем, что данный процессор отказывается запускаться на частоте в 2 GHz (но данное сравнение не имело бы никакого отношения с действительностью), удалось создать лишь два «типовых» процессора.
реклама
Даже простым перемножением ядер на частоты, не сложно догадаться, что конфигурация с шестью ядрами, работающими на частоте в 3 GHz будет немного сильнее конфигурации с четырьмя ядрами, работающими на частоте 4 GHz. В условном «математическом бенчмарке» (данный «бенчмарк» справедлив только для «синтетических процессоров», различающихся лишь количеством и частотой ядер), суммарная производительность данных CPU будет сопоставима, как «18» и «16» в пользу процессора с большим количеством ядер, так как для большей справедливости данного тестирования, ему следовало «привязать» частоту в 2.66 GHz.
Но данное действие было невозможно по той же причине, по которой в тестировании отсутствует «синтетический Ryzen 7 / Xeon» с частотой в 2 GHz. Материнская плата ASUS TUF B450M-PRO GAMING не может запустить процессор Ryzen 7 2700 с частотой ниже 2.8 GHz: во-первых, это не подразумевается, так как минимальный множитель для данного процессора равен 28; во-вторых, при попытке «взятия» необходимой частоты посредством комбинации множитель/делитель (формула следующая: Ratio=2*FID/DID), система отказывается запускаться с любым напряжением, даже в значении «авто».
И кто-то заметит, что данное сравнение двух математически не равных процессоров якобы теряет смысл, так как «итак понятно, что процессор с шестью ядрами окажется чуть сильней». Но в данном случае частоты процессоров приближены к реальным, а сравнить процессоры на 2 GHz, 2,66GHz и 4 GHz, было бы как минимум нелепо, так как процессоров Ryzen с такими низкими частотами попросту нет. И опять же, это ни в коем случае не «симуляция известных процессоров», это всего лишь попытка сравнения высокой частоты и большого количества ядер, что важнее сейчас.
В общем, далее нет смысла вдаваться в нюансы данного эксперимента, предлагаем же перейти к реальному исследованию.
реклама
Но для начала осмотр тестовой конфигурации.
«Синтетические» процессоры тестировались на следующей конфигурации:
Вольтаж для процессора с шестью ядрами был подобран 0.8125 вольта, вольтаж же для процессора с четырьмя разогнанными ядрами составил 1.25 вольта. LLC был отрегулирован так, что напряжение при возрастании нагрузки оставалось стабильным.
Тестирование энергопотребления / уровня шума / температурных показателей
Тестирование процессоров проводилось посредством 10-минутного теста OCCT версии 5.5.7 с использованием AVX2 инструкций.
реклама
Для упрощения восприятия результатов тестирования, все данные были отображены в виде диаграммы с таблицей значений.
Таким образом, в тестировании OCCT процессор с шестью медленными ядрами оказался более «прохладным», чем процессор с разогнанными четырьмя ядрами. Но результаты данного тестирования нельзя интерпретировать на якобы Ryzen 5 3500X и Ryzen 3 3100/3300X. Все процессоры уникальны и данный тест лишь показывает серьезно возросшие показатели тепловыделения при небольшом разгоне, что характерно для всех процессоров Ryzen.
Тестирование в синтетических программах: CPU-Z
Теперь, когда мы разобрались с поведением двух экземпляров в стресс-тесте, предлагаю сравнить производительность процессоров в CPU-Z.
Для упрощения восприятия результатов тестирования, все данные были отображены в виде диаграммы с таблицей значений.
Результаты «математического бенчмарка» подтвердились. Четыре разогнанных ядра хоть и обошли шесть маломощных ядер в однопоточной производительности, но серьезно уступили во многоядерной производительности. Медленные шесть ядер обходят четыре быстрых на 12.5%, данная разница была известна еще заранее из «математического бенчмарка»: разница между 18 и 16 составляет 12.5%.
Тестирование в синтетике: Cinebench R20, CPU Queen, CPU PhotoWorxx
Перед тем, как мы перейдем непосредственно к играм, предлагаю ознакомиться со сводным тестированием процессоров в популярной синтетике.
Для упрощения восприятия результатов тестирования, все данные были отображены в виде диаграммы с таблицей значений.
Как мы можем наблюдать, процессоры очень близки по своей производительности в синтетических тестах. Но у процессора с низкой частотой и шестью ядрами закономерный отрыв в Cinebench R20 и небольшое превосходство в CPU PhotoWorxx. По результатам «общей синтетики» трудно выявить явного фаворита, процессоры очень близки, но за счет чисто «математического превосходства», 6 ядер с частотой в 3 GHz становятся более предпочтительными.
«Игровая синтетика»: Ashes of the Singularity: Escalation
Тестирование производилось с акцентом именно на CPU.
Для упрощения восприятия результатов тестирования, все данные были отображены в виде диаграммы с таблицей значений.
Стоит отметить, что оба процессора посредственно справились с данной игрой, но визуально плавность картинки была все-таки за процессором с шестью ядрами.
Assassin’s Creed Odyssey
Дополнительные слабые ядра положительно сказались на производительности в игре Assassin’s Creed Odyssey.
Для упрощения восприятия результатов тестирования, все данные были отображены в виде диаграммы с таблицей значений.
Даже на минимальные настройки графики не смогли «спасти» четыре разогнанных ядра от проигрыша в Assassin’s Creed Odyssey. К сожалению, разница в гигагерц не дала фору четырем ядрам.
Far Cry New Dawn
Для упрощения восприятия результатов тестирования, все данные были отображены в виде диаграммы с таблицей значений.
В данной игре шесть низкочастотных ядер потерпели разгромное поражение по плавности, проиграв четырем быстрым ядрам.
Metro Exodus
Для упрощения восприятия результатов тестирования, все данные были отображены в виде диаграммы с таблицей значений.
И опять с крохотным отрывом победу одержали четыре быстрых ядра. Но не стоит забывать, что это самые минимальные настройки графики, если бы видеокарта позволяла выставить максимальные настройки графики без «бутылочного горлышка», то процессор с четырьмя ядрами, скорее всего, серьезно бы уступил более медленному процессору, но с большим количеством ядер.
Заключение
Четыре ядра, шесть ядер, низкая частота, высокая частота имеет ли это такое большое значение, если итоговая производительность «гуляет» от игры к игре, а в синтетических тестах разница между этими решениями настолько мала, что становится трудно «рассудить», какой типовой процессор действительно лучший? Все зависит от ваших конкретных задач.