Параметры трансформаторов: Параметры силовых трансформаторов

Содержание

1.1.2. Основные параметры трансформатора

Рабочие параметры трансформатора могут быть определены при работе под нагрузкой. Однако при этом расходуется много электроэнергии и не обеспечиваются необходимая точность результатов измерений.

Некоторые рабочие параметры могут быть определены по данным опыта холостого хода и короткого замыкания.

При опыте холостого хода измеряются ,,и мощность. Определяются:

1) коэффициент трансформации

;

2) потери в стали (потери на гистерезис и вихревые токи) с помощью ваттметра

;

3) сопротивления трансформатора при холостом ходе

При опыте короткого замыкания измеряются напряжение короткого замыкания на первичной обмотке (при этоми). Мощность, потребляемая трансформатором при опыте короткого замыкания (ваттметром).

Определяются:

1) потери в проводах обмотки (в меди) , так как потери в стали пренебрежимо малы вследствие малостимагнитного потока;

2) полное, активное и индуктивное сопротивление короткого замыкания

3) полная отдаваемая мощность (номинальная) указывается в паспорте трансформатора и на щитке

; (1. 2.1)

4) полная потребляемая мощность

; (1.2.2)

5) активная потребляемая мощность

.. (1.2.3)

Эффективность передачи энергии через трансформатор характеризуется его КПД, то есть отношением активной мощности, отдаваемой в нагрузку к активной мощности, потребляемой из сети:

. (1.2.4)

В выпрямительных трансформаторах за счет протекания постоянной составляющей тока по вторичным обмоткам . Магнитопровод выпрямительного трансформатора выбирают по типовой (габаритной) мощности:

, (1.2.5)

где N  число обмоток трансформатора.

Из-за постоянного подмагничивания изменение напряженности магнитного поля происходит на нелинейном участке зависимости , что приводит к значительным искажениямH и U₂. Влияние постоянного подмагничивания можно уменьшить, если включить две вторичные обмотки таким образом, чтобы постоянные составляющие протекающих по ним токов имели противоположное направление, в этом случае постоянные магнитные потоки будут компенсировать друг друга.

Коэффициент нагрузки трансформатора – отношение тока при любой нагрузке к номинальному току вторичной обмотки:

. (1.2.6)

Как зависит  от нагрузки?

Активная отдаваемая в нагрузку мощность (полезная):

. (1.2.7)

Потери в меди (обмотках) зависит от тока нагрузки:

, (1.2.8)

где P_k  потери короткого замыкания.

Таким образом, КПД:

. (1.2.9)

, и известные величины, а  зависит от  и .

Рис.1.1.3. Зависимость КПД и потерь от нагрузки трансформатора

Определим , при котором  максимальное:

откуда и. Следовательно, наибольший КПД будет при равенстве, то есть при.

КПД трансформатора высок (0,8-0,96). При КПД незначительно снижается. КПД мощных трансформаторов выше.

Рис.1.1.4. Условное обозначение многообмоточного трансформатора

ногообмоточные трансформаторы, то есть с одной первичной и несколькими вторичными обмотками, применяют в РТС при необходимости получения от одного трансформатора нескольких напряжений. Следует отметить характерное для многообмоточного трансформатора взаимное влияние вторичных обмоток. При изменении тока в одной из вторичных обмоток изменяетсяI₁, а следовательно, напряжение на других вторичных обмотках. Взаимное влияние вторичных обмоток зависит от их расположения, так как различному расположению соответствуют различные потоки рассеяния.

Рис.1.1.5. Трехфазный трансформатор с соединением обмоток «звезда-звезда».

Также может быть соединение «треугольник – треугольник», а также «треугольник-звезда», «звезда-треугольник» .

сли нужно получить, обмотки соединяют треугольником.

w₁

w₂

Рис.1.1.6. Принципиальная схема автотрансформатора

случае изменения вторичного напряжения в сравнительно узких пределах используются автотрансформаторы. Характерной их особенностью является наличие непосредственной электрической связи между обмотками. Рассмотрим понижающий автотрансформатор. Вторичная обмотка является общей для первичной и вторичной цепей и по ней протекает ток.

Энергия из первичной цепи во вторичную частично передается за счет электрического соединения, то есть электрическим путем. Полезная мощность при активной нагрузке:

, (1.3.1)

где  мощность, передаваемая электрическим соединением нагрузки цепи и сети.

электромагнитная мощность, определяющая необходимый магнитный поток, поперечное сечение и вес стали. Она является расчетной или габаритной мощностью.

В пределе, при вся мощность передается лишь электрическим путем. Поскольку, габариты и вес автотрансформатора меньше, чем у трансформатора той же полезной мощности. Автотрансформаторы применяются только при небольших.

Автотрансформатор имеет малое сопротивление короткого замыкания. Это недостаток. К недостаткам относится также возможность попадания высокого напряжения в цепь низкого напряжения.

Параметры трансформатора: характеристика, способы их определения

Автор Andrey Ku На чтение 5 мин Опубликовано 19.05.2019

Трансформатор преобразует подаваемое напряжение в большее или меньшее значение без изменения мощности. Статическое электромагнитное устройство состоит из двух и более обмоток, размещенных на одном магнитопроводе. Подобрать требуемый электромагнитный аппарат не представит затруднений с помощью параметров трансформатора, указываемых в техническом описании на любое изделие.

Содержание

Мощность
Электромагнитная
Полезная
Расчетная
Габаритная (типовая)
Основные технические характеристики и способы определения параметров
Первичное напряжение номинального значения
Вторичное номинальное напряжение
Номинальный первичный ток
Номинальный вторичный ток
Коэффициент трансформации
Номинальный коэффициент мощности (cos φ)
Коэффициент полезного действия
Характеристики, определяющие поведение электрической машины
Напряжение при коротком замыкании
Напряжение при холостом ходе
Ток холостого хода
Пусковой ток
Испытательное пробойное напряжение рабочей частоты
Внешняя характеристика
Потери в режиме холостого хода
Потери в режиме короткого замыкания

Мощность

Основным параметром трансформаторов является мощность, обозначаемая буквой S. Она определяет массогабаритные показатели электромагнитного аппарата. От значения мощности зависит тип используемого магнитопровода, количество/диаметр витков в обмотках. Измеряется мощность в единицах В∙А (вольт-ампер). На практике для удобства используются кратные вольт-амперам величины кВА (10³∙ В∙А) и МВА (10⁶∙ В∙А).

Электромагнитная

Представляет собой мощность в выходной катушке, передаваемой с витков входной электромагнитным способом. Она определяется умножением действующего значения ЭДС на величину тока, протекающего в нагрузке электромагнитного преобразователя: S_эм = E₂∙ I_2.

Полезная

Это произведение действующего напряжения во вторичной обмотке на значение нагрузочного тока. Рассчитывается по формуле: S_{2 =}U_2∙I₂.

Расчетная

Расчётная мощность – произведение величин I₁ и U₁ входной обмотки аппарата S₁ = U₁ I₁. Этот параметр определяет габариты изделия: число витков и сечение проводов.

Габаритная (типовая)

Параметр S _габопределяет реальное сечение сердечника. Так называют полусумму мощностей всех обмоток электромагнитного устройства: S _габ= 0,5∙(S₁+S₂+S₃+ …).

Основные технические характеристики и способы определения параметров

Основные технические характеристики указываются в техдокументации на изделие. Они определяются расчетным путем или посредством замеров на специальном стенде при определенных режимах работы аппарата.

Первичное напряжение номинального значения

Так называют U_1н, которое требуется подать на входную катушку аппарата, чтобы в режиме холостого хода получить номинальное вторичное напряжение. Параметр U_1н указывается в техпаспорте изделия.

Вторичное номинальное напряжение

Это значение U_2н, которое устанавливается на выводах выходной обмотки при ненагруженном трансформаторе. На вход прикладывается номинальная величина параметра. Значение параметра зависит от величины U_1н и коэффициента трансформации К_т. При активно-емкостной нагрузке (φ₂< 0) U_2н может оказаться больше U_1н.

Номинальный первичный ток

Это ток I_1н, протекающий во входной обмотке, при котором возможна продолжительная работа аппарата. Значение I_1н указывается в техпаспорте на трансформатор.

Номинальный вторичный ток

Параметр также можно встретить в таблице паспортных данных трансформатора, он протекает по выходной катушке при продолжительной работе аппарата. Обозначается I_2н.

Коэффициент трансформации

Соотношением номинального входного и выходного напряжений определяется коэффициент трансформации: К = U_1н/U_2н.

Номинальный коэффициент трансформации определяет соответствие количества витков во вторичной и первичной катушке.

Номинальный коэффициент мощности (cos φ)

Сos φ (косинус фи) определяется отношением активной мощности трансформатора P к полной S: cos φ = P/S. Это величина, показывающая рациональность расходования электроэнергии с учетом реактивных потерь преобразователя.

Коэффициент полезного действия

КПД электромагнитного устройства представляет отношение активной мощности Р₂, отбираемой от аппарата, к подводимой P1: η = P2/P1. Величина КПД тем больше, чем выше cosφ₂и коэффициент загрузки β= I₂/I_2н.

Характеристики, определяющие поведение электрической машины

Так называют совокупность параметров, определяющих поведение электрической машины при различных режимах работы. Таковыми являются: пусковой момент, режим короткого замыкания и холостого хода.

Напряжение при коротком замыкании

При измерениях значения закорачивают выводы, а на первичную катушку подается напряжение U_к. Сила тока на ней не превышает номинала (I_к < I_1ном), а U_к составляет 5–12% от номинальной величины.

Напряжение при холостом ходе

Это значение ненагруженного (I₂=0) трансформатора при поданной номинальной величине U₁на вход аппарата. При разомкнутой нагрузке вторичная катушка оказывается обмоткой высшего (ВН) напряжения от взаимоиндукциии, а первичная становится обмоткой низшего (НН) значения. Подобное происходит по причине самоиндукции на ней, направленной против приложенного напряжения.

Ток холостого хода

Он относится к параметрам первичной обмотки и измеряется при номинальном значении I_1нс ненагруженной вторичной катушкой.

Его величина обычно не превышает 5–10% от номинала I_1н.

Пусковой ток

Он протекает через первичную обмотку аппарата после включения в питающую сеть. Пиковое значение в несколько десятков раз превышает I

1н. Способами борьбы с переходными процессами в электрической машине считаются:

увеличение количества витков и эффективной площади сечения магнитопровода;
подключение к питающей сети в момент максимальной амплитуды импульса (φ = π/2).

Испытательное пробойное напряжение рабочей частоты

Этот параметр трансформатора характеризует электрическую прочность изделия – способность выдерживать повышенное напряжение. Величина испытательного напряжения зависит от класса используемой изоляции. Параметр измеряется подачей высокого U _испрабочей частоты относительно земли на закороченные выводы обмотки ВВ. Выводы ВН закорачиваются и вместе с магнитопроводом (баком с маслом, металлическими деталями) заземляются.

Внешняя характеристика

Рабочий режим силовой машины задается не только U_1ни К_т,но и активно-реактивной нагрузкой электроприемника, подключенного к выводам вторичной обмотки. Изменяющийся ток в нагрузке (при электропитании U_1н= const), соответственно, меняет и напряжение на выходе трансформатора. Эта зависимость отражается в коэффициенте нагрузки: Кн = I₂/I_2н.

Потери в режиме холостого хода

Потери мощности ненагруженного электромагнитного устройства состоят из потерь в сердечнике из трансформаторного железа. ЭДС расходуется на нагрев магнитопровода, вихревые токи и гистерезис.

Повышает КПД аппарата применение электротехнической стали с высоким удельным сопротивлением и качественная изоляция пластин магнитопровода лаком, жаростойким покрытием. Помимо «потерь в железе», всегда присутствуют «потери в меди», обусловленные омическим сопротивлением витков электромагнитного устройства.

Потери в режиме короткого замыкания

Короткое замыкание трансформатора при эксплуатации создает экстремальный режим, способный вывести из строя аппарат. При этом вторичный ток а, соответственно, первичный увеличиваются в десятки раз по сравнению с I_н. Поэтому в электрической цепи аппарата предусматривают защиту от сверхтока КЗ, которая автоматически размыкает цепь электропитания.

Параметры трансформатора — Carroll & Meynell

Каждый из этих компонентов влияет на характеристики трансформатора, которые необходимо учитывать при проектировании устройства, чтобы конечный продукт соответствовал техническим характеристикам.

Характеристики без нагрузки

Когда к выходу трансформатора не подключена нагрузка, IP и IS равны нулю. Однако все еще есть небольшой ток, потребляемый трансформатором от источника питания. Этот ток необходим для намагничивания сердечника в одном направлении, а затем в противоположном, поскольку питание переменного тока проходит через полный сетевой цикл. Этот ток известен как ток холостого хода «IN» 9.0003

В сердечнике трансформатора действует механизм потерь, известный как гистерезисные потери. Это потери без нагрузки или потери в сердечнике, WCR. Хотя магнитное происхождение может быть электрически представлено в модели трансформатора частью тока без нагрузки, который протекает через резистор RC.

В условиях отсутствия нагрузки как IP, так и IS равны нулю, поэтому ΔVS равно нулю, а ΔVP зависит только от IN и, следовательно, мало. По этой причине выходное напряжение без нагрузки определяется уравнением 1 из базовой модели трансформатора 9.0003

Потери в катушке / Потери в нагрузке

Когда трансформатор находится под нагрузкой, при которой ток IS протекает в нагрузке, а IP — в первичной цепи трансформатора. Тогда катушки трансформатора будут рассеивать мощность в форме, связанной с «Омическим нагревом». По мере повышения температуры трансформатора значения RP и RS будут увеличиваться.

Общие потери трансформатора представляют собой сумму потерь в сердечнике и потерь в катушке.

По мере увеличения размеров трансформатора площадь токопроводящей поверхности проводников будет увеличиваться. Это приведет к появлению двух других механизмов потери катушки.

Потери в толще кожи

Когда ток впервые начинает протекать по токопроводящему проводу, он сначала протекает по внешней поверхности проводника, а затем постепенно проникает дальше в большую часть площади поперечного сечения. Наименьшее сопротивление, которое видит ток, возникает, когда полное поперечное сечение проводника используется для передачи тока.

Когда в систему подается переменное напряжение, ток начинает течь, затем останавливается, а затем снова начинает течь в повторяющемся цикле.
Если скорость, с которой ток начинается и прекращается, быстрее, чем время, необходимое для полного проникновения в поперечное сечение проводника, тогда эффективное сопротивление проводника увеличивается, а потери в катушке возрастают

Глубина, на которую может проникать ток в пределах времени цикла называется «глубина поверхностного слоя»
Carroll & Meynell проектирует изделия таким образом, чтобы толщина проводника оставалась ниже этого критического размера

Потери на вихревые токи

Когда поперечное сечение проводника становится большим, в самом проводнике начинают генерироваться блуждающие токи. Эти токи обычно определяются в процентах от тока нагрузки и способствуют самонагреву катушек за счет увеличения значений I²R. Эти токи уменьшаются по величине по мере повышения температуры.

Вихревые токи рассчитываются путем сравнения фактических измеренных потерь катушки с теоретическими потерями I²R.

Гармонические эффекты

Другим фактором, влияющим на потери в катушках, являются нелинейные нагрузки, которые создают гармоники тока в обмотках трансформатора, см. коэффициент К-фактора Трансформаторы

КПД

КПД трансформатора определяется как мощность, которую он может отдать нагрузке, в процентах от общей мощности, потребляемой от источника питания, т. е. мощность нагрузки плюс потери трансформатора. Эффективность обычно выражается в процентах

Номинальная мощность трансформатора	100 ВА	250 ВА	500 ВА	1 кВА	10 кВА
Типовая эффективность 9 0006	80%	89%	92%	94%	97% 900 73

Регламент

При изменении нагрузки на трансформатор изменяется и выходное напряжение. Степень этого изменения известна как регулирование.

При изменении нагрузки изменение токов IP и IS вызывает изменение падения напряжения на импедансах катушек ΔVP и ΔVS. Регулирование, выраженное в процентах, определяется для изменения VS от холостого хода до полной нагрузки

Трансформаторы конструкции Carroll & Meynell компенсируют влияние регулирования, чтобы обеспечить правильное выходное напряжение при полной нагрузке.

9006 9

12%

9 0122

Полное сопротивление

Сопротивления и индуктивности обмоток трансформатора составляют импеданс.

Если мы применим прямое короткое замыкание к выходу трансформатора, то IS попытается увеличиться до бесконечного значения. В действительности IS будет ограничен импедансом катушек, RP, RS, LP и LS.

Полное сопротивление трансформатора измеряется путем прямого короткого замыкания на выходе трансформатора с последующим постепенным увеличением входного испытательного напряжения от 0 В до значения VI, при котором ток короткого замыкания, протекающий в обмотках трансформатора, равен номинальным номинальным токам нагрузки трансформатор. Это напряжение VI называется напряжением импеданса и выражается в процентах от номинального входного напряжения 9.0003

Тогда ток короткого замыкания можно рассчитать как

Номинальная мощность трансформатора	100 ВА	250 ВА	500 ВА	1 кВА	10 кВА
Типовое регулирование	9%	5%	4%	1%

90 069

12x

Номинальная мощность трансформатора	100 ВА	250 ВА	500 ВА	1 кВА	10 кВА
Типовое сопротивление	10 %	8 %	5 %	4 %	1,5–2 %
Типовой ток короткого замыкания	10x	20x	25x	50-65x

Оценка количества параметров в моделях трансформаторов | Дмитрий Николаев (Dimid)

Взгляд изнутри на строительные блоки Transformer Encoder/Decoder

Preview.

Изображение автора

Самый эффективный способ понять новую архитектуру машинного обучения (а также любую новую технологию в целом) — внедрить ее с нуля . Это лучший подход, помогающий понять реализацию вплоть до мельчайших деталей , хотя он очень сложный, трудоемкий, а иногда просто невозможный . Например, если у вас нет аналогичных вычислительных ресурсов или данных, вы не сможете убедиться, что в вашем решении нет скрытой ошибки.

Однако есть гораздо более простой способ — посчитать количество параметров. Это ненамного сложнее, чем просто чтение статьи, но позволяет копнуть достаточно глубоко и убедиться, что вы полностью понимаете строительные блоки новой архитектуры (в нашем случае блоки Transformer Encoder и Decoder).

Вы можете подумать об этом на следующей диаграмме, на которой представлены три способа понимания новой архитектуры машинного обучения — размер круга представляет уровень понимания .

Способы понять архитектуру машинного обучения.

Подсчитать количество параметров ненамного сложнее, чем просто прочитать статью, но позволит глубже вникнуть в тему. Изображение автора

В этой статье мы рассмотрим известную архитектуру Transformer и рассмотрим , как вычислить количество параметров в классах PyTorch TransformerEncoderLayer и TransformerDecoderLayer . Таким образом, мы убедимся, что для нас не осталось загадок о том, из чего состоит эта архитектура.

TL;DR

Все формулы приведены в разделе Выводы . Вы можете взглянуть на них прямо сейчас.

Я привожу не только точные формулы, но и их менее точные приблизительные версии , которые позволят вам быстро оценить количество параметров в любой модели на базе Трансформера.

Знаменитая архитектура Transformer была представлена в захватывающем дух документе «Внимание — это все, что вам нужно» в 2017 году и стала стандартом де-факто в большинстве задач обработки естественного языка и компьютерного зрения благодаря своей способности эффективно фиксировать долгосрочные зависимости. .

Сейчас, в начале 2023 года, диффузия набирает огромную популярность, в основном благодаря генеративным моделям преобразования текста в изображение. Возможно, скоро они станут новым ультрасовременным в различных задачах, как это было с Трансформерами против LSTM и CNN. Но давайте сначала взглянем на Transformers…

Моя статья не является попыткой объяснить архитектуру Transformer, так как есть достаточно статей, которые делают это очень хорошо. Это просто может позволить вам взглянуть на это с другой стороны или уточните некоторые детали если вы еще не до конца разобрались. Поэтому, если вы ищете дополнительные ресурсы, чтобы узнать об этой архитектуре, я отсылаю вас к некоторым из них; в противном случае вы можете просто продолжить чтение.

Ресурсы, чтобы узнать больше о Transformer

Если вам нужен более подробный обзор архитектуры Transformer, взгляните на эти материалы (обратите внимание, что в Интернете есть много других ресурсов, лично мне нравятся эти):

Прежде всего официальная бумага. Это может быть не лучший способ для первого раза, но он не так сложен, как кажется. Вы можете попробовать объяснительную бумагу, чтобы помочь вам прочитать эту или другие статьи ( это инструмент на основе ИИ, который может объяснить текст, который вы выделяете ).
Статья Джея Аламмара Great Illustrated Transformer. Если вам не нравится чтение, посмотрите видео на YouTube того же автора.
Потрясающий доклад Tensor2Tensor Лукаша Кайзера из Google Brain.
Если вы хотите сразу перейти к практике и использовать различные модели Transformer для создания реальных приложений, проверьте курс Hugging Face.

Оригинальный трансформер

Для начала вспомним основы трансформера.

Архитектура Transformer состоит из двух компонентов: энкодера (слева) и декодера (справа). Кодер берет последовательность входных токенов и создает последовательность скрытых состояний, а декодер берет эту последовательность скрытых состояний и создает последовательность выходных токенов.

Архитектура трансформатора. Рисунок 1 из документа

, являющегося общественным достоянием. И кодер, и декодер состоят из набора идентичных слоев. Для кодировщика этот слой включает в себя многоголовое внимание (1 — здесь, а более поздние номера относятся к изображению ниже) и нейронную сеть прямого распространения (2) с некоторыми нормализаций слоев (3) и пропуск соединений.

Декодер аналогичен энкодеру, но в дополнение к первый многоголовое внимание (4) (который замаскирован для задачи машинного перевода, чтобы декодер не обманывал, просматривая будущие токены) и сеть прямого распространения (5) , он также имеет второй многоголовочный механизм внимания (6) . Он позволяет декодеру использовать контекст, предоставленный кодировщиком, при генерации выходных данных. Как кодировщик, декодер также имеет около нормализация слоя (7) и пропустить компоненты соединений.

Архитектура Transformer с подписанными компонентами. Адаптировано из рисунка 1 из общедоступного документа

. Я не буду рассматривать входной слой внедрения с позиционным кодированием и конечный выходной слой (линейный + softmax) как компоненты преобразователя, сосредоточив внимание только на блоках кодировщика и декодера. Я делаю это, потому что эти компоненты специфичны для задачи и подхода к встраиванию, в то время как стеки Encoder и Decoder позже легли в основу многих других архитектур.
Примеры таких архитектур включают модели на основе BERT для кодировщика (BERT, RoBERTa, ALBERT, DeBERTa и т. д.), модели на основе GPT для декодера (GPT, GPT-2, GPT-3, ChatGPT) и модели построен на полной структуре Encoder-Decoder (T5, BART и другие).

Хотя мы насчитали семь компонентов в этой архитектуре, мы видим, что уникальных компонентов всего три :

Многоголовое внимание;
Сеть прямой связи;
Нормализация слоя.

Блоки трансформаторные строительные. Взято из рисунка 1 из общедоступного документа

. Вместе они образуют основу трансформатора. Давайте рассмотрим их подробнее!

Рассмотрим внутреннюю структуру каждого блока и сколько параметров он требует. В этом разделе мы также начнем использовать PyTorch для проверки наших расчетов.

Для проверки количества параметров определенного блока модели я буду использовать следующую однострочную функцию:

Прежде чем мы начнем, обратите внимание на то, что все блоки стандартизированы и используются с пропускными соединениями. Это означает, что форма (точнее ее последний номер, так как размер партии и количество токенов может различаться) всех входов и выходов должны быть одинаковыми . Для оригинальной статьи этот номер ( d_model ) равен 512.

Multi-Head Attention

Известный механизм внимания является ключом к архитектуре Transformer. Но если оставить в стороне все мотивы и технические детали, это всего лишь несколько матричных умножений.

Трансформер мультиголовный внимание. Адаптировано из рисунка 2 из статьи

, являющейся общественным достоянием. После расчета внимания для каждой головы мы объединяем все головы вместе и пропускаем их через линейный слой (матрица W_O ). В свою очередь, каждая голова представляет собой масштабированное скалярное произведение внимания с тремя отдельными матричными умножениями для запроса, ключа и значения (матрицы W_Q , W_K , и W_V соответственно ). Эти три матрицы равны разные для каждой головки , поэтому присутствует индекс и .

Форма конечного линейного слоя ( W_O ) d_model to d_model . Форма остальных трех матриц ( W_Q , W_K , и W_V) одинакова: от d_model до d_qkv .

Обратите внимание, что d_qkv на изображении выше обозначается как d_k или d_v в оригинальной статье. Я просто нахожу это название более интуитивным, потому что, хотя эти матрицы могут иметь разную форму, они почти всегда одинаковы.
Также обратите внимание, что d_qkv = d_model / num_heads ( h в статье). Вот почему d_model должно делиться на num_heads : , чтобы обеспечить правильную конкатенацию позже.

Вы можете проверить себя, проверив формы на всех промежуточных этапах на картинке выше (правильные указаны внизу справа).

В итоге нам нужны три меньшие матрицы на каждую головку и одна большая итоговая матрица. Сколько параметров нам нужно (не забываем о смещениях)? 92 . Давайте проверим себя с помощью PyTorch.

Цифры совпадают, значит все хорошо!

Сеть прямой связи

Сеть прямой связи в Transformer состоит из двух полностью связанных слоев с функцией активации ReLU между ними. Сеть построена таким образом, что ее внутренняя часть более выразительна, чем входная и выходная (которые, как мы помним, должны быть одинаковыми).

В общем случае это MLP(d_model, d_ff) -> ReLU -> MLP(d_ff, d_model) , а для оригинальной статьи d_ff = 2048.

Описание нейронной сети с прямой связью. Документ общественного достояния

Небольшая визуализация никогда не помешает.

Сеть прямой связи трансформатора. Image by Author

Расчет параметров достаточно прост, главное опять же не запутаться в предубеждениях.

Формула расчета количества параметров в сети прямой связи Трансформатора. Изображение автора

Мы можем описать такую простую сеть и проверить количество ее параметров, используя следующий код ( обратите внимание, что официальная реализация PyTorch также использует dropout , что мы увидим позже в коде кодировщика/декодера. Но как известно дропаут не имеет обучаемых параметров, поэтому для простоты я его здесь опускаю) :

Цифры снова совпадают, и остается только один компонент.

Нормализация слоев

Последним строительным блоком архитектуры Transformer является нормализация слоев. Короче говоря, это просто интеллигент (т.е. обучаемый ) способ нормализации с масштабированием , повышающий стабильность процесса обучения.

Нормализация слоя трансформатора. Изображение автора

Обучаемыми параметрами здесь являются два вектора gamma и beta , каждый из которых имеет размерность d_model .

Формула расчета количества параметров в модуле нормализации слоев Transformer. Изображение автора

Давайте проверим наши предположения с помощью кода.

Хорошо! В приближенных расчетах этим числом можно пренебречь, так как нормализация слоя имеет значительно меньше параметров, чем сеть прямого распространения или блок внимания с несколькими головками (несмотря на то, что этот модуль встречается несколько раз).

Теперь у нас есть все для подсчета параметров всего блока Encoder/Decoder!

Кодировщик и декодер в PyTorch

Напомним, что кодировщик состоит из блока внимания, сети прямой связи и двухуровневой нормализации.

Энкодер трансформатора. Адаптировано из рисунка 1 из документа

, являющегося общественным достоянием. Мы можем убедиться, что все компоненты на месте, заглянув внутрь кода PyTorch. Здесь многоголовое внимание обозначено красным цветом (слева), сеть прямого распространения синим цветом и нормализацией слоев зеленым цветом (скриншот консоли Python в PyCharm).

PyTorch TransformerEncoderLayer. Изображение автора

Как уже отмечалось выше, эта реализация включает в себя выпадение в сети прямой связи. Теперь мы также можем видеть выпадающие слои, связанные с нормализацией слоев.

Декодер, в свою очередь, состоит из двух блоков внимания, сети прямой связи и трехуровневой нормализации.

Трансформаторный декодер. Адаптировано из рисунка 1 из общедоступного документа

. Давайте снова посмотрим на PyTorch (цвета те же).

PyTorch TransformerDecoderLayer. Изображение автора

Окончательная формула

Убедившись, мы можем написать следующую функцию для вычисления количества параметров. На самом деле это всего лишь три строчки кода, которые можно даже объединить в одну. Остальная часть функции представляет собой строку документации для пояснений.

Теперь пришло время проверить это.

Точные формулы верны, это означает, что мы правильно идентифицировали все строительные блоки и разложили их на составляющие. Интересно, что поскольку мы игнорировали относительно небольшие значения ( тысяч по сравнению с миллионами ) в приближенных формулах, ошибка составляет всего около 0,2% по сравнению с точными результатами! Но есть способ сделать эти формулы еще проще.

Примерное количество параметров для блока внимания 92 . Звучит довольно просто, учитывая, что d_model — важный гиперпараметр. Но для сети прямой связи нам нужно знать d_ff , так как формула 2*d_model*d_ff .

d_ff — это отдельный гиперпараметр, который нужно запомнить в формуле, поэтому давайте подумаем, как от него избавиться. На самом деле, как мы видели выше, d_ff = 2048 , когда d_model = 512 , поэтому d_ff = 4*d_model .

Для многих моделей Transformer такое допущение будет иметь смысл, значительно упрощая формулу и по-прежнему давая вам оценку приблизительного числа параметров. Ведь никто не хочет знать точную сумму, просто полезно понять, входит ли это число в сотен тысяч или в десятки миллионов .

Приблизительные формулы кодировщика-декодера. Изображение автора

Чтобы получить представление о для каждого уровня кодировщика/декодера.

Вот сводка всех формул, которые мы сегодня вывели.

Резюме формул. Изображение автора

В этой статье мы подсчитали количество параметров в блоках Transformer Encoder/Decoder, но, конечно, я не предлагаю вам считать параметры всех новых моделей. Я выбрал этот метод просто потому, что был удивлен, что не нашел такой статьи, когда начал изучать Трансформеров.