Задача тестирования дистиллированной языковой модели
PDF

Во время прохождения производственной практики в R&D отделе компании Just AI основной нашей задачей была работа над языковыми моделями.
Современные языковые модели, основанные на архитектуре трансформера состоят из огромного количества параметров, например, используемая нами модель Conversational Based RuBert от Neural Networks and Deep Learning Lab МФТИ состоит из 180 млн. параметров.
В связи с большим количеством параметров, остро стоит задача ускорения обучения и инференса таких моделей. Для решения этой задачи существуют различные техники, такие как дистилляция [4], квантизация [5] и др.
Во время прохождения практики одной из основных моих задач была задача тестирования дистиллированной языковой модели. Для этих целей был реализован бенчмарк Russian Super Glue [6] с некоторыми исправлениями и дополнениями.