Нейросеть Сбера сдала ЕГЭ на 67 баллов
Условия эксперимента
Успешная нейросеть GigaChat, разработанная командой Сбербанка, прошла экзамен ЕГЭ по обществознанию. Нейросеть набрала 67 баллов, что превышает минимальный балл для поступления в вуз (45 баллов) и средний балл по предмету в 2023 году (56,4 балла). Об этом заявил Денис Филиппов, вице-президент «Салют» Сбербанка по цифровым платформам.
Оценка нейросети оценивалась в ходе испытаний ее обновленной версии, использующей одну из самых передовых моделей для русского языка с 29 миллиардами параметров.
Эксперимент прошел на предмете «Обществознание» для проверки навыков данной модели, что свидетельствует о ее зрелости в области социальных норм, экономических и юридических законов.
Для проверки навыков GigaChat использовались только новые тестовые задания 2024 года, опубликованные на сайте ФИПИ. Команда предварительно удостоверилась, что модель не обучалась на этих заданиях. Ответы GigaChat проверились независимым экспертом НИУ ВШЭ, а затем экспертной комиссией. Оценивались не только корректность ответов и достоверность фактов, но и качество выполнения творческих заданий.
Результаты и выводы из эксперимента
Мы стремимся оценивать эффективность GigaChat не только на основе технических показателей, но и с точки зрения обычного человека. Мы хотим узнать, насколько сервис способен помочь в различных областях знаний и насколько он способен быть сообразительным и креативным. Для такой оценки мы решили использовать тесты, которые используются в системе образования, включая ЕГЭ. Результаты экзамена показывают, что GigaChat имеет хорошие знания в области социальных наук.
Это означает, что наш искусственный интеллект понимает основные принципы общества и может ориентироваться в вопросах морали. Это еще одно доказательство того, что пользователи могут использовать наш сервис для решения реальных задач, связанных с фактологией. Просто задайте вопрос в естественной форме, и GigaChat даст вам точный ответ или поможет разобраться в сложной теме.
Денис Филиппов, вице-президент по Цифровым поверхностям «Салют» Сбербанка, отметил, что эксперимент, аналогичный совместной работе с ВШЭ, скоро будет доступен для каждого желающего. Разработчики GigaChat готовят специальный скрипт для публикации на GitHub, который позволит «одной кнопкой» протестировать нейросетевую модель Сбербанка на сдачу ЕГЭ, без необходимости ручного ввода текстов заданий.