В эксперименте, опубликованном в научном журнале Scientific Reports, исследовательская группа из Университета Пассау в Германии сравнила качество машинно-сгенерированного контента с эссе, написанными учащимися средней школы. В итоге чат-бот на основе искусственного интеллекта показал лучшие результаты по всем критериям, особенно когда дело дошло до владения языком.
Языковая модель ChatGPT добивается огромного прогресса. После того, как версия ChatGPT3.5 провалила баварский экзамен Abitur (тест, который проводится в конце средней школы в Германии) в начале 2023 года, ее преемница версия 4 получила твердую оценку «2» (это германская система оценивания, в России это была бы оценка «4») почти шесть месяцев спустя.
Исследование, проведенное Университетом Пассау, теперь смогло продемонстрировать, в какой степени контент, созданный с помощью искусственного интеллекта, может революционизировать школьную систему. Учёные также экспериментировали с двумя версиями языковой модели.
В исследовании «Крупномасштабное сравнение эссе, написанных человеком, и эссе, сгенерированных ChatGPT», опубликованном в Scientific Reports, они пришли к выводу, что на английском языке машина лучше пишет эссе. Они оценивали машинно-сгенерированные тексты и эссе, написанные учащимися средней школы, в соответствии с руководящими принципами, установленными Министерством образования Нижней Саксонии.
«Я был удивлен тем, насколько ясным был результат», — говорит профессор Штеффен Хербольд, заведующий кафедрой инженерии искусственного интеллекта в Университете Пассау и инициатор исследования. Обе версии чат-ботов Open AI набрали больше баллов, чем учащиеся, при этом GPT-3 получил средний результат, а GPT-4 — лучший. «Это показывает, что школы не должны закрывать глаза на эти новые инструменты».
Размышляя о моделях искусственного интеллекта
Междисциплинарное исследование было проведено учеными-компьютерщиками в сотрудничестве с профессором компьютерной лингвистики Аннет Хаутли-Яниш и дидактиком компьютерных наук Уте Хойер. «Я считаю важным подготовить учителей к вызовам и возможностям, которые встают перед ними по мере того, как модели искусственного интеллекта становятся все более доступными», — говорит Хойер.
Уте Хойер инициировала учебный курс на тему «ChatGPT — возможности и вызовы». В этом мероприятии, которое состоялось в марте 2023 года, приняли участие 139 учителей, большинство из которых преподают в немецких гимназиях. Сначала преподаватели были проинформированы об отдельных технологических идеях, лежащих в основе главных генераторов текстов и ChatGPT. Затем практический этап включал тексты на английском языке, где участники учебного курса не знали, кем написаны тексты.
Используя анкеты, учителям было предложено оценить представленные им эссе на основе оценочных шкал, установленных Министерством образования Нижней Саксонии. Содержание оценивалось на основе критериев тематики, полноты и логики, а также лингвистических аспектов, таких как словарный запас, сложность и владение языком. Была определена шкала оценивания от 0 до 6 для каждого критерия, где 0 — худший балл, а 6 — лучший.
Машина оценивает уровень владения языком выше среднего
111 учителей заполнили всю анкету и оценили в общей сложности 270 эссе по английскому языку. Исследовательская группа обнаружила наибольшую разницу в владении языком, когда машина набрала 5,25 (GPT-4) и 5,03 балла (GPT-3), в то время как студенты набрали в среднем 3,9 балла.
«Это не означает, что студенты плохо владеют английским языком. Скорее, оценки, полученные машиной, исключительно высоки», — подчеркивает Аннет Хаутли-Яниш, младший профессор вычислительной риторики и обработки естественного языка в Университете Пассау.
Для Хаутли-Яниш, которая проанализировала тексты с лингвистической точки зрения вместе с докторанткой Златой Киктевой, эксперимент дает дополнительные интересные сведения о развитии языка машины. «Мы видели, как модели меняются с течением времени, и можем продемонстрировать с помощью наших исследований, что они улучшились в выполнении поставленной перед ними задачи».
Ученые также смогли выявить различия между человеческим языком и языком, созданным машиной. «Когда в будущем мы будем читать больше текстов, созданных искусственным интеллектом, нам придется спросить себя, влияет ли нейросеть на наш, человеческий язык, и как она влияет», — говорит Хаутли-Яниш.
Источник: techxplore.com
Другие материалы:
Про информационную безопасность детей