Новый инструмент от Google позволяет крупным языковым моделям проверять факты в своих ответах

С момента появления чат-ботов, они столкнулись с проблемой генерации неправдоподобной или вымышленной информации. Такие «галлюцинации» являются встроенной частью работы моделей искусственного интеллекта. Однако это становится серьезной проблемой для компании, таких как Google, которые делают большую ставку на ИИ, так как результаты, генерируемые такими моделями, становятся ненадежными. 

Сегодня Google презентует инструмент, который предназначен для решения этой проблемы. Названный DataGemma, он использует два метода для проверки фактов, на основе которых модели ИИ строят свои ответы, и для более прозрачного указания источников информации пользователям. 

Первый из двух методов называется Retrieval-Interleaved Generation (RIG) и функционирует как своего рода проверка фактов. Например, если пользователь задаст вопрос «Увеличилось ли использование возобновляемых источников энергии в мире?», модель сгенерирует «первый вариант» ответа. Затем RIG выявляет части этого ответа, которые можно проверить на достоверность, используя Data Commons—огромное хранилище данных и статистики из авторитетных источников, таких как Организация Объединенных Наций или Центры по контролю и профилактике заболеваний. Далее система проводит данную проверку и заменяет неверные первоначальные предположения на точные факты, указывая источники информации.

Второй метод, часто применяемый в других крупных языковых моделях, называется Retrieval-Augmented Generation (RAG). Рассмотрим запрос «Какие успехи достиг Пакистан в выполнении глобальных целей в области здравоохранения?». В ответ модель анализирует данные в Data Commons, которые могут помочь ответить на вопрос, например, информацию о доступе к безопасной питьевой воде, вакцинации против гепатита B и ожидаемой продолжительности жизни. Используя эти данные, модель формирует ответ и указывает источники.

«Наша цель состояла в том, чтобы использовать Data Commons для повышения уровня аргументации больших языковых моделей, основывая их на реальных статистических данных, источник которых можно подтвердить,» — говорит Прем Рамасвами, руководитель Data Commons в Google. Это, по его словам, поможет создать более надежный и достоверный ИИ.

Пока что инструмент доступен только исследователям, но, как отмечает Рамасвами, доступ может расшириться после дополнительных тестов. Если же он оправдает ожидания, это сможет значительно помочь Google в плане внедрения ИИ в поисковую систему.  

Однако методика имеет свои ограничения. Во-первых, полезность методов зависит от того, содержатся ли соответствующие данные в Data Commons, который больше является хранилищем данных, чем энциклопедией. Он может предоставить информацию о ВВП Ирана, но не сможет подтвердить дату Первого сражения при Фаллудже или дату выхода последнего сингла Тейлор Свифт. Исследователи Google выяснили, что только в 75% тестовых вопросов метод RIG не мог получить никаких полезных данных из Data Commons. Даже если нужные данные есть в Data Commons, модель не всегда формирует правильные вопросы для их поиска. 

Во-вторых, возникает вопрос точности. При тестировании метода RAG исследователи обнаружили, что модель давала неправильные ответы в 6%—20% случаев. В то же время метод RIG предоставлял правильные данные из Data Commons всего в 58% случаев (хотя это значительный прогресс по сравнению с 5%—17% точностью больших языковых моделей Google, которые не используют Data Commons). 

По словам Рамасвами, точность DataGemma будет улучшаться по мере того, как система будет тренироваться на всё большем объеме данных. Первоначальная версия была обучена на примерно 700 вопросах, и для точной настройки модели его команде приходилось вручную проверять каждый сгенерированный факт. Для дальнейшего улучшения модели планируется увеличить количество вопросов с сотен до миллионов.

Оставить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Что будем искать? Например,Человек

Мы в социальных сетях