Microsoft Research разработала тестовый тест Windows Agent Arena для тестирования искусственного интеллекта на ПК с Windows. Тест предназначен для проверки взаимодействия агентов ИИ с приложениями Windows, такими как веб-браузеры, настройки проводника файлов, программирование и просмотр видео. Microsoft адаптирует платформу OSWorld для создания 150Meer tonen разнообразных задач Windows, требующих планирования, понимания экрана и использования инструментов. Бенчмарк масштабируем и может быть распараллелен в Azure для оценки за 20 минут. Microsoft создала мультимодальный агент Navi для тестирования в Windows Agent Arena benchmark. Средний показатель успешности работы Navi составил 19,5%, что меньше, чем у человека (74,5%). Windows Agent Arena может стать огромным шагом вперед в создании агентов ИИ, приближая их к уровню производительности человека. Команда Microsoft работала над проектом совместно с исследователями из Университета Карнеги-Меллона и Колумбийского университета.
https://vk.com/rutechspot#bbe1812f1e3d0abe97fce0b05535a914
Комментариев нет:
Отправить комментарий