+7 (000) 000 00 00  

thecommunity.ru

Компактная языковая модель Phi Silica стала мультимодальной

Компактная языковая модель Phi Silica стала мультимодальной Компактная языковая модель (SLM) Phi Silica от Microsoft теперь способна понимать не только текст, но и изображения, что переводит её в статус мультимодальных. Это важное обновление, поскольку модель интегрирована в операционную систему Windows 11 на устройствах ПК Copilot+ и работает на локальном нейронном процессоре (NPU), встроенном в процессор. Сейчас модель работает только с процессором Snapdragon X, но в ближайшее время появится поддержка чипов от AMD и Intel. Вместо добавления отдельной громоздкой модели для анализа изображений, инженеры Microsoft объединили существующие компоненты. Базой осталась уже развернутая модель Phi Silica. Для машинного зрения применяется кодировщик изображений Florence, который также используется в предварительной версии Windows Recall и улучшенном поиске на базе ИИ. И, наконец, разработан небольшой дополнительный модуль «Projector» (всего 80 млн параметров), который преобразует визуальные данные от Florence в формат, понятный Phi Silica. Так Microsoft удалось избежать необходимости развёртывания ещё одной громоздкой модели на устройствах пользователей. Этого подход позволил сэкономить дисковое пространство и уменьшить вычислительную нагрузку. Кроме этого, повторное использование существующих компонентов сократило затраты и время на обучение моделей. Компактная языковая модель Phi Silica стала мультимодальной Главным примером практического применения новой технологии стала функция генерации описаний изображений для незрячих или слабовидящих пользователей. Мультимодальная Phi Silica может генерировать для «Экранного диктора» описания изображений с разной степенью детализации, [media=https://vkvideo.ru/video-3783130_456239407] Phi Silica создаёт краткие описания изображений из 135 символов в среднем за 4 секунды, тогда как для подробного описания из 400-500 символов требуется около 7 секунд. Текущая версия оптимизирована для английского языка, но в будущем планируется поддержка других языков. Пример описания изображения с картой острова Оаху Компактная языковая модель Phi Silica стала мультимодальной Краткое описание: На изображении представлена карта Гавайского острова Оаху, на которой обозначены различные места, такие как мыс Кахуку (Kahuku Point), залив Кавела (Kawela Bay), Кахуку (Kahuku) и другие точки и поселения, включая Перл-Сити (Pearl City) и Эва-Бич (Ewa Beach). Подробное описание: Изображение представляет собой карту Гавайского острова Оаху, на которой обозначены различные места и географические объекты. Ключевые места включают мыс Кахуку (Kahuku Point), залив Кавела (Kawela Bay), Кахуку (Kahuku) и Кауаи (Kauai). Другие примечательные места: Лайе (Laie), Коолау (Koolau), Хауула (Hauula), Пуналу (Punaluu), Мокулея (Mokulēia), Анахулу (Anahulu), Вайалуа (Waialua), Кааава (Kaaawa) и Кауконахуа (Kaukonahua). Также виден Тихий океан (Pacific Ocean). Среди других упомянутых мест — Уитмор-Виллидж (Whitmore Village), гора Кала (Mt. Kala), мыс Куалоа (Kualoa Point), Вахиава (Wahiawa) и Канеохе (Kaneohe). На изображении также показаны различные поселки и города, такие как Милилани (Mililani), Ахуиману (Ahuimanu), Перл-Сити (Pearl City) и Ваипио (Waipio). Другие примечательные места включают Кахулу (Kahulu), Нанакули (Nānākuli), Коолау (Koolau) и Ваиманало (Waimanalo). Дополнительную техническую информацию об обновлении модели Phi Silica можно найти в официальном блоге Microsoft по этой ссылке...