Китайська компанія з розробки штучного інтелекту DeepSeek випустила свою останню «експериментальну» модель, яка, за її твердженням, ефективніше навчається та краще обробляє довгі рядки тексту, ніж попередні версії її моделей великих мов.
Компанія з Ханчжоу назвала DeepSeek-V3.2-Exp «проміжним кроком до нашої архітектури наступного покоління» у дописі на форумі розробників Hugging Face.
Ця архітектура може стати найважливішим релізом продуктів DeepSeek з часів моделей V3 та R1, які здивували Кремнієву долину та інвесторів у технології за межами Китаю.
Модель V3.2-Exp включає механізм під назвою DeepSeek Sparse Attention, який, за твердженням китайської компанії, може зменшити обчислювальні витрати та покращити продуктивність певних типів моделей. DeepSeek оголосила в понеділок на своїй платформі X, що знижує ціни на API «більш ніж на 50 відсотків», повідомляє Hina.
Хоча архітектура DeepSeek наступного покоління навряд чи спричинить ринкові потрясіння, як це сталося з попередніми версіями в січні, вона все ж може сильно вдарити по вітчизняних конкурентах, таких як Qwen від Alibaba, а також по американських суперниках, таких як OpenAI, якщо вона повторить успіх DeepSeek R1 та V3.
Це вимагатиме від моделі демонстрації високих можливостей, використовуючи лише частину ресурсів, які конкуренти витрачають і стягують за навчання своїх систем.
Бонусне відео: