Китайська компанія DeepSeek представляє нову модель штучного інтелекту, «проміжний крок до наступного покоління»

DeepSeek стверджує, що їхня остання «експериментальна» модель ефективніше навчається та краще обробляє довгі рядки тексту, ніж попередні версії їхніх моделей великих мов.

2757 переглядів 0 коментар(ів)
Фото: Reuters
Фото: Reuters
Застереження: переклади здебільшого виконуються за допомогою перекладача штучного інтелекту і можуть бути не 100% точними

Китайська компанія з розробки штучного інтелекту DeepSeek випустила свою останню «експериментальну» модель, яка, за її твердженням, ефективніше навчається та краще обробляє довгі рядки тексту, ніж попередні версії її моделей великих мов.

Компанія з Ханчжоу назвала DeepSeek-V3.2-Exp «проміжним кроком до нашої архітектури наступного покоління» у дописі на форумі розробників Hugging Face.

Ця архітектура може стати найважливішим релізом продуктів DeepSeek з часів моделей V3 та R1, які здивували Кремнієву долину та інвесторів у технології за межами Китаю.

Модель V3.2-Exp включає механізм під назвою DeepSeek Sparse Attention, який, за твердженням китайської компанії, може зменшити обчислювальні витрати та покращити продуктивність певних типів моделей. DeepSeek оголосила в понеділок на своїй платформі X, що знижує ціни на API «більш ніж на 50 відсотків», повідомляє Hina.

Хоча архітектура DeepSeek наступного покоління навряд чи спричинить ринкові потрясіння, як це сталося з попередніми версіями в січні, вона все ж може сильно вдарити по вітчизняних конкурентах, таких як Qwen від Alibaba, а також по американських суперниках, таких як OpenAI, якщо вона повторить успіх DeepSeek R1 та V3.

Це вимагатиме від моделі демонстрації високих можливостей, використовуючи лише частину ресурсів, які конкуренти витрачають і стягують за навчання своїх систем.

Бонусне відео: