DeepSeek прагне використати свою перевагу.
Минулого місяця китайський стартап викликав розпродажі на глобальних ринках на суму понад 1 трильйон доларів, запустивши недорогу модель ШІ, яка перевершила багатьох західних конкурентів.
Зараз компанія з Ханчжоу прискорює запуск наступника січневої моделі R1, за словами трьох осіб, знайомих з діяльністю компанії.
Спочатку DeepSeek планував представити модель R2 на початку травня, але тепер хоче випустити її якомога швидше.
Компанія каже, що сподівається, що нова модель дозволить краще кодувати та аргументувати мовами, відмінними від англійської.
Конкуренти поки що оцінюють наслідки появи моделі R1, яка була розроблена на менш потужних чіпах Nvidia, але є конкурентоспроможною моделям американських технологічних гігантів, які інвестували в їх розробку сотні мільярдів доларів.
«Випуск моделі DeepSeek R2 може стати ключовим моментом в індустрії штучного інтелекту», — сказав Віджаясімха Алілугата, операційний директор індійського постачальника технологій Zensar. Успіх DeepSeek у створенні рентабельних моделей штучного інтелекту «імовірно спонукатиме компанії в усьому світі прискорити власні зусилля... підриваючи монополію кількох домінуючих гравців у цьому секторі», додав він.
Модель R2, швидше за все, викличе занепокоєння з боку уряду США, який визначив лідерство у сфері штучного інтелекту як національний пріоритет. Його запуск може додатково мобілізувати китайську владу та компанії, десятки з яких уже повідомляють, що вони почали інтегрувати моделі DeepSeek у свої продукти.
Про DeepSeek мало що відомо, а його засновник Лян Веньфен став мільярдером завдяки своєму кількісному хедж-фонду High-Flyer. Лян, якого колишній роботодавець описує як «відлюдника та інтроверта», не дав жодного інтерв’ю ЗМІ з липня 2024 року.
Агентство Reuters поспілкувалося з дванадцятьма колишніми співробітниками, а також з фахівцями, знайомими з діяльністю DeepSeek і її материнської компанії High-Flyer. Також були проаналізовані статті державних ЗМІ, пости компаній у соцмережах та наукові праці за 2019 рік.
Ці джерела малюють картину компанії, яка працює більше як дослідницька лабораторія, ніж фірма, орієнтована на отримання прибутку, вільна від ієрархічних традицій вимогливої технологічної індустрії Китаю, навіть якщо вона бере на себе відповідальність за те, що багато інвесторів вважають останнім проривом у галузі штучного інтелекту.
Інший спосіб
Лян народився в 1985 році в сільському селі в південній китайській провінції Гуандун. Пізніше він отримав ступінь інженера зв’язку в елітному університеті Чжецзян.
Однією з його перших посад було керівництво дослідницьким відділом у компанії з обробки інтелектуальних зображень у Шанхаї. Його тодішній бос Чжоу Чаоен заявив державним ЗМІ 9 лютого, що Лян найняв найкращих інженерів-алгоритмів і керував командою, використовуючи «плоску» організаційну структуру.
У DeepSeek і High-Flyer Лян дотримувався того ж принципу, уникаючи традиційних практик китайських технологічних гігантів, відомих своєю жорсткою ієрархією, низькими зарплатами для молодих співробітників і так званими «навичками». Культура роботи «996» - з 9 до 9 години, шість днів на тиждень.
Він відкрив свій офіс у Пекіні в безпосередній близькості від університетів Цінхуа та Пекінського університету, двох найпрестижніших навчальних закладів Китаю. За словами двох колишніх співробітників, Лян регулярно займався технічними деталями і працював пліч-о-пліч зі стажерам покоління Z і недавніми випускниками, які становили більшість його команди. Вони також описали робоче середовище як спільне, зі стандартним робочим часом вісім годин на день.
«Лян дав нам свободу і ставився до нас як до експертів. «Він постійно ставив запитання та навчався разом з нами», — сказав 26-річний дослідник Бенджамін Лю, який покинув компанію у вересні. «DeepSeek дозволив мені взяти на себе відповідальність за ключові частини розробки, що було надзвичайно цікаво».
Засновник DeepSeek Лян Венфен уникав традиційних практик китайських технологічних гігантів, відомих своєю жорсткою ієрархією, низькими зарплатами для молодих співробітників і так званими «навичками» в його компаніях. Культура роботи «996» – з 9 до 9 години шість днів на тиждень
Лян не відповів на запитання, надіслані через DeepSeek.
У той час як Baidu та інші китайські технологічні гіганти були зайняті розробкою власних версій ChatGPT у 2023 році, щоб отримати вигоду від глобального буму штучного інтелекту, минулого року Лян сказав китайському ЗМІ Waves, що він навмисно уникав великих інвестицій у розробку додатків, зосередившись замість цього на покращенні якості моделей ШІ.
За словами трьох людей, знайомих з його діяльністю, і DeepSeek, і High-Flyer відомі своїми надзвичайно високими зарплатами. У High-Flyer нерідко досвідчений фахівець з даних отримує 1,5 мільйона юанів на рік, тоді як конкуренти рідко платять більше 800.000 XNUMX, повідомило одне з джерел.
Ця фінансова стабільність походить від успіху High-Flyer, який став одним із найуспішніших кількісних фондів у Китаї. Згідно з джерелами в галузі, навіть після того, як китайський уряд посилив регулювання в цьому секторі, фонд все ще управляє десятками мільярдів юанів.
Обчислювальна потужність
Згідно з трьома джерелами, обізнаними з цим питанням, успіх DeepSeek з низькобюджетною моделлю штучного інтелекту базується на десятилітніх інвестиціях у дослідження та обчислення.
Цей кількісний фонд був піонером у торгівлі штучним інтелектом, і один із його генеральних директорів ще у 2020 році сказав, що High-Flyer «інвестує все» у штучний інтелект, реінвестуючи 70% свого доходу, переважно в дослідження ШІ.
У 2020 і 2021 роках High-Flyer витратив 1,2 мільярда юанів на два суперкомп’ютерні кластери ШІ. Другий кластер, Fire-Flyer II, складався з близько 10.000 100 мікросхем Nvidia AXNUMX, які використовувалися для навчання моделей ШІ.
DeepSeek ще не було засновано, тому раптове збільшення обчислювальної потужності привернуло увагу китайських регуляторів цінних паперів, сказав він.
«Регулятори хотіли знати, навіщо їм так багато мікросхем? Як вони їх використовуватимуть? Як це вплине на ринок?» сказало джерело.
Однак влада вирішила не втручатися, що виявилося ключовим кроком для долі DeepSeek, оскільки США заборонили експорт чіпів A2022 до Китаю в 100 році, і на той момент High-Flyer II вже був у робочому стані.
Пекін зараз святкує DeepSeek, але наказав йому не спілкуватися зі ЗМІ без попереднього дозволу, повідомило джерело, знайоме з китайською політикою.
"Влада попросила Ляна триматися подалі від громадськості, оскільки вони стурбовані тим, що занадто велика реклама в ЗМІ приверне непотрібну увагу", - додало джерело.
Уряд Китаю, Міністерство торгівлі та регулятор цінних паперів не відповіли на запити про коментарі.
Як одна з небагатьох компаній із великим кластером A100, High-Flyer і DeepSeek змогли залучити найкращих дослідників у Китаї, повідомили двоє колишніх співробітників.
«Ключовою перевагою масивних обчислювальних ресурсів є можливість експериментувати у великому масштабі», — сказав колишній співробітник Лю.
Деякі західні підприємці зі штучного інтелекту, такі як генеральний директор Scale AI Александр Ван, стверджували, що DeepSeek має до 50.000 XNUMX високоякісних мікросхем Nvidia, експорт яких заборонено до Китаю. Він не надав доказів цього твердження.
DeepSeek не відповів на заяви Вана. Двоє колишніх співробітників пояснили успіх компанії тим, що Лян зосередився на більш економічно ефективній архітектурі ШІ.
Згідно з дослідженнями компанії, стартап використовував такі методи, як Mixture-of-Experts (MoE) і Multihead Latent Attention (MLA), які значно скорочують обчислювальні витрати.
Техніка MoE розділяє модель штучного інтелекту на різні сфери знань і активує лише ті, які мають відношення до запиту, на відміну від звичайних архітектур, які використовують всю модель.
Архітектура MLA дозволяє моделі обробляти різні аспекти однієї інформації одночасно, допомагаючи їй ефективніше розпізнавати ключові деталі.
Хоча такі конкуренти, як французька Mistral, розробляли моделі на основі MoE, DeepSeek була першою компанією, яка значною мірою покладалася на цю архітектуру, одночасно досягаючи рівня продуктивності дорожчих моделей.
За оцінками аналітиків з брокерської фірми Bernstein, ціна DeepSeek була в 20-40 разів нижчою, ніж OpenAI за еквівалентні моделі.
Наразі західні та китайські технологічні гіганти оголосили про плани продовжувати значні інвестиції в штучний інтелект, але успіх R1 і попередньої версії V3 спонукав деяких змінити стратегію.
Цього місяця OpenAI знизив ціни, а Gemini від Google представила дешевші версії підходу. Після запуску R1 OpenAI також представила модель O3-Mini, яка використовує менше обчислювальної потужності.
Аднан Масуд з американського постачальника технологічних послуг UST сказав Reuters, що його лабораторна команда протестувала DeepSeek R1 і виявила, що він часто використовує в три рази більше токенів або одиниць даних, які обробляє модель AI, для міркувань порівняно з оптимізованою моделлю OpenAI.
Державна підтримка
Ще до того, як R1 привернув світову увагу, були ознаки того, що DeepSeek завоював прихильність Пекіна. У січні державні ЗМІ повідомили, що Лян був присутній на зустрічі з прем'єр-міністром Китаю Лі Кецяном у Пекіні як призначений представник сектору ШІ, попереду керівників відомих компаній.
Подальший ажіотаж навколо цінової конкурентоспроможності його моделей ще більше зміцнив переконання Пекіна, що він може перевершити США в інноваціях, оскільки китайські компанії та державні установи перейняли моделі DeepSeek зі швидкістю, незрівнянною жодній іншій компанії.
Щонайменше 13 міських урядів Китаю та 10 державних енергетичних компаній заявили, що інтегрували DeepSeek у свої системи, тоді як технологічні гіганти Lenovo, Baidu та Tencent – власник найбільшої соціальної мережі Китаю WeChat – включили моделі DeepSeek у свої продукти.
Лідер Китаю Сі Цзіньпін і Лі Цян «сигналізували про свою підтримку DeepSeek», — сказав Альфред Ву, експерт з китайської політики в Школі публічної політики Лі Куан Ю в Сінгапурі. «Тепер усі його просто підтримують».
Це широке визнання в Китаї сталося після того, як уряди від Південної Кореї до Італії видаляють DeepSeek зі своїх національних магазинів програм, посилаючись на проблеми конфіденційності.
«Якщо DeepSeek стане провідною моделлю штучного інтелекту в державних установах Китаю, західні регулятори можуть розглядати це як ще одну причину для посилення обмежень на чіпи штучного інтелекту або співпрацю в програмному забезпеченні», — сказав Стівен Ву, експерт зі штучного інтелекту та засновник хедж-фонду Carthage Capital.
Додаткові обмеження на вдосконалені мікросхеми штучного інтелекту становлять проблему, яку визнав сам Лян.
«Нашою проблемою ніколи не було фінансування», — сказав він Waves у липні. «Це ембарго на чіпи високого класу».
Переклад: NB
Бонусне відео: