Coin Market Solution logo Coin Market Solution logo
Forklog 2025-01-29 08:30:00

DeepSeek обрушил рынок: почему китайский ИИ оказался в 30 раз эффективнее GPT-4

В конце января малоизвестный китайский стартап DeepSeek оказался в центре внимания мировых СМИ. Скромные инвестиции в $5,6 млн в разработку новой модели обернулись сокрушительным ударом по рынку — американские техногиганты в совокупности потеряли почти $1 трлн капитализации. Появление доступного аналога ChatGPT, претендующего на звание «убийцы Кремниевой долины», вызвало настоящий переполох в индустрии. ForkLog рассказывает, откуда взялась компания DeepSeek, как она добилась успеха и что ждет мировой рынок языковых моделей. История восхождения DeepSeek DeepSeek начала самостоятельный путь в мае 2023 года в Ханчжоу — столице провинции Чжэцзян. Этот город считается крупнейшим в Китае центром электронной коммерции, где располагаются штаб-квартиры гигантов вроде Alibaba Group, Geely, Hikvision и Ant Group. За проектом стоит Лян Вэньфэн — предприниматель и сооснователь хедж-фонда High-Flyer, управляющего активами в размере $8 млрд. Основанная в 2015 году компания давно проявляла интерес к машинному обучению, инвестируя значительные средства в создание собственной вычислительной инфраструктуры, а также в исследования в области искусственного интеллекта. Именно из ее структуры возникла DeepSeek. В 2020 году High-Flyer представила суперкомпьютер Fire-Flyer I стоимостью 200 млн юаней ($27,6 млн), специализирующийся на глубоком обучении ИИ. Годом позже появился Fire-Flyer II — система за 1 млрд юаней ($138 млн), оснащенная более чем 10 000 графических процессоров Nvidia A100. Дебютная модель DeepSeek, выпущенная в ноябре 2023 года, сразу продемонстрировала производительность на уровне GPT-4 и была предоставлена бесплатно для исследователей и коммерческого использования. К маю 2024 года запущена DeepSeek-V2, при этом конкурентная ценовая политика компании заставила даже таких гигантов, как ByteDance, Tencent, Baidu и Alibaba снизить цены на свои ИИ-решения. В итоге DeepSeek удалось сохранить прибыльность, в то время как конкуренты несли убытки. В декабре 2024 года появилась модель DeepSeek-V3, чьи показатели в тестах превзошли последние разработки OpenAI и Anthropic. На ее основе компания создала DeepSeek-R1 и ее производные, которые и легли в основу нашумевшего сервиса. Сравнение производительности моделей DeepSeek с моделями OpenAI в различных тестах. Данные: DeepSeek. Главное преимущество новой модели — беспрецедентно низкая стоимость использования. За обработку миллиона токенов DeepSeek берет всего $2,19, тогда как OpenAI за аналогичный объем взимает $60. За кулисами прорыва: как устроен DeepSeek-R1 Согласно опубликованному исследованию, в основе модели DeepSeek-R1 лежат методы обучения с подкреплением и «холодного старта». Это позволило достичь исключительной производительности в таких областях, как математические вычисления, программирование и логическое мышление. Ключевой особенностью модели стал подход Chain of Thought, позволяющий разбивать сложные задачи на последовательные шаги, имитируя человеческое мышление. Система анализирует задачу, разделяет ее на этапы и проверяет каждый шаг на наличие ошибок перед формированием окончательного ответа. Техническая реализация впечатляет своей эффективностью. DeepSeek-R1 обучалась на системе из 2048 ускорителей Nvidia H800, затратив около 2,788 млн часов работы GPU. Оптимизация процесса достигается за счет применения смешанной точности FP8 и технологии Multi-Token Prediction, что существенно снижает требования к оборудованию. Архитектура модели включает 671 млрд параметров. Но уникальность метода в том, что за один проход активируется только 37 млрд из них. Использование «смеси экспертов» (Mixture of Experts) обеспечивает масштабируемость без пропорционального роста вычислительных затрат. Отдельного внимания заслуживает инновационный метод Group Relative Policy Optimization (GRPO). Он позволяет обучать модель без использования критика, что значительно повышает эффективность процесса.  Как отметил старший менеджер по исследованиям в Nvidia Джим Фан, это напоминает прорыв AlphaZero от Google DeepMind, научившейся играть в го и шахматы «без предварительного подражания человеческим гроссмейстерским ходам». По его словам, это «самый важный вывод из исследовательской статьи». https://twitter.com/DrJimFan/status/1881353126210687089 Новый подход к обучению языковых моделей Особенно интересен подход DeepSeek к обучению. В отличие от других ведущих LLM, R1 не проходила традиционную «предварительную подготовку» на данных с человеческой разметкой. Исследователи нашли способ, позволяющий модели развивать собственные способности к рассуждению практически с нуля.  «Вместо того, чтобы явно обучать модель тому, как решать проблемы, мы просто предоставляем ей правильные стимулы, и она автономно разрабатывает передовые стратегии», — говорится в исследовании. Модель также представляет новую парадигму в развитии ИИ: вместо простого наращивания вычислительных мощностей для обучения, акцент делается на том, сколько времени и ресурсов модель тратит на обдумывание ответа перед его генерацией. Это масштабирование «вычислений в тестовое время» отличает новый класс «рассуждающих моделей» вроде DeepSeek R1 и OpenAI-o1 от их предшественников. Критический взгляд на прорыв DeepSeek Успех DeepSeek вызывает немало вопросов в профессиональном сообществе. Гендиректор Scale AI Александр Ванг, утверждает, что компания располагает 50 000 чипов Nvidia H100, что прямо противоречит американским экспортным ограничениям.  «Насколько я понимаю, в DeepSeek установлено 50 тысяч H100 [...]. Они не могут говорить о них [публично], потому что это противоречит экспортному контролю США», — сказал Ванг. Учитывая, что после введения ограничений стоимость контрабандных H100 в Китае взлетела до $23 000–30 000, такой кластер обошелся бы в $1–1,5 млрд. Аналитики Bernstein ставят под сомнение заявленную стоимость обучения модели V3 в $5,6 млн и отмечают отсутствие данных о затратах на разработку R1. По мнению эксперта Peel Hunt Даминду Джаявира, публичные цифры отражают только стоимость GPU-часов, игнорируя другие существенные расходы. «Она была обучена менее чем за 3 млн часов работы GPU, что соответствует стоимости обучения чуть более $5 млн. Для сравнения, по оценкам аналитиков, обучение последней крупной модели ИИ компании Meta обошлось в $60–70 млн», — сказал Джаявира. Политический аспект также вызывает опасения. Участие основателя DeepSeek Лян Вэньфэна в закрытом симпозиуме под председательством премьер-министра Китая Ли Цяна может указывать на стратегическую роль компании в преодолении экспортных ограничений и достижении технологической независимости КНР. «Существует большая вероятность того, что DeepSeek и многие другие крупные китайские компании поддерживаются правительством Китая не только в денежном выражении», — заявил Эдуард Харрис, технический директор Gladstone AI, тесно сотрудничающей с правительством США. Нельзя не отметить и встроенные механизмы цензуры в API-версии R1, особенно в отношении политически чувствительных для КНР тем. Модель отказывается обсуждать события на площади Тяньаньмэнь, права человека в Китае или статус Тайваня, заменяя сгенерированные ответы стандартными уклончивыми формулировками. Отдельные опасения вызывает вопрос конфиденциальности данных. Согласно политике DeepSeek, личная информация пользователей хранится на серверах в КНР, что может создать для компании проблемы, аналогичные тем, с которыми столкнулся TikTok. Особенно острым этот вопрос может стать на американском рынке, где регуляторы уже проявили повышенное внимание к китайским технологическим компаниям в контексте защиты персональных данных. Фрагмент политики конфиденциальности DeepSeek. Данные: DeepSeek. Будущее языковых моделей после DeepSeek Несмотря на противоречия, достижения DeepSeek нельзя недооценивать. Результаты тестирования показывают, что модель R1 действительно превосходит американские аналоги по многим параметрам. Как отметил Александр Ванг, это «тревожный звонок для Америки», требующий ускорения инноваций и усиления экспортного контроля над критически важными компонентами. https://twitter.com/alexandr_wang/status/1883368885640102092 Хотя OpenAI пока сохраняет лидерство в отрасли, появление DeepSeek существенно меняет расстановку сил на рынке ИИ-моделей и инфраструктуры. Если официальные данные соответствуют действительности, китайской компании удалось создать конкурентоспособное решение с существенно меньшими затратами благодаря инновационным подходам и оптимизации. Это ставит под вопрос стратегию простого наращивания вычислительных мощностей, которой придерживаются многие участники рынка. Интерес к технологиям DeepSeek растет: Meta уже создала четыре «военных кабинета» для анализа китайских моделей, стремясь применить полученные знания в развитии собственной экосистемы Llama с открытым исходным кодом.  Некоторые эксперты видят в успехе DeepSeek не столько угрозу технологическому доминированию США, сколько признак формирования многополярного мира ИИ. Как отметил бывший сотрудник отдела политики OpenAI Майлз Брундадж:  «Китай все равно обзаведется собственным суперинтеллектом(ами) не более чем на год позже США, если не случится войны. Так что если вы не хотите (в буквальном смысле) войны, вам нужно иметь видение того, как ориентироваться в многополярных результатах развития ИИ». Похоже, мы наблюдаем начало новой эры в развитии искусственного интеллекта, где эффективность и оптимизация могут оказаться важнее чистой вычислительной мощности.

Read the Disclaimer : All content provided herein our website, hyperlinked sites, associated applications, forums, blogs, social media accounts and other platforms (“Site”) is for your general information only, procured from third party sources. We make no warranties of any kind in relation to our content, including but not limited to accuracy and updatedness. No part of the content that we provide constitutes financial advice, legal advice or any other form of advice meant for your specific reliance for any purpose. Any use or reliance on our content is solely at your own risk and discretion. You should conduct your own research, review, analyse and verify our content before relying on them. Trading is a highly risky activity that can lead to major losses, please therefore consult your financial advisor before making any decision. No content on our Site is meant to be a solicitation or offer.