Голод данных: ИИ столкнется с дефицитом качественных данных к 2026 году

искусственный интеллект (ИИ) приближается к критической точке: гонка за созданием все более мощных моделей упирается в проблему дефицита качественных данных для обучения. По мнению аналитиков, мир может столкнуться с истощением запасов пригодных для использования данных уже в ближайшие несколько лет.

Согласно данным EPOCH AI, объемы используемых для обучения больших языковых моделей (LLM) наборов данных растут экспоненциально – в среднем в 3,7 раза в год, начиная с 2010 года. Если эта тенденция сохранится, то уже в период с 2026 по 2032 год мир исчерпает запасы высококачественных общедоступных данных.

Уже сейчас стоимость сбора и обработки данных растет как на дрожжах. По оценкам экспертов, объем рынка сбора и маркировки данных вырастет с $3,77 млрд в 2024 году до $17,10 млрд к 2030 году. Это создает не только новые возможности, но и потенциальные узкие места.

Проблема усугубляется тем, что крупные платформы, такие как Meta, Google и X (ранее Twitter), ограничивают доступ к своим данным, создавая «закрытые сады». Кроме того, все большее распространение получают нормативные акты, ограничивающие сбор данных, а общественное мнение все больше склоняется к тому, что использование пользовательского контента для обучения ИИ-моделей должно быть оплачиваемым.

Одним из возможных решений является использование синтетических данных, однако этот подход несет в себе риски. Модели, обученные на искусственно сгенерированных данных, могут столкнуться с обратной связью, галлюцинациями и ухудшением производительности. Кроме того, синтетические данные часто не обладают нюансами и сложностью реального мира, что необходимо для эффективной работы ИИ-систем.

В этих условиях реальные данные, созданные людьми, становятся «золотым стандартом». Однако доступ к ним становится все более затруднительным. В будущем, по мнению экспертов, конкурентным преимуществом будут обладать те, кто владеет уникальными и качественными наборами данных. Это приведет к перераспределению сил на рынке ИИ, где ключевую роль будут играть поставщики данных.

Таким образом, в новую эру ИИ реальная власть будет сосредоточена в руках тех, кто контролирует данные. Вопрос заключается не в том, масштабируется ли ИИ, а в том, кто будет поддерживать этот рост. И это будут не только специалисты по данным, но и кураторы данных, агрегаторы, контрибьюторы и платформы, объединяющие их.