Подвиньтесь, ChatGPT и DALL-E: данные электронных таблиц получают собственную фундаментальную модель машинного обучения, позволяющую пользователям немедленно делать выводы о новых точках данных для наборов данных, содержащих до 10 000 строк и 500 столбцов.
Один из комментаторов сказал, что разработка может стать «революционной» с точки зрения скорости, с которой пользователи могут делать прогнозы с использованием табличных данных.
Такие базовые модели, как ChatGPT от OpenAI, предварительно обучены на обширных наборах данных и предоставляют разработчикам общую основу для создания более специализированных моделей без столь обширного обучения.
Команда под руководством Фрэнка Хуттера, профессора машинного обучения в Университете Фрайбурга, разработала базовую модель для табличного машинного обучения, которая может делать немедленные выводы на основе таблиц данных. Прогнозы, основанные на табличных данных — по сути, данных электронных таблиц — ценны в самых разных сценариях, от модерации социальных сетей до принятия решений в больницах.
«Ожидается, что достижение авторов окажет глубокое влияние во многих областях», — сказал Дункан МакЭлфреш, старший инженер по обработке данных в Stanford Health Care, подразделении Стэнфордского университета.
Исследование, опубликованное в Nature на прошлой неделе, объясняет, как команда построила базовую модель TabPFN для изучения причинно-следственных связей из синтетических данных, которые были смоделированы на основе реальных сценариев, создав таблицы данных, в которых записи в отдельных столбцах таблицы были причинно связаны. Новая модель была обучена с использованием 100 миллионов таких синтетических наборов данных, что позволило ей сузить возможные причинно-следственные связи и использовать их для своих прогнозов.
В сопроводительной статье МакЭлфреш сказал: «Основная модель авторов… удивительно эффективна. Она может брать набор данных пользователя и немедленно делать выводы о новых точках данных… Используя ряд экспериментов, [исследователи] обнаружили, что TabPFN последовательно превосходит другие методы машинного обучения — автоматизированные или иные — для наборов данных с объемом до 10 000 строк и 500 столбцов. Она также более искусна, чем другие методы, в решении распространенных проблем с данными, таких как пропущенные значения, выбросы и неинформативные признаки. И в то время как обычным моделям машинного обучения требуются минуты или даже часы для обучения, TabPFN может делать выводы для нового набора данных за доли секунды».
В статье авторы заявили, что, улучшая возможности моделирования в различных областях, TabPFN может ускорить научные открытия и улучшить принятие важных решений в различных областях.
«Этот переход к базовым моделям, обученным на синтетических данных, открывает новые возможности для анализа табличных данных в различных областях», — заявили исследователи. «Будущая работа может исследовать создание специализированных априорных данных для обработки таких типов данных, как временные ряды и мультимодальные данные, или специализированных модальностей, таких как ЭКГ, данные нейровизуализации и генетические данные. Поскольку область моделирования табличных данных продолжает развиваться, мы считаем, что базовые модели, такие как TabPFN, будут играть ключевую роль в расширении возможностей исследователей». ®