Перевод Дождались IBM научит ИИ писать код и создает CodeNet

500 миллионов строк кода на более чем 55 различных языках программирования.

Процент представлений по языку (слева) и по статусу (справа).

Датасет содержит 13 916 868 представлений, разделенных на 4053 задачи, у пяти из которых нет представлений.
Часть датасета была собрана на основе представлений на конкурсе Google Code Jam с 2008 по 2020 год.
53,6% (7 460 588) представлений принято, 29,5% помечены как неправильный ответ, а остальные отклонены из-за несоответствия времени выполнения или требования к памяти.
Набор данных содержит материалы на 55 разных языках; 95% из них написан на C ++, Python, Java, C, Ruby и C#.
C++ самый распространенный язык с 8 008 527 представлениями (57% от общего количества), из которых принято 4 353 049.

Софт ест мир, написал американский предприниматель Марк Андриссен в 2011 году. Перенесемся в наши дни программное обеспечение используется в финансовых услугах и здравоохранении, смартфонах и умных домах. Сегодня даже автомобили содержат более 100 миллионов строк кода.

Однако такие большие объемы кода сложно отлаживать, поддерживать и обновлять, особенно когда предприятия стремятся модернизировать свою устаревшую программную инфраструктуру. В результате мы находимся в новой эпохе, когда важно использовать преимущества современных технологий, таких как искусственный интеллект и гибридное облако, для создания новых решений, которые могут модернизировать процессы в конвейере информационных технологий.

Зайдите на Project CodeNet. Большой набор данных, предназначенный для обучения искусственного интеллекта программированию, он состоит из примерно 14 миллионов примеров кода и около 500 миллионов строк кода на более чем 55 различных языках программирования, от современных, таких как C++, Java, Python и Go, до устаревших языков, таких как COBOL, Pascal и Fortran.

Но чтобы понять значение этого набора данных, мы должны сначала посмотреть в прошлое.

Следующий рубеж ИИ: язык машин

Компьютерных специалистов давно интересовала возможность, когда компьютер программирует компьютеры. Может ли ИИ упростить понимание, разработку и развертывание кода языка машин? Можно, но добиться этого нелегко.

Проблема заключается в системах, основанных на правилах.

Возьмем перевод на язык программирования. Если бы это было легко и системы, основанные на правилах, работали бы, и ранние языки программирования, такие как COBOL, уже были бы преобразованы. Но у языков программирования есть контекст. Значение любого утверждения связано с контекстом, и его получение и перевод, как и в случае с человеческими языками, сложны и требуют много времени.

Чем больше становится программа, тем труднее ее переводить. На человеческом языке контекст может быть ограничен параграфом или около того, здесь контекст может относиться к нескольким библиотекам кода. Контекст это вызов для ИИ.

Грубо говоря, системы, основанные на правилах, могут успешно переводить от 50 до 60 процентов программы. Часть программы может быть переведена достаточно хорошо, остальную часть обычно приходится переводить вручную, используя сложные правила.

Развитие ИИ для кода

Здесь ИИ может помочь, потому что он может действовать как люди.

Project CodeNet, в частности, может стимулировать алгоритмические инновации для извлечения этого контекста с помощью последовательных моделей, точно такие же, что мы применяем в человеческих языках, чтобы сделать более значительную ясность в машинном понимании кода, как и в машинной обработки кода.

Project CodeNet уникален благодаря образцам кода, отобранным на открытых соревнованиях по программированию на протяжении многих лет. Он уникален не только по размеру и масштабу, но и по качеству метаданных и аннотаций с богатым набором информации, будь то размер кода, объем памяти, время работы ЦП или состояние, что указывает на принятие или типы ошибок.

Более 90 процентов проблем связаны с соответствующим описанием проблемы, содержащим краткую формулировку проблемы, спецификацию входного и выходного формата. Для более чем половины проблем программирования (то есть семи миллионов образцов кода) мы также курировали входные и выходные образцы из описания проблемы, что является ключом к определению эквивалентности двух образцов кода на разных языках, что может стимулировать методы обучения с подкреплением для перевода кода.

Мы предоставляем их как часть набора данных удобную функцию Project CodeNet. Пользователи могут выполнять принятые образцы кода для извлечения дополнительных метаданных и проверки правильности выходных данных генеративных моделей ИИ. Это позволит исследователям программировать эквивалентность намерений при переводе одного языка программирования на другой.

Богатые метаданные и разнообразие примеров кода и проблем, которые они решают, открывают Project CodeNet для множества вариантов использования. Набор данных можно использовать для поиска кода и обнаружения копий. Образцы кода в Project CodeNet помечены статусом принятия, и мы можем изучить методы искусственного интеллекта, чтобы отличать правильный код от проблемного.

Метаданные Project CodeNet также позволяют отслеживать эволюцию представления от проблемного до принятого, что может быть использовано для изучения автоматического исправления кода. Каждый образец кода помечен временем выполнения ЦП и объемом памяти, что полезно для регрессионных исследований и прогнозирования.

Учитывая обилие программ, написанных на множестве языков, мы считаем, что Project CodeNet может служить эталонным набором данных для перевода из источника в источник и делать для ИИ и кода то, что набор данных ImageNet много лет назад сделал для компьютерного зрения.

Модернизация и эксплуатация программной инфраструктуры также важны с точки зрения бизнеса. Мы коснулись этого в прошлом году, когда IBM анонсировала несколько новых возможностей, в том числе IBM WatsonAIOps и Accelerator для модернизации приложений, предназначенных для автоматизации конвейера информационных технологий.

Например, крупный автомобильный клиент обратился к IBM с просьбой помочь обновить актив стоимостью 200 миллионов долларов, состоящий из 3500 файлов Java нескольких поколений. Эти файлы состояли из более чем одного миллиона строк кода, разработанного за десять лет с использованием технологии Java нескольких поколений.

Это был сложный монолитный код приложения, не подходивший для облачных сред. Применяя наш стек AI для кода, мы сократили продолжающийся год бизнес-процесс миграции кода до четырех недель, модернизировали и создали более 25 новых облачных микросервисов путем рефакторинга устаревшего монолитного кода приложения.

Наша команда рада предоставить исследователям и разработчикам набор данных и набор технологий, которые просты в использовании и понимании, одновременно помогая в разработке алгоритмов, которые будут способствовать развитию ИИ для кода. Мы надеемся, что с помощью Project CodeNet будут приносить пользу для бизнеса по мере того, как предприятия начинают свой путь модернизации ИТ.

Откройте Project CodeNet на GitHub и прочтите препринт.

I had strings, but now I'm free. There are no strings on me

Зарабатывать продажей лекарств, которые заведомо не работают, не только аморально, но и не особо легко. Люди всё-таки обычно не хотят покупать препараты, неэффективность которых была доказана. А вот если вы сумели выдавить заветное p < 0.05 в пользу того, что акупунктура та

О проекте

ALiEn это программа моделирования искусственной жизни, основанная на специализированном физическом и рендеринговом движке в CUDA. Он предназначен для моделирования цифровых организмов, встроенных в искусственные экосистемы, и для имитации условий (до)биотической эволюции.

Узнайте

Поиск оптимальных значений для ограничения ресурсов Kubernetes непростая задача, поскольку вам нужно найти золотую середину между слишком жесткими и недостаточными ограничениями.

В этой статье, которая является продолжением серии статей о рациональном использовании ресурсов в Kubernetes, вы узнаете, как выбрать правильные ограничения ресурсов Kubernetes: от обнаружения контейнеров без каких-либо ограничений до

Я сравнивал свои заметки с людьми, которые ведут корпоративные инженерные блоги, и мне кажется любопытным то, что мой личный блог довольно часто получает больше трафика, чем

Скачать Cheatsheet по запросам PromQL

Начало работы с PromQL может быть непростым, если вы только начинаете свое путешествие в увлекательный мир Prometheus. Это руководство поможет понять принципы его работы, статья включает интересные и полезные советы, необходимые для начала работы.

Поск

В этой статье приведены примеры популярных запросов Prometheus для мониторинга Kubernetes.

Если вы только начинаете работать с Prometheus и у вас возникают сложности при создании запросов PromQL, советуем обратиться к руководству по нач

Логотип статьи определяет три, как временные, так и географические, точки на моём жизненном пути, через которые лежал мой путь в страну под названием Программирование. В городе Чебоксары, на родине легендарного комдива Гражданской войны В.И.Чапаева, прошло моё детство (1954-1968 г.г.), там я закончил 8

Всем привет. С вами я, stalker320, и сегодня я хотел бы рассказать про написание служебных скриптов, запускающихся в редакторе. Всем желающим прочесть - добро пожаловать под кат

EditorScript - это такой скрипт, который можно запустить по нажатию комбинации Ctrl+Shift+X прямо из движка. Он может исполнять различные служебные функции. К примеру создать необходимую структуру каталогов в проекте.

Привет, меня зовут Александр, я старший разработчик ПО в Центре разработкиOrionInnovation. Хочу признаться, я люблю рассказывать про C++ и не только на различных митапах и конференциях.Ивотядобрался доХабра. НаCppConfRussiaPiter2020 я рассказывал про концепты и послевыступлен

Работая в компании IT-аутсорса в качестве руководителя 3 линии поддержки, задумался, как автоматизировать подключение сотрудников по RDP, через VPN к серверам десятков клиентов.

Таблички с адресами, паролями и прочими настройками серверов, конечно, хорошо, но поиск клиента и вбивание адресов с аккаунтами занимает довольно существенное время.
Держать все подключения к VPN в Windows не самая лучшая идея, да и при переустан

В 26-м выпуске NP-полного подкаста я рассказывал, что начал переводить один из своих сервисов из Redis Sentinel на Redis Cluster. На этой неделе я захотел потестировать данный код, и, конечно же, выбрал Testcontainers для этого. К сожалению, Redis Cluster в тестовых контейнерах не з

Мне на удивление часто приходится говорить о том, почему мне всё ещё нравится язык C, и о том, почему я плохо отношусь к C++. Поэтому я решил, что мне стоит об этом написать, а не снова и снова повторять одно и то же.

Как это обычно бывает у C-программистов, язык C не был ни моим первым яз

Очень много людей с самым разным бэкграундом, и не всегда даже техническим, в последнее время пытаются перейти в data science. И такой ажиотажный интерес - проблема для всех, кто рассматривает переквалификацию в эту сферу. Потому что рынок труда может оказаться наводнён соискателям без опыта.

С точки зрения потенциального работодателя: вы скорее возьмёте выпускника технического вуза, или человека за 40, без профильного опыта

Задача распознавания семантического следования (textual entailment), или импликации (natural language inference), в текстах на естественном языке состоит в определении того, может ли часть текста (посылка, антецедент) подразумеваться или противоречить (или не противоречить) другому фрагменту текст

Технология распознавания эмоций в речи может может найти применение в огромном количестве задач. В частности, это позволит автоматизировать процесс мониторинга качества обслуживания клиентов call-центров.

Определение эмоций человека по его речи уже относительно насыщенн

Мне давно нравятся Байесовские сети доверия

Представьте ситуацию: вам нужно воспользоваться оплаченным (как вы думаете) сервисом и вдруг оказывается, что он отключен за неуплату. Такая неприятность портит впечатление от бренда, снижая поток прибыли, а внезапно отключенный клиент может не вернуться к сервису. К старту ку

В этой статье мы рассмотрим, что такое классификатор, поговорим о мультиклассовой классификации с помощью нейронных сетей. Затем, ознакомившись с контекстом перейдем к основному топику поста к Log-Sum-Exp Trick. Напишем формулы и разберемся, как этот трюк помогает избежать переполнения чисел с плавающей то

Они отличаются тем, что у гибридных (Ca+, Ca/Sb) свинцовый сплав положительных решёток легирован сурьмой, а отрицательных кальцием, тогда как у кальциевых (Ca/Ca) те и другие кальцием. В результате, выделение газов происходит при разных напряжениях заряда, и токи окончания заряда при этих напряжениях тоже разные.

Однако, современные автом

Обложка к комиксу Weird science. 50-годы

NASA разрабатывает планетоход VIPER (Volatiles Investigating Polar Exploration Rover), который будет искать и составлять карту залежей воды на Луне.

Взгляд на наше космическое будущее из 1970-х годов

В период с 1956 по 1962 годы психолог Кейптаунского университета Курт Данцигер проводил масштабный опрос. По его просьбе 436 южноафриканских школьников и студентов написали

Восставший может погрузиться вбездну, апогрузившийся вбездну может вновь восстать. (Говард Филипс Лавкрафт. Зов Ктулху)

В бездну пучин сланцевых пород скалы эпохи Велнока,что на юге графства Херефордшир (Великобритания) раз за разом п

(Примечание переводчика: не нашёл публикации (-ий) по данной теме на Хабре.)

Блоуинг Рок, Северная Каролина, 21 декабря 2018 года организация Great Internet Mersenne

^{Предтеча мультиметра гальванометр}
Многие из нас практически ежедневно использует мультиметр по работе или в ходе реализации каких-то хобби-проектов. Есть простенькие мультиметры, которые измеряют лишь силу тока и напряжение. Есть очень сложные приборы, которые, кажется, способны измерить

Трансформеры за последние несколько лет штурмом захватили мир NLP, а сегодня они с успехом применяются в выходящих за рамки NLP приложениях. Они обладают такими возможностями благодаря модулю внимания, который схватывает отношения между всеми словами последовательностей. Но са

В этой подборке исследуем StoreKit 2, распознаем лица и позы на Android, улучшаем производительность React-приложений, учим сквирклморфизм и многое другое!

Этот дайджест доступен в виде еженедельной

Но ученые научились определять, где система дает сбой.

MS TECH | GETTY, UNSPLASH

В далекое прошлое ушли уютные форумы, где люди-модераторы заставляли участников следовать правилам и

Для начала хотелось бы упомянуть, что это далеко не первое исследование подобного рода. Начиная с 1960-х готов по настоящее время было разработанно множество программных комплексов и методик, позволяющие решать задачи идентификационного (кем именно была выполнена рукопись, представленная на исследование) и диагностического характера (дифференциации рукописей на мужское и женское, вычисление предполагаемого возраста исполнителя руко

Оракул технологического мира Gartner регулярно и охотно делится с обществом своими наблюдениями относительно текущих трендов. Эксперты компании составили подборку из 10 трендов в сфере данных и аналитики, которые стоит учитывать ИТ-лидерам в 2021 году от искусственного интеллекта до малых д

Но ученые научились определять, где система дает сбой.

MS TECH | GETTY, UNSPLASH

В далекое прошлое ушли уютные форумы, где люди-модераторы заставляли участников следовать правилам и

В фильмах или роликах с YouTube мы наблюдаем происходящее из одной точки, нам не доступны перемещение по сцене или смещение угла зрения. Но, кажется, ситуация меняется. Так, исследователи из Политехнического

500 миллионов строк кода на более чем 55 различных языках программирования.

Процент представлений по языку (слева) и по статусу (справа).

Датасет содержит 13 916 868 представлений, разделенных на 4053 задачи, у пяти из которых нет представлений.

Три закона робототехники Айзека Азимова:

Робот не может причинить вред человеку или своим бездействием допустить, чтобы человеку был причинён вред.
Робот должен повиноваться всем приказам, которые даёт человек, кроме тех случаев, когда эти приказы противоречат Первому Закону.
Робот должен заботиться о своей безопасности в той мере, в которой это не противоречит Первому или Второму За

Данный пост содержит выдержки из одноименной статьи Дэниела Фагеллы, руководителя отдела исследований в компании Emerj от 26.02.2020. Дэниел явл

	Русский
	English

Перевод Дождались IBM научит ИИ писать код и создает CodeNet

Следующий рубеж ИИ: язык машин

Развитие ИИ для кода

Сейчас читают

Блог компании timeweb

Перевод Plt0.05, и откуда оно (иногда) берётся

Перевод На пути к Матрице как происходит исследования в области построения симуляций и искуственной жизни

О проекте

Перевод Как оптимизировать ограничения ресурсов Kubernetes

Перевод Dan Luu Как пишутся (некоторые) хорошие корпоративные инженерные блоги

Перевод Знакомство с PromQL Cheatsheet

Перевод Tоп 10 PromQL запросов для мониторинга Kubernetes

Программирование

Пятьдесят лет на стезе программирования. Часть I. Начало пути. Отчий дом и Казанское суворовское военное училище

Принцип работы EditorScript

Производительность компилятора при работе с концептами в C20

Powershell настоящий язык программирования. Скрипт оптимизации рутины в техподдержке

Как подружить Redis Cluster c Testcontainers?

Перевод Почему я всё ещё люблю C, но при этом терпеть не могу C?

Машинное обучение

Стоит ли смотреть в сторону Data science?

Перевод Учимся понимать таблицы на меньшем объеме данных

Распознавание эмоций в записях телефонных разговоров

БСД, или как легко объяснить финансистам их же задачи в терминах машинного обучения

Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Log-Sum-Exp Trick как свойства функций делают работу классификаторов реальной

Научно-популярное

Чем кальциевые аккумуляторы отличаются от гибридных?

Странник VIPER как сконструирован планетоход и что он будет делать на Луне

Почему люди так плохо прогнозируют будущее

По просьбам читателей Хтоническое существо в реальном прошлом

Новые рекорды найдено 51-ое простое число Мерсенна

Краткая история мультиметра как он появился и кто его создатели

Искусственный интеллект

Перевод Наглядно о том, почему трансформеры работают настолько хорошо

Дайджест интересных материалов для мобильного разработчика 398 (14 20 июня)

Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Перевод ИИ все еще не умеет модерировать хейт-спич

О том как мы научили машину определять пол человека по его почерку

Перевод ТОП-10 трендов в сфере данных и аналитики 2021. Версия Gartner

Ии

Перевод Наглядно о том, почему трансформеры работают настолько хорошо

Перевод ИИ все еще не умеет модерировать хейт-спич

Перевод Прямо как в Матрице нейросеть обучили изменять ракурс любых видео

Перевод Дождались IBM научит ИИ писать код и создает CodeNet

OpenAI SkyNet от Илона Маска. Разбор

Перевод Что такое machine learning?

Категории

Последние комментарии