Из песочницы Введение в теорию компиляторов лексический анализ языка Pascal средствами C

Введение

В последнее время большинство новичков в программировании начинают с высокоуровневых языков, таких, как Java, Python, C#, или любой другой язык, содержащий в себе джентльменский набор в виде сборщика мусора, готовых структур данных и так далее. Конечно, такой подход имеет свои плюсы, но, как правило, начинающий разработчик, использующий готовый функционал языка, упускает самое главное его устройство и механизмы работы и имплементации.

Я не буду вдаваться в подробности распределения памяти и способы интерпретации кода, а наоборот, хотелось бы поговорить о самом устройстве компилятора, а именно о лексическом анализаторе и попробовать реализовать его на языке C#. Язык, который мы будем анализировать, знает подавляющее большинство это Pascal.

Лексический анализатор первый из слоев компилятора, отвечающий за выделение лексем для последующей обработки.

Лексема минимальная единица некоего словаря, представляющего наш язык. В роли лексемы могут служить служебные слова, операторы, идентификаторы и так далее.

Реализация

Описание структуры

Формальное описание языка будет храниться в двух массивах: в первом служебные слова, а во втором ограничители и список с найденными лексемами

private string[] Words = { "program", "var", "integer", "real", "bool", "begin", "end", "if", "then", "else", "while", "do", "read", "write", "true", "false" };private string[] Delimiter = { ".", ";", ",", "(", ")", "+", "-", "*", "/", "=", ">", "<" };public List<Lex> Lexemes = new List<Lex>();

Сама лексема будет в себе хранить ключ, с помощью которого будет определяться принадлежность к типу (служебные слова, операторы, идентификаторы, числа), id лексемы и само значение.

class Lex{    public int id;    public int lex;    public string val;    public Lex(int _id, int _lex, string _val)    {        id = _id;        lex = _lex;        val = _val;    }}

Наилучшим решением для обработки лексем будет служить некий конечный автомат. Это позволит избавиться от лишних if-ов, а также даст возможность легко вносить изменения в цикл. S начальное состояние, NUM, DLM, ASGN, ID состояния соответствующих видов лексем, ER будет использоваться для ошибки, а FIN для конечного состояния.

private string buf = ""; // буфер для хранения лексемыprivate char[] sm = new char[1];private int dt = 0;private enum States { S, NUM, DLM, FIN, ID, ER, ASGN, COM } // состояния state-машиныprivate States state; // хранит текущее состояниеprivate StringReader sr; // позволяет посимвольно считывать строку

Основными методами являются SearchLex, который ищет лексему в нашем массиве и возвращает ее id и значение в кортеже (да, кортежи тоже бывают полезными), а также PushLex, который добавляет новую лексему в словарь.

private (int, string) SerchLex(string[] lexes){    var srh = Array.FindIndex(lexes, s => s.Equals(buf));     if (srh != -1)        return (srh, buf);                 else return (-1, "");}private (int, string) PushLex(string[] lexes, string buf){    var srh = Array.FindIndex(lexes, s => s.Equals(buf));    if (srh != -1)        return (-1, "");    else    {        Array.Resize(ref lexes, lexes.Length + 1);        lexes[lexes.Length - 1] = buf;        return (lexes.Length - 1, buf);    }}

Реализация алгоритма

Первым делом стоит определить конец работы цикла состояние FIN, а также реализовать начальное состояние, которое будет

sr = new StringReader(text); // Получение исходного кода программыwhile (state != States.FIN){    switch (state)    {        case States.S:            if (sm[0] == ' ' || sm[0] == '\n' || sm[0] == '\t' || sm[0] == '\0' || sm[0] == '\r' )                GetNext();            else if (Char.IsLetter(sm[0]))            {                ClearBuf();                AddBuf(sm[0]);                state = States.ID;                GetNext();            }            else if (char.IsDigit(sm[0]))            {                dt = (int)(sm[0]-'0');                GetNext();                state = States.NUM;                            }            else if (sm[0] == '{')            {                state = States.COM;                GetNext();            }            else if (sm[0] == ':')            {                state = States.ASGN;                ClearBuf();                AddBuf(sm[0]);                GetNext();            }            else if (sm[0] == '.')            {                AddLex(Lexemes, 2, 0, sm[0].ToString());                state = States.FIN;            }            else            {                state = States.DLM;            }        break;    }  }

Метод GetNext позволяет получить следующий символ в строке, ClearBuf, соответственно, очищает буфер, хранящий в себе лексему

private void GetNext(){    sr.Read(sm, 0, 1);}

Особое внимание стоит уделить оператору присваивания ":=", который состоит из двух отдельных операторов. Самым простым способом определения данного оператора является добавление условия и запись промежуточного значения в буфер. Для этого было реализовано отдельное состояние ASGN (в переводе assing присваивание). В случае определения буфера как ":", алгоритм просто добавит новую лексему, а если следующим знаком является "=", то будет добавлен уже один оператор присваивания.

case States.ASGN:    if (sm[0] == '=')    {        AddBuf(sm[0]);        AddLex(Lexemes, 2, 4, buf);        ClearBuf();        GetNext();    }    else        AddLex(Lexemes, 2, 3, buf);    state = States.S;break;

Конечное состояние и состояние с ошибкой реализованы только служебными сообщениями. Можно доработать данный вариант и проверять также ошибку, но, пожалуй, данный функционал можно перенести уже в синтаксический анализатор.

case States.ER:    MessageBox.Show("Ошибка в программе");    state = States.FIN;    break;case States.FIN:    MessageBox.Show("Лексический анализ закончен");    break;

Тестирование

Протестировать алгоритм можно по-разному: указать напрямую путь .pas файла, программно создать строку или любой другой удобный вариант. Так как мы пишем на C#, не составит труда добавить форму в приложение, на которой будет 2 textBox-а, первый для ввода кода программы, второй выводит результат работы алгоритма.

По нажатию кнопки будем запускать анализ текста, а полученный результат будем обрабатывать с помощью switch конструкции: дополнительно выведем к какому типу относится найденная лексема.

private void button1_Click(object sender, EventArgs e){    textBox2.Clear();    TplMain tpl = new TplMain();    tpl.Analysis(textBox1.Text);        foreach(var lex in tpl.Lexemes)    {        switch (lex.id)        {            case 1:                textBox2.Text += "id: " + lex.id + " lex: " + lex.lex + " val: " + lex.val + " |" + " служебные слова "+ Environment.NewLine;                break;            case 2:                textBox2.Text += "id: " + lex.id + " lex: " + lex.lex + " val: " + lex.val + " |" + " ограничители " + Environment.NewLine;                break;            case 3:                textBox2.Text += "id: " + lex.id + " lex: " + lex.lex + " val: " + lex.val + " |" + " числа " + Environment.NewLine;                break;            case 4:                textBox2.Text += "id: " + lex.id + " lex: " + lex.lex + " val: " + lex.val + " |" + " идентификатор " + Environment.NewLine;                break;                        }         }       }

Входные данные

program hellohabr;var a, b, c : integer;beginc := a - b + 15;end.

Выходные данные

id: 1 lex: 0 val: program | служебные слова id: 4 lex: 1 val: hellohabr | идентификатор id: 2 lex: 1 val: ; | ограничители id: 1 lex: 1 val: var | служебные слова id: 4 lex: 1 val: a | идентификатор id: 2 lex: 2 val: , | ограничители id: 4 lex: 1 val: b | идентификатор id: 2 lex: 2 val: , | ограничители id: 4 lex: 1 val: c | идентификатор id: 2 lex: 3 val: : | ограничители id: 1 lex: 2 val: integer | служебные слова id: 2 lex: 1 val: ; | ограничители id: 1 lex: 5 val: begin | служебные слова id: 4 lex: 1 val: c | идентификатор id: 2 lex: 4 val: := | ограничители id: 4 lex: 1 val: a | идентификатор id: 2 lex: 6 val: - | ограничители id: 4 lex: 1 val: b | идентификатор id: 2 lex: 5 val: + | ограничители id: 3 lex: 1 val: 15 | числа id: 2 lex: 1 val: ; | ограничители id: 1 lex: 6 val: end | служебные слова id: 2 lex: 0 val: . | ограничители

Полный алгоритм

public void Analysis(string text){    sr = new StringReader(text);    while (state != States.FIN)    {        switch (state)        {            case States.S:                if (sm[0] == ' ' || sm[0] == '\n' || sm[0] == '\t' || sm[0] == '\0' || sm[0] == '\r')                    GetNext();                else if (Char.IsLetter(sm[0]))                {                    ClearBuf();                    AddBuf(sm[0]);                    state = States.ID;                    GetNext();                }                else if (char.IsDigit(sm[0]))                {                    dt = (int)(sm[0] - '0');                    GetNext();                    state = States.NUM;                }                else if (sm[0] == '{')                {                    state = States.COM;                    GetNext();                }                else if (sm[0] == ':')                {                    state = States.ASGN;                    ClearBuf();                    AddBuf(sm[0]);                    GetNext();                }                else if (sm[0] == '.')                {                    AddLex(Lexemes, 2, 0, sm[0].ToString());                    state = States.FIN;                }                else                {                    state = States.DLM;                }                break;            case States.ID:                if (Char.IsLetterOrDigit(sm[0]))                {                    AddBuf(sm[0]);                    GetNext();                }                else                {                    var srch = SerchLex(Words);                    if (srch.Item1 != -1)                        AddLex(Lexemes, 1, srch.Item1, srch.Item2);                    else                    {                        var j = PushLex(TID, buf);                        AddLex(Lexemes, 4, j.Item1, j.Item2);                    }                    state = States.S;                }                break;            case States.NUM:                if (Char.IsDigit(sm[0]))                {                    dt = dt * 10 + (int)(sm[0] - '0');                    GetNext();                }                else                {                    var j = PushLex(TNUM, dt.ToString());                    AddLex(Lexemes, 3, j.Item1, j.Item2);                    state = States.S;                }                break;            case States.DLM:                ClearBuf();                AddBuf(sm[0]);                var r = SerchLex(Delimiter);                if (r.Item1 != -1)                {                    AddLex(Lexemes, 2, r.Item1, r.Item2);                    state = States.S;                    GetNext();                }                else                    state = States.ER;                break;            case States.ASGN:                if (sm[0] == '=')                {                    AddBuf(sm[0]);                    AddLex(Lexemes, 2, 4, buf);                    ClearBuf();                    GetNext();                }                else                    AddLex(Lexemes, 2, 3, buf);                state = States.S;                break;            case States.ER:                MessageBox.Show("Ошибка в программе");                state = States.FIN;                break;            case States.FIN:                MessageBox.Show("Лексический анализ закончен");                break;        }    }}

Заключение

Может показаться, что лексический анализатор штука не очень понятная, да и собственно не очень важная. Почему нельзя вынести все это в синтаксический анализатор? Как работать со сложными конструкциями? Да, способы реализации лексического анализатора разнятся от компилятора к компилятору, но при разборе всех этих принципов появится не только понимание работы языка программирования X, но и появится фундамент для разработки собственного языка программирования: второй Python, или язык для вашей предметной области все это можно реализовать при понимании всех специфик работы и устройства компилятора в общем виде.

С проектом можно ознакомиться по ссылке

Не так часто удается написать что-то интересное про проблемы, связанные с параллельным программированием. В этот же раз "повезло". Из-за особенностей реализации стандартного метода TraceEvent произошла ошибка с блокировкой нескольких потоков. Хочется предупредить о существующем нюансе и рассказать об интересном случае из поддержки наших пользователей. Причем тут поддержка? Это вы узнаете из статьи. Приятного чтения.

Работая в компании IT-аутсорса в качестве руководителя 3 линии поддержки, задумался, как автоматизировать подключение сотрудников по RDP, через VPN к серверам десятков клиентов.

Таблички с адресами, паролями и прочими настройками серверов, конечно, хорошо, но поиск клиента и вбивание адресов с аккаунтами занимает довольно существенное время.
Держать все подключения к VPN в Windows не самая лучшая идея, да и при переустан

Поддержка движка отстает, а исправление положения - задача не из легких

Разработчик программного обеспечения Unity Джош Питерсон рассказал нам о будущем поддержки .NET в широко используемом движке для разработки игр.

Согласно

Проблемы с производительностью, такие как аномально низкая скорость работы и высокое потребление памяти, могут быть обнаружены самыми разными способами. Такие недостатки приложения выявляются тестами, самими разработчиками или тестировщиками, а при менее удачном раскладе пользователями. Увы, но обнаружение аномалий лишь первый шаг. Далее проблему необходимо локализовать, ведь в противном случае решить её не получится. Тут возникает

Исходные данные:

Два SQL Server'а, которые находятся в прямой доступности между собой, на одном из которых настроен Linked Server.
SQL запрос вида:

insert into LocalDatabaseName.dbo.TableName (column1, column2, ..., columnN)select column1, column2, ..., columnNfrom LinkedServerName.RemoteDatabaseName.dbo.TableName

Добрый день. Сегодня хочется поговорить о том, как найти MEX (минимальное отсутствующие число во множестве).

Мы разберем три алгоритма и посмотрим на их производительность.

Добро пожаловать под cat

Предисло

По ходу разработки генератора кода для виртуальной машины понял, что виртуальная машина не готова к полноценным вызовам функций, с передачей аргументов и хранением локальных переменных функций. Поэтому её необходимо доработать. А именно, нужно определиться с

Мне на удивление часто приходится говорить о том, почему мне всё ещё нравится язык C, и о том, почему я плохо отношусь к C++. Поэтому я решил, что мне стоит об этом написать, а не снова и снова повторять одно и то же.

Как это обычно бывает у C-программистов, язык C не был ни моим первым яз

Привет, Хабр! Обращаем ваше внимание на одну новинку (сдана в типографию), доступную уже сейчас для покупки в электронном виде.

Язык C# существует уже около двух десятилетий. Он

Актуальность

Конечные автоматы (finite state machines, fsm) штука полезная. Особенно они могут быть востребованы в средах, где в принципе нет развитой многозадачности (например, в Octave, который является в значительной степени бесплатным аналогом Matlab) или в программах для микроконтроллеров, где не используется по каким-то причинам RTOS. До недавнего времени у меня не получалось лаконично описать коне

Поддержка движка отстает, а исправление положения - задача не из легких

Согласно

Команда Rust рада сообщить о выпуске новой версии 1.53.0. Rust это язык программирования, позволяющий каждому создавать надёжное и эффективное программное обеспечение.

Если вы установили предыдущую версию Rust средствами rustup, то для обновления до версии 1.53.0 вам достаточно выполнить следующую команду:

rustup update stable

Есл

Многие программисты считают, что компиляторы это волшебные чёрные ящики, на вход в которые можно подать хаотичный код, а на выходе получить красивый оптимизированный двоичный файл. Доморощенные философы часто начинают рассуждать о том, какие фишки языка или флаги компилятора следует использовать, чтобы раскрыть всю мощь магии компилятора. Если вы когда-нибудь видели кодовую базу GCC, то и в самом деле могли поверить, ч

Всем привет! На связи Антон Баширов, разработчик из ИТ-кластера Ростелекома. Импортозамещение набирает обороты, а российский софт всё глубже проникает в нашу повседневную ИТ-шную сущность бытия. Процессоры Эльбрус и Байкал становятся более востребованными, комьюнити расширяется, но мысли о необходимости портировать весь наш любимый технологический стек на неизведанную архитектуру E2K звучат страшнее рассказов про горящий в пламени

Технический прогресс не стоит на месте, появляются новые компьютерные архитектуры, компиляторы становятся умнее и генерируют более быстрый машинный код. Современные задачи требуют все более креативного и эффективного решения. В данной статье пойдет речь, на мой взгляд, про

Создать компилятор JS с высокой производительностью означает сделать больше, чем разработать сильно оптимизированный компилятор, например TurboFan, особенно это касается коротких сессий, к примеру, загрузки сайта или инструментов командной строки, когда большая часть работы в

Настройка программного обеспечения

Без промедления начнём. Нам нужно установить следующее ПО:

Windows 10
Anaconda 3 (Python 3.8)
Visual Studio 2019 (

Мы рады сообщить, что стал доступен июньский релиз расширения Jupyter для Visual Studio Code. Если вы работаете с Python, мы рекомендуем загрузить расширение Python из Marketplace или установить его прямо из галереи расширений в Visual Studio Code. Если у вас уже установлено расширение Python, вы также можете получить последнее

Введение

В этой истории я расскажу вам об увлекательном приключении, которое привело меня к решению одной загадки, которую я сам себе загадал. Разгадка являет собой небольшую подробность в механизме загрузчика 32-х разрядных приложений в системе Windows 7 и выше, а процесс разгадки - длинное путешествие воина, который следует по пути сердца.

Если вы попали на эту страницу в поисках ответа на вопрос, то смотрите спой

По следам Microsoft Build 2021 у нашего Windows Terminal второй день рождения! Этот релиз впервые представляет версию 1.9 для Windows Terminal Preview и переносит основной Windows Terminal в версию 1.8. Как всегда, вы можете установить обе с

На рынке мессенджеров сейчас есть примерно всё, как на Привозе. Есть решения на открытом коде, есть мессенджеры с миллиардом пользователей (или даже двумя). Но четкого понимания, что же взять с прилавка, чтоб все сотрудники огромного банка (и его 300+ дочек) с улыбкой открывали какой-то один и это всё

Изображения, используемые на веб-страницах, привлекают пользователей, пользователи довольно-таки охотно щёлкают по ним мышью. Изображения делают веб-страницы лучше во всём кроме скорости работы страниц. Изображения это огромные куски байтов, которые обычно являются теми частями сайтов, которые загружаются медленнее всего. В этом материале я собрал всё, что нужно знать в 2021 году об улучшении скорости работы веб-страни

Как это обычно бывает у C-программистов, язык C не был ни моим первым яз

Сравнительно недавно Raspberry Pi Foundation выпустила плату Raspberry Pi Pico, основанную на микроконтроллере (Micro Controller Unit, MCU) RP2040. Эта плата привлекла большое внимание членов сообщества разработчиков различных электронных устройств. Появилось довольно много проектов, в которых используются программируемые модули ввода-вывода (Programmable I/O, PIO) Raspberry Pi Pico. Например, это проект

Термин бережливого производства (Lean) в настоящее время на слуху. Мы все знаем результаты применения данной идеи в компании Toyota, которые позволили выпускать малые партии комплектующих точно в срок (Just-In-Time, JIT).

В книге Microsoft Secrets (1995 года) авторы (Кузумано и Ричард Селби) описали подходы контроля качества схожие с Lean применяемым в Toyota.

Выпуск малыми партиями как нельзя лучше подходит для разра

Для меня попадание в состояние потока является единственным способом продуктивной работы над сложными программными проектами. И я полагаю, что разработчик может так организовать свою жизнь, чтобы как можно сильнее удлинить время, которое он каждый день может проводить в этом состоянии. Тут я хочу рассказать о том, что лично я пытаюсь делать для того, чтобы чаще попадать в состояние потока.

Всегда строгая семантика с плавающей запятой
API сторонних функций и памяти
Унифицированный API для генераторов псевдослучайных чисел

Версия Java 17, которая должна выйти в сентябре, продолжает набирать форму, на данный момент запланировано девять функций для обновления до стандартной Java, а также удаление двух функций и две функции прекращают поддерживаться. В после

Собрались однажды 2 разработчика. И нужно было им новую HTTP API реализовать для игрового магазина. Дошло дело до выбора БД, которую стоит применить в проекте:

- Слушай, а как мы выберем? Реляционную БД использовать или NoSQL. В частности, может нужна документоориентированная?

- Сперва нужно понять какие данные будут в нашей предметной области!

- Да, вот я уже набросал схемку:

Встречаются два эксперта-консультанта по конструированию программного обеспечения:
- Как написать сложное корпоративное приложение, поддерживать которое будет всегда легко и дешево.
- Могу рассказать...
- Рассказать и я могу! Написать-то как?..

Время чтения: 25 мин.

Разработка корпоративных приложений со сложной бизнес-логикой всегда не

Упакованные спутники Starlink

В субботу 15 мая компания SpaceX провела сер

Всем привет! На связи Антон Клочков, студент первого курса корпоративной магистратуры JetBrains Разработка программного обеспечения на базе Университета ИТМО. Я хочу рассказать, как выбирал программу, и главное оправдались ли мои ожидания.

	Русский
	English

Из песочницы Введение в теорию компиляторов лексический анализ языка Pascal средствами C

Введение

Реализация

Описание структуры

Реализация алгоритма

Тестирование

Входные данные

Выходные данные

Полный алгоритм

Заключение

Сейчас читают

Net

Как WCF сам себе в ногу стреляет посредством TraceSource

Powershell настоящий язык программирования. Скрипт оптимизации рутины в техподдержке

Перевод Предупреждение для разработчиков о грядущих критических изменениях в движке

Оптимизация .NET приложения как простые правки позволили ускорить PVS-Studio и уменьшить потребление памяти на 70

Linked Server MSSQL. Оптимизация производительности в 30 раз

MEX (Minimum EXcluded) Алгоритм поиска минимального отсутствующего числа

Предисло

C

Как WCF сам себе в ногу стреляет посредством TraceSource

Разработка стековой виртуальной машины и компилятора под неё (часть III)

Перевод Почему я всё ещё люблю C, но при этом терпеть не могу C?

Программируем на C 8.0. Атрибуты

Лаконичная реализация конечных автоматов в Matlab, Octave, C

Актуальность

Перевод Предупреждение для разработчиков о грядущих критических изменениях в движке

Компиляторы

Разработка стековой виртуальной машины и компилятора под неё (часть III)

Перевод Rust 1.53.0 IntoIterator для массивов, quotquot в шаблонах, Unicode-идентификаторы, поддержка имени HEAD-ветки в Cargo

Перевод Компилятор всё оптимизирует? Ну уж нет

История портирования Reindexerа как покорить Эльбрус за 11 дней

Recovery mode Сборка ядра Linux 5.12.10 c LLVM 12 Clang и LTO оптимизацией

Перевод Sparkplug неоптимизирующий компилятор JavaScript в подробностях

Разработка под windows

Как WCF сам себе в ногу стреляет посредством TraceSource

Powershell настоящий язык программирования. Скрипт оптимизации рутины в техподдержке

Управляем звуком ПК от активности пользователя с помощью Python

Настройка программного обеспечения

Jupyter в Visual Studio Code июньский релиз

О параметре компилятора SAFESEH

Введение

Представляем Windows Terminal Preview 1.9

Разработка

Недоумение про ещё один корпоративный чат или как сделать приятно всем

Перевод Оптимизация веб-графики в 2021 году

Перевод Почему я всё ещё люблю C, но при этом терпеть не могу C?

Перевод Практический взгляд на Raspberry Pi Pico с точки зрения STM32

Мы решили внедрить Agile-Lean принципы в процесс разработки на ходу и вот что из этого получилось

Перевод Как попасть в состояние потока?

Разработка по

JDK 17 новые функции в Java 17

Может поменять способ хранения?

Архитектура кода программного обеспечения декорируем стратегией. Рассказ в 10 эпизодах, основанный на реальных событиях

AMA с разработчиками из SpaceX (часть 1)

Перевод Почему в мире так много отстойного ПО

Личный опыт подготовка к магистратуре JetBrains в Университете ИТМО и первые впечатления

Категории

Последние комментарии