Русский
Русский
English
Статистика
Реклама

Слова

Предсказание будущего нейрокомпьютерная модель распознавания речи

01.07.2020 10:24:00 | Автор: admin


Что есть речь человека? Это слова, комбинации которых позволяют выразить ту или иную информацию. Возникает вопрос, откуда мы знаем, когда заканчивается одно слово и начинается другое? Вопрос довольно странный, подумают многие, ведь мы с рождения слышим речь окружающих людей, учимся говорить, писать и читать. Накопленный багаж лингвистических знаний, конечно, играет важную роль, но помимо этого есть и нейронные сети головного мозга, разделяющие поток речи на составляющие слова и/или слоги. Сегодня мы с вами познакомимся с исследованием, в котором ученые из Женевского университета (Швейцария) создали нейрокомпьютерную модель расшифровки речи за счет предсказания слов и слогов. Какие мозговые процессы стали основой модели, что подразумевается под громким словом предсказание, и насколько эффективна созданная модель? Ответы на эти вопросы ждут нас в докладе ученых. Поехали.

Основа исследования


Для нас, людей, человеческая речь вполне понятна и членораздельна (чаще всего). Но для машины это лишь поток акустической информации, сплошной сигнал, который необходимо декодировать прежде, чем понять.

Мозг человека действует примерно так же, просто это происходит крайне быстро и незаметно для нас. Фундаментов этого и многих других мозговых процессов ученые считают те или иные нейронные колебания, а также их комбинации.

В частности распознавание речи связывают с комбинацией тета и гамма колебаний, поскольку она позволяет иерархически координировать кодирование фонем в слогах без предварительного знания их длительности и временного возникновения, т.е. восходящая обработка* в реальном времени.
Восходящая обработка* (bottom-up) тип обработки информации, основанный на поступлении данных из среды для формирования восприятия.
Естественное распознавание речи также сильно зависит от контекстных сигналов, которые позволяют предвидеть содержание и временную структуру речевого сигнала. Ранее проведенные исследования показали, что во время восприятия непрерывной речи важную роль играет именно механизм прогнозирования. Этот процесс связывают с бета колебаниями.

Еще одной важной составляющей распознавания речевых сигналов можно назвать предиктивное кодирование, когда мозг постоянно генерирует и обновляет ментальную модель окружающей среды. Эта модель используется для генерации прогнозов сенсорного ввода, которые сравниваются с фактическим сенсорным вводом. Сравнение прогнозированного и фактического сигнала приводит к выявлению ошибок, которые служат для обновления и пересмотра ментальной модели.

Другими словами, мозг всегда учится чему-то новому, постоянно обновляя модель окружающего мира. Этот процесс считается критически важным в обработке речевых сигналов.

Ученые отмечают, что во многих теоретических исследованиях поддерживаются как восходящий, так и нисходящий* подходы к обработке речи.
Нисходящая обработка* (top-down) разбор системы на составляющие для получения представления о ее композиционных подсистемах способом обратной инженерии.
Разработанная ранее нейрокомпьютерная модель, включающая соединение реалистичных тета- и гамма- возбуждающих/тормозных сетей, была способна предварительно обрабатывать речь таким образом, чтобы затем ее можно было правильно декодировать.

Другая модель, основанная исключительно на предиктивном кодировании, могла точно распознавать отдельные речевые элементы (такие, как слова или полные предложения, если рассматривать их как один речевой элемент).

Следовательно, обе модели работали, просто в разных направлениях. Одна была сфокусирована на аспекте анализа речи в режиме реального времени, а другая на распознавании изолированных речевых сегментов (анализ не требуется).

Но что, если объединить основные принципы работы этих кардинально разных моделей в одну? По мнению авторов рассматриваемого нами исследования это позволит улучшить производительность и повысить биологический реализм нейрокомпьютерных моделей обработки речи.

В своем труде ученые решили проверить, может ли система распознавания речи на базе предиктивного кодирования получить некую пользу от процессов нейронных колебаний.

Они разработали нейрокомпьютерную модель Precoss (от predictive coding and oscillations for speech), основанную на структуре предиктивного кодирования, в которую добавили тета- и гамма-колебательные функции, чтобы справиться с непрерывной природой естественной речи.

Конкретная цель этой работы заключалась в поиске ответа на вопрос, может ли сочетание предиктивного кодирования и нейронных колебаний быть выгодным для оперативной идентификации слоговых компонентов естественных предложений. В частности, были рассмотрены механизмы, с помощью которых тета-колебания могут взаимодействовать с восходящими и нисходящими информационными потоками, а также проведена оценка влияния этого взаимодействия на эффективность процесса декодирования слогов.

Архитектура Precoss модели


Важной функцией модели является то, что она должна быть в состоянии использовать временные сигналы/информацию, присутствующие в непрерывной речи, для определения границ слога. Ученые предположили, что внутренние генеративные модели, включая временные предсказания, должны извлечь выгоду из таких сигналов. Чтобы учесть эту гипотезу, а также повторяющиеся процессы, происходящие во время распознавания речи, была использована модель кодирования с непрерывным предсказанием.

Разработанная модель четко отделяет чтои когда. Что относится к идентичности слога и его спектральному представлению (не временная, но упорядоченная последовательность спектральных векторов); когда относится к предсказанию времени и продолжительности слогов.

В результате прогнозы принимают две формы: начало слога, сигнализируемое тета-модулем; и длительность слога, сигнализируемая экзогенными/эндогенными тета-колебаниями, которые задают длительность последовательности единиц с гамма-синхронизацией (схема ниже).


Изображение 1

Precoss извлекает сенсорный сигнал из внутренних представлений о его источнике путем обращения к порождающей модели. В этом случае сенсорный ввод соответствует медленной амплитудной модуляции речевого сигнала и 6-канальной слуховой спектрограмме полного натурального предложения, которые модель внутренне генерирует из четырех компонентов:

  • тета-колебание;
  • блок медленной амплитудной модуляции в тета-модуле;
  • пул слоговых единиц (столько слогов, сколько присутствует в естественном вводном предложении, т.е. от 4 до 25);
  • банк из восьми гамма-единиц в спектротемпоральном модуле.

Вместе единицы слогов и гамма-колебания генерируют нисходящие прогнозы относительно входной спектрограммы. Каждая из восьми гамма-единиц представляет собой фазу в слоге; они активируются последовательно, и вся последовательность активации повторяется. Следовательно, каждая единица слога связана с последовательностью из восьми векторов (по одному на гамма-единицу) с шестью компонентами каждый (по одному на частотный канал). Акустическая спектрограмма отдельного слога генерируется путем активации соответствующей единицы слога на протяжении всей продолжительности слога.

В то время как блок слогов кодирует конкретный акустический паттерн, гамма-блоки временно используют соответствующее спектральное предсказание в течение продолжительности слога. Информация о продолжительности слога дается тета-колебанием, так как его мгновенная скорость влияет на скорость/продолжительность гамма-последовательности.

Наконец, накопленные данные о предполагаемом слоге должны быть удалены перед обработкой следующего слога. Для этого последний (восьмой) гамма-блок, который кодирует последнюю часть слога, сбрасывает все слоговые единицы до общего низкого уровня активации, что позволяет собирать новые свидетельства.


Изображение 2

Производительность модели зависит от того, совпадает ли гамма-последовательность с началом слога, и соответствует ли ее длительность продолжительности слога (50600 мс, среднее = 182 мс).

Оценка модели относительно последовательности слогов обеспечивается единицами слогов, которые вместе с гамма-единицами генерируют ожидаемые спектро-темпоральные паттерны (результат работы модели), которые сравниваются с вводной спектрограммой. Модель обновляет свои оценки о текущем слоге, чтобы минимизировать разницу между сгенерированной и фактической спектрограммой. Уровень активности увеличивается в тех слоговых единицах, спектрограмма которых соответствует сенсорному вводу, и уменьшается в других. В идеальном случае минимизация ошибки прогнозирования в режиме реального времени приводит к повышенной активности в одной отдельной единице слога, соответствующей входному слогу.

Результаты моделирования


Представленная выше модель включает физиологически мотивированные тета-колебания, которые управляются медленными амплитудными модуляциями речевого сигнала и передают информацию о начале и продолжительности слога гамма-компоненту.

Эта тета-гамма связь обеспечивает временное выравнивание внутренних сгенерированных предсказаний с границами слога, обнаруженными по входным данным (вариант A на изображении 3).


Изображение 3

Для оценки релевантности синхронизации слогов на основе медленной амплитудной модуляции было проведено сравнение модели А с вариантом В, в котором тета-активность не моделируется колебаниями, а возникает из самоповторения гамма-последовательности.

В модели В длительность гамма-последовательности больше не контролируется экзогенно (за счет внешних факторов) тета-колебаниями, а эндогенно (за счет внутренних факторов) использует предпочтительную гамма-скорость, которая при повторении последовательности приводит к формированию внутреннего тета-ритма. Как и в случае тета-колебаний, длительность гамма-последовательности имеет предпочтительную скорость в тета-диапазоне, которая потенциально может адаптироваться к переменным продолжительностям слогов. В таком случае есть возможность протестировать тета-ритм, возникающий из-за повторения гамма-последовательности.

Чтобы более точно оценить специфические эффекты тета-гаммы соединения и сброса накопленных данных в слоговых единицах, были сделаны дополнительные варианты предыдущих моделей A и B.

Варианты C и D отличались отсутствием предпочтительной скорости гамма-излучения. Варианты E и F дополнительно отличались от вариантов C и D отсутствием сброса накопленных данных о слогах.

Из всех вариантов модели только A имеет истинную тета-гамма связь, где гамма-активность определяется тета-модулем, тогда как в В модели гамма-скорость устанавливается эндогенно.

Необходимо было установить, какой из вариантов модели самый эффективный, для чего было проведено сравнение результатов их работы при наличии общих входных данных (естественные предложения). График на изображении выше показывает среднюю производительность каждой из моделей.

Между вариантами присутствовали значительные отличия. По сравнению с моделями A и B, производительность была значительно ниже в моделях E и F (в среднем на 23%) и C и D (на 15%). Это указывает на то, что стирание накопленных данных о предыдущем слоге перед обработкой нового слога является критически важным фактором кодирования слогового потока в естественной речи.

Сравнение вариантов A и B с вариантами C и D показало, что тета-гамма связь, будь то стимульная (A) или эндогенная (B), значительно улучшает производительность модели (в среднем на 8.6%).

Обобщенно говоря, эксперименты с разными вариантами моделей показали, что оная работала лучше всего, когда единицы слога сбрасывались после завершения каждой последовательности гамма-единиц (на основе внутренней информации о спектральной структуре слога), и когда скорость гамма-излучения определялась тета-гамма связью.

Производительность модели с естественными предложениями, следовательно, не зависит ни от точной сигнализации о начале слогов посредством тета-колебаний, управляемых стимулом, ни от точного механизма связи тета-гамма.

Как признают сами ученые, это довольно удивительное открытие. С другой стороны, отсутствие различий в производительности между управляемой стимулом и эндогенной тета-гамма связью отражает то, что продолжительность слогов в естественной речи очень близка к ожиданиям модели, и в этом случае не будет никакого преимущества для тета-сигнала, управляемого непосредственно вводными данными.

Чтобы лучше понять столь неожиданный поворот событий, ученые провели еще один ряд экспериментов, но со сжатыми речевыми сигналами (х2 и х3). Как показывают поведенческие исследования, понимание речи, сжатой в х2 раза, практически не меняется, но сильно падает при сжатии в 3 раза.

В таком случае стимулируемая тета-гамма связь может стать крайне полезной для разбора и расшифровки слогов. Результаты моделирования представлены ниже.


Изображение 4

Как и ожидалось, общая производительность упала с увеличением коэффициента сжатия. Для сжатия х2 существенной разницы между стимульной и эндогенной тета-гамма связью по-прежнему не было. Но в случае сжатия х3 возникает существенная разница. Это говорит о том, что управляемое стимулом тета-колебание, приводящее в действие тета-гамма-связь, было более выгодным для процесса кодирования слога, чем эндогенно установленная тета-скорость.

Из этого следует, что естественная речь может обрабатываться с помощью относительно фиксированного эндогенного тета-генератора. Но для более сложных вводных речевых сигналов (т.е. когда скорость речи постоянно меняется) требуется управляемый тета-генератор, передающий гамма-кодировщику точную временную информацию о слогах (начало слога и продолжительность слога).

Способность модели точно распознавать слоги во входном предложении не учитывает переменную сложность различных сравниваемых моделей. Потому была проведена оценка байесовского информационного критерия (BIC) для каждой модели. Данный критерий количественно определяет компромисс между точностью и сложностью модели (изображение 5).


Изображение 5

Вариант А показал самые высокие значения BIC. Ранее проведенное сравнение моделей А и В не могло точно различить их производительность. Однако благодаря критерию BIC стало очевидно, что вариант A обеспечивает более уверенное распознавание слогов, чем модель без тета-колебаний, управляемых стимулом (модель В).

Для более детального ознакомления с нюансами исследования рекомендую заглянуть в доклад ученых и дополнительные материалы к нему.

Эпилог


Суммируя вышеописанные результаты, можно сказать, что успешность модели зависит от двух основных факторов. Первый и самый важный сброс накопленных данных, основанных на информации модели о содержании слога (в данном случае это его спектральная структура). Вторым фактором является связь между тета- и гамма-процессами, которая обеспечивает включение гамма-активности в тета-цикл, соответствующий ожидаемой продолжительности слога.

По сути своей, разработанная модель имитировала работу мозга человека. Звук, поступающий в систему, модулировался тета волной, напоминающей активность нейронов. Это позволяет определить границы слогов. Далее более быстрые гамма-волны помогают кодировать слог. В процессе система предлагает возможные варианты слогов и корректирует выбор при необходимости. Перескакивая между первым и вторым уровнями (тета и гамма), система обнаруживает правильный вариант слога, а потом обнуляется, чтобы начать процесс заново для следующего слога.

Во время практических испытаний удалось успешно расшифровать 2888 слогов (220 предложений естественной речи, использовался английский язык).

Данное исследование не только объединило в себе две противоположные теории, реализовав их на практике в виде единой системы, но и позволило лучше понять, как наш мозг воспринимает речевые сигналы. Нам кажется, что мы воспринимаем речь как есть, т.е. без каких-либо сложных вспомогательных процессов. Однако, учитывая результаты моделирования, получается, что нейронные тета и гамма колебания позволяют нашему мозгу делать небольшие предсказания относительно того, какой именно слог мы слышим, на основе которых и формируется восприятие речи.

Кто бы что ни говорил, но мозг человека порой кажется куда таинственнее и непонятнее, чем неизведанные уголки Вселенной или беспросветные глубины Мирового океана.

Благодарю за внимание, оставайтесь любопытствующими и хорошей всем рабочей недели, ребята. :)

Немного рекламы


Спасибо, что остаётесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас, оформив заказ или порекомендовав знакомым, облачные VPS для разработчиков от $4.99, уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5-2697 v3 (6 Cores) 10GB DDR4 480GB SSD 1Gbps от $19 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).

Dell R730xd в 2 раза дешевле в дата-центре Equinix Tier IV в Амстердаме? Только у нас 2 х Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ТВ от $199 в Нидерландах! Dell R420 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB от $99! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5-2650 v4 стоимостью 9000 евро за копейки?
Подробнее..

Перевод Наглядно о том, почему трансформеры работают настолько хорошо

20.06.2021 18:15:44 | Автор: admin

Трансформеры за последние несколько лет штурмом захватили мир NLP, а сегодня они с успехом применяются в выходящих за рамки NLP приложениях. Они обладают такими возможностями благодаря модулю внимания, который схватывает отношения между всеми словами последовательностей. Но самый важный вопрос как именно трансформеры делают это? Попытаемся ответить и понять, почему трансформеры способны выполнять такие вычисления. Итак, цель статьи, чуть сокращённым переводом которой мы делимся к старту курса о машинном и глубоком обучении, разобраться не только с тем, как что-то работает, но и почему работает так. Чтобы понять, что движет трансформерами, мы должны сосредоточиться на модуле внимания. Начнём с входных данных и посмотрим, как они обрабатываются.


Как входная последовательность попадает в модуль внимания

Модуль внимания присутствует в каждом энкодере внутри стека каждого энкодера, а также внутри стека каждого декодера. Сначала внимательно посмотрим на энкодер.

Модуль внимания в энкодереМодуль внимания в энкодере

Для примера предположим, что мы работаем над задачей перевода с английского на испанский, где исходная последовательность слов The ball is blue, а целевая последовательность La bola es azul.

Исходная последовательность сначала проходит через слой векторного представления и позиционного кодирования, генерирующего векторы векторного представления для каждого слова последовательности. Векторное представление передаётся в энкодер, где вначале попадает в модуль внимания.

Внутри модуля внимания последовательность векторного представления проходит через три линейных слоя, создающих три отдельные матрицы запроса (Query), ключа (Key) и значения (Value). Именно эти три матрицы используются для вычисления оценки внимания [прим. перев. оценка определяет, сколько внимания нужно уделить другим частям входного предложения, когда мы кодируем слово в определённой позиции]. Важно помнить, что каждая "строка" этих матриц соответствует одному слову исходной последовательности.

Поток исходной последовательностиПоток исходной последовательности

Каждая входная строка это слово из последовательности

Чтобы понять, что происходит с модулем внимания, мы начнём с отдельных слов исходной последовательности, проследив их путь через трансформер. Если конкретнее, мы хотим сосредоточиться на происходящем внутри модуля внимания. Это поможет нам чётко увидеть, как каждое слово в исходной и целевой последовательностях взаимодействует с другими словами этих последовательностей.

Пока вы разбираетесь с этим объяснением, сосредоточьтесь на том, какие операции выполняются с каждым словом и как каждый вектор отображается на исходное входное слово. Не нужно думать о множестве других деталей, таких как формы матриц, особенности арифметических вычислений, множественное внимание и так далее, если эти детали не относятся напрямую к тому, куда направляется каждое слово. Итак, чтобы упростить объяснение и визуализацию, давайте проигнорируем размерность векторного представления и будем отслеживать только строки для каждого слова.

Расположение каждого слова в исходной последовательностиРасположение каждого слова в исходной последовательности

Каждое слово проходит серию обучаемых преобразований (трансформаций)

Каждая такая строка была сгенерирована из соответствующего исходного слова посредством серии трансформаций векторного представления, позиционного кодирования и линейного слоя. Все эти трансформации возможно обучить; это означает, что используемые в этих операциях веса не определены заранее, а изучаются моделью таким образом, чтобы они давали желаемые выходные прогнозы.

Линейные веса и веса векторного представления обученыЛинейные веса и веса векторного представления обучены

Ключевой вопрос заключается в том, как трансформер определяет, какой набор весов даст ему наилучшие результаты? Держите этот момент в памяти мы вернёмся к нему немного позже.

Оценка внимания это скалярное произведение матрицы ключа и матрицы запроса слов

Модуль внимания выполняет несколько шагов, но здесь мы сосредоточимся только на линейном слое и на оценке внимания.

Многоголовое вниманиеМногоголовое вниманиеРасчёт оценки вниманияРасчёт оценки внимания

Как видно из формулы, первый шаг в рамках модуля внимания умножение матрицы, то есть скалярное произведение между матрицей Query (Q) и транспонированием матрицы ключа Key (K). Посмотрите, что происходит с каждым словом. Итог промежуточная матрица (назовём её факторной матрицей [матрицей множителей]), где каждая ячейка это результат матричного умножения двух слов.

Скалярное произведение матрицы запроса и матрицы ключаСкалярное произведение матрицы запроса и матрицы ключа

Например, каждый столбец в четвёртой строке соответствует скалярному произведению между четвёртым словом запроса и каждым ключевым словом.

Скалярное произведение между матрицами запроса и ключаСкалярное произведение между матрицами запроса и ключа

Оценка внимания скалярное произведение между запросом-ключом и значением слов

Следующим шагом является матричное умножение между этой промежуточной матрицей множителей и матрицей значений (V), чтобы получить оценку внимания, который выводится модулем внимания. Здесь мы можем видеть, что четвёртая строка соответствует четвёртой матрице слов запроса, умноженной на все остальные ключевые слова и значения.

Скалярное произведение между матрицами ключа запроса и значенияСкалярное произведение между матрицами ключа запроса и значения

Получается вектор оценки внимания (Z), который выводится модулем внимания. Выходной результат можно представить следующим образом: для каждого слова это закодированное значение каждого слова из матрицы Значение, взвешенное матрицей множителей. Матрица множителей представляет собой точечное произведение значения запроса для данного конкретного слова и значения ключа для всех слов.

Оценка внимания это взвешенная сумма значения словОценка внимания это взвешенная сумма значения слов

Какова роль слов запроса, ключа и значения?

Слово запроса это слово, для которого мы рассчитываем внимание. В свою очередь слово ключа и значения это слово, на которое мы обращаем внимание, то есть определяем, насколько это слово соответствует слову запроса.

Оценка внимания для слова blue обращает внимание на каждое словоОценка внимания для слова blue обращает внимание на каждое слово

Например, для предложения The ball is blue строка для слова blue будет содержать оценку внимания для слова blue с каждым вторым словом. Здесь blue это слово запроса, а другие слова ключ/значение. Выполняются и другие операции, такие как деление и softmax, но мы можем проигнорировать их в этой статье. Они просто изменяют числовые значения в матрицах, но не влияют на положение каждой строки слов в ней. Они также не предполагают никаких взаимодействий между словами.

Скалярное произведение сообщает нам о сходстве слов

Итак, мы увидели, что оценка внимания отражает некоторое взаимодействие между определённым словом и каждым другим словом в предложении путём скалярного произведения с последующим их сложением. Но как матрица умножения помогает трансформеру определять релевантность между двумя словами?

Чтобы понять это, вспомните, что строки запроса, ключа и значения на самом деле являются векторами с размерностью векторного представления. Давайте посмотрим, как умножаются матрицы между этими векторами.

Каждая ячейка представляет собой скалярное произведение двух векторов словКаждая ячейка представляет собой скалярное произведение двух векторов слов

Для получения скалярного произведения двух векторов мы умножаем пары чисел, а затем суммируем их.

  • Если два парных числа (например, a и d выше) оба положительны или оба отрицательны, произведение положительно. Произведение увеличит итоговую сумму.

  • Если одно число положительное, а другое отрицательное, произведение будет отрицательным. Произведение уменьшит итоговую сумму.

  • Если произведение положительное, то, чем больше два числа, тем больше их вклад в окончательную сумму.

Это означает, что, если знаки соответствующих чисел в двух векторах выровнены, итоговая сумма будет больше.

Как трансформер изучает релевантность между словами?

Скалярное произведение также применимо к оценке внимания. Если векторы для двух слов более выровнены, оценка внимания будет выше. Итак, какого поведения мы хотим от трансформера? Мы хотим, чтобы оценка внимания была высокой для двух релевантных друг другу слов в предложении. И мы хотим, чтобы оценка двух слов, не связанных друг с другом, была низкой.

Например, в предложении The black cat drank the milk слово milk очень релевантно к drank, возможно, немного менее релевантно для cat, и нерелевантно к black. Мы хотим, чтобы milk и drink давали высокую оценку внимания, чтобы milk и cat давали немного более низкую оценку, а для milk и black незначительную. Мы хотим, чтобы модель научилась воспроизводить этот результат. Чтобы достичь воспроизводимости, векторы слов milk и drank должны быть выровнены. Векторы milk и cat несколько разойдутся. А для milk и black они будут совершенно разными.

Давайте вернёмся к вопросу, который мы откладывали: как трансформер определяет, какой набор весов даст ему наилучшие результаты? Векторы слов генерируются на основе векторного представления слов и весов линейных слоёв. Следовательно, трансформер может изучить эти векторные представления, линейные веса и так далее, чтобы создать векторы слов, как требуется выше.

Другими словами, он будет изучать эти векторные представления и веса таким образом, что если два слова в предложении релевантны друг другу, то их векторы слов будут выровнены, следовательно, получат более высокe. оценку внимания. Для слов, которые не имеют отношения друг к другу, их векторы не будут выровнены и оценка внимания будет ниже.

Следовательно, векторные представления слов milk и drank будут очень согласованными и обеспечат высокую оценку внимания. Они будут несколько отличаться для milk и cat, производить немного более низкую оценку и будут совершенно разными в случае milk и black: оценка внимания будет низкой вот лежащий в основе модуля внимания принцип.

Итак, как же работает трансформер?

Скалярное произведение между запросом и ключом вычисляет релевантность между каждой парой слов. Эта релевантность затем используется как множитель для вычисления взвешенной суммы всех значений слов. Эта взвешенная сумма выводится как оценка внимания. Трансформер изучает векторные представления и т. д. таким образом, что релевантные друг другу слова были более согласованы.

В этом кроется одна из причин введения трёх линейных слоёв и создания трёх версий входной последовательности: для запроса, ключа и значения. Такой подход даёт модулю внимания ещё несколько параметров, которые он может изучить, чтобы подстроить процесс создания векторов слов.

Самовнимание энкодера в трансформере

Внимание используется в трансформере в трёх местах:

  • Самовнимание в энкодере исходная последовательность обращает внимание на себя.

  • Самовнимание в декодере целевая последовательность обращает внимание на себя.

  • Энкодер-декодер-внимание в декодере целевая последовательность обращает внимание на исходную последовательность.

Внимание в ТрансформереВнимание в Трансформере

В самовнимании энкодера мы вычисляем релевантность каждого слова в исходном предложении каждому другому слову в исходном предложении. Это происходит во всех энкодерах стека.

Декодер самовнимания в трансформере

Большая часть того, что мы только что видели в энкодере самовнимания, применима и к вниманию в декодере, но с некоторыми существенными отличиями.

Внимание в декодереВнимание в декодере

В декодере самовнимания мы вычисляем релевантность каждого слова в целевом предложении каждому другому слову в целевом предложении.

Самовнимание декодераСамовнимание декодера

Энкодер-декодер модуля внимания в трансформере

В энкодере-декодере запрос получается из целевого предложения, а ключ/значение из исходного предложения. Таким образом, он вычисляет релевантность каждого слова в целевом предложении каждому слову в исходном предложении.

Энкодер-декодер ВниманияЭнкодер-декодер Внимания

Заключение

Надеюсь, статья дала вам хорошее представление об элегантности архитектуры трансформера. Прочтите также другие статьи о трансформере из моей серии, чтобы лучше представлять, почему сегодня трансформер это предпочтительная архитектура многих приложений глубокого обучения.

Здесь мы видим, что за сложными идеями скрываются простые решения. Более того, есть ощутимая вероятность того, что вскоре понимание внутренних механизмов глубокого обучения станет второй грамотностью, как сегодня второй грамотностью стало знание ПК в целом и если вы хотите углубиться в область глубокого и машинного обучения, получить полное представление о современном ИИ, вы можете присмотреться к нашему курсу Machine Learning иDeep Learning, партнёром которого является компания NVIDIA.

Узнайте, как прокачаться и в других специальностях или освоить их с нуля:

Другие профессии и курсы
Подробнее..

Перевод Тематическое исследование распознавания именованных сущностей в биомедицине

04.06.2021 18:05:38 | Автор: admin

Не так давно у автора этой статьи возник вопрос: может ли простой метод сопоставления строк в сочетании с некоторыми простыми оптимизациями конкурировать с моделью, обученной с учителем, в биомедицинской задаче распознавания именованных сущностей (NER)? Автор сравнил эти два метода между собой и предположил, что при правильном подходе даже простые модели могут конкурировать со сложными системами, а мы к старту курса "Machine Learning и Deep Learning" перевели его статью.


В начале любого нового проекта НИОКР я ищу наиболее подходящее решение поставленной задачи. Несмотря на наличие нескольких очень интересных крупных моделей, одной из моих самых больших проблем является внедрение решения в производство без ущерба для результатов, которые я хотел бы поддерживать.

Что касается системы сопоставления строк, я использовал классификатор QuickUMLS. QuickUMLS [1] как система сопоставления строк принимает на вход строку (например, документ или реферат статьи, содержащий медицинские понятия) и выводит все промежутки документа, которые соответствуют понятиям унифицированного языка медицинских систем (UMLS). Затем эти понятия могут быть повторно использованы в других условиях или в качестве исходных данных для других систем машинного обучения. По этой причине QuickUMLS можно рассматривать как удобный инструмент предварительной обработки для получения релевантных понятий из клинических и биомедицинских текстов. Однако в этой статье мы сосредоточимся на использовании QuickUMLS в качестве классификатора на сложном наборе данных MedMentions [2].

Рисунок 1. Схематическое описание того, как работает QuickUMLS. Получив строку, базу данных UMLS, превращённую в БД simstring, модель возвращает оптимальные соответствия, идентификаторы понятий и семантические типыРисунок 1. Схематическое описание того, как работает QuickUMLS. Получив строку, базу данных UMLS, превращённую в БД simstring, модель возвращает оптимальные соответствия, идентификаторы понятий и семантические типы

Некоторые ключевые моменты, которые необходимо знать о биомедицинском NER

Прежде чем мы погрузимся в проблему, которую пытаемся решить, полезно описать некоторые особенности биомедицинского NER. В целом проблема NER заключается в поиске именованных сущностей (например, известных мест, лиц, организаций и т. д.) в тексте. Как вы, вероятно, догадываетесь, многие из этих сущностей можно найти через контекст. Например, в таком предложении, как "Сэм и Дрю пошли в Колизей", мы можем сделать вывод, что Колизей это место, потому что вы обычно ходите в какие-то места. Аналогично, мы можем предположить, что "Сэм" это имя собственное, потому что слова в позиции подлежащего "идти", которые не являются обычными словами, это обычно имена.

В отличие от этого биомедицинская NER заключается в поиске и однозначном определении интересующих биомедицинских терминов из текста, таких как заболевания, названия лекарств, а также общих терминов, таких как "больница.роддом" (hospital), "палата интенсивной терапии/подопечный отделения интенсивной терапии" или "алкоголь/спирт" (alcohol). Это важное различие, поскольку существует очень мало контекстуальной информации, определяющей, имеет ли данное слово медицинское значение. Чтобы привести немного нагруженный пример, рассмотрим слово "alcohol" в предложении "пациент выпил много alcohol" [для ясности того, что речь идёт о неоднозначности, оставлено оригинальное alcohol]. Тяжесть этого заключения зависит от того, относится ли оно к алкоголю, такому как пиво или вино, или к чистому спирту, такому как спирт для растирания. Для более полного обзора состояния дел в области биомедицинского NER см. эту запись в блоге моего коллеги из Slimmer AI, Сибрена Янсена.

Знать, какие понятия имеют медицинское значение, сложно без большого количества обучающих данных, которые, как правило, не всегда доступны. Поэтому многие системы используют унифицированный язык медицинских систем (UMLS), которая представляет собой большую онтологию, содержащую множество различных понятий вместе с их строковыми представлениями и другой информацией. Обратите внимание, что "понятие" здесь отличается от "строки", поскольку многие строки могут ссылаться на более чем одно понятие. Например, строка "alcohol" может относиться к спирту для растирания или к алкогольным напиткам.

В UMLS каждое понятие описывается уникальным идентификатором понятия (CUI), который является символическим идентификатором для любого данного уникального понятия, и семантическим типом (STY), который, в свою очередь, является идентификатором семейства, группирующим понятия с похожими характеристиками. Одной из причин, по которой UMLS является полезным, но в то же время сложным для работы, его огромный размер. Версия UMLS 2020AB, которую мы будем использовать в дальнейшем, насчитывает более 3 миллионов уникальных английских понятий. Маловероятно, что значительная часть этих понятий появится даже в больших аннотированных наборах данных.

Работа с набором данных MedMentions

Одним из таких наборов данных является MedMentions. Он состоит из 4 392 статей (заголовки и рефераты), опубликованных в Pubmed за 2016 год; аннотировано 352 K понятий (идентификаторов CUI) и семантических типов из UMLS. В документах имеется около 34 тысяч аннотированных уникальных понятий это около 1 % от общего числа понятий в UMLS. Факт показывает, что аннотирование упоминаний в UMLS является сложной задачей, которую не всегда можно решить с помощью машинного обучения с учителем.

Особый интерес в этом отношении представляет то, что корпус MedMentions включает в тестовое множество CUI, которые не встречаются в обучающем наборе. В целом, однако, эта задача всё ещё рассматривается как задача машинного обучения с учителем и с использованием семантических типов понятий UMLS в качестве меток. Поскольку UMLS имеет 127 семантических типов, это всё равно приводит к большому пространству меток. У набора данных MedMentions тоже есть уменьшенная версия st21pv, который состоит из тех же документов, что и обычный набор, но в нём аннотирован только 21 наиболее часто встречающийся семантический тип.

Полумарковская базовая модель получает около 45,3 по F-мере на уровне сущностей [2]. Другие подходы, включая BlueBERT [3] и BioBERT [4], были протестированы и улучшили оценку до 56,3 балла, используя точное соответствие на уровне сущностей [5]. Обратите внимание, что все эти подходы являются контролируемыми и, следовательно, полагаются на определённое совпадение между обучающим и тестовым множеством в плане понятий. Если понятие или метка никогда не встречалась в процессе обучения, в подходе машинного обучения с учителем будет сложно её правильно классифицировать. Далее в качестве меток мы будем использовать семантические типы из набора данных MedMentions.

QuickUMLS: без учителя и на основе знаний

В отличие от BERT QuickUMLS по своей сути является методом без учителя, а это означает, что он не полагается на обучающие данные. Точнее, QuickUMLS это метод, основанный на знаниях. То есть модель, вместо того чтобы иметь параметры, сообщающих, что прогнозировать, для прогнозирования меток полагается на внешнюю базу знаний. Подход подразумевает две вещи:

  1. Качество модели ограничено качеством базы знаний. Модель не может предсказать то, чего нет в базе знаний.

  2. Модель может обобщать не только аннотированные данные. Модель, которая обучалась с учителем и во время обучения не видела конкретной метки, в целом не может точно предсказать эти вещи. Исключение из правила методы обучения zero-shot.

Zero-shot learning (ZSL) это постановка задачи в машинном обучении, когда во время тестирования алгориттм наблюдает выборки из классов, которые не наблюдались во время обучения, и должен спрогнозировать, к какому классу они принадлежат.

Исходя из этих двух фактов, мы утверждаем, что основанные на знаниях методы хорошо подходят для набора данных MedMentions. Что касается первого пункта, база данных MedMentions была аннотирована с использованием понятий UMLS, поэтому сопоставление между базой знаний и набором данных является точным сопоставлением. Что касается второго пункта, набор данных MedMentions в тестовом наборе содержит понятия, которых нет в обучающем наборе.

Архитектура модели QuickUMLS

QuickUMLS как модель проста. Сначала она анализирует текст с помощью парсера spacy. Затем выбирает словесные n-граммы, то есть последовательности слов, на основе цитат и описаний цитат, а также списков стоп-слов. Это означает, что модель отбрасывает определённые словесные n-граммы, если они содержат нежелательные токены и знаки препинания. Подробные сведения об этих правилах можно найти в оригинальной статье [1]. После выбора кандидатов вся база данных UMLS запрашивается, чтобы найти понятия, частично соответствующие словам n-грамм. Поскольку точное сопоставление в такой огромной базе данных неэффективно и сложно, авторы выполняют приблизительное сопоставление строк с помощью simstring [6]. При задании текста QuickUMLS, таким образом, возвращает список понятий в UMLS вместе с их сходством со строкой запроса и другой связанной информацией. Например, текст У пациента было кровоизлияние, используя (по умолчанию) порог сходства строк 0,7, возвращает следующих кандидатов:

Для слова patient:

{term: Inpatient, cui: C1548438, similarity: 0.71, semtypes: {T078}, preferred: 1},{term: Inpatient, cui: C1549404, similarity: 0.71, semtypes: {T078}, preferred: 1},{term: Inpatient, cui: C1555324, similarity: 0.71, semtypes: {T058}, preferred: 1},{term: *^patient, cui: C0030705, similarity: 0.71, semtypes: {T101}, preferred: 1},{term: patient, cui: C0030705, similarity: 1.0, semtypes: {T101}, preferred: 0},{term: inpatient, cui: C0021562, similarity: 0.71, semtypes: {T101}, preferred: 0}

Для слова hemmorhage:

{term: No hemorrhage, cui: C1861265, similarity: 0.72, semtypes: {T033}, preferred: 1},{term: hemorrhagin, cui: C0121419, similarity: 0.7, semtypes: {T116, T126}, preferred: 1},{term: hemorrhagic, cui: C0333275, similarity: 0.7, semtypes: {T080}, preferred: 1},{term: hemorrhage, cui: C0019080, similarity: 1.0, semtypes: {T046}, preferred: 0},{term: GI hemorrhage, cui: C0017181, similarity: 0.72, semtypes: {T046}, preferred: 0},{term: Hemorrhages, cui: C0019080, similarity: 0.7, semtypes: {T046}, preferred: 0}

Как вы можете видеть, слово patient имеет три соответствия с корректным семантическим типом (T101) и два соответствия с корректным понятием (C0030705). Слово кровоизлияние также имеет лишние совпадения, включая понятие "No hemmorhage". Тем не менее кандидат с самым высоким рейтингом, если исходить из сходства, является правильным в обоих случаях.

В приложении QuickUMLS по умолчанию мы сохраняем только предпочтительные термины, то есть термины, для которых предпочтительным является 1, а затем сортируем по сходству. После мы берём семантический тип (семтип) кандидата с самым высоким рейтингом в качестве прогноза мы называем это базовой моделью (baseline model). Мы использовали seqeval со строгой парадигмой соответствия, которая сопоставима с предыдущей работой [5].

    BERT  QUMLS  P   .53    .27  R   .58    .36  F   .56    .31 Таблица 1  производительность базовой модели

Не слишком впечатляюще, правда? К сожалению, базовая модель страдает от плохого случая, когда она не оптимизирована для конкретной задачи. Таким образом, давайте оптимизируем её с помощью простой эвристики.

Улучшение QuickUMLS с помощью некоторых простых оптимизаций

Есть несколько способов улучшить QuickUMLS помимо его первоначальной производительности. Во-первых, отметим, что стандартный синтаксический анализатор, используемый QuickUMLS, по умолчанию является моделью spacy, т. е. en_core_web_sm. Учитывая, что мы имеем дело с биомедицинским текстом, нам лучше применить модель биомедицинского языка. В нашем случае мы заменили spacy на scispacy [7], en_core_sci_sm. Это уже немного повышает производительность без каких-либо затрат.

    BERT  QUMLS  + Spacy  P   .53    .27      .29  R   .58    .36      .37  F   .56    .31      .32 Таблица 2  Замена на scispacy

Другие улучшения можно получить, используя некоторую информацию из учебного корпуса. Хотя это действительно превращает QuickUMLS из метода без учителя в метод с учителем, зависимости от большого количества конкретных аннотаций по-прежнему нет. Другими словами, нет явного подходящего шага для конкретного корпуса: улучшения, которые мы собираемся сделать, также могут быть оценены с помощью небольшого набора аннотаций или знаний врача, которыми он владеет по определению.

Оптимизация порога QuickUMLS

Настройки по умолчанию для QuickUMLS включают пороговое значение 0,7 и набор метрик. Метрика определяет, как подсчитывается сходство строк, и может быть установлена в Jaccard, cosine, overlap и dice. Мы выполняем поиск по сетке, по метрике и различным пороговым значениям. Наилучшими результатами оказались пороговые значения 0,99, а это означает, что мы выполняем точные совпадения только с помощью SimString и метрики Jaccard, которая превосходит все другие варианты с точки зрения скорости и оценки. Как видите, мы всё ближе и ближе подходим к производительности BERT.

    BERT  QUMLS  + Spacy  + Grid  P   .53    .27      .29     .37  R   .58    .36      .37     .37  F   .56    .31      .32     .37 Таблица 3  Поиск по сетке параметров

Преимущество добавления априорной вероятности

Напомним, что выше мы просто выбрали лучшего подходящего кандидата, основываясь на том, была ли это предпочтительная строка, и на их сходстве. Однако во многих случаях разные понятия будут иметь одно и то же строковое представление, как, например, в вышеупомянутом примере с alcohol. Это затрудняет выбор оптимального кандидата без модели устранения неоднозначности, которая требует контекста, и снова превращает проблему обучения в проблему обучения с учителем или по крайней мере требующую примеров контекстов, в которых встречаются термины. Один из простых выходов из этой головоломки состоит в том, чтобы учесть, что при прочих равных условиях некоторые семантические типы просто более вероятны и, следовательно, более вероятны в данном корпусе. Такая вероятность называется априорной вероятностью.

В нашем случае мы оцениваем априорную вероятность принадлежности к классу через обучающий набор данных, как это было бы сделано в хорошо известном наивном Байесовском классификаторе. Затем для каждого семантического типа, который мы извлекаем, в свою очередь, для каждого набора кандидатов, мы берём максимальное сходство, а затем умножаем его на предыдущий. В терминах нейронной сети вы можете представить это как максимальное объединение на уровне класса. Оно также означает, что мы игнорируем приоритетность кандидатов.

    BERT  QUMLS  + Spacy  + Grid  + Priors  P   .53    .27      .29     .37       .39  R   .58    .36      .37     .37       .39  F   .56    .31      .32     .37       .39 Таблица 4  Добавление приоров

К сожалению, это всё, что мы могли бы получить, используя простую систему в QuickUMLS. Учитывая, что мы в конечном счёте использовали порог 0,99, это означает, что мы вообще не используем функциональность приблизительного сопоставления QuickUMLS. Удаление приблизительного сопоставления также значительно ускорит работу всей системы, так как большая часть времени алгоритма теперь тратится на сопоставление в QuickUMLS.

Глубокое погружение в анализ ошибок: соответствовало ли наше решение поставленной задаче?

Когда мы выполняем задачу распознавания именованных сущностей, мы можем допустить ошибки нескольких типов. Во-первых, мы можем извлечь правильный промежуток, но неправильный класс. Это происходит, когда мы находим правильный термин, но даём ему неправильную метку: например, мы думаем, что alcohol относится к напитку, в то время как он относится к дезинфицирующему средству. Во-вторых, мы также можем извлечь промежуток частично, но при этом всё равно сопоставить его правильной метке. В этом случае возможно рассматривать совпадение как частичное совпадение. В нашем скоринге мы считали правильными только точные совпадения. Пример извлечение мягкого анестетика, когда золотым стандартом является анестетик. Мы также можем полностью пропустить какие-то промежутки, например потому, что UMLS не содержит термина, или извлечь не соответствующие упоминаниям золотого стандарта промежутки. На рисунке ниже показано, какие виды ошибок допускает наша система:

Это показывает, что ошибки, которые делает QuickUMLS, не относятся к одной конкретной категории. Она извлекает слишком много элементов, но, когда она делает это, то также часто присваивает им неправильную метку. Это показывает, что QuickUMLS можно использовать в качестве системы предварительного извлечения, после чего для назначения правильной метки можно применить систему устранения неоднозначности.

Заключение

Как вы можете видеть из результатов, готовая система извлечения терминологии может быть использована в качестве эффективной системы NER без обучения. Получение обучающих данных для конкретных случаев применения часто может быть трудоёмким, снижающим скорость R&D процессом. Построенный нами классификатор QuickUMLS показывает, что мы можем многого добиться с очень небольшим количеством обучающих примеров. И, будучи разумными в том, как использовать ресурсы, мы в процессе исследований и разработок для биомедицинских исследований сэкономили много времени. Модифицированный классификатор QuickUMLS можно опробовать здесь, на github. Преимущество подхода может означать, что мы нашли решение, достаточно надёжное для достижения конечного результата, простое в разработке и тестировании, а также достаточно небольшое, чтобы легко внедрить его в разработку продукта.

Именно сегодня медицина одна из самых важных областей знания, а обработка естественного языка одна из самых интересных областей в ИИ: чем лучше искусственный интеллект распознаёт речь, текст, чем точнее обрабатывает её, тем ближе он к здравому смыслу человека.

Вместе с тем одни из самых успешных моделей так или иначе комбинируют подходы из разных областей ИИ, например мы писали о визуализации пения птиц, чтобы ИИ работал со звуком так же, как работает с изображениями и если вам интересна не только обработка естественного языка, но и эксперименты с ИИ в целом, вы можете обратить внимание на наш курс "Machine Learning и Deep Learning", партнёром которого является компания NVIDIA.

Ссылки

[1]L. Soldaini, and N. Goharian. Quickumls: a fast, unsupervised approach for medical concept extraction, (2016), MedIR workshop, SIGIR

[2]S. Mohan, and D. Li, Medmentions: a large biomedical corpus annotated with UMLS concepts, (2019), arXiv preprint arXiv:1902.09476

[3]Y. Peng, Q. Chen, and Z. Lu, An empirical study of multi-task learning on BERT for biomedical text mining, (2020), arXiv preprint arXiv:2005.02799

[4]J. Lee, W. Yoon, S. Kim, D. Kim, S. Kim, C.H. So, and J. Kang, BioBERT: a pre-trained biomedical language representation model for biomedical text mining, (2020), Bioinformatics, 36(4)

[5]K.C. Fraser, I. Nejadgholi, B. De Bruijn, M. Li, A. LaPlante and K.Z.E. Abidine, Extracting UMLS concepts from medical text using general and domain-specific deep learning models, (2019), arXiv preprint arXiv:1910.01274.

[6]N. Okazaki, and J.I. Tsujii, Simple and efficient algorithm for approximate dictionary matching, (2010, August), In Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010)

[7]M. Neumann, D. King, I. Beltagy, and W. Ammar, Scispacy: Fast and robust models for biomedical natural language processing, (2019),arXiv preprint arXiv:1902.07669.

Узнайте, как прокачаться и в других специальностях или освоить их с нуля:

Другие профессии и курсы
Подробнее..

Английские слова, значение которых интернет поменял раз и навсегда

17.11.2020 20:16:29 | Автор: admin


Интернет изменил жизнь целого мира. Это один из основных инструментов глобализации, который влияет практически на все сферы жизни. В том числе и на языки.

И это отражается даже на повседневной речи. Многие обычные слова воспринимаются сейчас совершенно иначе, а некоторые даже изменили свои основные значения.

Причина проста. Для каждого онлайн-явления нужно было собственное определение. А чтобы не придумывать слишком много новых терминов, использовали вполне себе обычные.

В этом тексте мы собрали топ слов, значение которых интернет изменил просто до неузнаваемости.



Раньше фраза become friends означала подружиться то есть, заиметь нового друга. Сегодня же в абсолютном большинстве случаев это означает всего лишь добавить в друзья в социальной сети.

При этом, слово одинаково работает как существительное и как глагол.

Friend друг в социальной сети.
To friend добавить друга в социальной сети.


А уж unfriend это совершенно новое слово, которое означает удалить из друзей. К реальной жизни его применить нельзя более уместна фраза stop being friends перестали быть друзьями.

В названии фильма-ужастика Unfriended (Убрать из друзей) как раз обыгрывается эта двусмысленность. Потому что под этим словом подразумевается смерть друга.





Облако теперь это не только тучка на небе, но и облачное хранилище данных. И в этом смысле слово встречается онлайн куда чаще, чем в своем оригинальном.

В первых 100 ссылках поисковой выдачи Google по запросу cloud нет ни одной ссылки, которая была бы связана с тучками.


Достоверно неизвестно кто первым использовал термин облако к хранилищам данных. Вполне возможно, это был писатель Курт Воннегут. В его книге Сирены Титана, созданной в 1959 году, встречается такой момент:

The message itself was unknown to Salo. It had been prepared by what Salo described to Rumfoord as, A kind of university only nobody goes to it. There aren't any buildings, isn't any faculty. Everybody's in it and nobody's in it. It's like a cloud that everybody has given a little puff of mist to, and then the cloud does all the heavy thinking for everybody. I don't mean there's really a cloud. I just mean it's something like that. If you don't understand what I'm talking about, Skip, there's no sense in trying to explain it to you. All I can say is, there aren't any meetings.

Содержания послания Сэло не знал. Послание было составлено, как Сэло объяснил Румфорду, как бы университетом, только туда никто не ходит.
Никаких зданий там нет, никаких факультетов. В нем участвуют все, но никто там не бывает. Он похож на облако, в которое каждый вдохнул свой маленький клубочек пара, а уж потом облако думает обо всем и за всех вместе. Нет, ты не подумай, что облако и вправду существует. Я просто хотел сказать, что оно похоже на облако. Если ты не понимаешь, о чем я говорю, Скип, не стоит пытаться объяснить тебе. Понимаешь, никаких собраний там не бывает, вот и все.
(пер. М. Ковалева)


Конечно, здесь облако это только идея, которая примерно напоминает современные формы. Но описание очень даже соответствует. Облако, в который каждый вдохнул свой маленький клубочек пара а ведь на облачные хранилища каждый может загрузить свои любые данные и поделиться ими с другими. В том и смысл.



Как же без него. Потому что лайк как палец вверх под постом в соцсетях это чуть ли не основа современной онлайн-коммуникации.

Like это многогранное слово, которое можно использовать многими способами:
  • Глагол нравиться, хорошо относиться к кому-то.
    It's not possible for everyone to like you. Невозможно нравиться сразу всем.
  • Прилагательное похожий, подобный, такой как.
    I heard a sound like the phone ringing. Я слышал звук как будто телефон звонит.
  • Наречие вероятно.
    Like enough that she didnt receive your gift. Вероятно, она не получила твоего подарка.
  • Предлог как, что.
    You looks like your dad. Ты выглядишь как твой отец.
  • Существительное нечто подобное.
    Ive never seen the like. Никогда не видел ничего подобного.


Но сейчас чаще всего like это лайк. Как ни крути, когда слышишь слово, первым на ум приходит именно это значение.

Лайк как форма одобрения в соцсетях появилась очень давно в 1998 году. И ее родоначальником был не Facebook, а голландский программист Ван дер Мейер, создавший его для социальной сети Surfbook. Цукерберг всего лишь взял идею и грамотно использовал ее на своей платформе в Facebook лайк был внедрен только в 2010.

Функционал у лайка был аналогичным пользователи могли показывать свое одобрение под постами друзей и других людей. Идея кнопки лайк была защищена патентом, поэтому Facebook в 2013 году получили многомиллионный иск от владельцев прав на Surfbook.

Судебное разбирательство длилось целых три года, и в 2016 Facebook все-таки выиграл иск. Патенты на кнопку лайка признали недействительными. Но это разбирательство все же стало одной из причин, почему Facebook вообще решил изменить кнопку и добавить кроме стандартного пальца вверх другие эмоции.



Слово meme сегодня воспринимается только как прикольная картинка в интернете.

Один из вариантов такого мема с небольшой долей иронии:


Мы даже как-то писали статью о том, как учить английский с помощью мемов. Можете почитать :)

Но интересно то, что слово meme изначально носило только научное значение. Его придумал известный популяризатор науки и ученый Ричард Докинз. И впервые его использовал в книге Эгоистичный ген (The Selfish Gene, 1976).

Мем по Докинзу это любая идея или поведенческий образ, который передается от одного человека к другому. Мем это базовый носитель культурной информации точно так же, как ген носитель генетической информации.

Многие ошибочно считают, что основой для meme стало английское memory память. Это не совсем так. Оно образовано из греческого mimema что-то, что имитируют, копируют. А сама форма слова создана по аналогии с лексемой gene.

В научной сфере термин meme стал лишь одной из гипотез развития культуры. Но теперь его знают все и лишь единицы в курсе, откуда вообще это слово взялось.



Это раньше троллем было только существо в скандинавской мифологии. В Ведьмаке их изобразили довольно близко к легендам. Во второй части игры с троллем-алкашом связан занимательный второстепенный квест.



Онлайн-тролль это чаще всего анонимный подстрекатель, который провоцирует собеседника на негативные эмоции в чате, комментариях или личных сообщениях в соцсетях.

Интересно, что скандинавский тролль к термину троллинг не имеет никакого отношения. Ну, почти.

Trolling в переводе с английского значит ловить рыбу на блесну. Ведь тролль размещает различные негативные сообщения в ожидании, что кто-нибудь клюнет на них и ввяжется в спор. В котором, естественно, получит еще больше негатива в этом и цель тролля.


Само слово troll в среднеанглийском означало прогуливаться. Слово имеет явно германское происхождение в средневерхненемецком было лексема trollen с точно таким же смыслом.

С другой стороны, в норвежском тоже есть слово troll тот самый классический тролль-монстр. В древнескандинавском trll означало ведьму или колдуна. Вполне возможно, что слово также связано с верхненемецким trolle монстр, ужас. Отсюда и современный смысл.



Сейчас слово профиль связано исключительно с аккаунтами в социальных сетях. Другие смыслы остались только в более узких сферах знаний.

  • В фотографии и живописи изображение предмета или человека с одной стороны.
  • В архитектуре и инженерии вертикальный разрез.
  • В физике поперечное сечение (к примеру, провода).


Изначально же profile обозначал также краткий биографический очерк. Как резюме, только совсем краткий. И именно из этого значения и выросло современное страница в соцсетях.

Собственно, поэтому некоторые фразы могут восприниматься по-разному.

I like how your profile looks. Мне нравится, как выглядит твой профиль.


Какой профиль? Лицо в профиль? Или оформление страницы в соцсети? Или речь вообще идет о чертеже? Хотя даже без контекста понятно, что речь здесь как раз о странице. В обычной речи другие смысла слова не используются от слова вообще.



Прямо слово-символ 2020 года. Потому что viral вирусный. В доинтернетовские времена его использовали только биологи и вирусологи.

Сейчас же viral немного изменило смыслы. Сегодня оно означает что-то крайне популярное или быстро распространяющееся в интернете. Картинка, пост, мем что угодно.

Механизм понятен вирус в реальной жизни распространяется очень быстро. А вирусная информация так же быстро распространяется в сети. Ее шерят в соцсетях, сбрасывают в личках. Она настолько интересная, занимательная или сенсационная, что ею прямо хочется поделиться.

Интересно, что в русском одинаково используется вирусный и неологизм виральный. Правда, в 2020 году мы увидели очень четкое разделение. Вирусный ввиду коронавируса стали чаще использовать в обычной речи, поэтому, чтобы обозначить именно вирусную информацию, маркетологи чаще пишут виральный.


Да и не стоит лишний раз провоцировать 2020 год. Мало ли. Он тот еще тролль.

***

На самом деле, слов, которых изменил интернет, намного больше. Swipe, sandbox, tweet, ping, fail, text, timeline, tag, follow, footprint, block, bump и это только те слова, которые первыми пришли на ум.

Поэтому их гораздо, гора-а-аздо больше. А какие вы знаете слова, которые интернет дал новые значения? Пишите в комменты.

Онлайн-школа EnglishDom.com вдохновляем выучить английский через технологии и человеческую заботу




Только для читателей Хабра первый урок с преподавателем по Skype бесплатно! А при покупке занятий получите до 3 уроков в подарок!

Получи целый месяц премиум-подписки на приложение ED Words в подарок.
Введи промокод netchange на этой странице или прямо в приложении ED Words. Промокод действителен до 17.11.2021.

Наши продукты:

Подробнее..

10 из 100 самых красивых слов английского языка

19.01.2021 20:18:31 | Автор: admin

Профессор Толкин считал, что самым красивым словосочетанием английского языка является Cellar door Дверь в подвал. Когда мы готовили текст о Властелине колец, то нашли следующую его цитату:

Most English-speaking people will admit that cellar door is "beautiful", especially if dissociated from its sense (and from its spelling). More beautiful than, say, sky, and far more beautiful than beautiful.

Перевод на русский

Большая часть англоговорящих людей согласится с тем, что сочетание подвальная дверь (cellar door) красиво, особенно в сравнении с его смыслом (и его написанием). Более красивое, чем, к примеру, слово небо (sky), и гораздо более красивое, чем само слово красивый (beautiful).

И мы задумались, какие вообще слова носители английского языка считают наиболее милозвучными. Об этом и поговорим. Встречайте топ-10 самых красивых слов английского языка.

Дисклеймер: подобных топов существует довольно много и слова там отличаются. Мы использовали данные ресурса Grammarly и масштабное исследование лингвиста Роберта Берда 100 самых красивых слов в английском.

Как вообще работает восприятие красивых и не очень слов

У лингвистов существует специальное понятие фоноэстетика. Оно показывает, насколько приятными для человеческого уха являются определенные сочетания звуков.

Фоноэстетика это незаметная, но крайне важная особенность восприятия любой информации на слух. Не только речи, но и музыки, шумов.

Именно из-за специфических особенностей человеческого слуха пение Тарьи Турунен большинство слушателей воспримут как мелодичный, а вокал дэткор-группы вроде Thy art is murder как неприятный набор криков.

При создании искусственных языков для саги про Средиземье, Джон Толкин обращал внимание на созвучность. И при фонетическом анализе квенья одного из эльфийских языков это очень заметно.

Интересно, что смысл практически полностью меняет восприятие слов. Слова с приятным смыслом нравятся людям, даже если они звучат не очень. И наоборот. К примеру, слово mother (мать) считается наиболее приятным для носителя языка. Но по звучанию оно не входит в топ-100. Зато слово woebegone (безутешный, скорбный, горестный) звучит хорошо, но люди его не любят.

Список ниже создан без учета смыслового восприятия слов только по эстетике звучания.

Бунгало, коттедж, дача

В английский язык слово попало из хинди (bangl) и означает бенгальский дом. И в целом бунгало обозначает особый тип жилища, который популярен в Индии одноэтажный, с верандой и построенный преимущественно из дерева.

В широком смысле так можно назвать любой загородный дом или дачу. Так что когда вы едете убирать сорняки в огороде, то с чистой совестью можете ответить, что отправляетесь в свое бунгало.

Infrastructure of the island just started to grow, but many are offered as hotel rooms, and this Thai bungalow.

Инфраструктура острова только начала развиваться, но здесь во множестве предлагаются как отельные номера, так и настоящие тайские бунгало.

Скромный, сдержанный, застенчивый

В Средние века это слово чаще всего употребляли в сочетании с девушкой или женщиной. Demure lady целомудренная леди. Сейчас же оно превратилось практически в полный синоним слова shy. И в наши дни оно применимо не только к людям, но и к неодушевленным объектам.

She was wearing a very demure skirt.

На ней была очень скромная юбка.

Исчезающий, тающий, испаряющийся, эфемерный

Интересное слово с непримечательной этимологией, но большим смысловым полем.

  • В медицине оно означает непродолжительный, быстро исчезающий. Так можно сказать об отеке или ускоренном сердцебиении. К примеру, evanescent non-fixed erythematous rash нефиксированная кратковременная эритематозная сыпь.

  • В математике стремящийся к нулю. Так можно сказать, например, о пределе функции. К примеру, evanescent quantities величины, стремящиеся к нулю.

  • В физике есть особый вид электромагнитного излучения эванесцентное или затухающее поле evanescent field.

Слово хоть и используется в обычной лексике не особо часто, оно хорошо известно большинству людей. Хотя бы из названия заклинания Evanesco из вселенной Гарри Поттера, которое заставляет предмет исчезнуть. Или названия американской рок-группы Evanescence.

As an art form, fire is evanescent and fleeting.

Как вид искусства, огонь эфемерен и мимолетен.

Счастье, источник счастья

Интересно, что в латинском языке, откуда и пошло слово, оно означало не только счастье, но и фертильность способность рожать детей. Сейчас же это значение устарело. Да и в целом слово чаще всего употребляется в историческом или возвышенном контексте.

От слова felicity походят вполне обычные английские имена Феликс (Felix) и Фелисити (Felicity).

Felicity and glory reigns supreme here.

Счастье и слава царят здесь.

Инженю, наивная девушка

В английском языке слово прижилось только в XX веке. Уже по звучанию можно определить, что у него французское происхождение. А во французском оно образовалось из латинского ingenuus и означало практически то же, что и сегодня честный, бесхитростный, искренний.

Омонимы ingenuous (честный, искренний) и ingenious (талантливый, умный) часто путают даже носители языка с идеальным английским. Спасает только, что они не слишком распространены.

Сегодня слово инженю чаще всего используется в театральных постановках. Там оно означает драматическое амплуа наивной, но обаятельной молодой девушки-простушки.

She's too old to be playing the ingenue.

Она уже слишком стара, чтобы играть инженю.

Досуг, отдых, свободное время

Слово укоренилось в английском еще в XIV веке и практически не изменило своего значения. Но в латинском его исходник licere означал немного другое разрешать. Из него до наших дней дошли три слова: licence, leisure и pleasure.

But the fact is that, leisure is a very busy thing.

На самом деле, отдых это очень загруженное время.

Мондегрин, ослышка

Слово не только красивое, но еще и очень интересное. Его придумала писательница Сильвия Райт. В одном из своих эссе она вспомнила строфу из старинной баллады:

Ye Highlands and ye Lowlands,

Oh, where hae ye been?

They hae slain the Earl o' Moray,

And Lady Mondegreen.

И писала, что ей всегда было интересно, кто же такая эта леди Мондегрин, которую убили вместе с Эрлом О 'Морей. Тем более, что ни до, ни после этой строфы нет ни одного упоминания о ней. Оказалось, что она просто неправильно запомнила строку, а в оригинале там and layd him on the green. Это эссе дало название целому пласту ошибок и неточностей в лингвистике.

Подробнее о мондегрине мы рассказываем в этой статье.

You may hear the phrase Excuse me while I kiss this guy in Jimmi Hendrixs song, but its just mondegreen.

Вы можете услышать фразу Простите меня, когда я целую этого парня в песне Джимми Хендрикса, но это просто мондегрин.

Приглушенный, жужжащий, шелестящий, ворчливый

Этимология слова даже немного скучная. Оно пришло из латыни, а в средне- и староанглийском не менялось абсолютно. При этом значение также осталось прежним шум и все, что с ним связано.

Но слово интересно, потому что его значение практически полностью зависит от контекста. Поэтому примера приведем сразу два.

Behind the house there was beautiful murmurous river.

За домом была красивая журчащая река.

What a murmurous oldman!

Какой ворчливый старик!

Прозорливость, счастливая случайность, озарение

Это слово часто ошибочно интерпретируют как интуиция. Даже одноименный фильм с Джоном Кьюсаком и Кейт Бекинсейл адаптировали именно так. Но это не совсем точно.

Само слово было создано из старого названия острова Шри-Ланка Серендип (Serendip). А превратилось в счастливую случайность с помощью старой персидской сказки The Three Princes of Serendip (Три принца из Серендипа), где с героями постоянно случаются необычные события, которых они не ожидают, но которые оказываются очень кстати.

В XVIII веке с ростом популярности на восточные сказки это слово вошло в английский язык и закрепилось там. Сейчас оно считается немного устаревшим, но это не мешает носителям его использовать.

Now was it coincidence, serendipity, or strategy that brought you here?

Итак, это совпадение, счастливая случайность или продуманный план привели вас сюда?

Зонтик, прикрытие

Из всех слов в этом списке это используется чаще всего и входит в активный словарный запас каждого носителя языка.

Причем, изначально umbrella означала именно укрытие от солнца и только в XVII веке слово стали использовать для зонтиков от дождя.

В переносном смысле его также часто используют. В основном в конструкциях вроде under the umbrella of, которое можно перевести как под сенью или под эгидой.

Obviously, the Member States concerned had claimed that they were acting under the United Nations umbrella.

Безусловно, соответствующие государства-члены утверждали, что они действуют под эгидой Организации Объединенных Наций.


А какие слова в английском языке вы считаете самыми красивыми и как вообще определяете красивость или некрасивость слов? Нам интересно, пишите в комменты.

Онлайн-школа EnglishDom.com вдохновляем выучить английский через технологии и человеческую заботу

Только для читателей Хабра первый урок с преподавателем в интерактивном цифровом учебнике бесплатно! А при покупке занятий получите до 3 уроков в подарок!

Получи целый месяц премиум-подписки на приложение ED Words в подарок. Введи промокод beautifulwords на этой странице или прямо в приложении ED Words. Промокод действителен до 19.01.2022.

Наши продукты:

Подробнее..

Самые старые слова в английском языке, которые и сейчас в ходу

11.12.2020 20:11:43 | Автор: admin


Натуральные языки это очень пластичные системы, которые постоянно меняются. В английском языке, к примеру, каждый день появляется примерно 30 новых слов и ровно столько же устаревает.

Но при этом еще существуют лексемы, которые прошли через тысячи лет и практически не изменили свое звучание и смысл. Сегодня говорим о самых старых словах в английском языке, которые дошли до наших дней.

Список сформирован из научных работ лингвистов (исследование 1 и исследование 2), которые пытались проследить этимологию некоторых слов вплоть до праиндоевропейского языка.



В староанглийском слово мы выглядело как как w, в прагерманском wz. Исследователи полагают, что в праиндоевропейском оно звучало так же или с минимальными фонетическими изменениями.

Скорее всего, слово так хорошо сохранилось, потому что используется очень часто. Сегодня we находится на 27 месте по частоте среди всех английских слов. И что важно оно было основой словарного запаса всех людей, даже неграмотных.

Интересно также, что контекст использования слова практически не поменялся. Вы точно знаете, что фразу мы исследовали пишут в научных статьях, даже если ученый все делал самостоятельно. В английском так же. И это royal we, как его еще называют, имеет древнюю историю.

Первоначально о себе во множественном числе говорили правители европейских государств. В русском языке эта черта языка сохранилась вплоть до XX века. Вот, к примеру, официальный титул императора Николая Второго:

Божиею милостию, Мы, Николай Вторый, Император и Самодержец Всероссийский, Царь Польский, Великий Князь Финляндский и прочая, и прочая, и прочая.

В Британии royal we в рамках новой истории сильнее всего связано с королевой Викторией, которая во всех официальных речах именовала себя с помощью множественного числа.

В научных статьях и публицистике использование we вместо I использует те же принципы. И этот вариант тоже очень стар. Впервые в английском языке он используется в Беовульфе одном из старейших письменных произведений английском литературы, которые до нас дошли.

Даже этот смысл слова we отлично сохранился до XXI века.



С этимологией этого слова тоже много интересного. В среднеанглийском у него было несколько форм blak, black или blake, а в староанглийском оно звучало как blc. То есть, как минимум 1500 лет оно неизменно.

Но в протогерманском смысл слова немного другой сожженный. А протоиндоевропейский корень bleg и вовсе означал гореть, сиять.

Из этого корня в английском появилось три отдельных слова с кардинально разными значениями:

Black черный
Bleak бледный
Bleach отбеливать


Интересно, что в староанглийском blc также символизировало чернила. И в целом понятно, вокруг чего создавалась палитра образов в целом костра и огня.

Начиная из индоевропейского образ лексемы был привязан к огню. В протогерманском стал сожженным то есть, золой. В староанглийском он стал символизировать черный цвет и чернила, которые из золы чаще всего и делали. Очень занимательные хитросплетения и логика развития слова.



Эту лексему исследовали очень глубоко. И интересно то, что в большинстве индоевропейских языков она практически не изменилась.

Практически во всех современных европейских языках слово, обозначающее мать, пошло именно от протоиндоевропейского mhtr.


Источник картинки

Английский не исключение. В среднеанглийском оно звучало как moder, а в староанглийском modor.

Если брать все современные языки, которые относятся к индоевропейской семье, то mother изменило свое значение меньше всего. И в этом есть своя логика, ведь слово мама одно из первых, которой учит ребенок на любом языке. Оно настолько стабильное, что даже общая изменчивость натуральных языков за более чем две тысячи лет не смогла его изменить.



В английском языке слово действительно очень старое. Его происхождение можно отследить до протогерманского handuz. Но вот дальше никак.

У исследователей нет единой версии происхождения слова. Возможно, оно пошло до древнешведского или готского, но там есть только примерно похожие лексемы с другим смыслом.

Тем не менее, слово hand за полторы тысячи лет не изменилось вообще никак. И 500, и 1000 лет назад оно писалось абсолютно так же.

Возьмем, к примеру, Кентерберийские рассказы Чосера, написанные в XIV веке. Там можно найти упоминания этого слова:

Оригинал: Do wey youre handes, for youre curteisye!
Современный английский: Take away your hands, for your courtesy!
Дословный перевод на русский: Убери свои руки, будь добр!

Оригинал: His owene hand he made laddres thre.
Современный английский: With his own hand he made three ladders
Дословный перевод на русский: Своими руками он сделал три лестницы

Даже в Беовульфе, который написан в VII-VIII веке, есть hand или ее производные:

Оригинал: wear h Heaolfe t handbonan
Современный английский: he was Heatholaf's slayer by his own hand
Дословный перевод на русский: он убил Хесолафа своими руками.

Оригинал: s e on handa br hroden ealowage
Современный английский: he who in his hands bore an ornate ale-cup
Дословный перевод на русский: тот, в чьих руках лежит богатая кружка с элем

Так что да, hand в английском языке действительно можно считать одним из самых старых слов, которые за полтора тысячелетия не изменились вообще. Но вот откуда оно пришло в английский все еще остается загадкой.



Огонь всегда был важным для человека. Поэтому слово fire во все времена входило в активный лексикон.

В среднеанглийском он звучало как fier, в староанглийском fr. Но интересно, что в протоиндоевропейском корень было phwr именно от него пошло древнегреческое . Поэтому слова пиротехника и fire родственники с общими корнями.

Так как же из phwr вдруг появилось fr со звуком [f]?

Причина в сдвиге согласных, который называют закон Раска-Гримма. Да-да, того самого Гримма, который со своим братом собирал фольклор и писал довольно криповые сказочки.

В прагерманском языке начала изменяться артикуляция некоторых звуков, из-за чего они стали звучать немного по-другому.

Поэтому в прагерманском языке и всех, которые от него пошли, глухой [p] превратился в глухой фрикативный [f].

В чем причина таких изменений ясно не до конца. Есть несколько теорий. По одной из самых распространенных, прагерманский начал меняться примерно во II тысячелетии до н.е. под влиянием языков завоеванных германскими племенами народов. Изменения минимальные, но накапливались в течение тысячи лет, поэтому сдвиг прошел незаметно.

***

Конечно, старых слов в английском языке еще хватает. За несколько тысяч лет минимальные изменения претерпели лексемы man и woman, give, ash, hear, flow, pull. Даже числительные one, two и three изменились только внешне в начале нашей эры звучали они абсолютно так же, как и сейчас.

Интересно, что неизменными остались те слова, которые входили в активный лексикон абсолютно каждого жителя. Грамотный или нет, умный или не очень каждый без исключения знал слова mother, hand или fire. И именно поэтому они практически не поменялись за многие века существования.

Онлайн-школа EnglishDom.com вдохновляем выучить английский через технологии и человеческую заботу




Только для читателей Хабра первый урок с преподавателем по Skype бесплатно! А при покупке занятий получите до 3 уроков в подарок!

Получи целый месяц премиум-подписки на приложение ED Words в подарок.
Введи промокод oldwords на этой странице или прямо в приложении ED Words. Промокод действителен до 11.12.2021.

Наши продукты:

Подробнее..

5 фразовых глаголов с get и 33 их значения, или Почему студенты не любят английский

07.05.2021 20:05:41 | Автор: admin

Фразовые глаголы это отдельная боль для студента, который изучает английский как второй. Мало того, что каждый отдельный предлог меняет значение глагола полностью, так и еще их просто целая куча.

Мы решили запустить новую рубрику и рассказывать про фразовые глаголы весело. Чтобы не зубрить их, а нормально запоминать на примерах из фильмов и сериалов.

И начнем со слова get. По нашему опыту, студенты делают во фразовых глаголах с ним огромное количество ошибок. Так что не будем затягивать, поехали!

Get up

Один из самых известных фразовых глаголов. Два из основных его значений учат еще в школе, а еще три остаются неизвестными для студентов вплоть до уровня fluent.

Первое встать, подняться на ноги.

Get up when teacher is speaking to you! Встань, когда учитель с тобой говорит!

Гендальф тыкает Пиппина посохом и говорит Get up.

Второе вставать (после сна) или разбудить кого-то.

I usually get up at 7 oclock. Я обычно встаю в 7 утра.

Питер Гриффин явно не хочет просыпаться.

Третье одевать, гримировать, наряжаться.

Mary got herself up in a nice new dress. Мэри нарядилась в милое новое платье.

Четвертое усиливаться, поднажать.

The wind was getting up and our picnic was wasted. Ветер усиливался и наш пикник был испорчен.

Также его можно использовать как мотивирующую фразу в спорте, аналог поднажми.

В старой документалке Pumping iron атлету говорят именно давай, поднажми, а не вставай.

Пятое испытывать какое-либо чувство

I doubt if I shall ever get up any love. Я сомневаюсь, что когда-то почувствую любовь.

Это самый редкий смысл этого фразового глагола. Он занимает не больше, чем 0,2% от всех его использований.

А кроме них есть еще хитрая форма get something up, которая значит оформлять, организовывать.

We're getting up a party, and youre invited. Мы организовываем вечеринку, и ты приглашен.

И как вишенка на торте сленговая фраза to get it up. Означает она стоит или встал именно в том самом смысле.

Shes so hot. I got it up. Она такая горячая. У меня встал.

Название песни можно перевести как Вставай, но именно в том смысле, о котором вы подумали. В контексте это воспринимается очень явно.

Get up to

Get up to это отдельный фразовый глагол, который никак не связан с get up. Это часто путает студентов, поэтому чем раньше вы это запомните, тем лучше.

Значений у него только три на фоне get up действительно немного:

Первое дойти, добраться, поравняться.

Можно использовать как в прямом, так и в переносном смысле.

This test is so hard. I got up to sixth question and times up. Этот тест такой сложный. Я добрался только до шестого вопроса, и время закончилось.

Второе топовая фраза в рекламе, когда вам пытаются напарить скидку.

Get up to 50% off almost everything! Получите до 50% скидки на почти все!

Особенно ее любят американские маркетологи. Она короткая, простая и несет максимум смыслов идеально для короткого рекламного оффера.

Третье замышлять, отмочить, вытворять.

The kids are quiet. Theyre getting up to something. Дети притихли. Они что-то замышляют.

Get in

Интересно, что формальное произношение и в британском, и в американском английском [getn] с подчеркнутым звуком t. Но большинство носителей говорят эту фразу как [gedn] t превращается в d.

Значит он залезать, прибывать, входить, поступить (в университет).

В популярной культуре чаще всего его можно услышать как get in the car залезай в машину или get in the house заходи в дом.

Узнали отрывок из Интерстеллар?

Но этот глагол тоже не так прост, потому что у него есть братья с дополнительными предлогами и не только. Не будем на них зацикливаться, просто назовем:

get something in вставлять

Используется преимущественно во фразе get a word in вставить слово.

She never listens, impossible to get a word in. Она никогда не слушает, невозможно вставить слово.

get in on something участвовать

Практически полный аналог слова participate, но американцы его очень любят.

You can get in on my bet with Scully. Ты можешь поучаствовать в нашем со Скалли пари.

get in with somebody подружиться

Та же история это полный синоним слова befriend.

You know, if you want to get in with those kids, they're always at the skate park after school. Если хочешь подружиться с теми детьми, они после школы всегда в скейт-парке.

Еще здесь стоит вспомнить фразовый глагол get into.

Одно его значение полностью совпадает с get to залезать. Так можно сказать залезай в машину. Но его также можно использовать в переносном смысле к примеру, get into trouble попасть в передрягу.

Второе значение get into заинтересоваться, погрузиться во что-то, начать заниматься. Так можно сказать о каком-нибудь хобби.

Jack got into chess last week. На прошлой неделе Джек начал заниматься шахматами.

Get on

Интересно, что фразовые глаголы с разными предлогами часто дублируют значения. И разница между ними настолько тонкая, что ее прямо нет.

Первое get on тоже означает садиться в машину. И его используют лишь немного чаще, чем get in в аналогичном смысле. Нюанс тут очень и очень тонкий get in звучит потенциально грубее, чем get on. То есть, если кричать, то get in подойдет лучше, чем get on, а с нормальным тоном они равнозначны.

Единственная значительная разница get on всегда используют, когда нужно садиться на мотоцикл или квадроцикл.

Второе куда более редкое значение get on становиться старым. Такой себе якобы толерантный способ сказать get old.

Третье get on говорят, чтобы поторопить кого-то. Синоним обычного move, ага.

Но сюрпризов здесь тоже хватает. Добавьте лишний предлог или существительное где-нибудь посредине, как фразовый глагол поменяет свое значение.

get something on надеть что-то

Get your coat on! Its cold. Надень пальто. Холодно!

get on with something продолжить что-то делать, приступить к чему-то

Да, это фразовый глагол можно заменить другим фразовым go on, а также обычным continue. Смысл не изменится.

Get on with your homework. Продолжай делать домашнюю работу.

get onto разобраться, узнать

Если с фразой get into человек только начинает в чем-то разбираться, то с get onto он уже узнал все, что нужно.

Shes got onto her new job. Она разобралась в своих новых рабочих обязанностях.

Самое интересное, что если написать get on to, то значение снова поменяется добираться к кому-то или застать кого-то на месте.

I cant get on to him, hes not at home. Я не могу застать его, он не дома.

Get out

Чуть ли не единственный фразовый глагол с get, у которого только одно значение выметайся, убирайся.

Грубоватое восклицание, которое часто говорят на повышенных тонах.

Вот прямо таким тоном как Фландерс.

И все. Больше никаких сюрпризов. Во всяком случае, с этим словосочетанием.

Get off

Теперь снова вернемся к фразовому глаголу с кучей значений, среди которых легко потеряться. М-м-м, все как вы любите.

Первое и самое тривиальное значение get off выходить. В своем большинстве, из транспорта. Оно менее категорично, чем get out и вполне себе может звучать нейтрально.

We got off the bus and went home. Мы вышли из автобуса и пошли домой.

Второе допустимо так сказать и в значении выехать. Но вот смысловая наполненность будет полностью зависеть от контекста и от интонации говорящего, поэтому использовать его в письме такая себе идея. Ведь We must get off at 7 a.m. можно понять и как Нам нужно выехать в 7 утра, и как Мы должны свалить отсюда в 7 утра.

Третье очень часто глагол используют в императивной форме со значением отстань, отцепись, свали. Иногда в речи используют более длинную фразу get off of me, но при быстром произношении одно оф часто теряется.

Гарри не может справиться с дядей Верноном, поэтому кричит get off.

Четвертое на американском низком сленге get off означает слезть с чего-то. К примеру, с наркотиков, сигарет или алкоголя. Интересно, что это значение просочилось в ежедневный английский и его активно используют медицинские центры и специалисты:

И еще об одном довольно редком значении get off спастись, избежать чего-то.

He was thrown in jail, but the lawyer got him off. Его бросили в тюрьму, но юрист вытащил его.

Но если вы вдруг его забудете, то ничего не потеряете оно действительно используется не часто.

Get back

Самое распространенное значение этого фразового глагола возвращаться. Причем, как в прямом, так и в переносном смысле.

I need to get back home. I forgot my wallet. Мне нужно вернуться домой. Я забыл свой бумажник.

Jane and Jack got back together. Джейн и Джек снова сошлись.

В качестве императива фразовый глагол звучит как Назад!

Но если добавить еще предлогов, то значения меняются. Да, так практически со всеми фразовыми глаголами.

Get back at somebody отомстить, наказать.

Jack got back at Bill for brocking his glasses. Джек отомстил Биллу за то, что тот сломал его очки.

Get back to somebody и нет, это не вернуться к кому-то. С этим глаголом у студентов вечная проблема, ведь его значения неочевидны перезвонить или связаться позже.

Ill get back to you later. Have something to do. Я перезвоню тебе позже. У меня дела.

***

И это мы разобрали только 5 фразовых глаголов с одним-единственным словом. Всего с get существует 19 словосочетаний, у которых целых 56 значений. И это только закрепленные в словарях. А в сумме со сленговыми их будет и вовсе больше 80.

Еще раз, это фразовые глаголы только с одним словом get. Кроме него есть несколько сотен фразовых глаголов и еще больше их значений.

Зубрить их абсолютно бесполезно. Их нужно учить только в контексте и на интересных примерах. Хотите именно так? Записывайтесь на бесплатный пробный урок с преподавателем в EnglishDom и учите английский легко. И даже фразовые глаголы, да.

Напишите в комментарии, интересны ли вам такие материалы про нюансы английского языка и фразовые глаголы в частности? Потому что нам есть, что рассказать интересного.

Онлайн-школа EnglishDom.com вдохновляем выучить английский через технологии и человеческую заботу

Только для читателей Хабра первый урок с преподавателем в интерактивном цифровом учебнике бесплатно! А при покупке занятий получите до 3 уроков в подарок!

Получи целый месяц премиум-подписки на приложение ED Words в подарок. Введи промокод april21 на этой странице или прямо в приложении ED Words. Промокод действителен до 01.06.2021.

Наши продукты:

Подробнее..

7 французских слов, которые бесят тех, кто изучает английский

14.05.2021 20:06:19 | Автор: admin

Французский язык крайне сильно повлиял на английский в ходе исторического развития. Даже сейчас в языке Шекспира есть примерно 10 000 лексем, которые прямо заимствованы из французского, без изменений в орфографии.

А в целом примерно 40% корней английских слов восходят к общим предкам с французскими лексемами.

Именно в словах французского происхождения возникает больше всего путаницы у студентов, которые учат английский как второй. Приходится зазубривать еще более странные варианты написания слов, чем истинно английские. Скажем больше, британцы и американцы в них тоже путаются.

Сегодня поговорим о словах с французским флером, которые бесят или раздражают изучающих английский язык. Поехали.

Краткая историческая справка

Истоки такого сильного влияния французского языка на английский нужно искать в XI веке. Когда Вильгельм Завоеватель, герцог Нормандии, в 1066 году вторгся на территорию Англии и захватил ее полностью.

Уже до 1075 года новый король Англии изменил политику страны и провел реформы административной и судебной системы. И одной из важных особенностей стало принятие французского языка как государственного в Англии. Французский стал языком официальных документов и знати.

В крупных городах большинство населения в скором времени стало двуязычным, поэтому лексика английского и французского стала постепенно смешиваться. Интересно, что многие лексемы сохранили французские варианты написания, из-за чего путаницы в английской орфографии стало только больше.

Интересно, что влияние французского языка на английский сохранилось даже при сильном обострении англо-французских отношений и длительных воен. А в XVII веке, когда Британская империя стала фактическим гегемоном в Европе, этот процесс пошел в обратную сторону теперь английские слова стали активно проникать во французский.

Если вам интересно, как развивался английский язык в историческом контексте, читайте наш материал История английского языка буквально на пальцах.

Сегодня подобный процесс можно наблюдать в канадской языковой среде. Напомним, что в Канаде два государственных языка: английский и французский. Особенно влияние французского на английский заметно в Квебеке, где основным языком для 80% граждан является именно французский.

Теперь перейдем непосредственно к словам.

Очень многие слова в кулинарии в английский язык пришли с французского. Начиная от cuisine (кухня), и заканчивая cafe (кафе).

Restaurant одно из первых слов французского происхождения, которые изучают на курсах английского. Оно входит в базовые 1000 слов. Но по нашему опыту, студенты продолжают делать ошибки в написании этого слова вплоть до уровня Advanced. Особенно, если отключить подчеркивание слов с ошибками :)

Главная сложность буквосочетание au, которое передается звуком []. Вот эту самую хитрую букву u чаще всего и забывают писать. Или же меняют au на более привычное русскоязычному o. В русском ведь ресторан, вот и хочется написать o.

Еще часто забывают немую t в конце слова. Но это совершенно типичная проблема для написания большинства английских слов французского происхождения.

Раз уже затронули тему кулинарии, то стоит вспомнить самое подлое слово из этой оперы.

Оно просочилось и в русский язык многие из нас любят (или не любят) салат винегрет. Вот только в английском языке это совсем не салат, а уксусная заправка или флакон с нюхательной солью.

Кстати, в русском языке слово винегрет тоже вызывает много проблем. Потому что без словаря и автоподчеркивания вспомнить, как правильно: винегрет или венигрет крайне сложно.

Есть версия, что русское значение слова появилось, когда французский повар при дворе Александра Первого увидел, что салат из отварных овощей поливают уксусом. Француз воскликнул Vinaigre? (Уксус?), а русские повара его не поняли, а только покивали, посчитав, что тот сказал название салата.

Слово vinaigrette классический ложный друг переводчика. Но проблемы доставляет и орфография. Русское написание винегрет прямо совсем не соответствует английскому а-ля французскому vinaigrette. С гласными здесь всегда беда.

Ошибок здесь огромное количество. И venigrette, и vinigrette, и venigret в общем, пишут как угодно, но только не правильно. Запомнить, что буквосочетание ai обозначает звук [], оказывается очень сложной задачей.

Английское слово businessman и так доставляет много проблем студентам, а его синоним entrepreneur и того больше.

  • Во-первых, произношение [n.tr.prn]. Уже с первой буквы начинаются ошибки, потому что нужно говорить не entre, а antre.

  • Во-вторых, многие по аналогии со словом enter пишут enterpreneur. Штука в том, что оно пошло от старофранцузского entreprendre затевать, предпринимать. А самое интересное, что другое английское слово enterprise (предприятие) тоже пошло от entreprendre, но здесь порядок букв другой enter, а не entre.

Здесь также есть другая классическая ошибка, которую допускают студенты. Она тоже в конце слова. Вместо обычного и привычного английскому языку окончания -er, которое часто встречается в профессиях, в слове осталось французское -eur.

Интересно, что в печатных текстах и в интернете слово entrepreneur встречается даже чаще своего синонима businessman. По данным Word Frequency Data, первое занимает 4234 место в рейтинге частоты английских лексем, а второе 4673.

Из-за того, что в русском тоже есть слово бульвар, эта лексема становится крайне сложной для изучения. Потому что на английском слово произносится вообще не так:

[bl..vrd] в американском или [bu.l.vd] в британском варианте.

Заметили все отличия? Точно?

Давайте озвучим.

  • Первое: ударение. В русском бульвар ударение падает на второй слог. А в английском или только на первый, или делается двойное ударение на первый и третий.

  • Второе: буква e в английском озвучивается, добавляя еще один слог, а в русском просто смягчает звук [л]. Топовая ошибка, которую поначалу допускают практически все русскоязычные. Произношение бульвар настолько привычно, что говорить булевард или булевад кажется чем-то диким.

  • Третье: снова окончание. Потому что в русские и англичане выбрали разные звучащие буквы. В русском это [p], а американском английском [d], а в британском все вместе [rd].

В целом это вполне обычное слово французского происхождения, но именно русский его вариант сбивает студентов и не дает запомнить правильное его произношение. Булевад, Карл!

Вы уже заметили, что самыми сложными для изучения оказываются слова, у которых есть аналоги на русском. Маневр из той же когорты.

В военном деле вообще очень много слов, которые пришли из французского. И большинство из них произносятся как попало.

О словах colonel и lieutenant мы уже упоминали в материале 5 слов английского языка, которые невозможно произнести правильно с первого раза. Большинство студентов произносит их неправильно. А вы?

С маневром все неочевидно: [mnu.vr] мэнювер. Мало того, что последняя e озвучивается, так еще и гласные произносятся как придется.

Дело в том, что корень man передается на русский именно как ман практически во всех случаях. К примеру, manuscript манускрипт, manicure маникюр, manipulation манипуляция, emancipation эмансипация. Но в английском этот корень произносится только как [mn].

Добавляет сложности буквосочетание eu, которое нужно произносить как [u]. Но тут можно по аналогии со словом Europe, которое на английском произносится через [ю].

Об окончании в этот раз даже не вспоминаем в нем по традиции ошибок много.

Здесь сложности не со звучанием, а с написанием. Потому что произносится silhouette абсолютно так же, как и в русском [sl.uet]. А с орфографией вопросы есть:

  • Во-первых, немая h. Ее стабильно забывает добрая половина студентов. Но если в частоупотребляемых вроде hour она запоминается, то в более редких нет.

  • Во-вторых, буквосочетание oue. Ошибки здесь самые разнообразные. Обычно теряется буква o, но по факту их может быть очень много.

  • В-третьих окончание. Ничего странного, удвоение буквы t забывают стабильно.

Интересно, что само слово силуэт пошло от фамилии министра финансов Франции tienne de Silhouette (Этьен де Силуэт), который занимал пост в 1759 году. Именно тогда во Франции стали популярны теневые портреты, которые получили название портрет-силуэт. Собственно, именно поэтому слово практически не изменяется в других языках.

Вот этот самый портрет-силуэт.

Самый баянистый, но от этого не менее бесячий пример мы оставили напоследок. Это слово queue очередь. Очень точно его характеризует шутка, что в нем озвучивается только первая буква, а остальные ждут своей очереди.

Также одним из значений queue является хвост собственно, во французском языке оно считается основным.

Большинство русскоговорящих впервые произносят это слово как куэуэ. С одной стороны, понятно, что что-то не то, но правильный вариант может подсказать только словарь самому его найти нереально.

Интересно, что одно из устаревших значений слова queue половой член. А все потому, что в XV веке оно имело значение отросток. Со временем из вариантов остался только хвост, а очередь самое молодое значение родом из XIX века, которое сегодня стало основным. Это слово чаще всего используют в Британии. В США ленятся и используют просто line.

***

В английском есть еще очень много французских слов, которые удивляют и раздражают студентов. И по нашему опыту, именно в них встречается больше всего ошибок, которые потом крайне сложно исправить.

А если хотите изучать сразу все правильно, записывайтесь на бесплатный пробный онлайн-урок с преподавателем. Тогда никакие французские слова не будут помехой.

Онлайн-школа EnglishDom.com вдохновляем выучить английский через технологии и человеческую заботу

Только для читателей Хабра первый урок с преподавателем в интерактивном цифровом учебнике бесплатно! А при покупке занятий получите до 3 уроков в подарок!

Получи целый месяц премиум-подписки на приложение ED Words в подарок. Введи промокод may_21 на этой странице или прямо в приложении ED Words. Промокод действителен до 01.07.2021.

Наши продукты:

Подробнее..

Категории

Последние комментарии

  • Имя: Макс
    24.08.2022 | 11:28
    Я разраб в IT компании, работаю на арбитражную команду. Мы работаем с приламы и сайтами, при работе замечаются постоянные баны и лаги. Пацаны посоветовали сервис по анализу исходного кода,https://app Подробнее..
  • Имя: 9055410337
    20.08.2022 | 17:41
    поможем пишите в телеграм Подробнее..
  • Имя: sabbat
    17.08.2022 | 20:42
    Охренеть.. это просто шикарная статья, феноменально круто. Большое спасибо за разбор! Надеюсь как-нибудь с тобой связаться для обсуждений чего-либо) Подробнее..
  • Имя: Мария
    09.08.2022 | 14:44
    Добрый день. Если обладаете такой информацией, то подскажите, пожалуйста, где можно найти много-много материала по Yggdrasil и его уязвимостях для написания диплома? Благодарю. Подробнее..
© 2006-2024, personeltest.ru