YouTokenToMe: инструмент для быстрой токенизации текста от команды ВКонтакте | by VK Team
Чтение: 3 мин.·
19 июля 2019 г.Мы хотим представить наш новый инструмент для токенизации текста: YouTokenToMe. Он работает в 7–10 раз быстрее, чем другие популярные инструменты для алфавитных языков, и в 40–50 раз быстрее для логографических языков. Здесь мы расскажем вам о YouTokenToMe и поделимся с вами этим инструментом с открытым исходным кодом на GitHub. Ссылку на него вы найдете в конце статьи.
Сегодня большинство задач, решаемых нейронными сетями, связаны с обработкой текста. Однако нейронные сети работают с числами, поэтому текст необходимо предварительно обработать, прежде чем его можно будет передать в модель.
Следующие методы являются популярными способами сделать это:
- Разделение по пространству
- Токенизация на основе правил, например, в SpaCy, NLTK
- Лемматизация, определение корня
Каждый из них имеет некоторые недостатки.
- Размер словаря, от которого напрямую зависит размер слоя встраивания модели, контролировать нельзя.
- Информация о связях слов, различающихся суффиксами или префиксами (пример: вежливо и невежливо), не используется.
- Они зависят от языка.
Алгоритм кодирования пар байтов был популярен в последнее время. Первоначально он был изобретен для сжатия текста, но несколько лет назад его начали использовать для токенизации текста для машинного перевода. Сейчас он используется для многих целей, в том числе в таких моделях, как BERT и GPT-2.
Наиболее эффективными реализациями алгоритма BPE оказались SentencePiece, разработанная инженерами Google, и fastBPE, созданная исследователем из Facebook AI Research. Однако нам удалось доказать, что токенизацию можно провести гораздо быстрее. Мы оптимизировали алгоритм BPE, опубликовали код на GitHub и загрузили пакет в PyPI.
Ниже показано сравнение скорости нашего алгоритма с другими версиями. В качестве примера мы взяли первые 100 МБ из базы Википедии на русском, английском, японском и китайском языках.
Графики показывают, что скорость алгоритма сильно зависит от языка. Это можно объяснить большим количеством символов, используемых в азиатских языках, и слов, не разделенных пробелами. YouTokenToMe работает в 7-10 раз быстрее для алфавитных языков и в 40-50 раз быстрее для логографических языков. Токенизация была ускорена как минимум в 2 раза, а в некоторых тестах и более чем в 10 раз.
Эти результаты были достигнуты новым алгоритмом благодаря следующим двум ключевым характеристикам:
- Линейное время выполнения, зависящее от размера обучающего корпуса. SentencePiece и fastBPE асимптотически менее эффективны.
- Эффективное использование нескольких потоков как для обучения, так и для токенизации. Это увеличивает скорость в несколько раз.
YouTokenToMe можно использовать через интерфейс командной строки и непосредственно из Python.
Дополнительную информацию можно найти в репозитории: github.com/vkcom/YouTokenToMe
Руководство по аллергенам для пищевых предприятий
Операторы пищевых предприятий в сфере розничной торговли и общественного питания обязаны предоставлять информацию об аллергенах и соблюдать правила маркировки, изложенные в законодательстве о пищевых продуктах.
Это означает, что операторы пищевых предприятий должны:
- предоставлять потребителю информацию об аллергенах как для расфасованных, так и для нерасфасованных продуктов питания и напитков
- эффективно справляются с пищевыми аллергенами при приготовлении пищи.
Предприятия пищевой промышленности должны убедиться, что персонал проходит обучение по вопросам аллергенов. Персонал и менеджеры могут заполнить и поделиться нашими:
- бесплатный тренинг по пищевой аллергии Контрольный список аллергенов
- для советов по передовой практике пищевой аллергии
У нас есть отдельное руководство для производителей продуктов питания и предприятий общественного питания.
14 аллергенов
Предприятия пищевой промышленности должны сообщать клиентам, содержат ли какие-либо продукты, которые они предлагают, какой-либо из перечисленных аллергенов в качестве ингредиента.
У потребителей может быть аллергия или непереносимость других ингредиентов, но только 14 аллергенов должны быть объявлены аллергенами в соответствии с законодательством о пищевых продуктах.
14 аллергенов: сельдерей , злаки, содержащие глютен (такие как пшеница, ячмень и овес), ракообразные (такие как креветки, крабы и омары), яйца , рыба , люпин , молоко , моллюски (такие как мидии и устрицы), горчица , арахис , кунжут , соя , 9008 1 диоксид серы и сульфиты (если диоксид серы и сульфиты имеют концентрацию более десяти частей на миллион) и орехи деревьев (такие как миндаль, фундук, грецкие орехи, бразильские орехи, кешью, пекан, фисташки и орехи макадамия).
Это также относится к добавкам, технологическим добавкам и любым другим веществам, присутствующим в конечном продукте.
Маркировка аллергенов для различных видов продуктов питания
Существует несколько способов предоставления информации об аллергенах вашим клиентам. Вам нужно будет выбрать метод, который лучше всего подходит для вашего бизнеса и типа еды, которую вы подаете.
Расфасованные пищевые продукты относятся к любым пищевым продуктам, помещенным в упаковку перед поступлением в продажу, в то время как нерасфасованные пищевые продукты (рассыпные пищевые продукты) представляют собой неупакованные пищевые продукты. Различные правила маркировки аллергенов применяются в зависимости от того, как предоставляется пища.
Наше техническое руководство содержит подробное объяснение требований к маркировке для каждого типа продуктов питания.
Ссылки ЕС в
Руководящих документах FSAFSA обновляет все ссылки ЕС, чтобы точно отразить действующее законодательство, во всех новых или измененных руководствах, опубликованных после окончания переходного периода в конце 2020 года. обновить все ссылки на ЕС на момент публикации нового или измененного руководства.
За исключением Северной Ирландии, любые ссылки на Регламенты ЕС в данном руководстве следует понимать как означающие сохранение законодательства ЕС. Вы можете получить доступ к сохраненному законодательству ЕС через HM GovernmentEU Exit Web Archive. Его следует читать вместе с любым законодательством о выходе из ЕС, которое было принято для обеспечения того, чтобы сохраненное законодательство ЕС правильно работало в контексте Великобритании. Законодательство о выходе из ЕС находится на сайте onlegislation.gov.uk. В Северной Ирландии закон ЕС будет по-прежнему применяться в отношении большей части законов о гигиене и безопасности пищевых продуктов и кормов, перечисленных в Протоколе Северной Ирландии, и в этих обстоятельствах сохраненный закон ЕС не будет применяться к Северной Ирландии.
Расфасованные
Расфасованные продукты относятся к любым продуктам питания, помещенным в упаковку перед поступлением в продажу.
- полностью или частично заключены в упаковку
- нельзя изменить без вскрытия или изменения упаковки
- готов к продаже.
Расфасованные продукты питания должны иметь список ингредиентов на упаковке. Аллергены, присутствующие в продукте, должны подчеркиваться каждый раз, когда они появляются в списке ингредиентов.
Расфасованные для прямой продажи
Расфасованные для прямой продажи продукты — это продукты питания, упакованные в тех же помещениях, где они продаются.
Обычные продукты, которые могут попасть в эту категорию, включают бутерброды, салаты и пироги, приготовленные и проданные в помещениях, в которых они производятся.
Пищевые продукты, расфасованные для прямой продажи (PPDS), должны иметь этикетку с полным списком ингредиентов с указанием аллергенных ингредиентов.
Эти изменения предоставят важную информацию, которая поможет людям с пищевой аллергией или непереносимостью сделать выбор в пользу безопасных продуктов.
Нефасованные (рассыпные) продукты
Если вы предоставляете нефасованные продукты, вы должны предоставить информацию об аллергенах для каждого продукта, который содержит любой из 14 аллергенов.
- Нерасфасованные (рассыпные) пищевые продукты включают:
- пищевые продукты, продаваемые на развес в торговых точках
- пищевых продуктов, которые не продаются расфасованными.
Требования к нерасфасованной информации об аллергенах могут применяться к продуктам, продаваемым на развес в отделе деликатесов, пекарне, мясной лавке, а также к блюдам, подаваемым в ресторане, и к продуктам на вынос.
Заявления о том, что продукты не содержат продуктов, не содержат глютена и веганов
Заявления о том, что продукты не содержат продуктов, требуют строгого контроля ингредиентов, способов их обработки и приготовления. Отсутствие претензии — это гарантия того, что продукт подходит всем, у кого есть аллергия или непереносимость.
Например, если вы работаете с пшеничной мукой на кухне и не можете устранить риск перекрестного загрязнения путем разделения по времени и пространству, вы должны сообщить об этом покупателю. Вы не должны делать никаких заявлений о том, что продукты не содержат глютен или пшеницу.
Федерация продуктов питания и напитков предоставляет конкретную информацию и рекомендации по заявлениям о том, что продукты не содержат глютен и не содержат их.
Клиенты иногда предполагают, что веганские блюда не содержат аллергенов животного происхождения (яйца, рыба, ракообразные, моллюски, молоко). Это не всегда так, поскольку в процессе производства может произойти незначительное перекрестное загрязнение от этих ингредиентов. Вы должны четко понимать этот риск в пище, которую вы предоставляете.
Федерация продуктов питания и напитков предоставляет конкретную информацию и рекомендации по заявлениям об отсутствии аллергенов и веганским продуктам.
Способ предоставления клиентам информации об аллергенах зависит от типа предприятия пищевой промышленности. Сотрудники предприятий пищевой промышленности могут узнать больше о предоставлении информации об аллергенах, пройдя бесплатное обучение по пищевой аллергии и воспользовавшись нашим контрольным списком аллергенов.
Предприятия общественного питания
Вы должны предоставить информацию об аллергенах в письменном виде, если вы продаете продукты питания своим клиентам напрямую. Это может быть:
- полная информация об аллергенах в меню, на доске или в информационном пакете
- письменное уведомление на видном месте с объяснением того, как ваши клиенты могут получить эту информацию
Когда информация об аллергенах предоставляется в рамках беседы с покупателем, она может быть подтверждена письменной информацией. Это обеспечит его точность и согласованность.
Вы можете отобразить этот знак аллергии и непереносимости, чтобы сообщить клиентам, как они могут найти информацию об аллергии, или создать свой собственный. Также доступна валлийская версия знака аллергии и непереносимости.
Шведский стол
Если вы предлагаете питание в форме шведского стола, вам необходимо предоставить информацию об аллергенах для каждого продукта питания отдельно. Не стоит предусматривать его для фуршета в целом.
Вы можете предоставить эту информацию, пометив аллергены, содержащиеся в отдельных блюдах, или разместив знак, указывающий клиентам запрашивать информацию об аллергенах у персонала.
Эта информация должна быть видна, разборчива и легкодоступна для покупателя.
Доставка еды и еда на вынос
Если продукты питания продаются через Интернет или по телефону посредством дистанционной продажи, информация об аллергенах должна быть предоставлена на двух этапах процесса заказа.
Вы должны предоставить информацию об аллергенах:
- до завершения покупки продуктов питания — это может быть в письменной форме (на веб-сайте, в каталоге или меню) или устно (по телефону)
- при доставке еды — это может быть письменно (наклейки с аллергенами на еду или прилагаемая копия меню) или устно (по телефону).
Информация об аллергенах должна быть доступна покупателю в письменной форме в момент между размещением покупателем заказа и его получением.
Блюда на вынос должны иметь четкую маркировку, чтобы покупатели знали, какие блюда подходят для аллергиков.
Требования к аллергенам и передовой опыт для предприятий пищевой промышленности
Важно эффективно управлять аллергенами в вашем пищевом бизнесе, чтобы обеспечить безопасность пищевых продуктов для клиентов с пищевой аллергией.
Это включает в себя включение информации об аллергенах при планировании меню и соблюдение надлежащих методов приготовления пищи и гигиены, чтобы избежать перекрестного загрязнения на вашей кухне.
Подробное руководство о том, как управлять аллергенами на кухне, можно найти в наших информационных пакетах «Безопаснее питание, лучший бизнес для поставщиков общественного питания».
Мы предоставляем:
- бесплатное обучение по пищевой аллергии передовым методам управления аллергенами
- контрольный список аллергенов, которым вы можете поделиться с персоналом
- знак аллергии и непереносимости, который можно отобразить
Регистрация состава аллергена
Вы должны убедиться, что знаете, что входит в состав пищи, которую вы предоставляете. Вы можете сделать это, записав информацию об ингредиентах аллергенов в письменном формате. Информация об ингредиентах аллергенов должна быть:
- записано в листах спецификаций продукции
- указан на этикетках ингредиентов, и ингредиенты должны храниться в оригинальных или маркированных контейнерах
- включены в рецепты или пояснения к предоставленным блюдам – вам необходимо учитывать последствия изменения рецептов
- в актуальном состоянии.
У нас есть шаблоны ингредиентов аллергенов и другие учебные ресурсы, которые могут быть полезны при планировании вашего меню с учетом аллергенов.
Предотвращение перекрестного загрязнения аллергенами
Предприятиям пищевой промышленности важно принимать меры, чтобы избежать перекрестного загрязнения при приготовлении пищи, чтобы защитить клиентов с пищевой аллергией.
Существует ряд мер, которые можно предпринять для предотвращения перекрестного заражения аллергенами. К ним относятся:
- чистящие принадлежности перед каждым использованием, особенно если они использовались для приготовления блюд, содержащих аллергены
- тщательное мытье рук между приготовлением блюд с определенными аллергенами и без них
- Хранение ингредиентов и готовых пищевых продуктов отдельно в закрытых и промаркированных контейнерах
- Хранение ингредиентов, содержащих аллергены, отдельно от других ингредиентов Перекрестное загрязнение аллергеном
- также может произойти при использовании одного и того же растительного масла.