HTML Diff
0 added 0 removed
Original 2026-01-01
Modified 2026-03-10
1 <p>Как известно, NLP применяется для<a>машинного перевода, текстового анализа</a>,<a>синтеза и распознавания речи, разработки диалоговых систем</a>. Кроме этого, популярной задачей NLP является<strong>NER</strong>--<strong>извлечение именованных сущностей</strong>из текста (Named-entity recognition). Что это значит? Рассмотрим на примерах.</p>
1 <p>Как известно, NLP применяется для<a>машинного перевода, текстового анализа</a>,<a>синтеза и распознавания речи, разработки диалоговых систем</a>. Кроме этого, популярной задачей NLP является<strong>NER</strong>--<strong>извлечение именованных сущностей</strong>из текста (Named-entity recognition). Что это значит? Рассмотрим на примерах.</p>
2 <h2>Пример № 1</h2>
2 <h2>Пример № 1</h2>
3 <p>Представьте, что у вас есть сплошной текст, посвященный покупке/продаже активов. Вам поставлена задача: выделить из текста даты, активы и существующие персоны.</p>
3 <p>Представьте, что у вас есть сплошной текст, посвященный покупке/продаже активов. Вам поставлена задача: выделить из текста даты, активы и существующие персоны.</p>
4 <p>Текст может иметь такой вид:</p>
4 <p>Текст может иметь такой вид:</p>
5 <p>В нашем случае задачей выделения сущностей и фактов будет понимание системой того, что участок текста "1999 года" -- это<strong>дата</strong>, "Иван Петров" - это<strong>персона</strong>, "пакет акций" - это, соответственно,<strong>актив</strong>.</p>
5 <p>В нашем случае задачей выделения сущностей и фактов будет понимание системой того, что участок текста "1999 года" -- это<strong>дата</strong>, "Иван Петров" - это<strong>персона</strong>, "пакет акций" - это, соответственно,<strong>актив</strong>.</p>
6 <p>Собственно говоря, без<strong>NER</strong>относительно сложно представить решение многих NLP-задач, того же построения вопросно-ответных систем или разрешения местоименных анафор. В частности, схожий механизм используется в анализе поисковых фраз. Например, набрав запрос "Кто играл роль царя в кинофильме “Иван Васильевич меняет профессию”", ответ будет формироваться как раз таки на основании выделения именованных сущностей: (фильм, роль и так далее), то есть сначала формируется "понимание", что именно спрашивается, а уже потом происходит поиск ответа в базе данных.</p>
6 <p>Собственно говоря, без<strong>NER</strong>относительно сложно представить решение многих NLP-задач, того же построения вопросно-ответных систем или разрешения местоименных анафор. В частности, схожий механизм используется в анализе поисковых фраз. Например, набрав запрос "Кто играл роль царя в кинофильме “Иван Васильевич меняет профессию”", ответ будет формироваться как раз таки на основании выделения именованных сущностей: (фильм, роль и так далее), то есть сначала формируется "понимание", что именно спрашивается, а уже потом происходит поиск ответа в базе данных.</p>
7 <p>Вообще, постановка NER-задачи характеризуется высокой степенью гибкости. Мы можем выделять любые необходимые непрерывные фрагменты текста, чем-то непохожие на весь остальной текст. В итоге подбирается набор сущностей для конкретной практической задачи. Далее останется лишь обработать тексты этим набором, а потом обучить модель. Вышеописанный алгоритм используется повсеместно, что делает NER, по сути, одной из наиболее часто встречаемых и решаемых NLP-задач в индустрии.</p>
7 <p>Вообще, постановка NER-задачи характеризуется высокой степенью гибкости. Мы можем выделять любые необходимые непрерывные фрагменты текста, чем-то непохожие на весь остальной текст. В итоге подбирается набор сущностей для конкретной практической задачи. Далее останется лишь обработать тексты этим набором, а потом обучить модель. Вышеописанный алгоритм используется повсеместно, что делает NER, по сути, одной из наиболее часто встречаемых и решаемых NLP-задач в индустрии.</p>
8 <h2>Пример № 2</h2>
8 <h2>Пример № 2</h2>
9 <p>Ниже -- подобный проект, разработанный для крупной энергетической компании. Заказчик хотел подготовить данные об активах: средствах контроля и измерения, эксплуатируемом оборудовании, промышленных установках. В качестве источников данных послужили текстовые документы -- в реальности это были техрегламенты, максимально подробно описывающие технологические процессы и интересующие производственные объекты.</p>
9 <p>Ниже -- подобный проект, разработанный для крупной энергетической компании. Заказчик хотел подготовить данные об активах: средствах контроля и измерения, эксплуатируемом оборудовании, промышленных установках. В качестве источников данных послужили текстовые документы -- в реальности это были техрегламенты, максимально подробно описывающие технологические процессы и интересующие производственные объекты.</p>
10 <p>В результате исполнитель продемонстрировал возможность применения<strong>Machine Learning</strong>- и<strong>NLP</strong>-технологий для извлечения нужной информации из текстового описания с последующим формированием профилей оборудования на основе полученных данных. После сопоставления сформированных профилей с результатами ручного маппинга, который взяли за эталон, достигнутая точность составила 97,3 %. При этом, в отличие от ручного маппинга, NER позволил:</p>
10 <p>В результате исполнитель продемонстрировал возможность применения<strong>Machine Learning</strong>- и<strong>NLP</strong>-технологий для извлечения нужной информации из текстового описания с последующим формированием профилей оборудования на основе полученных данных. После сопоставления сформированных профилей с результатами ручного маппинга, который взяли за эталон, достигнутая точность составила 97,3 %. При этом, в отличие от ручного маппинга, NER позволил:</p>
11 <ul><li>значительно снизить затраты труда и времени;</li>
11 <ul><li>значительно снизить затраты труда и времени;</li>
12 <li>минимизировать риски, которые связаны с ошибками при ручной обработки текстов.</li>
12 <li>минимизировать риски, которые связаны с ошибками при ручной обработки текстов.</li>
13 </ul><p><em>По материалам<strong>https://tproger.ru</strong>.</em></p>
13 </ul><p><em>По материалам<strong>https://tproger.ru</strong>.</em></p>
14 <p>P. S. Желаете освоить современные NLP-технологии?<a>Добро пожаловать на авторский курс от Otus</a>!</p>
14 <p>P. S. Желаете освоить современные NLP-технологии?<a>Добро пожаловать на авторский курс от Otus</a>!</p>
15  
15