NLP: Семантическая сегментация и матрица (Python)

Описание

Задача: Семантический анализ корпуса текстов и формирование матрицы (Python) Необходимо разработать скрипт на Python для обработки корпуса текстов пяти восточных мыслителей (философские трактаты). Что нужно реализовать: Предобработка: Очистка текстов и лемматизация (обязательно с учетом специфики русского языка, например, через Natasha или PyMorphy2). Сегментация: Разбивка произведений на смысловые части (по абзацам или логическим блокам). Семантический поиск: Сопоставление сегментов с готовым списком из 750 ключевых слов. Важно находить не только точные совпадения, но и семантические синонимы (используя векторные модели/эмбеддинги). Результат: Формирование бинарной матрицы в формате .csv, где строки — это сегменты текста, а столбцы — ключевые слова. При совпадении (с учетом порога сходства) в ячейку подставляется готовое числовое значение. Требования к исполнителю: Опыт работы с NLP-библиотеками и векторными моделями (SBERT, FastText или аналоги). Умение работать с большими матрицами в Pandas. Результат работы: Исходный код (.py или .ipynb) и итоговый файл .csv.

Источник вакансии

Опубликовано

15.02.2026