Разработка и тестирование программного решения для автоматической классификации строительных материалов, основанного на алгоритмах нечеткого сравнения текстовых строк
Ключевые слова:
классификатор строительных ресурсов (КСР), нормализации терминов КСР, метода сравнения текстовых строк, нечеткое сопоставление строк, лемматизация, токенизация, адаптивный словарь синонимовАннотация
В статье анализируются процессы автоматического сопоставления текстовых обозначений строительных материалов с официальным классификатором строительных ресурсов (КСР). Рассматривается структура, преимущества и недостатки, а также перспективы интеграции КСР. Автором проведен анализ алгоритмов нечеткого сопоставления строк с целью проектирования многоуровневого словаря синонимов с использованием метода сравнения текстовых строк, позволяющего выявлять их близость при наличии опечаток, вариаций написания или перестановок слов. Целью настоящего исследования является разработка и тестирование программного решения, основанного на методах нечеткого сравнения строк, для автоматической классификации коммерческих наименований материалов по КСР.
Библиографические ссылки
Бондаренко П.И. Лемматизация русского языка: теория и практика: моногр. СПб.: Наука, 2019. 312 с.
Васильева И.Н., Морозова Т.С. Применение TF-IDF для предобработки текстовых данных // Прикладная информатика. 2020. Т. 12. № 4. С. 33-41.
Гусев А.Ю., Лобова Е.В. Анализ алгоритмов обработки естественного языка // Вестник Новосибирского государственного университета. 2020. № 5. С. 45-56.
Иванов С.А. Машинное обучение: алгоритмы и применения: уч. пос. М.: БХВ-Петербург, 2022. 480 с.
Кадышева О.В. Особенности лемматизации в русском NLP // ML и Data Science в России. 2023. Вып. 12. С. 56–63
Классификатор строительных ресурсов // ФГИС ЦС Минстроя России. https://fgiscs.minstroyrf.ru/ksr/
Кузнецов М.А. Метрика Джаро-Винклера в задачах информационного поиска // Информационные технологии и вычислительные системы. 2021. Т. 19. № 1. С. 10–19.
Литвинова Е.А. Теория и практика систематизации данных в строительстве // Строительные технологии. 2022. № 8. С. 25-34.
Маслова Т.В., Сергеева Л.В. Токенизация текстовых данных: методы и инструменты // Информационные технологии. 2020. № 5. С. 12–20.
Сидоров Д.П. Расстояние Левенштейна и его приложения // Математические методы анализа данных. 2018. Т. 3. № 2. С. 78-89.
Ушакова Н.В. Методы нечеткого поиска в информационных системах: моногр. М.: Вершина, 2021. 256 с.
Bezdek J.C. Pattern recognition with fuzzy objective function algorithms: monograph. NY: Plenum Press, 1981. 246 p.
Bray T., Paoli J., Sperberg-McQueen C.M. JSON Data Interchange format: RFC 8259 // IETF. 2017.
Devlin J., Chang M. W., Lее K., Toutanova K. BERT: Pre-training of deep bidirectional transformers for language understanding // Proceedings of the 2019 сonf. of the North American сhapter of the Association for Computational Linguistics: Human language Technologies (NAACL-HLT’19). Minneapolis, 2019. рр. 4171-4186.
Fielding R.-T. Architectural styles and the design of network-based software architectures: Ph.D. diss. Irvine: University of California, 2000.
Lemanapro // lemanapro.ru. 2025.
Mikolov T., Chen K., Corrado G., Dean J. Efficient estimation of word representations in vector space // arXiv:1301.3781. 2013.
Pennington J., Socher R., Manning C.D. GloVe: Global vectors for word representation // Proceedings of the 2014 сonf. on empirical methods in natural language processing (EMNLP’14). Doha, 2014. рр. 1532-1543.
Petrovich // petrovich.ru. 2025.
pymorphy2. Документация // pymorphy2.readthedocs.io. 2025. https://pymorphy2.readthedocs.io/
RapidFuzz. Документация // maxbachmann.github.io. 2025. https://maxbachmann.github.io/RapidFuzz/
Weiss D.J., Sahin A. Computerized adaptive testing: from concept to implementation. NY: Guilford Press, 2024. 360 p.
Winkler W.E. String comparator metrics and enhanced decision rules in the Fellegi-Sunter model of record linkage // Proceedings of the Section on survey research methods. Alexandria, 1990. pp. 354-359.
Winkler W.E. String comparator metrics and enhanced decision rules in the Fellegi-Sunter model of record linkage // Proceedings of the Section on survey research methods. Alexandria, 1990. pp. 354-359.
YAML 1.2 Specification // yaml.org. 2025. https://yaml.org/spec/1.2/
Zhang P.A., Huang F., Zhou Y. Hybrid tokenization for cross-language fuzzy matching // ACM Transactions on information systems. 2021. Vol. 39. № 4. Article 44.