Разработка и тестирование программного решения для автоматической классификации строительных материалов, основанного на алгоритмах нечеткого сравнения текстовых строк

Авторы

  • Артуш Ваганович Абгарян Московский государственный технический университет им. Н.Э. Баумана

Ключевые слова:

классификатор строительных ресурсов (КСР), нормализации терминов КСР, метода сравнения текстовых строк, нечеткое сопоставление строк, лемматизация, токенизация, адаптивный словарь синонимов

Аннотация

В статье анализируются процессы автоматического сопоставления текстовых обозначений строительных материалов с официальным классификатором строительных ресурсов (КСР). Рассматривается структура, преимущества и недостатки, а также перспективы интеграции КСР. Автором проведен анализ алгоритмов нечеткого сопоставления строк с целью проектирования многоуровневого словаря синонимов с использованием метода сравнения текстовых строк, позволяющего выявлять их близость при наличии опечаток, вариаций написания или перестановок слов. Целью настоящего исследования является разработка и тестирование программного решения, основанного на методах нечеткого сравнения строк, для автоматической классификации коммерческих наименований материалов по КСР.

Библиографические ссылки

Бондаренко П.И. Лемматизация русского языка: теория и практика: моногр. СПб.: Наука, 2019. 312 с.

Васильева И.Н., Морозова Т.С. Применение TF-IDF для предобработки текстовых данных // Прикладная информатика. 2020. Т. 12. № 4. С. 33-41.

Гусев А.Ю., Лобова Е.В. Анализ алгоритмов обработки естественного языка // Вестник Новосибирского государственного университета. 2020. № 5. С. 45-56.

Иванов С.А. Машинное обучение: алгоритмы и применения: уч. пос. М.: БХВ-Петербург, 2022. 480 с.

Кадышева О.В. Особенности лемматизации в русском NLP // ML и Data Science в России. 2023. Вып. 12. С. 56–63

Классификатор строительных ресурсов // ФГИС ЦС Минстроя России. https://fgiscs.minstroyrf.ru/ksr/

Кузнецов М.А. Метрика Джаро-Винклера в задачах информационного поиска // Информационные технологии и вычислительные системы. 2021. Т. 19. № 1. С. 10–19.

Литвинова Е.А. Теория и практика систематизации данных в строительстве // Строительные технологии. 2022. № 8. С. 25-34.

Маслова Т.В., Сергеева Л.В. Токенизация текстовых данных: методы и инструменты // Информационные технологии. 2020. № 5. С. 12–20.

Сидоров Д.П. Расстояние Левенштейна и его приложения // Математические методы анализа данных. 2018. Т. 3. № 2. С. 78-89.

Ушакова Н.В. Методы нечеткого поиска в информационных системах: моногр. М.: Вершина, 2021. 256 с.

Bezdek J.C. Pattern recognition with fuzzy objective function algorithms: monograph. NY: Plenum Press, 1981. 246 p.

Bray T., Paoli J., Sperberg-McQueen C.M. JSON Data Interchange format: RFC 8259 // IETF. 2017.

Devlin J., Chang M. W., Lее K., Toutanova K. BERT: Pre-training of deep bidirectional transformers for language understanding // Proceedings of the 2019 сonf. of the North American сhapter of the Association for Computational Linguistics: Human language Technologies (NAACL-HLT’19). Minneapolis, 2019. рр. 4171-4186.

Fielding R.-T. Architectural styles and the design of network-based software architectures: Ph.D. diss. Irvine: University of California, 2000.

Lemanapro // lemanapro.ru. 2025.

Mikolov T., Chen K., Corrado G., Dean J. Efficient estimation of word representations in vector space // arXiv:1301.3781. 2013.

Pennington J., Socher R., Manning C.D. GloVe: Global vectors for word representation // Proceedings of the 2014 сonf. on empirical methods in natural language processing (EMNLP’14). Doha, 2014. рр. 1532-1543.

Petrovich // petrovich.ru. 2025.

pymorphy2. Документация // pymorphy2.readthedocs.io. 2025. https://pymorphy2.readthedocs.io/

RapidFuzz. Документация // maxbachmann.github.io. 2025. https://maxbachmann.github.io/RapidFuzz/

Weiss D.J., Sahin A. Computerized adaptive testing: from concept to implementation. NY: Guilford Press, 2024. 360 p.

Winkler W.E. String comparator metrics and enhanced decision rules in the Fellegi-Sunter model of record linkage // Proceedings of the Section on survey research methods. Alexandria, 1990. pp. 354-359.

Winkler W.E. String comparator metrics and enhanced decision rules in the Fellegi-Sunter model of record linkage // Proceedings of the Section on survey research methods. Alexandria, 1990. pp. 354-359.

YAML 1.2 Specification // yaml.org. 2025. https://yaml.org/spec/1.2/

Zhang P.A., Huang F., Zhou Y. Hybrid tokenization for cross-language fuzzy matching // ACM Transactions on information systems. 2021. Vol. 39. № 4. Article 44.

Опубликован

2025-07-30

Как цитировать

Абгарян, А. В. (2025). Разработка и тестирование программного решения для автоматической классификации строительных материалов, основанного на алгоритмах нечеткого сравнения текстовых строк. СТРОИТЕЛЬНЫЕ И ДОРОЖНЫЕ МАШИНЫ, 69(7), 16–38. извлечено от https://iereview.ru/index.php/IE/article/view/70

Выпуск

Раздел

СТРОИТЕЛЬСТВО И АРХИТЕКТУРА

Похожие статьи

1 2 3 4 5 6 > >> 

Вы также можете начать расширеннвй поиск похожих статей для этой статьи.