Вопросы с тегом 'edit-distance'

Строковая метрика, описывающая различия между двумя строками. Более конкретно, это число операций, которые преобразуют одну строку в другую строку. Операции включают вставку, удаление, замену или транспонирование символа в строке. Операции можно рассматривать в комбинациях и могут иметь разные затраты.
7

Расстояние Левенштейна в T-SQL

Меня интересует алгоритм в T-SQL, вычисляющий расстояние Левенштейна.
18 февр. '09 в 11:38
9

Расстояние Левенштейна: как лучше обрабатывать слова, заменяющие позиции?

У меня был некоторый успех, сравнивающий строки, используя функцию PHP levenshtein. Однако для двух строк, которые содержат подстроки, которые поменялись местами, алгоритм считает их целыми новыми подстроками. Например: levenshtein("The quick brow...
06 мая '09 в 5:21
8

Самый короткий путь для преобразования одного слова в другое

Для проекта Data Structures я должен найти кратчайший путь между двумя словами (например, "cat" и "dog"), меняя только одну букву за раз. Нам предоставляется список слов Scrabble для поиска нашего пути. Например: cat -> bat -> bet -> bot -...
05 окт. '09 в 19:32
7

Выясните, является ли бизнес-имя очень похожим на другое - Python

Я работаю с большой базой данных предприятий. Я хотел бы иметь возможность сравнить два бизнес-названия для сходства, чтобы увидеть, возможно ли они дублировать. Ниже приведен список бизнес-имен, которые должны тестироваться как имеющие высокую вер...
19 июн. '11 в 3:52
4

Изменить расстояние между двумя графиками

Мне просто интересно, как, например, для строк, где у нас есть расстояние Левенштейна (или расстояние редактирования) между двумя строками, есть ли что-то подобное для графов? Я имею в виду скалярную меру, которая идентифицирует число атомных операц...
06 мая '13 в 13:15
1

Как вы реализуете расстояние Левенштейна в Delphi?

Я публикую это в духе ответа на ваши собственные вопросы. У меня был вопрос: как реализовать алгоритм Левенштейна для вычисления расстояния редактирования между двумя строками, как описанный здесь, в Delphi Просто примечание о производительности: Э...
10 сент. '08 в 17:38
5

Java: разница между двумя списками

В моем предложении по катанию кошек отслеживается конвой кошек. Периодически он должен сравнивать previousOrder с currentOrder (каждый из них является ArrayList<Cat>) и уведомлять кошачьих участников о любых изменениях. Каждая кошка уникальна...
01 июн. '11 в 13:02
5

Кратчайшая последовательность операций, преобразующая дерево файлов в другое

Учитывая два дерева файлов A и B, можно ли определить кратчайшую последовательность операций или короткую последовательность операций, которая необходима для преобразования A в В? Операция может быть: Создать новую, пустую папку Создать новый...
01 авг. '11 в 19:43
4

Расстояние редактирования слова на уровне слова

Есть ли алгоритм, позволяющий найти расстояние редактирования на уровне слова между двумя предложениями? Например, "Большая толстая собака" и "Большой дом с толстой собакой" имеют 1 замену, 3 вставки
20 февр. '11 в 7:35
2

Приблизительное совпадение подстроки с использованием дерева суффикса

В этой статье обсуждаются приближенные методы сопоставления подстрок, в которых используется дерево суффиксов здесь. Однако для некоторых алгоритмов требуется дополнительная предварительная обработка. Я предлагаю людям добавлять новые алгоритмы (д...
14 окт. '13 в 20:42
8

Эффективный способ подсчета количества подобий строк при большом размере выборки?

Скажем, что у вас есть список из 10 000 адресов электронной почты, и вы хотите найти то, что некоторые из ближайших "соседей" в этом списке - определяются как адреса электронной почты, подозрительно близкие к другим адресам электронной почты в вашем ...
22 окт. '09 в 20:24
1

Оценки подобия, основанные на сравнении строк в R (расстояние редактирования)

Я пытаюсь присвоить оценку сходства на основе сравнения между двумя строками. Есть ли функция для того же самого в R. Мне известно о такой функции в SAS по имени SPEDIS. Пожалуйста, дайте мне знать, есть ли такая функция в R.
18 июл. '12 в 6:41
1

Как я могу определить расстояние Левенштейна для мандаринских иероглифов?

Мы разрабатываем систему для нечеткого сопоставления на более чем 50 международных языках с использованием стандартного символа Юникода UTF-8, UTF-16 и UTF-32. До сих пор мы могли использовать расстояние Левенштейна для обнаружения орфографических си...
12 сент. '12 в 2:56
1

Как нормализовать расстояние Левенштейна для максимальной длины выравнивания, а не длины строки?

Проблема: В нескольких R-пакетах реализованы реализаторы расстояний Levenshtein для вычисления сходства двух строк, например. http://finzi.psych.upenn.edu/R/library/RecordLinkage/html/strcmp.html. Вычисленные расчеты могут быть легко нормализованы ...
13 апр. '12 в 12:34
1

есть ли способ вычисления% соответствия между двумя строками

Есть ли способ вычислить% соответствия между двумя строками? У меня есть ситуация, когда требуется вычислять совпадения между 2 строками, если есть 85% то я объединю 2 таблицы, я написал код для объединения 2 таблиц мои строки строк: var str1 = ...
10 янв. '17 в 5:02