Вопросы с тегом 'fuzzy-search'

Механизм поиска, целью которого является найти все приблизительные, релевантные или, возможно, релевантные результаты для ключа поиска, а не находить точное совпадение.
22
ответов

Лучший алгоритм ранжирования сходства для строк переменной длины

Я ищу алгоритм сходства строк, который дает лучшие результаты по строкам переменной длины, чем те, которые обычно предлагаются (расстояние levenshtein, soundex и т.д.). Например, Указанная строка A: "Роберт", Затем строка B: "Эми Робертсон" буде...
задан 17 марта '09 в 9:10
8
ответов

Нечеткая строка поиска в Java

Я ищу высокопроизводительную библиотеку Java для поиска нечетких строк. Существует множество алгоритмов поиска похожих строк, расстояния Левенштейна, Daitch-Mokotoff Soundex, n-граммов и т.д. Какие реализации Java существуют? Плюсы и минусы для них...
задан 29 нояб. '08 в 16:17
8
ответов

Нечеткое сопоставление с использованием T-SQL

У меня есть таблица Лица с личными данными и т.д. Есть много столбцов, но интерес к ним здесь: addressindex, lastname и firstname, где addressindex - уникальный адрес, просверленный до двери квартиры. Поэтому, если у меня есть "как ниже", два челов...
задан 28 мая '09 в 19:52
5
ответов

Нечеткий поиск Javascript, который имеет смысл

Я ищу библиотеку JavaScript с нечетким поиском для фильтрации массива. Я пробовал использовать fuzzyset.js и fuse.js, но результаты ужасные (есть демонстрации вы можете попробовать на связанных страницах). После некоторого чтения на расстоянии Левен...
задан 26 апр. '14 в 3:11
6
ответов

Нечеткие регулярные выражения

В моей работе я с большими результатами использовал приближенные алгоритмы сопоставления строк, такие как расстояние Дамерау-Левенштейна, чтобы сделать мой код менее уязвимым для орфографических ошибок. Теперь мне нужно сопоставить строки с простыми...
задан 28 февр. '10 в 19:08
5
ответов

История опечатки в реальном мире?

Где я могу найти реальную статистику о типовом мире? Я пытаюсь сопоставить текст ввода с внутренними объектами, и люди склонны совершать орфографические ошибки. Существует 2 типа ошибок: typos - "Helllo" вместо "Hello" / "Satudray" вместо "Sat...
задан 06 авг. '10 в 0:38
6
ответов

Как сделать нечеткое совпадение имен компаний в MYSQL с PHP для автоматического заполнения?

Мои пользователи будут импортировать через вырез и вставить большую строку, которая будет содержать названия компаний. У меня есть существующая и растущая база данных MYSQL имен компаний, каждая из которых имеет уникальный company_id. Я хочу иметь ...
задан 16 дек. '08 в 0:21
2
ответов

Нечеткий виджет окна поиска с `Shiny` в R?

Кто-нибудь создал или увидел блестящее приложение с изображением виджета окна поиска, дающего контекстные предложения при вводе, на основе нечеткого соответствия? Терминал Bloomberg использует его, Google использует его. Одна из возможных базовых ...
задан 05 июля '14 в 22:15
5
ответов

Проверка нечеткой/приблизительной подстроки, существующей в более длинной строке, в Python?

Используя алгоритмы типа leveinstein (leveinstein или difflib), легко найти приблизительные соответствия. >>> import difflib >>> difflib.SequenceMatcher(None,"amazing","amaging").ratio() 0.8571428571428571 Нечеткие совпадения мог...
задан 19 июля '13 в 10:51
2
ответов

Лучший алгоритм нечеткого соответствия?

Каков наилучший алгоритм нечеткого совпадения (Fuzzy Logic, N-Gram, Levenstein, Soundex....,) для обработки более 100000 записей за меньшее время?
задан 29 янв. '09 в 13:33
2
ответов

Как создать простой нечеткий поиск только с помощью Postgresql?

У меня есть небольшая проблема с функцией поиска на моем сайте на основе RoR. У меня много Produts с некоторыми CODE. Этот код может быть любой строкой, такой как "AB-123-lHdfj". Теперь я использую оператор ILIKE для поиска продуктов: Product.where(...
задан 11 окт. '11 в 20:29
4
ответов

Нечеткий текст (предложения/заголовки), соответствующий в С#

Эй, я использую алгоритм Levenshteins, чтобы получить расстояние между исходной и целевой строкой. Также у меня есть метод, который возвращает значение от 0 до 1: /// <summary> /// Gets the similarity between two strings. /// All relation sco...
задан 10 сент. '08 в 8:37
6
ответов

Алгоритмы для строк "нечеткого соответствия"

По нечеткому согласованию я не имею в виду аналогичные строки по расстоянию Левенштейна или чему-то подобному, но так, как он использовался в TextMate/Ido/Icicles: заданный список строк, найдите те, которые включают все символы в строке поиска, но во...
задан 23 мая '10 в 14:29
7
ответов

Как найти лучшее нечеткое соответствие для строки в большой базе данных строк

У меня есть база данных строк (произвольная длина), которая содержит более миллиона элементов (потенциально больше). Мне нужно сравнить предоставленную пользователем строку со всей базой данных и получить идентичную строку, если она существует, или ...
задан 21 нояб. '08 в 20:02
1
ответ

Эффективное сопоставление строк в Apache Spark

Используя инструмент OCR, я извлек тексты из скриншотов (около 1-5 предложений каждый). Однако при ручной проверке извлеченного текста я заметил несколько ошибок, которые возникают время от времени. Учитывая текст "Привет, 😊! Мне очень нравится Spar...
задан 12 мая '17 в 16:14