Вопросы с тегом 'html-parsing'

Разбор HTML - это процесс использования сериализации HTML-документа и создания представления, которое вы можете работать с программным путем - например, для извлечения данных из него. Спецификация HTML определяет стандартный алгоритм для анализа HTML, который реализуется во всех основных браузерах.
29
ответов

Как вы анализируете и обрабатываете HTML/XML в PHP?

Как можно разобрать HTML/XML и извлечь из него информацию?
задан 26 авг. '10 в 20:17
40
ответов

Параметры для очистки HTML?

Я подумываю попробовать Beautiful Soup, пакет Python для очистки HTML. Есть ли еще какие-то HTML файлы для очистки, на которые я должен смотреть? Python не является требованием, мне действительно интересно узнать о других языках. История до сих пор:...
задан 06 авг. '08 в 0:09
7
ответов

Разбор строки HTML с помощью JS

Я искал решение, но ничего не значимо, поэтому вот моя проблема: Я хочу проанализировать строку, содержащую текст HTML. Я хочу сделать это в JavaScript. Я пробовал эту библиотеку, но кажется, что она анализирует HTML моей текущей страницы, а не из...
задан 14 мая '12 в 17:11
18
ответов

Использование регулярных выражений для анализа HTML: почему бы и нет?

Кажется, что каждый вопрос о stackoverflow, в котором обманщик использует regex для захвата некоторой информации из HTML, неизбежно имеет "ответ", который говорит, что не использовать регулярное выражение для разбора HTML. Почему бы и нет? Я знаю, ч...
задан 26 февр. '09 в 17:24
0
ответов

Надежный и зрелый HTML-парсер для PHP

Существуют ли для PHP надежные и зрелые парсеры HTML? Быстрый просмотр PEAR ничем не помог (много классов для генерации HTML, а не столько для потребления), и Google научил меня, что многие люди начали, а затем отказались от различных проектов парсер...
задан 15 нояб. '08 в 22:09
7
ответов

Анализ HTML с использованием Python

Я ищу модуль Parser HTML для Python, который может помочь мне получить теги в виде списков/словарей/объектов Python. Если у меня есть документ формы: <html> <head>Heading</head> <body attr1='val1'> <div class='contain...
задан 29 июля '12 в 15:00
21
ответ

Как извлечь img src, title и alt из html с помощью php?

Я хотел бы создать страницу, где все изображения, которые находятся на моем сайте, перечислены с заголовком и альтернативным представлением. Я уже написал мне небольшую программу для поиска и загрузки всех HTML файлов, но теперь я застрял в том, как...
задан 26 сент. '08 в 11:33
4
ответов

JavaScript: Как удалить теги HTML из строки?

Возможный дубликат: Стриптиз HTML из текстового JavaScript Как я могу удалить HTML из строки в JavaScript?
задан 15 февр. '11 в 12:56
14
ответов

Regex выбирает весь текст между тегами

Каков наилучший способ выбора всего текста между двумя тегами - например: текст между всеми тегами "pre" на странице.
задан 23 авг. '11 в 23:42
5
ответов

Как работают анализы HTML, если они не используют regexp?

Я каждый день вижу вопросы о том, как анализировать или извлекать что-то из некоторой строки HTML, а первый ответ/комментарий всегда "Не используйте RegEx для анализа HTML, чтобы вы не чувствовали гнев!" (последняя часть иногда опускается). Это дово...
задан 08 марта '10 в 13:30
8
ответов

Как нормализовать HTML в JavaScript или jQuery?

Теги могут иметь несколько атрибутов. Порядок, в котором атрибуты отображаются в коде, не имеет значения. Например: <a href="#" title="#"> <a title="#" href="#"> Как я могу "нормализовать" HTML в Javascript, поэтому порядок атрибутов в...
задан 20 окт. '10 в 7:19
6
ответов

Как проанализировать HTML-страницу с помощью Node.js

Мне нужно разобрать (на стороне сервера) большое количество HTML-страниц. Мы все согласны с тем, что regexp - это не путь сюда. Мне кажется, что javascript - это родной способ разбора HTML-страницы, но это предположение зависит от кода на стороне се...
задан 10 сент. '11 в 19:18
29
ответов

Можете ли вы привести примеры анализа HTML?

Как вы анализируете HTML с различными языками и анализируете библиотеки? При ответе: Отдельные комментарии будут связаны с ответами на вопросы о том, как анализировать HTML с регулярными выражениями как способ показать правильный способ сделать что...
задан 21 апр. '09 в 18:55
8
ответов

Как извлечь строку после шаблона с помощью GREP, REGEX или PERL

У меня есть файл, который выглядит примерно так: <table name="content_analyzer" primary-key="id"> <type="global" /> </table> <table name="content_analyzer2" primary-key="id"> <type="global" /> </table> <tab...
задан 22 февр. '11 в 19:34
0
ответов

Как анализировать HTML с помощью PHP?

Возможный дубликат: Как анализировать и обрабатывать HTML с помощью PHP? Предложение для справочного вопроса. У есть десятки вопросов "Как разобрать HTML", которые появляются каждый день. Тем не менее, это очень сложно закрыть как дубликат,...
задан 06 сент. '10 в 11:51