Ошибка загрузки таймаут загрузки страницы datacol

В предыдущих видео мы освоили принципы настройки программы. Теперь мы покажем как действовать в случаях, когда созданная настройка работает не так, как хотелось бы. Настоятельно рекомендуем просмотреть видео ОТ НАЧАЛА И ДО КОНЦА! Для тех, кто вечно спешит))), под видео приведены ссылки на его отдельные части, касающиеся специфических моментов диагностики.

Настроили кампанию, а она работает некорректно или вообще не запускается? Посмотрев данное видео вы сможете быстро найти и исправить ошибку в настройке.

Для начала разберемся, в каких случаях кампания работает некорректно. Во-первых, о некорректной работе говорит отсутствие результатов сбора данных после завершения работы кампании. Кроме того, если результатов нет в течение 2-3 минут (даже если кампания еще выполняется), это также чаще всего свидетельствует о некорректной настройке. Напомним, результаты работы кампании отображаются в соответствующей панели после ее запуска. Первые результаты появляются в тот же момент, когда программа их находит.

Как видим, предварительно можно сделать вывод, что кампания работает корректно, ведь результаты появились.
Во-вторых, об ошибках настройки свидетельствует слишком малое количество результатов, по крайней мере, меньше того, которое мы ожидали собрать. Однако этот критерий относителен, ведь в интерфейсе программы по умолчанию отображаются только первые 50 найденных результатов. В полном объеме данные доступны после экспорта в файл, CMS или базу данных. Данное ограничение можно изменить в настройках кампании.

Также, стоит помнить, что демо версия программы собирается не более 25 результатов.
В-третьих, одно или несколько полей данных могут вообще не собираться. Это видно по пустым колонкам в таблице результатов.

Обратите внимание, что это актуально только если вся колонка пустая (то есть значение не найдено ни на одной странице). Это можно проверить применив разные виды сортировки к таблице. Если же нашлось хотя бы несколько групп данных с заполненным значением поля, то это обычно значит, что: либо, поле данных доступно не на всех страницах, либо на разных страницах оно должно получаться с помощью разных сигнатур, либо подобранные сигнатуры можно сделать более универсальными, чтобы значение поля находилось везде, где оно есть. Под сигнатурами здесь подразумеваются xpath или регулярные выражения.

Четвертый случай — это отсутствие выгруженных в соответствии с настройками экспорта результатов работы кампании. Имеется в виду, что результаты получены (то есть видны в панели результатов), однако не сохранены в файл, CMS или базу данных.

Теперь мы покажем как действовать в каждом из вышеописанных случаев, чтобы определить в чем конкретно заключается проблема, а также решить ее либо наметить направление решения.

Есть один универсальный прием, который стоит попробовать перед исследованием любых проблем, кроме тех, которые касаются экспорта собранных данных. Нужно заменить стандартный загрузчик на браузер. Суть в том, что изначально настройка кампании осуществляется с помощью мастера, в которым вебстраницы грузятся именно браузером, а не встроенным загрузчиком Datacol. Поэтому, если для работы, из соображений скорости обработки, все же выбран стандартный загрузчик, могут возникать непредвиденные ситуации. Они объясняются тем, что встроенный загрузчик и браузер, грузят страницы и формируются DOM модель по разному. Для примера данная кампания. Запускаем и видим, что кампания быстро завершается, при этом не собрав данных вообще. Установим браузер в качестве загрузчика. Проверяем. Теперь все нормально. Обратите внимание, если в качестве загрузчика используется плагин, то данный шаг можно пропустить, поскольку в таких случаях он обычно не дает результата.

Если установка браузера в качестве загрузчика не помогла решить проблему, то можно вернуть начальные настройки.

Теперь рассмотрим первые 2 случая, в частности, когда данные вообще не найдены, либо их найдено слишком мало. Здесь стоит начать с изучения логов. Практически всегда логи позволяют определить причину неполадки. Рассмотрим это на нескольких примерах. Запустим настройку. Кампания завершилась без результатов. Просмотрим ее логи.

Обратите внимание, что по умолчанию отображаются все типы лог-сообщений, независимо от их смысла или важности. Для удобства просмотра лога можно включить или выключить отображение тех или иных сообщений. Однако мы рекомендуем это делать только тогда, когда вы научитесь работать с логами и будете хорошо понимать, какие сообщения вам нужны в тот или иной момент.

Видим, что проблема заключается в превышении таймаута загрузки страницы. Попытаемся исправить проблему, увеличив максимально допустимый таймаут загрузки. Запустим кампанию.

Теперь результаты появляются и все отрабатывает как надо. Заметим, что если после увеличения таймаута хотя бы до 20-30 секунд проблема остается, то чаще всего сайт либо висит, либо заблокировал нас. Это можно проверить открыв страницу сайта в обычном браузере на нашем компьютере. Помимо того, ошибки загрузки могут возникать в сценарии браузера. Об их диагностике и исправлении мы поговорим в дальнейших видео.

Рассмотрим еще один пример. Опять же, кампания завершилась, а результатов нет. Откроем лог. В нем мы видим, что в самом начале работы на исходной странице, ссылок не найдено. Соответственно Datacol остановил свою работу, поскольку в очередь не было добавлено новых страниц для обработки. Для начала стоит проверить, а есть ли они вообще на странице. Чтобы это сделать, откроем страницу в нашем браузере по умолчанию. Это можно сделать кликнув по ссылке левой кнопкой мыши.

Видим, что ссылки на посты, а также ссылки пагинации присутствуют. Значит проблема скорее всего заключается в некорректно заданных правилах сбора ссылок. В большинстве случаев подкорректировать настройки сбора ссылок можно с помощью пикера. Задано 2 xpath выражения, однако найденных соответствий нет. Некорректные xpath выражения можно удалить. Теперь подберем новые, корректные. Принципы подбора Xpath для сбора ссылок были изложены в первых видеоинструкциях. Сохраняем подобранные сигнатуры. Запускаем кампанию для теста. Теперь результаты появляются и все отрабатывает как надо.

Рассмотрим другой пример. Видим, что поле “регион работы” не собирается. Опять же, перед тем как грешить на настройку, проверим наличие информации на самом исходном сайте. Данные присутствуют, поэтому ищем проблему в настройке.

Наиболее вероятная причина — некорректно настроенные сигнатуры сбора данных, то есть xpath или регулярные выражения. Предварительно для корректировки можно воспользоваться Picker-ом. Кликнем дважды левой кнопкой на поле данных, чтобы открыть пикер в режиме подбора сигнатур для полей данных.

Вариант xpath задан, однако найденных соответствий нет. Тогда кликаем на нужных данных, чтобы автоматически подобрать новый xpath и подкорректировать ранее созданный. Все получилось. Сохраняем. Перезапускаем кампанию.

Так нам удалось подкорректировать сбор данных. Следует отметить, что иногда проблемы сбора данных найти и исправить не так просто. Иногда для их решения нужно проводить более тщательное тестирование. Об этом мы расскажем в дальнейших видео.

Сейчас мы только упомянем, что если пустым оказывается поле с изображением, которое мы загружаем на локальный компьютер, то первым делом стоит проверить включен ли режим сохранения тегов, а уже потом переходить к другим мероприятиям. Например протестируем кампанию. Видим, что поле фото пустое. Проверим включено ли сохранение тегов. Оно выключено. Включим его. Протестируем повторно. Теперь все работает корректно. Более подробно о диагностике проблем сохранения изображений мы поговорим в дальнейших видео.

Рассмотрим случай отсутствия выгруженных в соответствии с настройками экспорта результатов работы кампании. Напомним, при настройке с помощью мастера собранные данные по умолчанию должны выгружаться в Excel файл, который генерируется после окончания работы кампании в папке Мои документы. Имя файла по умолчанию соответствует названию кампании. Заметим, что при наличии результатов сбора данных файл должен генерироваться внезависимости от того завершилась ли кампания сама, либо была остановлена пользователем. Однако настройки сохранения можно переопределить. В дереве быстрой настройки видно, какие форматы экспорта используются в настройке.

Чаще всего, ошибки экспорта видны в логе. Кампания завершилась, перейдем в Мои документы. Файла с экспортом здесь нет. Посмотрим лог работы кампании. Перейдем в конец лога, ведь экспорт обычно осуществляется в конце работы. Здесь мы находим описание ошибки экспорта. Видимо она произошла из за того, что на компьютере нет директории, в которую настроено сохранение. Исправим это. Можно выбрать определенную папку для сохранения, а можно оставить путь пустой строкой. В последнем случае, сохранение будет осуществляться в папку Мои документы. Сохраним и протестируем. Теперь файл сохранился.

Более продвинутые методы диагностики и исправления ошибок работы кампаний будут приведены в дальнейших видео.

Добрый день. Вопрос к знатокам Datacol.
Ссылок 219, но результаттов меньше 200 возвращается в таблицу.
В случае если товара нет я сделал поле данных «Отсутствует?» но оно не помогло особо.

Надо чтобы в любом случае возвращались все 219 результатов, даже если некоторые страницы не загрузились или ошибки по ним.
Как то можно это сделать?
Спасибо

Файл кампании: https://yadi.sk/d/yQaLV8vI3NMuTT


  • Вопрос задан

    более трёх лет назад

  • 789 просмотров

Пригласить эксперта

Нужно смотреть ЛОГ файл. В основном это может быть 3 причины
1 — какое-то из обязательных полей не найдено
2 — ошибки в загрузки страниц
3 — не корректный xpath или регулярка


  • Показать ещё
    Загружается…

13 июн. 2023, в 21:59

2000 руб./за проект

13 июн. 2023, в 20:23

5000 руб./за проект

13 июн. 2023, в 20:17

3000 руб./за проект

Минуточку внимания

Cases, Datacol, FAQ

Проблемы со сбором ссылок

Две самые основные проблемы сбора ссылок в Датакол:

  1. Наличие пробела в ссылке
  2. Не корректная относительная пагинация

1. Наличие пробелов в УРЛ у меня как-то само собой не укладывается в голове и видеть их не привычно. Хотя сейчас это часто встречается. Но выглядит далеко не эстетично)) У СЕОШников это уж точно вызовет недоумение.
Для сбора ссылок Datacol использует регулярное выражение, в качестве шаблона

<a[^>]+hrefs*=s*["']{0,1}([^s"'>]+)["'s>]+

Это можно узнать из справки. И в этой регулярке нет места пробелу, точнее он исключен оттуда

[^s"'>]

поэтому если ссылки с пробелами — то он их не находит по-умолчанию.

Чтобы собрать такие URL пропишем исправленную регулярку

<a[^>]+hrefs*=s*["']{0,1}([^"'>]+)["'s>]+

Для этого перейдем во вкладку «Навигация» и далее «Продвинутые» и внесем этот regexp в «Строки соответствия ссылки»

Datacol - Наличие пробела в ссылке

2. Встречаются сайты, где URL делают относительными, т.е в начале УРЛ не ставят /, например

<a href="catalog/product-1.html">ссылка</a>

а правильно было бы так

<a href="/catalog/product-1.html">ссылка</a>

Часто такое попадается в ссылках пагинации и тогда Датакол впадает в бесконечный цикл и если посмотреть ЛОГ файл то увидим примерно такую картину:

  • http://site1.com/catalog/page-name?page1
  • http://site1.com/catalog/page-name?page1?page1
  • http://site1.com/catalog/page-name?page1?page1?page1
  • http://site1.com/catalog/page-name?page1?page1?page1?page1

и так будет бесконечно и парсинг у Вас встанет на месте.

Для таких целей можно использовать динамический плагин для относительных ссылок. Но зачастую, если это не случай из примера плагина — то пользователям тяжело его адаптировать под себя.

Есть очень простой вариант, сделать одну замену (regexp) при загрузке. Для этого перейдем во вкладку «Загрузка» — «Замены»:

href="([^/]) на href="/$1

Датакол - Не корректная относительная пагинация

Вот и все. В 99% это поможет Вам, без использования плагинов.

Written by Администратор
in 12.10.2018
/ 3875 Wiews

  • #121

Кинул в профиль. Посмотрите что можно сделать, чтобы он все категории парсил. Ну или хотя бы категории по очереди можно было менять.

При парсинге шел конфликт относительных ссылок, и их структура дублировалась, поэтому ты парсил не существующие страницы категорий и соответственно там нет товаров.
Исправленный проект в личке смотри

  • #122

Это плагин для парсинга данных где ajax загрузка есть?

Для просмотра ссылки Войди или Зарегистрируйся – плагин загрузки страницы с помощью браузера Chrome с поддержкой Javascript (бесплатный плагин)

  • #123

П

Огромное спасибо. А не подскажете, как при этом забрать те картинки, которые в миниатюрах под основной? (типа слайды в галерее)
Для просмотра ссылки Войди или Зарегистрируйся

о идее //td[@class=»pimages»] это для парсинга всех изображений, большого и маленьких снизу, нажми сохранять теги и в заменах маленькие изображения сделай большими и удали лишнее. Если не получиться скинь компанию

  • #124

Друзья, а нет ли у кого настройки datacol для парсинга yell.ru

killoff


  • Модер.
  • #125

Ни у кого не было что парсер проходит не по всем нужным ссылкам? Даю ему диапазон страниц по ID, например от 0 до 10…, в итоге из этих 10 может спарсить только 5-7 страниц, хотя по коду и остальные 3-5 страниц идентичны спарсенным.
PS версия

5.54 Cracked by ..::CyberGod::..

(с какого источника качал уже не помню точно, и парсил большее количество информации, думал что всё хорошо, а оказывается что-то не то. Или может у кого есть версия 100% рабочая нуленная?

  • #126

Ни у кого не было что парсер проходит не по всем нужным ссылкам? Даю ему диапазон страниц по ID, например от 0 до 10…, в итоге из этих 10 может спарсить только 5-7 страниц, хотя по коду и остальные 3-5 страниц идентичны спарсенным.
PS версия

5.54 Cracked by ..::CyberGod::..

(с какого источника качал уже не помню точно, и парсил большее количество информации, думал что всё хорошо, а оказывается что-то не то. Или может у кого есть версия 100% рабочая нуленная?

Посмотрите логи, в чем проблема обычно кроется там, либо «ошибка загрузки страницы» и надо колдовать с кол-вом потоков и таймаутом между обработки n-страниц, либо «на странице не найдены области», тогда смотрите ссылку что за страница и ройте в сторону более корректных настроек регулярок (или xpath в зависимости что у вас).

killoff


  • Модер.
  • #127

Посмотрите логи, в чем проблема обычно кроется там, либо «ошибка загрузки страницы» и надо колдовать с кол-вом потоков и таймаутом между обработки n-страниц, либо «на странице не найдены области», тогда смотрите ссылку что за страница и ройте в сторону более корректных настроек регулярок (или xpath в зависимости что у вас).

действительно после получаса перебора разных вариантов один рабочий оказался, хотя все данные что через регулярку что через xpath на странице повторяются только раз, и по сути выцепить эти данные прога должна без проблем, но что то где-то глючит.

Кстати, напарсил фришных проксей, проверял их для конкретного сайта, а когда ставлю их в парсер — парсинг не работает, и из 10-100 нужных страниц может записать данные только одной случайной страницы… Тут уже явная проблема с проксями или тоже в настройках ещё что то может где-то быть? :dead::at:

  • #128

Друзья, приветствую!

Может кто парсил это чудо уже Для просмотра ссылки Войди или Зарегистрируйся ?
Подскажите как?
Я что то голову сломал уже……………..

p.s.
«5.54 Cracked by ..::CyberGod::..» — нормальная рабочая версия… по крайней мере у меня всё ОК с несколькими магазинами на ура работала!)

  • #129

5.54 Cracked by ..::CyberGod:: — с гугла у меня парсится сайты, а вот не сохраняются.

  • #130

Друзья, приветствую!

Может кто парсил это чудо уже Для просмотра ссылки Войди или Зарегистрируйся ?
Подскажите как?
Я что то голову сломал уже……………..

А что там не так? Опишите что делали, что не получается, попробую помочь.

This topic has been deleted. Only users with topic management privileges can see it.

  • При загрузке через BAS https://biznesi.su/, возникает ошибка, при этом код ответа сервера 200, и сайт все таки загружается.
    Кто нибудь сможет пояснить почему так?

  • А подробнее?
    Скрипт проверяет статус ответа 200, но в басе ошибка.

  • @qool89 said in Ошибка загрузки страницы:

    А подробнее?
    Скрипт проверяет статус ответа 200, но в басе ошибка.

    Проверь Таймаут — Может не успевает полностью загрузиться страница, поэтому и ошибка. Увеличь Таймаут до 180 сек
    86f34c78-2ad9-491e-9584-355cb1e2ce80-image.png

  • @Kingstreet06 вы сами пробовали открывать?
    страница грузится очень быстро, но на первых же секундах вылазит ошибка.
    Там много javascript. разбираться мне лень.

  • @tet-vivi said in Ошибка загрузки страницы:

    @Kingstreet06 вы сами пробовали открывать?
    страница грузится очень быстро, но на первых же секундах вылазит ошибка.
    Там много javascript. разбираться мне лень.

    Добавьте в блок игнорирования ошибок.
    У меня почему-то все нормально, блок Was Error не срабатывает.

  • @Kingstreet06 на текущей и на старых версия ошибка.
    Таймаут 180 сек тоже не помогает.

  • @tet-vivi
    Попробовал с отпечатками, с 1-ым отпечатком возникла ошибка после 3 секунд действия загрузить. Проверил еще 2 отпечатка — там прошло без ошибок.
    061e7c30-a96f-40a0-9d09-a78edb7617a8-image.png

  • @qool89 Ожидание загрузки не на всех сайтах работает корректно, вместо него может использовать ожидание элемента, который должен быть на сайте.

  • @UserTrue said in Ошибка загрузки страницы:

    @qool89 Ожидание загрузки не на всех сайтах работает корректно, вместо него может использовать ожидание элемента, который должен быть на сайте.

    Оно тоже не работает нормально. Элемент может и появиться, но кликать по странице нельзя будет, т.к не закончилась полная загрузка.
    Таких проблем не возникает если у тебя мега со скоростью 100+

  • @FastSpace said in Ошибка загрузки страницы:

    Таких проблем не возникает если у тебя мега со скоростью 100+

    Это не из-за скорости ни разу. А то, что страница прогрузилась и не кликает говорит о том, что скорей всего не загрузился какой-то js скрипт, но на нормальных прокси такое случается редко так, что можно не брать во внимание.

  • @UserTrue said in Ошибка загрузки страницы:

    @FastSpace said in Ошибка загрузки страницы:

    Таких проблем не возникает если у тебя мега со скоростью 100+

    Это не из-за скорости ни разу. А то, что страница прогрузилась и не кликает говорит о том, что скорей всего не загрузился какой-то js скрипт, но на нормальных прокси такое случается редко так, что можно не брать во внимание.

    У меня на это глубокая кастомная проверка, сделал еще когда скорость была низкая моих прокси.

  • Всем спасибо!
    разобрался, сайт хитрый, сначала загружается страница с js.
    index.txt

  • А после релоуд, из за этого похоже и ошибка.

  • @UserTrue said in Ошибка загрузки страницы:

    @qool89 Ожидание загрузки не на всех сайтах работает корректно, вместо него может использовать ожидание элемента, который должен быть на сайте.

    @UserTrue, подскажите, пожалуйста.
    Ориентироваться на закрывающий html или body это хорошая или плохая идея?

  • @UserTrue спасибо. спрошу тут чтобы не плодить темы.
    Я верно понимаю, то что код документа прогрузился до конца (например, по коду определили наличие </html> ) это вовсе не значит что счетчик liveinternet зачел переход? нужно чтобы он «отработал» да?

Понравилась статья? Поделить с друзьями:
  • Ошибка загрузки файла при установке виндовс
  • Ошибка загрузки таблицы стилей произошла неизвестная ошибка 805303f4 mozilla
  • Ошибка загрузки файла повторите позже
  • Ошибка загрузки таблицы стилей ошибка разбора таблицы стилей xslt
  • Ошибка загрузки файла на телефон