MassArticleParser Профессиональный парсер для массового парсинга сайтов
Главная • По всем вопросам пишите на JakoKruzo@mail.ru
Купить Инструкция Настройки Скриптинг Как сделать

MassArticleParser - парсер контента с гибкими настройками и встроенным языком программирования, что даёт широкие возможности для профессионалов, а автоматическое нахождение статьи позволяет парсить почти любые сайты даже новичкам без навыков программирования. За 2 года интенсивного использования множеством веб-мастеров парсер обкатан и доработан для решения самых разнообразных задач парсинга сайтов.

парсер контента

Привет! Я, JakoKruzo, уже более 15 лет занимаюсь созданием и оптимизацией сайтов, пишу программы для заработка на сайтах. Многие знают меня как автора одного из самых популярных генератора сайтов - JakoDorgen. Сбор контента для меня всегда был важной и трудоёмкой задачей, особенно когда я только начинал свою профессиональную деятельность в SEO. Я долго пользовался самописными простенькими скриптами для парсинга, но они не позволяли качественно парсить контент в промышленных масштабах. Достойных парсеров других программистов я так и не нашёл, поэтому решил написать такой парсер, который удовлетворял бы всем моим требованиям.

Я позиционирую MassArticleParser как парсер для массового парсинга сайтов, но это не ещё один примитивный краулер с 90% мусора на выходе. При разработке парсера самым главным для меня было - чистота статей. MassArticleParser позволяет сразу получать статьи в виде, готовом для дальнейшего постинга на "белые" сайты. А при использовании встроенного языка программирования можно сразу отправлять статьи на сайты, даже не сохраняя их на диск. При желании можно налету переводить статьи на другой язык через http-запросы на сторонние сервисы.

лучший парсер сайтов

Автоматический парсинг статей и возможность писать свои скрипты для обработки результатов парсинга - то, что ставит MassArticleParser на несколько ступеней выше любых других программ для парсинга сайтов. Я считаю мой парсер самой полезной из всех моих программ для веб-мастеров, и получаю подтверждения её высокой эффективности от пользователей со всего мира.


"Приобрёл вчера данный парсер, всё отлично парсит в каком надо формате. Пробовал разные языки, текст чистый, если что и остается можно настроить через настройки, короче то что надо."

  igoreff

  Mrtrick

"Производительность парсера навысоте, паршу в 35 потоков на процессоре e5 2660 v2 Потребление озу 3 GB, процессора не более 40%, думаю и 50 потоков можно зарядить. Текстовка на выходе чистая, без мусора, чистый текст. В этом месяце вышло нужное обновление, теперь скриптинг добавил гибкость парсеру. Разработчик отзывчивый, оперативно отвечает на почту и помог написать скрипты по моей просьбе, собственно в этом топике он их опубликовал. Продукт стоит своих денег на 100%."

"Been testing the software out now. I like how its able to detect the content that you want and save that, does a much better job than other tools I have tried." (Richard Blackburn)

В ролике показывается парсинг случайных сайтов с настройками по умолчанию.

Парсер позволяет сохранять статьи со всеми изображениями, таблицами и другими элементами. Можно включить скачивание файлов изображений, чтобы в статьях были не хотлинки, а локальные файлы. Есть режимы сохранения только текста, либо только изображений. Настройки позволяют задавать, какие теги и их атрибуты оставлять, а какие нет.

65-70% статей успешно парсятся с настройками по умолчанию. Парсер автоматически определяет начало и конец статьи. Границы статьи можно задать и вручную, либо можно указать html-блок, из которого брать контент.


Парсер не выполняет JavaScript на страницах, поэтому он не парсит сайты с защитой от парсинга, а также сайты, на которых контент выводится (подгружается) скриптами (AJAX и т.п.).

Основное предназначение MassArticleParser-а - парсинг статей, т.е. контент преимущественно из текста, сгруппированный в одном месте страницы. Но можно парсить и другие виды контента с более сложным расположением, используя встроенный язык (скриптинг).



© 2020 MassArticleParser.com