На сайт добавлен генератор текста

Всем привет!

Пару месяцев назад у меня появилась идея запилить штук 200 сайтов с уникальным текстом, на них разместить ссылки на свой сайт, проиндексировать и получить ссылочную массу)) Ну так лет 15 назад делали, а так как история циклична, то почему б не вернуться? Такой вот эксперимент.

Писать уникальные тексты для 200 сайтов сложно, долго и дорого, и цель уж точно не оправдает затрат, так что самое очевидное решение - нагенерить всякого шизофренического автоматически, и выложить для индексации. Прокатит, так прокатит, нет так нет ©


Спойлер: прокатило )

Полазил, поискал готовые решения для генерации текстов - меня мало что устроило.

1. Треть сводится к тому, что нажми на кнопку получи результат заранее подготовленный автором текст;

2. Треть к тому что вот есть шаблон давайте подставлять в него синонимы либо заменять прилагательные, (делая предложения фиксированного размера и особо не изменяя положение слов в тексте - сохраняя Манхеттенское расстояние)

3. Треть к цепям Маркова, которые а) сложны б) дают бредовый результат в) уже лет 10 как успешно палятся поисковыми системами.

Для себя задачу я ставил так: я должен иметь возможность скормить генератору подобранный мною текст на заданную тематику (например, сборник статей и политических анализов о Трампе из разных источников). Генератор должен сформировать текст, в котором есть заголовки разных уровней, параграфы, предложения разной длины. 
Должен соблюдаться некий ритм текста - чередование длинных и коротких предложений, и каждое предложение в целом должно соответствовать правилам русского языка. 

Решение состоит в том, что бы обучить генератор на примере входящего текста, и по этим знаниям сформировать новый.

При поступлении текста генератор разбирает его на токены, и запоминает, какие слова обычно идут в начале предложения, какие в конце, какое слово чаще идет после данного, какое реже. В общем, строит этакое дерево последовательностей. После этого берет случайные первые слова, дополняет одним из слов, которые обычно за ним идут, то же самое делает со вторым словом, потом с третьим и так далее, пока не встретится последнее слово.

Соответственно, чем больше текста будет скормлено, и чем лучше соблюдена тематика, тем лучше будет результат. 

И вот, чем закончилась история про 200 сайтов: я изначально колебался, что лучше сделать - просто выкладывать сгенеренный HTML либо использовать какой-то готовый движок. В итоге подумал о том, что поисковые системы любят движки (сам не знаю, откуда такие мысли), развернул скриптом 200 сайтов на Worpdress, внес нужные изменения в Nginx, и настроил генератор на постинг одной-двух статей в день на каждый из сайтов.  

Через месяц обратил внимание, что сайты проиндексировались как гуглом, так и яндексом, а в панели вебмастера засветились входящие ссылки с этих ресурсов. Работает (с)

Так же некисло выросла нагрузка на сервер - чо за фигня думаю? Полез - и нашел неучтенный момент. Wordpress это же цель номер 1 для скрипт-кидди, хрумеров и прочего. Я сейчас уже не помню, во сколько там потоков подбирали потоки и сканили уязвимости, но тогда я офигел ) Сайт трещал по швам, плодились подключения изо всех, наверное, стран мира, какая то лютая вакханалия творилась :)

Запретил всё нафиг в Nginx, нагрузка упала, а потом я домены на кое-что другое приспособил, а сайты снес, ибо дорвеи - это не моё ;)

Но раз уж код написан, должен же им кто-то пользоваться? Рабочий механизм размещен в новом разделе сайта - генераторе текстов. Просто вбиваете текст какой-нибудь статьи (а лучше, нескольких статей), ждете пару секунд, и смотрите результат внизу страницы. Если не понравилось или надо больше - жмете еще раз на кнопку, и получаете новый текст.

 

Последнее изменение:



Комментарии
Пожалуйста, авторизуйтесь, что бы оставить свой комментарий