Генератор текстов по Маркову

Alek$ вс, 30/08/2009 - 13:40

На днях решил слегка расширить сферу деятельности и поэкспериментировать с дорвеями. Естественно, встала нужда в промышленном генераторе говнотекстов. Обзор существующих инструментов привел к неудовлетворительным результатам, ибо они были либо медленные, либо феноменально неудобные.

Угадайте, что я сделал? Да, именно так. Написал свой генератор, с блекджеком и шлюхами. В результате имеем:

  • Минималистичный интерфейс.
  • Кросс-платформенность, благодаря тому, что он написан на python.
  • Поддержка словоформ (русифицированный стеммер Портера). Опционально.
  • Работает пока только с текстами в utf-8.

Тест на скорость показал следующий результат:

  • Вход: 1,8 мб, стемминг включен, процессор Core2Duo 3ГГц.
  • Выход: 150000 слов, 1,6 мб, 1 минута.

Без стемминга выходит еще быстрее, что в принципе неудивительно.

Скачать и следить за обновлениями можно на странице проекта.



Trackback URL for this post:

http://nevkontakte.org.ru/trackback/350
Злой-рок пн, 31/08/2009 - 22:37

Полезная вещица, однако.

Igosha чт, 03/09/2009 - 16:05

Проект на комерческой основе или можете дать испытать бесплатно?

Alek$ чт, 03/09/2009 - 19:51

Проект бесплатный и даже с открытыми исходниками. Ссылка на скачивание - в конце поста.

Гость вт, 13/10/2009 - 04:29

С нетерпением жду обновлений!

Alek$ вт, 13/10/2009 - 17:39

Одно уже было, будут и еще :)

валєра сб, 20/02/2010 - 19:39

Полезная тулза. Как раз искал что-то подобное на Питоне.



Отправить комментарий

  • Адреса страниц и электронной почты автоматически преобразуются в ссылки.
  • Доступны HTML теги: <a> <em> <strong> <cite> <code> <ul> <ol> <li> <dl> <dt> <dd> <img> <b> <s> <u> <p> <h3> <br> <strike> <sup> <pre> <h4> <hr>
  • Строки и параграфы переносятся автоматически.
  • You may use [inline:xx] tags to display uploaded files or images inline.
CAPTCHA
Вы точно не бот?
6 + 6 =
Without JavaScript you won't pass captcha test, sorry. Solve this simple math problem and enter the result. E.g. for 1+3, enter 4.