| 
    
            
         
         | 
    
    
  | 
Размышления о Парсинге, как таковом | ☑ | ||
|---|---|---|---|---|
| 
    0
    
        Сниф    
     21.05.14 
            ✎
    04:00 
 | 
         
        Привет, коллеги. Сразу хочу сказать - цель данного топика - выявить людей, которые так же, как я, интересуются этим вопросом.
 
        Что такое Парсинг (сайтов) - наверное, можно прочитать в интернете. В моем понимании Парсинг - превращение общедоступной информации, размещенной в интернете, в информацию структурированную, которая может быть разложена "по полочкам" в базе данных. Некоторые источники (сайты)абсолютно не против, что их информация будет кем-то структурирована. Другие сайты, наоборот, противятся всяким попыткам их информацию получить в том количестве, которое они готовы отдавать. В качестве примера сайта, который яростно борется за выдачу информации небольшими порциями, лучше всего представить Яндекс-маркет. (http://market.yandex.ru) PS так как формат mista.ru не предусматривает статей, буду писать блоками. Следующий блок - Защита Яндекс vs Индусы  | 
|||
| 
    1
    
        Сниф    
     21.05.14 
            ✎
    04:14 
 | 
         
        Блок№2 Защита Яндекс vs Индусы
 
        Яндекс защищается от Парсинга следующим образом: когда он чувствует, что его парсят (используют), он выдает капчу - картнику с русскоязычными буквами, которые надо распознать и ввести в поле. Некие хитрые люди организовали бизнес, который называется Antigate. Суть в том, что картинка от Яндекс (или другого сервиса, например Google) посылается на сервис Antigate, где живые люди, в основном индусы, за 1 цент читают картинку и шлют обратно ответ. Одновременно ( позже я покажу график) в системе Antigate работают примерно 800 индусов одновременно и ваша капча будет разгадана.  | 
|||
| 
    2
    
        alexexe    
     21.05.14 
            ✎
    04:22 
 | 
         
        Допустим Гугл создал уже алгоритм, распознающий свою капчу, возможно скоро индусы напишут алгоритмы, распознающие капчи Яндекса
 
        "Сегодня команда проекта Google Street View опубликовала интересную новость. Дело в том, что разработчики сервиса создали новый алгоритм распознавания изображений, для того, чтобы с бОльшей точностью распознавать номера домов и названия улиц, сфотографированные автомобилями Google. И этот алгоритм оказался весьма эффективным в другом деле — в распознавании CAPTCHA. Причем капчу от Google собственный алгоритм компании распознает с небывалой эффективностью — 99,8%. Это значительно лучший результат, чем показывает даже человек. Сами знаете, сколько раз порой нужно набрать символы капчи, прежде чем система признает их верно распознанными."  | 
|||
| 
    3
    
        Сниф    
     21.05.14 
            ✎
    04:31 
 | 
         
        Блок№3
 
        Способы парсинга Я бы разделил их на две большие подгрупы: с интерфейсом визуальным и с программным интерфейсом. Насколько я провел исследования, в первой группе лидирует и самый дорогой продукт Human Emulator. Сейчас его стоимость на одну ашину составляет 400-500$. Там рулит PHP. У меня есть его старая версия: явные минусы - он основан на IE и не поддерживает современные сайты.  | 
|||
| 
    4
    
        miron25    
     21.05.14 
            ✎
    04:32 
 | 
         
        (0)1сом все хорошо парситься..Напиши авито парсинг...люди готовы покупать за несколько тыщ рублей,причем не мало людей.А так как авито часто меняет защиту сайта от парсинга ..забросишь одинесить...     
         | 
|||
| 
    5
    
        miron25    
     21.05.14 
            ✎
    04:38 
 | 
         
        (1)Дело не только в индусах и капчах..Например и он не единственный Если с одного айпи идет скан так сказать всех страниц,то тебя сразу блокирнут ,чтоб не парсил.На авито всех интересует номер телефона..А вот номер в картинках..Напиши как там файн ридер свой?     
         | 
|||
| 
    6
    
        miron25    
     21.05.14 
            ✎
    04:41 
 | 
         
        Недавно ж вроде..был сайт копия мисты ,галакси чтоль назывался.Тот в реальном времени вроде пи..л.В поисковик стал хорошо залетать..     
         | 
|||
| 
    7
    
        Сниф    
     21.05.14 
            ✎
    04:42 
 | 
         
        (4) ага, больше бы таких людей.
 
        Мой последний успешный результат: FireFox+iMacros+javascript  | 
|||
| 
    8
    
        miron25    
     21.05.14 
            ✎
    04:44 
 | 
         
        (2)Капчи разные бывают,пока картинки..На многих сайтах уже собери пазл,распредели по категориям,девичья фамилия матери ..и т.д..     
         | 
|||
| 
    9
    
        Сниф    
     21.05.14 
            ✎
    04:45 
 | 
         
        miron25
 
        пиши мне в почту, пока тему не закрыли  | 
|||
| 
    10
    
        Сниф    
     21.05.14 
            ✎
    11:11 
 | 
         
        Апну с единственной целью: найти родственную душу по Ботоводству и Парсингу.     
         | 
| Форум | Правила | Описание | Объявления | Секции | Поиск | Книга знаний | Вики-миста |