Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Автоматизация поиска в интернете
Диалог специалистов АВОК > ГОСТЕВАЯ КНИГА АВОК > Беседка > Территория свободного общения
Доктор ТуамОсес
Какие требования к таким программам:
1. Программа должна уметь посылать последовательно поисковые запросы юзверя из некоторого заданного юзверем списка последовательно на несколько ЗАДАННЫХ ЮЗВЕРЕМ поисковиков
2.Какие поисковики использовать должно задаваться юзверем. И чтобы юзверь мог добавить в список любой понравившийся ему интернет-поисковик
3.Глубина поиска (сколько страниц выдачи и какие конкретно номера страниц принимать во внимание) должно для каждого поисковика задаваться юзверем
4.Программа должна уметь объединять результаты выдачи с разных поисковиков в одну результирующую выдачу
5.Программа должна уметь не показывать в результирующей выдаче сниппеты-клоны. Правила, по которым сниппеты считаются клонами, должны задаваться юзверем
6.Программа должна уметь объединять сниппеты, имеющие одну и ту же главную ссылку, но разный текст, в один сниппет.
7.Программа должна уметь не показывать в результирующей выдаче сниппеты, которые удовлетворяют какой-нибудь строке (или правилу) "черного списка"
8.Все сниппеты должны сохраняться в специальную базу данных из которой в любой момент можно сгенерировать выдачу по следующим атрибутам (причём можно выбирать сниппеты задействуя сразу несколько атрибутов строя из них логические выражения):
8.а) Порядковый номер поискового задания (например "выдать все сниппеты" полученные в 234...321 заданиях, или "выдать сниппеты последних 5-ти поисковых заданий")
8.б) Все сниппеты URL главной ссылки которых удовлетворяет спец файлу "URL-s.txt"
8.в) Все сниппеты найденные в поиске, в поисковом запросе которого содержалась/не содержалась заданная цепочка символов (цепочка определяется списком REGEXP-ов)
8.г) Все сниппеты, найденные поисковым запросом, помеченным заданными иерархическим тегами
8.д) Все сниппеты, найденные заданным поисковиком (например показывать сниппеты, найденные только яндексом и гуглом) или только УНИКАЛЬНЫЕ сниппеты (т.е. которые нашёл только этот поисковик и не нашли другие)
8.е) Новые сниппеты (которых не было в базе данных), добавленные в базу данных в указанный промежуток времени
9.Чтобы можно (использую базу данных) смотреть разного рода статистику
9.а) Для каждой ссылки посмотреть список поисковых запросов при которых был найдена данная ссылка и какими поисковиками
9.б) Для каждого поисковика посмотреть ЭФФЕКТИВНОСТЬ поисковика, т.е. сколько уникальных ссылок он выдал в поисковых заданиях с заданными номерами или в поисковых заданиях, обновленных в заданный промежуток времени


Теперь о терминах
1) Под "сниппетом" я понимаю информацию о ссылке, которую выдаёт поисковик. Т.е. это как бы минимальный кубик информации, который будет сохранятся в базу данных. При этом при сохранении в базу данных к нему будут добавлены другие поля (типа, каким поисковиком был найден, каким поисковым заданием, когда и т.п.)


2) Под "поисковым заданием" я понимаю некий блок данных (возможно хранимый как отдельный файл) в котором юзверь определяет список поисковых запросов и то на какие поисковики их посылать и на какую глубину искать.

Т.е. типа что-то в таком духе:
Цитата
1.Искать: мама папа я спортивная семья
1.1 в гугле на страницах: 1,2,4, 45, 56
1.2 в яндексе на страницах:1,2,...,7,12
+ Добавлять в результирующую выдачу только сниппеты, удовлетворяющие списку правил E:\Белые списки\Здоровье.txt
- Исключить из результирующей выдачи сниппеты, удовлетворяющие списку правил E:\Черные списки\Всякий рекламный мусор.txt
-----------------------------------------------
2.Искать: я /+1 ("у мамы") /(+1 +2) (дурачок | простачок)
2.1.в яндексе на страницах 1,...,4
+ Добавлять в результирующую выдачу только сниппеты, удовлетворяющие списку правил E:\Белые списки\Про психов.txt
- Исключить из результирующей выдачи сниппеты, удовлетворяющие списку правил E:\Черные списки\Это я уже читал.txt


Т.е. поисковое задание это как бы план работ по поиску и отбору нужной информации:"Найди это там, потом найди то здесь и ...."
Таким образом можно дать проге задание и пойти пить чай пока она ищет, сортирует, выделяет, удаляет.
Вместо того, чтобы вручную набивать поисковые запросы в разные поисковики, вручную определять дубли.

А потом, поисковое задание сохраняется. И всегда можно его запустить по новой и посмотреть "а не появилось ли чего нового по данной тематике?" Т.е. посмотреть только новые сниппеты, которых ещё не было в базе данных


я знаю только одну программу, которую хоть в какой-то степени удовлетворяет описанным выше требованиям.
Это FileForFiles (бывш. SiteSpunik).
Если Вы знаете ещё программы с подобным функционалом - подскажите. Буду премного благодарен
Ostic
Не совсем понятна цель )
Писать самому под себя: $text= FileGetContent(http:// ......);$array[]= PregMatchAll($text, "/#*/#")это PHP, если удобнее, то перлом или питоном можно...
Я уж и не помню точно имена функций и обявления( давно это было, а лезть в мануалы неохото)
Те получать данные кросссайт, те вообще получать страницы, перлсовместимыми шаблонами упаковыатть в стпуктуры данных, а дальше тот же мускул умеет оперировать данными на любой вкус и цвет, сортировки и все такое.
Или что? Тиц не нужен? Я подобную фигню лет десять назад делал и меньше чем за месяц полтора миллиона посетителей, но потом глубокий пожизненый бан )) если мы об одном и том же )
Доктор ТуамОсес
Цитата(Ostic @ 5.4.2014, 17:48) *
Не совсем понятна цель )

Название темы не читали что ли?

Цитата(Ostic @ 5.4.2014, 17:48) *
Или что? Тиц не нужен? Я подобную фигню лет десять назад делал

Нет. ТИЦ не нужен

Цитата(Ostic @ 5.4.2014, 17:48) *
если мы об одном и том же )

Боюсь мы с Вами о разных вещах говорим
timmy
то есть нужен суперпоисковик, который бы искал уникальную инфу с помощью нескольких поисковых машин? Типа как поисковик от нигмы?
Доктор ТуамОсес
Цитата(timmy @ 7.4.2014, 1:46) *
то есть нужен суперпоисковик, который бы искал уникальную инфу с помощью нескольких поисковых машин? Типа как поисковик от нигмы?

Нет. Не так. Я же описал в корневом сообщении что нужно. Не читали?
Доктор ТуамОсес
Ну так чо? Кроме SiteSputnik (aka FileForFiles) таких программ больше нету что-ли?
Доктор ТуамОсес
Ведь при поиске в интернете какие самые важные проблемы:
1) Нужная информация находится среди кучи не нужной ("левой") информации
2) Повторно попадается одна и та же информация

В решении этих проблем и должна помогать программа для поиска в интернете
Kult_Ra
Цитата(Доктор ТуамОсес @ 29.4.2014, 10:32) *
Ведь при поиске в интернете какие самые важные проблемы:
1) Нужная информация находится среди кучи не нужной ("левой") информации
2) Повторно попадается одна и та же информация

В решении этих проблем и должна помогать программа для поиска в интернете
Те же самые проблемы у каждого человека возникают, когда он ищет что-то в собственной памяти. Так?
Тогда и программа поиска во всемирной сети подобна "природной" и уметь алгоритмом своим "копировать" работу "вспомнить" мозга человека. Так?

Чего там, в мозгах, нет, он того и не отыщет. Или оно есть, но утрачен "указатель" (знак, метка, тамга ..) Содержимое памяти хранится в разных "временных" просторах у человека. Всемирная сеть (паутина) уже как новая мировая религия типа «Аз, Клава и Экран». Так?
Доктор ТуамОсес
Kult_Ra
Вы уже прям в какую-то мистику ударились.
Давайте вернём разговор в практическое русло.
Вы какими СПЕЦИАЛИЗИРОВАННЫМИ программами (или быть может не программами, а расширениями/аддонами к браузерам) пользовались для автоматизации поиска в интернете?
FileForFiles (aka "SiteSputnik") щупали?
Kult_Ra
Не любитель я (аз) системы «Аз, Клава и Экран». И потому не пребываю в поиске, не ищу знаки (метки, указатели) на событиях, которые не сам ставил. Искать можно только то, что знаешь. Так? biggrin.gif
Поэтому и запрос поисковый содержит, как правило "указатель" - некие ключевые слова. Ибо невозможно в натуре принести то, не знаю что. То "новьё", что ещё не проявлено и находится (может быть ещё только для меня) в Нави. tomato.gif
Доктор ТуамОсес
Ничего не понял. Вы можете изъяснятцо яснее?
Понял только что Вы не любите сидеть за компом.
Но а куда в наше время без компа и инета?
Разве что уборщиком в сортире трудится или каким марчендайзером.
А я сторонник известной точки зрения "Кто владеет информацией - тот владеет миром".
Поэтому добывать информацию нужно маскимально эффективно.
А значит нужно использовать средства автоматизации поиска
Kult_Ra
Цитата(Доктор ТуамОсес @ 29.4.2014, 19:39) *
А я сторонник известной точки зрения "Кто владеет информацией - тот владеет миром".
Хм. Быть сторонником это ещё не значит "быть Владимиром" - надо иметь к тому внутренние цели-потребности (жажду быть во власти) да некие качества типа умение манипулировать информацией. В Интернете всего лишь "открытая" инфа - либо ложь, либо чушь, сплетни. Все остальное секретно, недоступно "сокрыто - се крыто". blink.gif

Информация тоже имеет структуру Пирамиды как и сам власть есть Пирамида.
Доктор ТуамОсес
Цитата(Kult_Ra @ 30.4.2014, 9:07) *
Хм. Быть сторонником это ещё не значит "быть Владимиром" - надо иметь к тому внутренние цели-потребности (жажду быть во власти)

А я жажду. Я хочу сотрясти эту вселенную. Стать её владыкой
Kult_Ra
Ну "хотеть" и не грех...
Хотящих всегда немерено, а вот где бы кому из желающих, жаждущих главной составляющей взять как "некие качества типа умение манипулировать информацией". smile.gif

Не у всех же хотящих "тям" есть, не все они "тямущие". Да и у каждого из нас свой дуршлаг для информации ohmy.gif

"информация" - как бы форма и её содержание. Поэтому и важна форма подачи информации. Форма привлекает внимание - внимай и вникай. Для каждого человека эта форма разнится, нет у людей универсальности восприятия, переработки (переваривания). У каждого из нас своё "избирательное внимание" к поступающим из вне сигналам. Человек там, где его внимание! Так? biggrin.gif
Доктор ТуамОсес
Kult_Ra
Давайте от досужих абстрактных рассуждений перейдём в практическое русло. Какими программами для автоматизации поиска информации Вы пользовались?
Доктор ТуамОсес
И чо молчим?
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2019 IPS, Inc.