Реклама / ООО «ИЗОЛПРОЕКТ» / ИНН: 7725566484 | ERID: 2Vtzqx6kV7S
IPB IPB
Проектирование, монтаж, наладка, сервис


Здравствуйте, гость ( Вход | Регистрация )

- Стандарт НП «АВОК» 7.11-2024
«Рекомендации по проектированию инженерных систем
дошкольных образовательных организаций»

АВОК в соц. сетях
ИНН: 7714824045 | erid: 2VtzqwzKQiU
> Автоматизация поиска в интернете, Посоветуйте программы для автоматизации
Доктор ТуамОсес
сообщение 5.4.2014, 10:17
Сообщение #1





Группа: Banned
Сообщений: 58
Регистрация: 6.3.2014
Пользователь №: 226088



Какие требования к таким программам:
1. Программа должна уметь посылать последовательно поисковые запросы юзверя из некоторого заданного юзверем списка последовательно на несколько ЗАДАННЫХ ЮЗВЕРЕМ поисковиков
2.Какие поисковики использовать должно задаваться юзверем. И чтобы юзверь мог добавить в список любой понравившийся ему интернет-поисковик
3.Глубина поиска (сколько страниц выдачи и какие конкретно номера страниц принимать во внимание) должно для каждого поисковика задаваться юзверем
4.Программа должна уметь объединять результаты выдачи с разных поисковиков в одну результирующую выдачу
5.Программа должна уметь не показывать в результирующей выдаче сниппеты-клоны. Правила, по которым сниппеты считаются клонами, должны задаваться юзверем
6.Программа должна уметь объединять сниппеты, имеющие одну и ту же главную ссылку, но разный текст, в один сниппет.
7.Программа должна уметь не показывать в результирующей выдаче сниппеты, которые удовлетворяют какой-нибудь строке (или правилу) "черного списка"
8.Все сниппеты должны сохраняться в специальную базу данных из которой в любой момент можно сгенерировать выдачу по следующим атрибутам (причём можно выбирать сниппеты задействуя сразу несколько атрибутов строя из них логические выражения):
8.а) Порядковый номер поискового задания (например "выдать все сниппеты" полученные в 234...321 заданиях, или "выдать сниппеты последних 5-ти поисковых заданий")
8.б) Все сниппеты URL главной ссылки которых удовлетворяет спец файлу "URL-s.txt"
8.в) Все сниппеты найденные в поиске, в поисковом запросе которого содержалась/не содержалась заданная цепочка символов (цепочка определяется списком REGEXP-ов)
8.г) Все сниппеты, найденные поисковым запросом, помеченным заданными иерархическим тегами
8.д) Все сниппеты, найденные заданным поисковиком (например показывать сниппеты, найденные только яндексом и гуглом) или только УНИКАЛЬНЫЕ сниппеты (т.е. которые нашёл только этот поисковик и не нашли другие)
8.е) Новые сниппеты (которых не было в базе данных), добавленные в базу данных в указанный промежуток времени
9.Чтобы можно (использую базу данных) смотреть разного рода статистику
9.а) Для каждой ссылки посмотреть список поисковых запросов при которых был найдена данная ссылка и какими поисковиками
9.б) Для каждого поисковика посмотреть ЭФФЕКТИВНОСТЬ поисковика, т.е. сколько уникальных ссылок он выдал в поисковых заданиях с заданными номерами или в поисковых заданиях, обновленных в заданный промежуток времени


Теперь о терминах
1) Под "сниппетом" я понимаю информацию о ссылке, которую выдаёт поисковик. Т.е. это как бы минимальный кубик информации, который будет сохранятся в базу данных. При этом при сохранении в базу данных к нему будут добавлены другие поля (типа, каким поисковиком был найден, каким поисковым заданием, когда и т.п.)


2) Под "поисковым заданием" я понимаю некий блок данных (возможно хранимый как отдельный файл) в котором юзверь определяет список поисковых запросов и то на какие поисковики их посылать и на какую глубину искать.

Т.е. типа что-то в таком духе:
Цитата
1.Искать: мама папа я спортивная семья
1.1 в гугле на страницах: 1,2,4, 45, 56
1.2 в яндексе на страницах:1,2,...,7,12
+ Добавлять в результирующую выдачу только сниппеты, удовлетворяющие списку правил E:\Белые списки\Здоровье.txt
- Исключить из результирующей выдачи сниппеты, удовлетворяющие списку правил E:\Черные списки\Всякий рекламный мусор.txt
-----------------------------------------------
2.Искать: я /+1 ("у мамы") /(+1 +2) (дурачок | простачок)
2.1.в яндексе на страницах 1,...,4
+ Добавлять в результирующую выдачу только сниппеты, удовлетворяющие списку правил E:\Белые списки\Про психов.txt
- Исключить из результирующей выдачи сниппеты, удовлетворяющие списку правил E:\Черные списки\Это я уже читал.txt


Т.е. поисковое задание это как бы план работ по поиску и отбору нужной информации:"Найди это там, потом найди то здесь и ...."
Таким образом можно дать проге задание и пойти пить чай пока она ищет, сортирует, выделяет, удаляет.
Вместо того, чтобы вручную набивать поисковые запросы в разные поисковики, вручную определять дубли.

А потом, поисковое задание сохраняется. И всегда можно его запустить по новой и посмотреть "а не появилось ли чего нового по данной тематике?" Т.е. посмотреть только новые сниппеты, которых ещё не было в базе данных


я знаю только одну программу, которую хоть в какой-то степени удовлетворяет описанным выше требованиям.
Это FileForFiles (бывш. SiteSpunik).
Если Вы знаете ещё программы с подобным функционалом - подскажите. Буду премного благодарен
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения

Сообщений в этой теме
- Доктор ТуамОсес   Автоматизация поиска в интернете   5.4.2014, 10:17
- - Ostic   Не совсем понятна цель ) Писать самому под себя: ...   5.4.2014, 17:48
|- - Доктор ТуамОсес   Цитата(Ostic @ 5.4.2014, 17:48) Не совсем...   5.4.2014, 20:31
- - timmy   то есть нужен суперпоисковик, который бы искал уни...   7.4.2014, 1:46
|- - Доктор ТуамОсес   Цитата(timmy @ 7.4.2014, 1:46) то есть ну...   7.4.2014, 21:49
- - Доктор ТуамОсес   Ну так чо? Кроме SiteSputnik (aka FileForFiles) та...   11.4.2014, 13:36
- - Доктор ТуамОсес   Ведь при поиске в интернете какие самые важные про...   29.4.2014, 9:32
|- - Kult_Ra   Цитата(Доктор ТуамОсес @ 29.4.2014, 10:32...   29.4.2014, 10:21
- - Доктор ТуамОсес   Kult_Ra Вы уже прям в какую-то мистику ударились. ...   29.4.2014, 12:11
- - Kult_Ra   Не любитель я (аз) системы «Аз, Клава и Экран». И ...   29.4.2014, 15:34
- - Доктор ТуамОсес   Ничего не понял. Вы можете изъяснятцо яснее? Понял...   29.4.2014, 18:39
|- - Kult_Ra   Цитата(Доктор ТуамОсес @ 29.4.2014, 19:39...   30.4.2014, 8:07
|- - Доктор ТуамОсес   Цитата(Kult_Ra @ 30.4.2014, 9:07) Хм. Быт...   30.4.2014, 9:29
- - Kult_Ra   Ну "хотеть" и не грех... Хотящих всегда...   30.4.2014, 10:20
- - Доктор ТуамОсес   Kult_Ra Давайте от досужих абстрактных рассуждений...   30.4.2014, 17:27
- - Доктор ТуамОсес   И чо молчим?   22.6.2014, 9:44


Добавить ответ в эту темуОткрыть тему
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0

 

Реклама
ООО «Арктика групп» ИНН: 7713634274




Реклама: ООО «СибСтронг» | ИНН 6670013662 | ERID: 2VtzqvWgxEU

ООО «УНИСПЛИТ» ИНН: 6453155081 erid:2VtzqvybpdW

Реклама: ООО «СЛ-ЛАЗЕР» ИНН 7727447267 | erid: 2VtzquvhFWx
Последние сообщения Форума






RSS Текстовая версия Сейчас: 5.8.2025, 0:26
Политика ООО ИИП «АВОК-ПРЕСС» в отношении обработки персональных данных