Форумы Форум www.proxomitron.ru
Все о программе Proxomitron
Главная  • FAQ для форума  •  Поиск  •  Пользователи  •  Группы   •  Регистрация  •  Профиль  •  Личные сообщения  •  Вход
 WebWarper - как средство для экономии трафика.
 Сайт -> Форумы » Фильтры
Следующая тема
Предыдущая тема

Новая тема  Ответить
Автор Сообщение
taimael
Junior Member
Junior Member


Зарегистрирован: 22.01.2005
Сообщения: 34

СообщениеДобавлено: Сб, Янв 22 2005 11:18 Цитировать |  |  | 

Bonart, громадная просьма от дремучего ламера - напиши, пожалста инстракшн, как эту всю красоту устанавливать. Smile

Пытался по всякому - так ничего и не заработало. Sad
Инет у меня в локалке через проксю. Если нужно, могу полностью расписать конфиг и все что я делал...
К началу Профиль Сообщение
Bonart
Filter Developer
Filter Developer


Зарегистрирован: 29.11.2004
Сообщения: 78
Откуда: Самара

СообщениеДобавлено: Вс, Янв 23 2005 09:43 Цитировать |  |  | 

Прежде всего надо создать два списка (Block lists). Для этого создаешь в папке со списками (каталог Proxomitron\Lists) два текстовых файла (warped.txt и nonWarped.txt). Первый оставляешь пустым, во второй заносишь одну строку, вот эту
Цитата:

[^\?]++.(avi|mpg|mp3|mpeg|ppt|ico|bat|css|jpeg|jpg|gif|png|rar|zip|exe|pdf|swf|pic|7z)(\?|(^?))

Затем в диалоге (главное окно Proxomitron, кнопка Config, вкладка Blockfile) добавляешь два списка с именами Warped и NonWarped, связывая их с ранее созданными файлами.
Затем добавляешь фильтры заголовков: выделяешь в моей цитате с фильтрами все, что между [HTTP Headers] и [Patterns], копируешь в буфер, в редакторе фильтров заголовков щелкаешь правой кнопкой мыши на списке фильтров, выбираешь Import filters from clipboard.
Далее добавляешь фильтры страниц: выделяешь в моей цитате с фильтрами все, что ниже [Patterns], копируешь в буфер, в редакторе Web-фильтров щелкаешь правой кнопкой мыши на списке фильтров, выбираешь Import filters from clipboard.
Ну а когда будет релиз, то фильтр будет выложен в виде мини-конфига.
К началу Профиль Сообщение
Гость






СообщениеДобавлено: Вс, Янв 23 2005 18:27 Цитировать |  |  | 

заюзал инстракшн, привожу результаты теста на www.ya.ru
тут поиск на 50 результатов стабильно дает 50-70kb несжатого трафа или 10-14 при использовании WW.

поиск №1 - загружается несжатый трафик, в Warped.txt добавилось
www.yandex.ru/

поиск №2 и далее - ничего не грузится, в NonWarped.txt добавляется бесконечное

[^\?]++.(avi|mpg|mp3|mpeg|ppt|ico|bat|css|jpeg|jpg|gif|png|rar|zip|exe|pdf|swf|pic|7z)(\?|(^?))www.yandex.ru/yandsearch?text=%F2%E2%E0%F0%FC&stype=www
www.yandex.ru/yandsearch?text=%F2%E2%E0%F0%FC&stype=www
www.yandex.ru/yandsearch?text=%F2%E2%E0%F0%FC&stype=www
www.yandex.ru/yandsearch?text=%F2%E2%E0%F0%FC&stype=www
www.yandex.ru/yandsearch?text=%F2%E2%E0%F0%FC&stype=www
www.yandex.ru/yandsearch?text=%F2%E2%E0%F0%FC&stype=www
www.yandex.ru/yandsearch?text=%F2%E2%E0%F0%FC&stype=www
www.yandex.ru/yandsearch?text=%F2%E2%E0%F0%FC&stype=www
www.yandex.ru/yandsearch?text=%F2%E2%E0%F0%FC&stype=www
www.yandex.ru/yandsearch?text=%F2%E2%E0%F0%FC&stype=www
www.yandex.ru/yandsearch?text=%F2%E2%E0%F0%FC&stype=www
www.yandex.ru/yandsearch?text=%F2%E2%E0%F0%FC&stype=www
www.yandex.ru/yandsearch?text=%F2%E2%E0%F0%FC&stype=www
www.yandex.ru/yandsearch?text=%F2%E2%E0%F0%FC&stype=www
www.yandex.ru/yandsearch?text=%F2%E2%E0%F0%FC&stype=www
www.yandex.ru/yandsearch?text=%F2%E2%E0%F0%FC&stype=www
www.yandex.ru/yandsearch?text=%F2%E2%E0%F0%FC&stype=www
www.yandex.ru/yandsearch?text=%F2%E2%E0%F0%FC&stype=www
www.yandex.ru/yandsearch?text=%F2%E2%E0%F0%FC&stype=www
www.yandex.ru/yandsearch?text=%F2%E2%E0%F0%FC&stype=www
www.yandex.ru/yandsearch?text=%F2%E2%E0%F0%FC&stype=www
www.yandex.ru/yandsearch?text=%F2%E2%E0%F0%FC&stype=www
www.yandex.ru/yandsearch?text=%F2%E2%E0%F0%FC&stype=www
www.yandex.ru/yandsearch?text=%F2%E2%E0%F0%FC&stype=www
www.yandex.ru/yandsearch?text=%F2%E2%E0%F0%FC&stype=www
www.yandex.ru/yandsearch?text=%F2%E2%E0%F0%FC&stype=www
webwarper.net/
К началу
taimael
Junior Member
Junior Member


Зарегистрирован: 22.01.2005
Сообщения: 34

СообщениеДобавлено: Вс, Янв 23 2005 18:31 Цитировать |  |  | 

Сорри, то что выше - это мой пост.
К началу Профиль Сообщение
Гость






СообщениеДобавлено: Пн, Янв 24 2005 02:37 Цитировать |  |  | 

Точно такая же фигня может нормально работать, а потом вдруг зациклит. Осталось тока вот что не понятно:
GET /ww/proxomitron.domtech.ru/board/posting.php?mode=reply&t=110&sid=f781cd1b2b426af6b74f6f79da4f1f90&* HTTP/1.0
ACCEPT-LANGUAGE: ru
ACCEPT: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, application/x-shockwave-flash, */*
COOKIE: phpbb2_data=a%3A0%3A%7B%7D
HOST: www.webwarper.net
USER-AGENT: Mozilla/4.41 (BEOS; U ;Nav)
Connection: keep-alive

+++RESP 8+++
HTTP/1.0 200 Ok
WW-packed:
Date: Sun, 23 Jan 2005 23:21:06 GMT
Server: Apache/1.3.26 (Unix) rus/PL30.15 PHP/4.3.4 mod_ssl/2.8.10 OpenSSL/0.9.6e
Set-Cookie: phpbb2_data=a%3A0%3A%7B%7D; path=/ww/proxomitron.domtech.ru/
Set-Cookie: phpbb2_sid=2a5b42df61b68ce91413a364dc9e06ec; path=/ww/proxomitron.domtech.ru/
Pragma: no-cache
Content-Type: text/html; charset=windows-1251

Тоесть он здесь заслал страничку на www.webwarper.net и получил ответ, а вот дальше зачем он ето делает ?
+++GET 9+++
GET /board/templates/subSilver/subSilver.css HTTP/1.0
ACCEPT-LANGUAGE: ru
ACCEPT: */*
COOKIE: phpbb2_data=a%3A0%3A%7B%7D
HOST: proxomitron.domtech.ru
IF-MODIFIED-SINCE: Sun Jan 23 22:49:16 2005
USER-AGENT: Mozilla/4.41 (BEOS; U ;Nav)
Connection: keep-alive

потом много монго монго
Match 8: Links UnWebWarper [BON]

+++RESP 9+++
HTTP/1.0 304 Not Modified
Date: Sun, 23 Jan 2005 23:21:08 GMT
Server: Apache/1.3.26 (Unix) rus/PL30.15 PHP/4.3.4 mod_ssl/2.8.10 OpenSSL/0.9.6e
ETag: "85c04b-1db5-40cc3037-windows-1251"
+++CLOSE 9+++
BlockList 10: in nonWarped, line 1

можно как нить отключить GET /board/templates/subSilver/subSilver.css HTTP/1.0,GET /board/templates/subSilver/formIE.css HTTP/1.0 и им подобные для максимальной экономии трафика ? Very Happy

ЗЫ. Чем конфиг Level 1.cfg отличается от Level 6.cfg ?
К началу
Bonart
Filter Developer
Filter Developer


Зарегистрирован: 29.11.2004
Сообщения: 78
Откуда: Самара

СообщениеДобавлено: Пн, Янв 24 2005 07:52 Цитировать |  |  | 

Вот так работает с Яндексом у меня
Цитата:

BlockList 12873: in Warped, line 335
RedirectTo: http://www.webwarper.net/ww/www.yandex.ru/yandsearch?stype=www&nl=0&text=%EF%EE%E8%F1%EA

+++GET 12873+++
Using Proxy - 62.213.0.13:3128
GET http://www.webwarper.net/ww/www.yandex.ru/yandsearch?stype=www&nl=0&text=%EF%EE%E8%F1%EA HTTP/1.0
User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1) Opera 7.54 [ru]
Host: www.webwarper.net
Accept: text/html, application/xml;q=0.9, application/xhtml+xml, image/png, image/jpeg, image/gif, image/x-xbitmap, */*;q=0.1
Accept-Language: ru;q=1.0,en;q=0.9
Accept-Charset: windows-1252, utf-8, utf-16, iso-8859-1;q=0.6, *;q=0.1
Accept-Encoding: gzip, deflate
Referer: http://www.yandex.ru/
Cookie: yandexuid=9321101799757
Cookie2: $Version=1
Pragma: no-cache
Cache-Control: no-cache
Connection: keep-alive
Browser reload detected...
Connection Reused: 12872->12873

+++RESP 12873+++
HTTP/1.0 200 OK
WW-packed: 1
Date: Mon, 24 Jan 2005 04:42:30 GMT
Server: Apache/1.3.6 (Unix) PHP/4.0.1pl2 mod_perl/1.19 mod_deflate/1.0.21 rus/PL28.15
Last-Modified: Fri, 21 Jan 2005 06:49:27 GMT
Content-Type: text/html; charset=windows-1251
Content-Encoding: gzip
X-Cache: MISS from proxy.samtel.ru
Proxy-Connection: close
К началу Профиль Сообщение
Bonart
Filter Developer
Filter Developer


Зарегистрирован: 29.11.2004
Сообщения: 78
Откуда: Самара

СообщениеДобавлено: Пн, Янв 24 2005 08:09 Цитировать |  |  | 

2 taimael
Одну ошибку вижу сразу: у тебя не было символа перевода строки в изначальном NonWarped.txt. Поэтому первая добавка оказалась склеена с твоей Smile
По остальному: подозреваю, что дело в неудаленных фильтрах предыдущих версий набора, в любом случае нужны конфиги и логи Прокса.
Но тем не менее, вскрылась одна моя (или Проксова, что маловероятно) ошибка: при обратном перенаправлении бесполезно добавлять в черный список запрос с параметрами, надо оставить только хост и путь, а параметры порезать. Вот так:
Цитата:

In = TRUE
Out = FALSE
Key = "Location: WW Redirect (in) [BON]"
URL = "www.webwarper.net/ww/"
Match = "(^http://www.webwarper.net/ww/*)&($RESP(302*))&(http://(^$LST(NonWarped)))&(http://\1(\?|))\2&($ADDLST(NonWarped,\1))"
Replace = "\2"

PS: Ну слава богу, первый бета-тестер появился! Smile
К началу Профиль Сообщение
Bonart
Filter Developer
Filter Developer


Зарегистрирован: 29.11.2004
Сообщения: 78
Откуда: Самара

СообщениеДобавлено: Вт, Янв 25 2005 11:41 Цитировать |  |  | 

Найден и исправлен еще один баг: если в запросе указывался порт, то он мог быть многократно внесен в списки без номера порта.
Цитата:

In = TRUE
Out = FALSE
Key = "URL: Warp it! (in) [BON]"
URL = "(^www.webwarper.net/ww/*)"
Match = "($RESP(200*))&(^$IHDR(Content-Encoding:(^(deflate|(^?)))))&($IHDR(Content-Type: text/*))&(http://(^$LST(NonWarped)))&(http://(^$LST(Warped)))&($URL(http://([^/]++/)\1))&($ADDLST(Warped,\1))"

In = TRUE
Out = FALSE
Key = "URL: Not warp it (in) [BON]"
URL = "(^www.webwarper.net/ww/*)"
Match = "($IHDR(Content-Encoding: gzip))&(http://(^$LST(NonWarped)))&(\2)&($URL(http://([^/]++/)\1))&($ADDLST(NonWarped,\1))"
К началу Профиль Сообщение
Minoz
Newbee
Newbee


Зарегистрирован: 24.01.2005
Сообщения: 3

СообщениеДобавлено: Вт, Янв 25 2005 16:17 Цитировать |  |  | 

Проблемма с сайтом webfile.ru. Что бы залить файл надо сделать следуещее "Для подтверждения введите цифры, которые вы видите на картинке" и при попытке открыть картинку происходит следуешее:
RedirectTo: http://www.webwarper.net/ww/www5.webfile.ru/picture.php?id=167514&nocache=779361

+++GET 150+++
GET /ww/www5.webfile.ru/picture.php?id=167514&nocache=779361 HTTP/1.0
ACCEPT-LANGUAGE: ru
ACCEPT: */*
HOST: www.webwarper.net
USER-AGENT: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Maxthon; .NET CLR 1.1.4322)
Connection: keep-alive

+++RESP 150+++
HTTP/1.0 302 Moved (WebWarper)
Location: http://www5.webfile.ru/picture.php?id=167514&nocache=779361
+++CLOSE 150+++
BlockList 151: in warped, line 52
RedirectTo: http://www.webwarper.net/ww/www5.webfile.ru/picture.php?id=167514&nocache=779361

+++GET 151+++
GET /ww/www5.webfile.ru/picture.php?id=167514&nocache=779361 HTTP/1.0
ACCEPT-LANGUAGE: ru
ACCEPT: */*
HOST: www.webwarper.net
USER-AGENT: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Maxthon; .NET CLR 1.1.4322)
Connection: keep-alive

+++RESP 151+++
HTTP/1.0 302 Moved (WebWarper)
Location: http://www5.webfile.ru/picture.php?id=167514&nocache=779361
+++CLOSE 151+++
BlockList 152: in warped, line 52
RedirectTo: http://www.webwarper.net/ww/www5.webfile.ru/picture.php?id=167514&nocache=779361
а в файле nonWarped.txt появляется следующее:
www5.webfile.ru/picture.php?id=167514&nocache=779361
www5.webfile.ru/picture.php?id=167514&nocache=779361
www5.webfile.ru/picture.php?id=167514&nocache=779361
www5.webfile.ru/picture.php?id=167514&nocache=779361
www5.webfile.ru/picture.php?id=167514&nocache=779361
www5.webfile.ru/picture.php?id=167514&nocache=779361
www5.webfile.ru/picture.php?id=167514&nocache=779361
www5.webfile.ru/picture.php?id=167514&nocache=779361
www5.webfile.ru/picture.php?id=167514&nocache=779361
www5.webfile.ru/picture.php?id=167514&nocache=779361
и так пока не остановищь..
К началу Профиль Сообщение
Minoz
Newbee
Newbee


Зарегистрирован: 24.01.2005
Сообщения: 3

СообщениеДобавлено: Вт, Янв 25 2005 16:26 Цитировать |  |  | 

И еще, например, www.ya.ru и ya.ru скрипт считает за 2 разных сайта и заносит их в warped.txt.
К началу Профиль Сообщение
Bonart
Filter Developer
Filter Developer


Зарегистрирован: 29.11.2004
Сообщения: 78
Откуда: Самара

СообщениеДобавлено: Ср, Янв 26 2005 07:45 Цитировать |  |  | 

C www.ya.ru и ya.ru все работает правильно - это могут быть разные сайты (если захочет владелец домена ya.ru).
А с webfile.ru ты не исправил фильтр для обратного пренаправления. Вот каким он должен теперь быть:
Цитата:

In = TRUE
Out = FALSE
Key = "Location: WW Redirect (in) [BON]"
URL = "www.webwarper.net/ww/"
Match = "(^http://www.webwarper.net/ww/*)&($RESP(302*))&(http://(^$LST(NonWarped)))&(http://\1(\?|))\2&($ADDLST(NonWarped,\1))"
Replace = "\2"

Теперь в список NonWarped один раз добавится
Цитата:

www5.webfile.ru/picture.php

и будет работать нормально, как у меня Smile
Цитата:

BlockList 19261: in Warped, line 765
RedirectTo: http://www.webwarper.net/ww/www5.webfile.ru/picture.php?id=167514&nocache=779361

+++GET 19261+++
GET http://www.webwarper.net/ww/www5.webfile.ru/picture.php?id=167514&nocache=779361 HTTP/1.0
User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1) Opera 7.54 [ru]
Host: www.webwarper.net
Accept: text/html, application/xml;q=0.9, application/xhtml+xml, image/png, image/jpeg, image/gif, image/x-xbitmap, */*;q=0.1
Accept-Language: ru;q=1.0,en;q=0.9
Accept-Charset: windows-1252, utf-8, utf-16, iso-8859-1;q=0.6, *;q=0.1
Accept-Encoding: gzip, deflate
Connection: keep-alive
Connection Reused: 19259->19261

+++RESP 19261+++
HTTP/1.0 302 Moved Temporarily
Location: http://www5.webfile.ru/picture.php?id=167514&nocache=779361
X-Cache: MISS from proxy.samtel.ru
Proxy-Connection: close
+++CLOSE 19261+++
Client closed: total 1
Client opened: total 2
BlockList 19262: in NonWarped, line 72

+++GET 19262+++
GET http://www5.webfile.ru/picture.php?id=167514&nocache=779361 HTTP/1.0
User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1) Opera 7.54 [ru]
Host: www5.webfile.ru
Accept: text/html, application/xml;q=0.9, application/xhtml+xml, image/png, image/jpeg, image/gif, image/x-xbitmap, */*;q=0.1
Accept-Language: ru;q=1.0,en;q=0.9
Accept-Charset: windows-1252, utf-8, utf-16, iso-8859-1;q=0.6, *;q=0.1
Accept-Encoding: gzip, deflate
Connection: keep-alive

+++RESP 19262+++
HTTP/1.0 200 OK
Date: Wed, 26 Jan 2005 04:37:17 GMT
Server: Apache/1.3.33 (Unix) PHP/4.3.9
X-Powered-By: PHP/4.3.9
Content-Type: image/png
X-Cache: MISS from proxy.samtel.ru
Proxy-Connection: close
+++CLOSE 19262+++

Обрати внимание, что фильтры исходящих заголовков срабатывают ДО занесения их в лог.
К началу Профиль Сообщение
taimael
Junior Member
Junior Member


Зарегистрирован: 22.01.2005
Сообщения: 34

СообщениеДобавлено: Ср, Янв 26 2005 14:59 Цитировать |  |  | 

ниже лог первого и второго поиска на яндексе
кстати, это так и задумано, что самый первый запрос на адрес, которого еще нет в Warped.txt или NonWarped.txt отправляется напрямую, а не через WW ? Это не правильно! Получить мегабайтную страничку, если поиск тебя привел на незнакомый сайт абсолютно не интересно! Smile


+++GET 4+++
Using Proxy - 192.168.8.1:8080
GET http://www.yandex.ru/yandsearch?text=%E2%EE%E1%EB%E0&stype=www HTTP/1.0
User-Agent: Opera/8.00 (Windows NT 5.1; U; en)
Host: www.yandex.ru
Accept: text/html, application/xml;q=0.9, application/xhtml+xml, image/png, image/jpeg, image/gif, image/x-xbitmap, */*;q=0.1
Accept-Language: en
Accept-Charset: windows-1252, utf-8, utf-16, iso-8859-1;q=0.6, *;q=0.1
Referer: http://www.yandex.ru/yandsearch?text=%E2%EE%E1%EB%E0&stype=www
Cookie: yandexuid=4772701100420549; default_copy=1; YX_SEARCHPREFS=lang:all,family:,gamma:,numdoc:50,target:,banners:,search_form:,charset:,ton:1,url:,wstat:,t:2,hltitle:1,hltext:1,extradoc:,size:1,tose:1,relev:1,date:1,desc:sometimes; mesort=date; yandex_login=Taimael; Virtual_id=20; yandex_fio=%ce%f1%e8%ef%e5%ed%ea%ee%20%c0%eb%e5%ea%f1%e5%e9; yandex_mail=Taimael; narod_login=taimael; yandex_nickname=; Session_id=1105432311.921437.1.5974996.2:16586369:48.10563.4626.6743227f5c5ece714e73879586f36fa8; yafolder=16586369%3A490000000000637147; mail_tag=yandex.ru
Cookie2: $Version=1
Connection: keep-alive
Proxy-Authorization: basic №№№№№№№№№№№№№№№№№

+++RESP 4+++
HTTP/1.0 200 OK
Via: 1.1 AIRBORN
Connection: close
Proxy-Connection: close
Date: Tue, 25 Jan 2005 16:40:34 GMT
Content-Type: text/html; charset=windows-1251
Server: Apache/1.3.6 (Unix) PHP/4.0.1pl2 mod_perl/1.19 mod_deflate/1.0.21 rus/PL28.15
Last-Modified: Tue, 25 Jan 2005 06:32:35 GMT
Match 4: Kill pop-up windows
Match 4: Suppress all JavaScript errors
Match 4: Stop browser window resizing
Match 4: Frame Jumper-Outer
Match 4: Frame Jumper-Outer
...
Match 4: Frame Jumper-Outer
<end> 4: Restore pop-ups after a page loads
+++CLOSE 4+++
BlockList 5: in Warped, line 1
RedirectTo: http://www.webwarper.net/ww/www.yandex.ru/yandsearch?text=%F2%E8%E3%F0&stype=www

+++GET 5+++
Using Proxy - 192.168.8.1:8080
GET http://www.webwarper.net/ww/www.yandex.ru/yandsearch?text=%F2%E8%E3%F0&stype=www HTTP/1.0
User-Agent: Opera/8.00 (Windows NT 5.1; U; en)
Host: www.webwarper.net
Accept: text/html, application/xml;q=0.9, application/xhtml+xml, image/png, image/jpeg, image/gif, image/x-xbitmap, */*;q=0.1
Accept-Language: en
Accept-Charset: windows-1252, utf-8, utf-16, iso-8859-1;q=0.6, *;q=0.1
Referer: http://www.yandex.ru/yandsearch?text=%F2%E8%E3%F0&stype=www
Cookie: yandexuid=4772701100420549; default_copy=1; YX_SEARCHPREFS=lang:all,family:,gamma:,numdoc:50,target:,banners:,search_form:,charset:,ton:1,url:,wstat:,t:2,hltitle:1,hltext:1,extradoc:,size:1,tose:1,relev:1,date:1,desc:sometimes; mesort=date; yandex_login=Taimael; Virtual_id=20; yandex_fio=%ce%f1%e8%ef%e5%ed%ea%ee%20%c0%eb%e5%ea%f1%e5%e9; yandex_mail=Taimael; narod_login=taimael; yandex_nickname=; Session_id=1105432311.921437.1.5974996.2:16586369:48.10563.4626.6743227f5c5ece714e73879586f36fa8; yafolder=16586369%3A490000000000637147; mail_tag=yandex.ru
Cookie2: $Version=1
Connection: keep-alive
Proxy-Authorization: basic №№№№№№№№№№№№№№№№№№

+++RESP 5+++
HTTP/1.0 302 Moved (WebWarper)
Via: 1.0 AIRBORN
Connection: close
Proxy-Connection: close
Location: http://www.yandex.ru/yandsearch?text=%F2%E8%E3%F0&stype=www
+++CLOSE 5+++
BlockList 6: in Warped, line 1
RedirectTo: http://www.webwarper.net/ww/www.yandex.ru/yandsearch?text=%F2%E8%E3%F0&stype=www

+++GET 6+++
Using Proxy - 192.168.8.1:8080
GET http://www.webwarper.net/ww/www.yandex.ru/yandsearch?text=%F2%E8%E3%F0&stype=www HTTP/1.0
User-Agent: Opera/8.00 (Windows NT 5.1; U; en)
Host: www.webwarper.net
Accept: text/html, application/xml;q=0.9, application/xhtml+xml, image/png, image/jpeg, image/gif, image/x-xbitmap, */*;q=0.1
Accept-Language: en
Accept-Charset: windows-1252, utf-8, utf-16, iso-8859-1;q=0.6, *;q=0.1
Referer: http://www.yandex.ru/yandsearch?text=%F2%E8%E3%F0&stype=www
Cookie: yandexuid=4772701100420549; default_copy=1; YX_SEARCHPREFS=lang:all,family:,gamma:,numdoc:50,target:,banners:,search_form:,charset:,ton:1,url:,wstat:,t:2,hltitle:1,hltext:1,extradoc:,size:1,tose:1,relev:1,date:1,desc:sometimes; mesort=date; yandex_login=Taimael; Virtual_id=20; yandex_fio=%ce%f1%e8%ef%e5%ed%ea%ee%20%c0%eb%e5%ea%f1%e5%e9; yandex_mail=Taimael; narod_login=taimael; yandex_nickname=; Session_id=1105432311.921437.1.5974996.2:16586369:48.10563.4626.6743227f5c5ece714e73879586f36fa8; yafolder=16586369%3A490000000000637147; mail_tag=yandex.ru
Cookie2: $Version=1
Connection: keep-alive
Proxy-Authorization: basic №№№№№№№№№№№№№№№№№№№№№№№№

+++RESP 6+++
HTTP/1.0 302 Moved (WebWarper)
Via: 1.0 AIRBORN
Connection: close
Proxy-Connection: close
Location: http://www.yandex.ru/yandsearch?text=%F2%E8%E3%F0&stype=www
+++CLOSE 6+++
BlockList 7: in Warped, line 1
RedirectTo: http://www.webwarper.net/ww/www.yandex.ru/yandsearch?text=%F2%E8%E3%F0&stype=www

и т.д.

Warped.txt

www.yandex.ru/
webwarper.net/


NonWarped.txt

[^\?]++.(avi|mpg|mp3|mpeg|ppt|ico|bat|css|jpeg|jpg|gif|png|rar|zip|exe|pdf|swf|pic|7z)(\?|(^?))www.yandex.ru/yandsearch?text=%F2%E8%E3%F0&stype=www
www.yandex.ru/yandsearch?text=%F2%E8%E3%F0&stype=www
www.yandex.ru/yandsearch?text=%F2%E8%E3%F0&stype=www
www.yandex.ru/yandsearch?text=%F2%E8%E3%F0&stype=www
www.yandex.ru/yandsearch?text=%F2%E8%E3%F0&stype=www
www.yandex.ru/yandsearch?text=%F2%E8%E3%F0&stype=www
www.yandex.ru/yandsearch?text=%F2%E8%E3%F0&stype=www
www.yandex.ru/yandsearch?text=%F2%E8%E3%F0&stype=www
www.yandex.ru/yandsearch?text=%F2%E8%E3%F0&stype=www
www.yandex.ru/yandsearch?text=%F2%E8%E3%F0&stype=www
www.yandex.ru/yandsearch?text=%F2%E8%E3%F0&stype=www
www.yandex.ru/yandsearch?text=%F2%E8%E3%F0&stype=www


и просветите про символ перевода строки пжалста Smile


подозреваю, что если приведу тут конфиг, то заработаю БАН Smile
но, неудаленных фильтров предыдущих версий набора там нет
К началу Профиль Сообщение
Bonart
Filter Developer
Filter Developer


Зарегистрирован: 29.11.2004
Сообщения: 78
Откуда: Самара

СообщениеДобавлено: Ср, Янв 26 2005 18:20 Цитировать |  |  | 

2 taimael
Внеси ОБА приведенных мной выше исправления плюс обязательно включи у себя фильтр "Accept-encoding: Allow webpage encoding (out)", так как сейчас тот же Яндекс возвращает тебе несжатый трафик из-за того, что ему неизвестно, что ты можешь корректно обработать сжатый текст.
Проблема с концом строки. Вот она:
Цитата:

[^\?]++.(avi|mpg|mp3|mpeg|ppt|ico|bat|css|jpeg|jpg|gif|png|rar|zip|exe|pdf|swf|pic|7z)(\?|(^?))www.yandex.ru/yandsearch?text=%F2%E8%E3%F0&stype=www

Конец строки должен быть между последней правой скобкой и www.yandex. Ты его не добавил, когда файл включал всего одну строчку, а надо было Smile
Вначале всегда идет прямая загрузка, так как я не знаю способа для определения, может ли сервер сжимать трафик самостоятельно, если страничка загружена через WW, а без этого мой набор никаких особых преимуществ перед прямым использованием WW не имеет. Мегабайт текста словить наугад разом довольно сложно, мне такой случай известен только один - lib.ru.
К началу Профиль Сообщение
Гость






СообщениеДобавлено: Ср, Янв 26 2005 20:43 Цитировать |  |  | 

Ну незнаю... Я смотрю сайт без кaртинок, и сайт грузится нормально... Но потом при попытке окрыть картинку (аватарку) у меня проксомитрон зацикливает конкретно и помогает только кнопочка "Прервать"
RedirectTo: http://www.webwarper.net/ww/forums.goha.ru/image.php?u=3215&dateline=1099505351

+++GET 99+++
GET /ww/forums.goha.ru/image.php?u=3215&dateline=1099505351 HTTP/1.1
Host: www.webwarper.net
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; ru-RU; rv:1.7.5) Gecko/20050117 Firefox/1.0
Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5
Accept-Language: ru-ru,ru;q=0.7,en-us;q=0.3
Accept-Charset: windows-1251,utf-8;q=0.7,*;q=0.7
Keep-Alive: 300
Cookie: bbsessionhash=722c94dfde7027580e1cdc2e48670042; bblastvisit=1106760411; bblastactivity=1106760411; bbthread_lastview=ax1x-ix18757ysx10x%221106759465%22y_
Connection: keep-alive

+++RESP 99+++
HTTP/1.1 302 Moved (WebWarper)
Location: http://forums.goha.ru/image.php?u=3215&dateline=1099505351
+++CLOSE 99+++
BlockList 100: in Warped, line 7
RedirectTo: http://www.webwarper.net/ww/forums.goha.ru/image.php?u=3215&dateline=1099505351

+++GET 100+++
GET /ww/forums.goha.ru/image.php?u=3215&dateline=1099505351 HTTP/1.1
Host: www.webwarper.net
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; ru-RU; rv:1.7.5) Gecko/20050117 Firefox/1.0
Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5
Accept-Language: ru-ru,ru;q=0.7,en-us;q=0.3
Accept-Charset: windows-1251,utf-8;q=0.7,*;q=0.7
Keep-Alive: 300
Cookie: bbsessionhash=722c94dfde7027580e1cdc2e48670042; bblastvisit=1106760411; bblastactivity=1106760411; bbthread_lastview=ax1x-ix18757ysx10x%221106759465%22y_
Connection: keep-alive
+++CLOSE 100+++
Listening on port 8080
А в файле Nonwarped :
forums.goha.ru/image.php?u=3215&dateline=1099505351
forums.goha.ru/image.php?u=3215&dateline=1099505351
forums.goha.ru/image.php?u=3215&dateline=1099505351

Кароче надо смотреть или с разу с картинками или без картинок.. Very Happy
К началу
taimael
Junior Member
Junior Member


Зарегистрирован: 22.01.2005
Сообщения: 34

СообщениеДобавлено: Чт, Янв 27 2005 00:31 Цитировать |  |  | 

Цитата:

Мегабайт текста словить наугад разом довольно сложно, мне такой случай известен только один - lib.ru.


Мой список таких сайтов заметно больше Smile

А реальна реализация следующего алгоритма?:

-принимаю первые 10kb с неизвестного сайта
-проверяю в них наличие gzip
-в случае отсутствия, разрыв коннекта и повторный запрос странички уже через WW
К началу Профиль Сообщение
Bonart
Filter Developer
Filter Developer


Зарегистрирован: 29.11.2004
Сообщения: 78
Откуда: Самара

СообщениеДобавлено: Пт, Фев 04 2005 16:56 Цитировать |  |  | 

Новая очередная Smile редакция набора фильтров.
Устранены замеченные ошибки предыдущей версии, плюс теперь непакованные странички и в первый раз скачиваются через WW (так как кодировка содержится в заголовке ДО загрузки страницы, а я тормозил Smile ).
Цитата:

[Patterns]
Name = "Cannot view WW [BON]"
Active = TRUE
URL = "www.webwarper.net/ww"
Bounds = "<!--\s~~~~WWMESSAGE -91*-->"
Limit = 512
Match = "(*Web\ssite:\s\1\scannot*)&($URL(http://www.webwarper.net/ww/([^/]+)\2/))&($ADDLST(NonWarped,\2/))"

Name = "Links UnWebWarper [BON]"
Active = TRUE
Multi = TRUE
URL = "www.webwarper.net/ww/"
Bounds = "<\w\s*>"
Limit = 512
Match = "(\#www.webwarper.net/ww/)+\#"
Replace = "\@"

Name = "Script UnWebWarper [BON]"
Active = TRUE
URL = "www.webwarper.net/ww/"
Bounds = "<script\s*</script>"
Limit = 128
Match = "*(~clientscriptgz|~WWServiceScript)*"
Replace = "<script language="ShonenScript"></script>\0"

[HTTP headers]
In = TRUE
Out = FALSE
Key = "Location: WW Redirect (in) [BON]"
URL = "www.webwarper.net/ww/"
Match = "(^http://www.webwarper.net/ww/*)&($RESP(302*))&(http://(^$LST(NonWarped)))&(http://\2)&(http://([^\?]+)\1)&($ADDLST(NonWarped,\1))"
Replace = "http://\2"

In = TRUE
Out = FALSE
Key = "URL: Not warp it (in) [BON]"
URL = "(^www.webwarper.net/ww/*)"
Match = "($IHDR(Content-Encoding: gzip))&(http://(^$LST(NonWarped)))&(\2)&($URL(http://([^/]++/)\1))&($ADDLST(NonWarped,\1))"

In = FALSE
Out = TRUE
Key = "URL: UnWebWarper (out) [BON]"
URL = "www.webwarper.net/ww/$LST(NonWarped)"
Match = "\1//www.webwarper.net/ww/\2"
Replace = "$RDIR(\1//\2)"

In = TRUE
Out = FALSE
Key = "URL: Warp it! (in) [BON]"
URL = "(^www.webwarper.net/ww/*)"
Match = "($RESP(200*))&(^$IHDR(Content-Encoding:(^(deflate|(^?)))))&($IHDR(Content-Type: text/*))&(http://(^$LST(NonWarped)))&(http://(^$LST(Warped)))&($URL(http://([^/]++/)\1))&(http://\2)&($ADDLST(Warped,\1))"
Replace = "$RDIR(http://www.webwarper.net/ww/\2)"

In = FALSE
Out = TRUE
Key = "URL: WebWarper (out) [BON]"
URL = "(^www.webwarper.net/ww/*)&(^$LST(NonWarped))&($LST(Warped))"
Match = "(http://(*\1.ru(^?)|*\1))"
Replace = "$RDIR(http://www.webwarper.net/ww/\1)"

К началу Профиль Сообщение
taimael
Junior Member
Junior Member


Зарегистрирован: 22.01.2005
Сообщения: 34

СообщениеДобавлено: Вс, Фев 13 2005 15:55 Цитировать |  |  | 

Однажды дремучий ламер разул глаза и увидел, что небо синее, вода мокрая, а его восьмая опера юзает траф через WW по GZip'повски только с ключем ~fz, которого в фильтрах Высокоуважаемого, к сожалению, тють. Дремучий ламер отнюдь не полагает, что он где-то не натупил, но, тем не менее просит создать механизм выбора колючей из следующих вариантов:
1. все как есть сейчас (http://webwarper.net/ww/)
2. ~av (http://webwarper.net/ww/~av/)
3. ~fz (http://webwarper.net/ww/~fz/)
4. ~fz~av (http://webwarper.net/ww/~fz~av/)
плюс там (на сайте WW) есть еще опция какой-то суперпродвинутой очистки страничек, но я его не тыкал, и что она добавляет не знаю...
К началу Профиль Сообщение
Veska
Гость





СообщениеДобавлено: Ср, Фев 23 2005 11:41 Цитировать |  |  | 

taimael писал(а):
восьмая опера юзает траф через WW по GZip'повски только с ключем ~fz...

Добавил я себе в фильтры /~fz~av/, но к сожалению при запросе через оперу webwarper все равно отдает несжатые страницы. Пришлось подделывать заголовок User Agent под IE. Тогда все ок.
Но это не совсем то что хотелось. Мне бы хотелось представляться как lynx, чтоб мудреные санты не слали мне всякую лабуду под IE.
Может кто поборол эту штуку?
К началу
Veska
Newbee
Newbee


Зарегистрирован: 23.02.2005
Сообщения: 3

СообщениеДобавлено: Ср, Фев 23 2005 13:55 Цитировать |  |  | 

Двойной редирект:
Запрашиваем ya.ru
получаем

RedirectTo: http://www.webwarper.net/ww/~fz~av/ya.ru/
+++GET 794+++
GET /ww/~fz~av/ya.ru/ HTTP/1.1
User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)
Host: www.webwarper.net
Accept: text/html,text/plain;q=0.7,image/png,image/jpeg,image/gif;q=0.4,*/*;q=0.6
Accept-Language: ru;q=1.0,en;q=0.9
Accept-Charset: windows-1251,utf-8,iso-8859-1;q=0.3,*;q=0.1
Accept-Encoding: gzip,deflate
TE: gzip,deflate
Connection: keep-alive

А webwarper нас посылает дальше:

+++RESP 794+++
HTTP/1.1 302 Object Moved (WebWarper)
Location: http://www.webwarper.net/ww/~fz~av/ya.ru/?*
+++CLOSE 794+++
Client Connection Reused: 1
Client opened: total 3
Получаем
+++GET 795+++
GET /ww/~fz~av/ya.ru/?* HTTP/1.1
User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)
Host: www.webwarper.net
Accept: text/html,text/plain;q=0.7,image/png,image/jpeg,image/gif;q=0.4,*/*;q=0.6
Accept-Language: ru;q=1.0,en;q=0.9
Accept-Charset: windows-1251,utf-8,iso-8859-1;q=0.3,*;q=0.1
Accept-Encoding: gzip,deflate
If-Modified-Since: Wed, 12 Jan 2005 12:51:57 GMT
TE: gzip,deflate
Connection: keep-alive

А как бы сразу получать на запрос ya.ru переход на
www.webwarper.net/ww/~fz~av/ya.ru/?*
К началу Профиль Сообщение
Bonart
Filter Developer
Filter Developer


Зарегистрирован: 29.11.2004
Сообщения: 78
Откуда: Самара

СообщениеДобавлено: Чт, Фев 24 2005 10:04 Цитировать |  |  | 

2 Veska
Такой двойной редирект - не вина WebWarper: посмотри, что будет, если пошлешь запрос сайту напрямую. Трафик на этом практически не тратится.
А вот для Оперы 8 хотелось бы увидеть логи - очень интересно посмотреть на отсутствие сжатия. (на моей 7.54 все в порядке)
К началу Профиль Сообщение
Показать сообщения:      
 
Новая тема  Ответить

 Перейти:   




Следующая тема
Предыдущая тема
Вы можете начинать темы
Вы можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах


P o w e r e d b y p h p B B © p h p B B G r o u p :: T h e m e b a s e d o n FI T h e m e :: Часовой пояс: GMT + 3