Имя пользователя:
Пароль:  
Помощь | Регистрация | Забыли пароль?  | Правила  

Компьютерный форум OSzone.net » Программирование, базы данных и автоматизация действий » Программирование и базы данных » Разное - Помогите вытащить из этого сайта только ссылки

Ответить
Настройки темы
Разное - Помогите вытащить из этого сайта только ссылки

Старожил


Сообщения: 191
Благодарности: 2

Профиль | Отправить PM | Цитировать


Изменения
Автор: Dr. Comp
Дата: 01-08-2013
Привет! Хочу заблокировать все запрещенные ресурсы отсюда http://antizapret.info/ но там мешат даты и айпи адреса, помогите пожалуйста. Нужно чтобы был только список ссылок в виде столбца (.тхт) без ничего лишнего для вставки в конфигурационный файл.

Отправлено: 21:28, 01-08-2013

 

Ветеран


Сообщения: 27449
Благодарности: 8087

Профиль | Отправить PM | Цитировать


Dr. Comp, легко — API. PowerShell:
Код: Выделить весь код
([System.Xml.XmlDocument]((New-Object System.Net.WebClient).DownloadString("http://api.antizapret.info/all.php?type=xml"))).register.content | ForEach-Object -Process {$_.domain.'#cdata-section'} | Set-Content -Path "E:\Песочница\0306\Domain list.txt"
Вместо выделенного можете сразу добавить команды для вставки извлечённых строк в Ваш «конфигурационный файл».

Последний раз редактировалось Iska, 02-08-2013 в 10:01. Причина: Поправил код для корректного вывода в файл

Это сообщение посчитали полезным следующие участники:

Отправлено: 01:10, 02-08-2013 | #2



Для отключения данного рекламного блока вам необходимо зарегистрироваться или войти с учетной записью социальной сети.

Если же вы забыли свой пароль на форуме, то воспользуйтесь данной ссылкой для восстановления пароля.

pva pva вне форума

Аватара для pva

Ветеран


Сообщения: 1180
Благодарности: 279

Профиль | Отправить PM | Цитировать


Я делал так:

1. закачиваешь страницу index.html
Код: Выделить весь код
wget -c http://antizapret.info/
2. Запускаешь скрипт cscript get_links.js <index.html следующего содержания:
Код: Выделить весь код
var page = WScript.StdIn.ReadAll();

var 
//	prefix = "..\\gnu\\wget -c адрес ", // <-- команда для каждой ссылки. Я делал закачку
	prefix ="",
	re_link = /href\s*=\s*[\"\']([^\"\']+)[\"\']/gi,
//	re_ext = /\.mp3$/i, // <--- дополнительный фильтр на ссылки, я искал *.mp3
        re_ext =//,
	load_list = {}

for(;;) {
	var found = re_link.exec(page);
	if (found==null) break;

	if (re_ext.exec(found[1])) {
		load_list[found[1]] = true;		
	}	
}

for(var i in load_list) {
	WScript.StdOut.WriteLine(prefix + i);
}
Говорят к браузерам есть плагины, которые делают то же самое, но с мышкотыкательным интерфейсом
Это сообщение посчитали полезным следующие участники:

Отправлено: 08:01, 02-08-2013 | #3


Пользователь


Сообщения: 121
Благодарности: 35

Профиль | Отправить PM | Цитировать


Если со скриптами возиться нехочется:
Читаем http://antizapret.info/api.php
Цитата:
Получение текущего содержания реестра:
URL: http://api.antizapret.info/all.php
HTTP метод: GET
Параметры: type - необязательный, по умолчанию равен "csv", возвращает текущее содержимое реестра в формате CSV, также может принимать значение json - выводит содержимое реестра в формате JSON, xml - выводит содержимое реестра в формате XML.
Заходим на http://api.antizapret.info/all.php и сохраняем как текстовый файл с расширением csv. Остается только открыть в Excel'е и в пару кликов выдернуть список адресов.
Это сообщение посчитали полезным следующие участники:

Отправлено: 08:29, 02-08-2013 | #4


Старожил


Сообщения: 191
Благодарности: 2

Профиль | Отправить PM | Цитировать


http://api.antizapret.info/all.php на этой странице прям за все время сайты? Чет мало.

Отправлено: 08:50, 02-08-2013 | #5


Пользователь


Сообщения: 121
Благодарности: 35

Профиль | Отправить PM | Цитировать


Вроде бы что на сайте, то и там. Кроме удаленных из реестра.

Отправлено: 09:25, 02-08-2013 | #6


Старожил


Сообщения: 191
Благодарности: 2

Профиль | Отправить PM | Цитировать


Еще есть такая проблема, кирилические aдреса неправильно отображаются в exel.

Отправлено: 09:30, 02-08-2013 | #7


Ветеран


Сообщения: 27449
Благодарности: 8087

Профиль | Отправить PM | Цитировать


Код: Выделить весь код
$sXmlDocument = New-Object System.Xml.XmlDocument

$sXmlDocument.load("http://api.antizapret.info/all.php?type=xml")
$sXmlDocument.register.content | ForEach-Object -Process {$_.url.'#cdata-section'} | Set-Content -Path "E:\Песочница\0306\Domain list.txt"
Dr. Comp, зачем Вам адреса? Вам же имена доменов нужны.

Отправлено: 10:02, 02-08-2013 | #8


Пользователь


Сообщения: 121
Благодарности: 35

Профиль | Отправить PM | Цитировать


Кириллические адреса это вроде
Цитата:
c*******b.biz/threads/%D0%9A%D1%83%D1%80%D0%B5%D1%85%D0%B0-%D0%B8-%D0%BF%D0%BE%D1%80%D0%BE%D1%85-%D0%9A%D1%80%D0%B0%D1%81%D0%BD%D0%BE%D1%8F%D1%80%D1%81%D0%BA-%D0%B7%D0%B0%D0%BA%D0%BB%D0%B0%D0%B4%D0%BA%D0%B0%D0%BC%D0%B8.2031/
?
Дак вроде правильно все. Как на сайте так и в файле.
Чем именно Вы их блокировать собираетесь. Вполне возможно, что прокси такую запись поймут, а firewall'ы, насколько я помню, позволяют только по IP блокировать. Или у вас оборудование DPI поддерживает? Ростелеком, например, заявил, что у них денег на DPI нет и блокируют по IP.

Отправлено: 10:31, 02-08-2013 | #9


Ветеран


Сообщения: 27449
Благодарности: 8087

Профиль | Отправить PM | Цитировать


Цитата torauma:
Кириллические адреса это вроде… »
Цитата:
Код: Выделить весь код
http://swimpool.biz/forum/forums/Предложения-о-покупке.8/
и т.п.

Отправлено: 11:57, 02-08-2013 | #10



Компьютерный форум OSzone.net » Программирование, базы данных и автоматизация действий » Программирование и базы данных » Разное - Помогите вытащить из этого сайта только ссылки

Участник сейчас на форуме Участник сейчас на форуме Участник вне форума Участник вне форума Автор темы Автор темы Шапка темы Сообщение прикреплено

Похожие темы
Название темы Автор Информация о форуме Ответов Последнее сообщение
Как скачать видео с этого сайта?) johnatan1 Флейм 2 25-07-2012 21:08
Мультимедиа - Помогите вытащить музыку из видео клипа bugmenotagain Программное обеспечение Windows 2 21-03-2012 18:26
Прочие - [решено] Помогите вытащить иконку из usb safely remove x-net Программное обеспечение Windows 6 27-12-2010 09:33
Службы - Твики реестра - работа Винды после твиков с этого сайта. AZONIC Microsoft Windows 2000/XP 18 23-09-2008 19:12
Где взять многие статьи этого сайта в формате chm Guest О сайте и форуме 4 25-06-2004 12:24




 
Переход