Имя пользователя:
Пароль:  
Помощь | Регистрация | Забыли пароль?  | Правила  

Компьютерный форум OSzone.net » Компьютеры + Интернет » Вебмастеру » Как или чем можно граббить новости с сайта?

Ответить
Настройки темы
Как или чем можно граббить новости с сайта?

Ветеран


Сообщения: 2417
Благодарности: 465

Профиль | Цитировать


Помогите, пожалуйста с таким вопросом. Есть сайты, на которых регулярно выкладываются новости (сайты различных министерств). Нужно эти новости с них забирать и складывать в простой текстовый файл, ну например вордовский. Чем можно решить эту задачу? У меня просто вообще нет никакого опыта, не знаю даже с какой стороны подступиться.

Отправлено: 07:36, 13-04-2017

 
mwz mwz вне форума

Аватара для mwz

Ушел из жизни


Сообщения: 8595
Благодарности: 2127

Профиль | Сайт | Отправить PM | Цитировать


Цитата dislike:
в простой текстовый файл, ну например вордовский »
"Простой текстовый" (открывающийся хоть в Блокноте, хоть в чём) и "вордовский" — существенно разные вещи.
Со вторым замучаетесь.

-------
Mikhail Zhilin


Отправлено: 10:23, 13-04-2017 | #2



Для отключения данного рекламного блока вам необходимо зарегистрироваться или войти с учетной записью социальной сети.

Если же вы забыли свой пароль на форуме, то воспользуйтесь данной ссылкой для восстановления пароля.


Ветеран


Сообщения: 2417
Благодарности: 465

Профиль | Цитировать


Подскажите хоть как-нибудь, хоть в Блокнот, хоть в куда, я не привередничаю.

Отправлено: 10:37, 13-04-2017 | #3


Аватара для freese

Ветеран


Contributor


Сообщения: 6678
Благодарности: 1296

Профиль | Отправить PM | Цитировать


dislike, ну у самих сайтов наверное есть RSS? Есть программы для чтения RSS наподобии RSSOwl, в большенстве програм есть возможность сохранять новости, ну а про автоматизацию вы ничего не написали, значит не нужна...

Отправлено: 11:50, 13-04-2017 | #4


Ветеран


Сообщения: 2417
Благодарности: 465

Профиль | Цитировать


Цитата freese:
ну а про автоматизацию вы ничего не написали, значит не нужна... »
Нужна. Просто мне само собой казалось это очевидным, потому что жаль человека который будет по тысяче раз в день жать ctrl+c, ctrl+v и т.д. У него руки опухнуть через неделю.
Для RSS ставил FeedDemon, естественно никакой автоматизации в нём не нашел. Даже тупо экспорта в ворд нет (зато в Эксель есть )

Отправлено: 12:08, 13-04-2017 | #5


Ветеран


Сообщения: 1404
Благодарности: 135

Профиль | Отправить PM | Цитировать


php + vbs

-------
Ehhh.. what's up, doc?..


Отправлено: 16:59, 13-04-2017 | #6


Аватара для lxa85

Необычный


Contributor


Сообщения: 4462
Благодарности: 994

Профиль | Сайт | Отправить PM | Цитировать


dislike, При всем моем, сейчас ваша хотелка выглядит как просьба найти кнопку "Сделать зашибись!".
Сайты "различных" министерств работают кто на чем и как только не выкладывают информацию.
Поэтому пока они абстрактно "различные", то разговор получается не о чем.
Пишите конкретные сайты, и что во что складывать.
Плюс желательно опыт пользователей и их способность решать офисные задачи (например "открыть файл с помощью")

-------
- Я не разрешаю тебе быть плохой! Потому что плохие люди совершают плохие поступки. А это нехорошо!
(Из наставлений 5 летней девочки своей младшей сестре)

Это сообщение посчитали полезным следующие участники:

Отправлено: 17:56, 13-04-2017 | #7


Ветеран


Сообщения: 2417
Благодарности: 465

Профиль | Цитировать


Я не специально, я правда не знаю на какой козе подъехать к этой задаче. Всё что мне удавалось найти, сводилось к граббингу информации с одного сайта сразу на свой сайт, соответственно требуется 1) иметь свой сайт 2) встраивать в него код граббера, а это ну совершенно не то, что хочется.

Сайт для примера такой: agro.tatarstan.ru

Цитата lxa85:
и что во что складывать. »
Я ж сказал: текст новостей в идеале в ворд. Но и txt сойдет.

Последний раз редактировалось dislike, 14-04-2017 в 18:32.


Отправлено: 16:57, 14-04-2017 | #8


Ветеран


Сообщения: 27449
Благодарности: 8086

Профиль | Отправить PM | Цитировать


dislike, вариантов масса. Всё зависит от того, что на самом деле Вам нужно, в каком именно виде. С какой периодичностью делать запросы. Надо ли отслеживать состояние, дабы не было дублирования информации при запросах. И т.д.

В общем виде это может быть любое средство, умеющее работать с xml.
LogParser
Код: Выделить весь код
"C:\Program Files (x86)\Log Parser 2.2\LogParser.exe" "SELECT title, link, description, pubDate, yandex:full-text INTO DATAGRID FROM 'http://agro.tatarstan.ru/rss/agro.xml#/rss/channel/item'" -i:XML -fMode:Tree


Можно, разумеется, делать вывод не токмо в Grid, но и в текстовый документ, и в CSV.

VBScript
Код: Выделить весь код
Option Explicit

Dim strUrl

Dim objDOMDocument
Dim objXMLDOMElement
Dim objXMLDOMSelection

Dim objWord


strUrl = "http://agro.tatarstan.ru/rss/agro.xml"

Set objDOMDocument = WScript.CreateObject("Microsoft.XMLDOM")

objDOMDocument.async = False

If objDOMDocument.load(strUrl) Then
	Set objXMLDOMSelection = objDOMDocument.selectNodes("/rss/channel/item")
	
	If Not objXMLDOMSelection Is Nothing Then
			Set objWord = WScript.CreateObject("Word.Application")
			
			With objWord.Documents.Add()
				For Each objXMLDOMElement In objXMLDOMSelection
					With .Range
						.InsertAfter objXMLDOMElement.selectSingleNode("title").text & vbLf
						.InsertAfter objXMLDOMElement.selectSingleNode("link").text & vbLf
						.InsertAfter objXMLDOMElement.selectSingleNode("description").text & vbLf
						.InsertAfter objXMLDOMElement.selectSingleNode("pubDate").text & vbLf
						.InsertAfter objXMLDOMElement.selectSingleNode("yandex:full-text").text & vbLf
						.InsertAfter vbLf
					End With
				Next
			End With
			
			objWord.Visible = True
			'objWord.Quit
			Set objWord = Nothing
	Else
		WScript.Echo "Can't parse RSS from [" & strUrl & "]."
		WScript.Quit 2
	End If
	
	Set objXMLDOMSelection = Nothing
Else
	WScript.Echo "Can't load RSS from [" & strUrl & "]."
	WScript.Quit 1
End If

WScript.Quit 0


Точно так же это может быть PowerShell, AutoIt, VB/VBA/VB.net, всяческие С/С++ и т.п.

В любом случае, мне лично ни текстовый документ, ни Word в качестве основы вывода не нравятся. Жду Вашего ответа на вопросы.
Это сообщение посчитали полезным следующие участники:

Отправлено: 21:16, 14-04-2017 | #9


Ветеран


Сообщения: 2417
Благодарности: 465

Профиль | Цитировать


Цитата Iska:
что на самом деле Вам нужно, в каком именно виде. »
Как вы понимаете, нужно не совсем мне, но повесили на меня))) Нужно скорее всего как на последней картинке: документ ворд, заголовок новости, мясо новости. Возможно ещё понадобится картинка-иллюстрация оттуда же. Иногда картинка бывает не одна. Какими бы разными ни были министерские сайты, новости они выкладывают по одинаковому шаблону видимо.

Цитата Iska:
С какой периодичностью делать запросы. »
Я думаю, вручную, примерно раз в сутки.

Цитата Iska:
Надо ли отслеживать состояние, дабы не было дублирования информации при запросах. »
Я об этом как-то не подумал. Думаю, логичнее всего брать примерно 5 последних новостей, распихивать их каждую в свой файл, и если возможно сохранять в отдельную папку с соответствующей датой/временем

Отправлено: 23:10, 14-04-2017 | #10



Компьютерный форум OSzone.net » Компьютеры + Интернет » Вебмастеру » Как или чем можно граббить новости с сайта?

Участник сейчас на форуме Участник сейчас на форуме Участник вне форума Участник вне форума Автор темы Автор темы Шапка темы Сообщение прикреплено

Похожие темы
Название темы Автор Информация о форуме Ответов Последнее сообщение
[решено] Чем можно конвертнуть wmv в другой формат, avi или mp4 zai Видео и аудио: обработка и кодирование 4 02-09-2015 22:33
Acer Aspire 9410. За сколько можно продать? Или как его можно приспособить в быту? Михайло Флейм 0 09-03-2015 10:08
[решено] Смещенная верстка сайта как можно исправить? Наталья_Зверцева@vk Хочу все знать 1 06-04-2013 22:32
[решено] Как можно сохранять только одну полосу информации с сайта? avenir00 Хочу все знать 4 27-10-2010 14:33
чем можно скачать flash фильм с сайта? babki Вебмастеру 9 20-05-2010 18:25




 
Переход