Узел Интернет
datasource inet big

Узел Интернет позволяет загрузить и сохранить набор веб-страниц в виде записей в таблице данных. Как правило, каждая веб-страница сохраняется в виде отдельной записи в выходной таблице данных. В колонках таблицы указываются свойства каждой страницы, например, заголовки и URL. Весь извлеченный текст добавляется в специальную колонку.

Обычно веб-страницы представляют собой HTML-файлы, которые наряду с содержанием хранят информацию о форматировании. Браузеры (например, Microsoft Internet Explorer и Google Chrome) используют эту информацию для соответствующего отображения содержимого страницы (выделение жирным шрифтом или курсивом, оформление в виде заголовка и т.д.). При работе с HTML-элементами PolyAnalyst действует по-другому: он пытается отфильтровать информацию о форматировании и извлечь простой текст, поскольку информация о форматировании бесполезна при анализе, а иногда и вовсе мешает ему (например, влияя на показатель частоты слов).

В процессе выполнения узел Интернет загружает страницы из списка (начальные URL), проверяет их содержимое на наличие гиперссылок на другие страницы, загружает содержимое этих страниц, а затем повторяет весь процесс. Циклический процесс загрузки начальных и связанных страниц продолжается до тех пор, пока не будут выполнены все условия, заданные в окне настроек узла. Так, например, пользователь может ограничить объем загружаемых страниц, указав только один домен (например, https://www.megaputer.ru).