Отрасль знаний, которая занимается сбором, измерением, анализом и мониторингом больших объемов статистических данных. Анализ статистических данных производят с помощью статистических методов. Статистика – это мультидисциплина.
Виды статистических методов
- Методы общего назначения. В них не учитывается специфика области применения.
- Специальные методы. Применяются для конкретных областей и разработаны с их особенностями.
- Методы для статистического анализа конкретных данных (выборочные исследования)
С чем работает статистика
Статистика работает с большим объемом данных, из которых выбираются выборки. Выборки – это нужная и полезная информация для проведения исследования. Объем выборок может быть различный, но чем он больше, тем точнее результат. Для оценки используют различные методы аппарата математической статистики, это и поиск математического ожидания и дисперсии, и корреляция, и регрессия, и построение гистограмм, и др. Статистика применяется в мониторинге, в бизнес-аналитике, моделировании и прогнозировании данных. Такие данные также подвергаются детализации и визуализации.
Автоматический сбор показателей
Автоматический сбор показателей используется во многих системах, среди которых присутствует сбор показателей счетчиков, сбор экономических показателей, сбор данных из социальных сетей и сети интернет, из супермаркетов и др. В таких системах происходит автоматический поиск, выделение и преобразование информации в нужный вид. Цель такого сбора разная, она может быть связана с исследованием рынка, с получением контактной информации, с поиском работы или с поиском сотрудников, с анализом цен магазинов. Цель любая, а принцип работы один. Компания «Протехстандарт» создаст программное обеспечение под любые Ваши цели. Многолетний опыт (15 лет) и свой подход к каждому клиенту делают работу продуктивной и нацеленной на результат.
Системы автоматического сбора показателей из сети Интернет
- Import.io – работает с веб-страницами, для анализа необходимо произвести импорт нужной страницы.
- Webhose.io – обрабатывает многочисленные источники на 240 языках.
- Dexi.io – извлекает данные в режиме реального времени, предоставляя анонимный доступ.
- Scrapinghub – работает с умным прокси-ротатором, который обходит защиты от ботов.
- Spinn3r – парсит данные из блогов и новостных лент.
Big data (Биг дата)
Системы, описанные выше, как и статистика, работают с большими объемами данных, а иногда и с огромными. Big data (BD) – многообразие структурированных и неструктурированных данные огромных объемов. Для таких данных выделают три характеристики, три набора признаков: объем, скорость и многообразие. Источники таких данных — интернет вещей и социальные медиа. К большим данным применяют методы анализа, среди которых краудсорсинг, пространственный анализ и др., также Big data используют при обучении нейронных сетей. Существует большой спектр программных комплексов, которые работают с BD и поставляются в центры обработки данных. Некоторые из них:
- Aster MapReduce appliance (Teradata)
- Oracle Big Data appliance
- Greenplum appliance