Концепция

ASpecD строится вокруг небольшого набора общих концепций, каждая из которых направлена на полную воспроизводимость и, по возможности, воспроизводимость сбора, обработки и анализа данных.

Несмотря на свое происхождение из спектроскопии, ASpecD в целом безразличен к обрабатываемым данным.

Набор данных (Dataset)

Единица данных и метаданных, необходимое условие для семантического понимания в рамках рутинных действий.

Каждое измерение (или расчет) производит (сырые) данные, которые бесполезны без дополнительной информации, такой как экспериментальные параметры.

Такая дополнительная информация называется “метаданные” в рамках ASpecD.

Набором данных является единица (числовых) данных и метаданных.

Другим неотъемлемым аспектом является история, содержащая всю необходимую информацию о каждом отдельном шаге обработки, выполненном над данными набора данных.

Помимо объединения числовых данных и метаданных, набор данных обеспечивает общую структуру, объединяющую различные форматы файлов, используемых в качестве источника как данных, так и метаданных.

Таким образом, фактический формат данных не имеет значения, что значительно облегчает работу с данными из разных источников (и даже с разными видами данных).

Метаданные (Metadata)

Информация о данных (наборах), может существовать отдельно от наборов данных.

Метаданные хранятся вне рамок ASpecD в простых, но структурированных текстовых файлах, которые ориентированы на удобство чтения и записи человеком, сохраняя при этом возможность машинного чтения.

Простейшее воплощение метаданных – это вся необходимая информация, полученная во время сбора данных, которая обычно хранится в файле и считывается при импорте данных.

Набор данных содержит эти метаданные вместе с числовыми данными.

История

Полный перечень всех этапов обработки, позволяющий воспроизводить результаты.

Воспроизводимость является важным аспектом надлежащей научной практики.

В контексте обработки и анализа данных это означает, что каждый шаг обработки, выполненный над данными (набором данных), должен храниться воспроизводимым образом и, желательно, в согласованном формате.

Чтобы быть реально полезной, запись истории должна содержать всю информацию, необходимую для воспроизведения шага обработки в его первоначальном виде.

Как минимум, это имя использованной процедуры обработки, полный список необходимых параметров для этой процедуры и уникальная информация о версии процедуры.

Дополнительные полезные аспекты содержат информацию об использованной операционной системе, имя оператора и дату выполнения шага обработки.

Репрезентативность

Графическое или табличное представление данных, извлеченных из наборов данных.

Представление данных – как в графическом, так и в табличном виде – является неотъемлемым аспектом анализа, а также публикации результатов в науке.

Уже графическое представление одномерных данных оставляет практически безграничные возможности, учитывая стили линий, цвета и т.д.

Многомерные данные добавляют дополнительный уровень сложности. Многомерные данные добавляют дополнительный уровень сложности.

Здесь выбор среза или представления часто имеет решающее значение.

Основная идея представлений заключается в хранении необходимых метаданных для (автоматического) воспроизведения представления на основе данных.

Представления могут быть как графическими, так и табличными.

Аннотации

Аннотации данных, например, характеристик, которые не могут быть автоматизированы.

Аннотации данных – это то, что невозможно автоматизировать.

Однако они могут быть очень важны для анализа и, следовательно, для получения новых научных знаний.

Простейшая форма аннотации – это комментарий, относящийся ко всему набору данных, например, комментарии, хранящиеся в метаданных, записанных во время сбора данных.

Отчеты

Обзор информации, имеющейся в наборе данных, который может быть создан автоматически.

Система ASpecD направлена на хранение как можно большего количества информации в простом формате, часто в рамках набора данных.

Однако такая система может показать свои сильные стороны только в том случае, если эта информация легко доступна и может быть представлена в привлекательном виде.

Идея отчетов заключается в создании хорошо отформатированных представлений важнейших аспектов набора данных или, в конечном итоге, нескольких наборов данных.

Это основано на шаблонах, предоставленных или скорректированных пользователем.

Задачи

Составляющие анализа данных, основанного на рецептах.

Обработка данных состоит из множества различных отдельных задач, которые в большинстве случаев можно автоматизировать.

В этом и заключается идея анализа данных на основе рецептов: списки наборов данных и задач, которые могут быть легко созданы пользователем и обработаны полностью автоматически. “Задачи” здесь имеют широкое значение, включая практически все автоматизируемые аспекты анализа данных, в том числе этапы обработки и анализа, создание представлений и аннотаций, и, наконец, отчеты.

Анализ данных, управляемый рецептами, проводится полностью без участия пользователя (неинтерактивно).

Это позволяет использовать его в контексте отдельного оборудования и системы планирования.

Ситуации, в которых такой подход особенно выгоден, – это либо множество наборов данных, которые должны быть обработаны одинаково, либо небольшое количество наборов данных, требующих дорогостоящей обработки, например, моделирования и подгонки.

Последнее еще более верно в контексте глобального подбора и/или выборки различных начальных параметров, таких как подходы с выборкой Монте-Карло или Латинского Гиперкуба.