ASpecD строится вокруг небольшого набора общих концепций, каждая из которых направлена на полную воспроизводимость и, по возможности, воспроизводимость сбора, обработки и анализа данных.
Несмотря на свое происхождение из спектроскопии, ASpecD в целом безразличен к обрабатываемым данным.
Набор данных (Dataset)
Единица данных и метаданных, необходимое условие для семантического понимания в рамках рутинных действий.
Каждое измерение (или расчет) производит (сырые) данные, которые бесполезны без дополнительной информации, такой как экспериментальные параметры.
Такая дополнительная информация называется “метаданные” в рамках ASpecD.
Набором данных является единица (числовых) данных и метаданных.
Другим неотъемлемым аспектом является история, содержащая всю необходимую информацию о каждом отдельном шаге обработки, выполненном над данными набора данных.
Помимо объединения числовых данных и метаданных, набор данных обеспечивает общую структуру, объединяющую различные форматы файлов, используемых в качестве источника как данных, так и метаданных.
Таким образом, фактический формат данных не имеет значения, что значительно облегчает работу с данными из разных источников (и даже с разными видами данных).
Метаданные (Metadata)
Информация о данных (наборах), может существовать отдельно от наборов данных.
Метаданные хранятся вне рамок ASpecD в простых, но структурированных текстовых файлах, которые ориентированы на удобство чтения и записи человеком, сохраняя при этом возможность машинного чтения.
Простейшее воплощение метаданных – это вся необходимая информация, полученная во время сбора данных, которая обычно хранится в файле и считывается при импорте данных.
Набор данных содержит эти метаданные вместе с числовыми данными.
История
Полный перечень всех этапов обработки, позволяющий воспроизводить результаты.
Воспроизводимость является важным аспектом надлежащей научной практики.
В контексте обработки и анализа данных это означает, что каждый шаг обработки, выполненный над данными (набором данных), должен храниться воспроизводимым образом и, желательно, в согласованном формате.
Чтобы быть реально полезной, запись истории должна содержать всю информацию, необходимую для воспроизведения шага обработки в его первоначальном виде.
Как минимум, это имя использованной процедуры обработки, полный список необходимых параметров для этой процедуры и уникальная информация о версии процедуры.
Дополнительные полезные аспекты содержат информацию об использованной операционной системе, имя оператора и дату выполнения шага обработки.
Репрезентативность
Графическое или табличное представление данных, извлеченных из наборов данных.
Представление данных – как в графическом, так и в табличном виде – является неотъемлемым аспектом анализа, а также публикации результатов в науке.
Уже графическое представление одномерных данных оставляет практически безграничные возможности, учитывая стили линий, цвета и т.д.
Многомерные данные добавляют дополнительный уровень сложности. Многомерные данные добавляют дополнительный уровень сложности.
Здесь выбор среза или представления часто имеет решающее значение.
Основная идея представлений заключается в хранении необходимых метаданных для (автоматического) воспроизведения представления на основе данных.
Представления могут быть как графическими, так и табличными.
Аннотации
Аннотации данных, например, характеристик, которые не могут быть автоматизированы.
Аннотации данных – это то, что невозможно автоматизировать.
Однако они могут быть очень важны для анализа и, следовательно, для получения новых научных знаний.
Простейшая форма аннотации – это комментарий, относящийся ко всему набору данных, например, комментарии, хранящиеся в метаданных, записанных во время сбора данных.
Отчеты
Обзор информации, имеющейся в наборе данных, который может быть создан автоматически.
Система ASpecD направлена на хранение как можно большего количества информации в простом формате, часто в рамках набора данных.
Однако такая система может показать свои сильные стороны только в том случае, если эта информация легко доступна и может быть представлена в привлекательном виде.
Идея отчетов заключается в создании хорошо отформатированных представлений важнейших аспектов набора данных или, в конечном итоге, нескольких наборов данных.
Это основано на шаблонах, предоставленных или скорректированных пользователем.
Задачи
Составляющие анализа данных, основанного на рецептах.
Обработка данных состоит из множества различных отдельных задач, которые в большинстве случаев можно автоматизировать.
В этом и заключается идея анализа данных на основе рецептов: списки наборов данных и задач, которые могут быть легко созданы пользователем и обработаны полностью автоматически. “Задачи” здесь имеют широкое значение, включая практически все автоматизируемые аспекты анализа данных, в том числе этапы обработки и анализа, создание представлений и аннотаций, и, наконец, отчеты.
Анализ данных, управляемый рецептами, проводится полностью без участия пользователя (неинтерактивно).
Это позволяет использовать его в контексте отдельного оборудования и системы планирования.
Ситуации, в которых такой подход особенно выгоден, – это либо множество наборов данных, которые должны быть обработаны одинаково, либо небольшое количество наборов данных, требующих дорогостоящей обработки, например, моделирования и подгонки.
Последнее еще более верно в контексте глобального подбора и/или выборки различных начальных параметров, таких как подходы с выборкой Монте-Карло или Латинского Гиперкуба.