Фабрика данных что такое

Знакомство с Фабрикой данных Azure

В этой статье рассматривается служба «Фабрика данных Azure» версии 1. Если вы используете текущую версию службы «Фабрика данных», см. руководство по службе «Фабрика данных Azure» версии 2.

Что такое фабрика данных Azure?

Как имеющиеся большие данные используются в бизнес-среде? Возможно ли расширить облачные данные за счет ссылочных данных из локальных источников данных или других разрозненных источников данных?

Например, компания-разработчик игр собирает журналы, создаваемые играми в облаке. Она хочет проанализировать эти журналы, чтобы получить сведения о предпочтениях клиентов, демографических параметрах, особенностях использования и т. д. Эти сведения помогут понять, как можно увеличить дополнительные и перекрестные продажи, разработать новые интересные функции, стимулировать развитие компании и улучшить качество обслуживания клиентов.

Чтобы проанализировать эти журналы, компании необходимо использовать справочные сведения, например информацию о клиентах, игре и маркетинговых действиях, которые хранятся в локальном хранилище данных. Таким образом компания хочет получить данные журнала из облачного хранилища данных, а справочные сведения — из локального хранилища данных.

Далее нужно обработать данные с помощью Hadoop в облаке (Azure HDInsight). Данные результатов нужно опубликовать в облачном хранилище данных, например Azure Synapse Analytics, или локальном хранилище данных, например SQL Server. И такой рабочий процесс должен выполняться еженедельно.

Для этого нужна платформа, которая позволит компании создать рабочий процесс для приема данных из локального и облачного хранилищ данных, преобразовать или обработать эти данные с помощью существующих служб вычислений (например, Hadoop) и опубликовать результаты в локальное или облачное хранилище данных для использования приложениями бизнес-аналитики.

Фабрика данных что такое

Фабрика данных Azure — это платформа для таких сценариев. Это облачная служба интеграции данных, которая позволяет создавать управляемые данными рабочие процессы в облаке для оркестрации и автоматизации перемещения и преобразования данных. Используя фабрику данных Azure, можно выполнять следующие задачи:

создавать и включать в расписание управляемые данными рабочие процессы (конвейеры), которые могут принимать данные из разнородных хранилищ данных;

обрабатывать или преобразовывать эти данные с помощью служб вычислений (например, Azure HDInsight Hadoop, Spark, Azure Data Lake Analytics и машинного обучения Azure);

публиковать выходные данные в хранилища данных (например, Azure Synapse Analytics) для использования приложениями бизнес-аналитики.

В отличие от традиционных платформ для последовательного извлечения, преобразования и загрузки данных эта платформа предусматривает два этапа обработки: извлечение и загрузка, за которыми следуют преобразование и загрузка. При преобразовании данные обрабатываются с помощью служб вычислений, а не путем добавления производных столбцов, подсчета количества строк, сортировки данных и так далее.

Сейчас в фабрике данных Azure данные, полученные и созданные рабочими процессами, представляют временные срезы, то есть они могут обрабатываться ежечасно, ежедневно, еженедельно и т. д. Например, конвейер может считывать входные данные, обрабатывать данные и генерировать выходные данные один раз в день. Рабочий процесс также можно запускать однократно.

Как это работает?

Конвейеры (управляемые данными рабочие процессы) в фабрике Azure данных обычно выполняют следующие действия.

Фабрика данных что такое

Подключение и сбор данных

Предприятия работают с данными разных типов, хранимыми в разных источниках. Первым этапом в создании системы производства информации является подключение ко всем необходимым источникам данных и службам обработки, таким как службы SaaS, файловые ресурсы с общим доступом, FTP и веб-службы, и перемещение данных, необходимых для последующей обработки, в централизованное расположение.

Не имея фабрики данных предприятия вынуждены создавать компоненты для перемещения пользовательских данных или писать пользовательские службы для интеграции этих источников данных и обработки. Такие системы дорого стоят, их сложно интегрировать и обслуживать. Кроме того, они часто не включают функции мониторинга и оповещений корпоративного уровня, а также элементы управления, которые может предложить полностью управляемая служба.

С помощью фабрики данных вы можете использовать действие копирования в конвейере данных, чтобы переместить данные из локальных и облачных исходных хранилищ данных в централизованное хранилище данных в облаке для последующего анализа.

Например, вы можете собрать данные в Azure Data Lake Store и позже преобразовать эти данные с помощью службы вычислений Azure Data Lake Analytics. Или же вы можете собрать данные в хранилище BLOB-объектов Azure и позже преобразовать их с помощью кластера Hadoop под управлением службы Azure HDInsight.

Преобразование и дополнение данных

Обработайте или передайте данные, собранные в централизованном облачном хранилище данных, с помощью служб вычислений, например HDInsight Hadoop, Spark, Data Lake Analytics или машинного обучения. Также необходимо надежно преобразовывать данные по определенному расписанию (поддерживаемому и управляемому) для насыщения рабочих сред доверенными данными.

Публикация

Преобразованные данные можно передавать из облака в локальные источники (например, SQL Server) Кроме того, не заключайте его в облачные источники хранилища для использования средствами бизнес-аналитики и аналитиками и другими приложениями.

Ключевые компоненты

В подписке Azure может быть один или несколько экземпляров фабрики данных Azure. Фабрика данных Azure состоит из четырех основных компонентов. Они образуют платформу, на которой можно создавать управляемые данными рабочие процессы, предусматривающие перемещение и преобразование данных.

Pipeline

Фабрика данных может иметь один или несколько конвейеров. Конвейер представляет собой группу действий. Действия в конвейере совместно выполняют задачу.

Например, конвейер может включать группу действий, которые принимают данные из большого двоичного объекта Azure и выполняют запрос Hive в кластере HDInsight для секционирования данных. Преимуществом является то, что конвейер позволяет управлять группами действий, а не каждым отдельным действием. Например, вы можете развернуть конвейер и запланировать его работу, а не планировать действия отдельно.

Действие

Конвейер может содержать одно или несколько действий. Действия определяют то, что нужно выполнить с вашими данными. Например, действие копирования может использоваться для копирования данных из одного хранилища данных в другое. Точно так же можно использовать действие Hive, которое выполняет запрос Hive к кластеру Azure HDInsight для преобразования или анализа данных. Фабрика данных поддерживает два типа действий: действия перемещения данных и действия преобразования данных.

Действия перемещения данных

Действие копирования в фабрике данных копирует данные из хранилища-источника в хранилище-приемник. Данные из любого источника можно записывать в любой приемник. Выделите название хранилища, чтобы узнать, как скопировать данные из него или в него. Фабрика данных поддерживает приведенные ниже хранилища данных:

КатегорияХранилище данныхПоддерживается в качестве источникаПоддерживается в качестве приемника
AzureХранилище BLOB-объектов Azure
Azure Cosmos DB (SQL API)
Azure Data Lake Storage 1-го поколения
База данных SQL Azure
Azure Synapse Analytics
Индекс Когнитивного поиска Azure
Хранилище таблиц Azure
Базы данныхAmazon Redshift
DB2
MySQL
СУБД
PostgreSQL
SAP Business Warehouse
SAP HANA
SQL Server
Sybase
Teradata
NoSQLCassandra
MongoDB
ФайлAmazon S3
Файловая система
FTP
HDFS
SFTP
ПрочиеБазовый протокол HTTP
Базовый протокол OData
Универсальный ODBC
Salesforce
Веб-таблица (таблица на основе HTML)

Действия преобразования данных

Фабрика данных Azure поддерживает указанные ниже действия преобразования, которые вы можете добавлять в конвейеры как по отдельности, так и в связи с другим действием.

Действия по преобразованию данныхВычислительная среда
HiveHDInsight [Hadoop]
PigHDInsight [Hadoop]
MapReduceHDInsight [Hadoop]
Потоковая передача HadoopHDInsight [Hadoop]
SparkHDInsight [Hadoop]
Действия Студии машинного обучения Azure (классическая версия): пакетное выполнение и обновление ресурсаAzure
Хранимая процедураAzure SQL, Azure Synapse Analytics или SQL Server
Аналитика озера данных U-SQLАналитика озера данных Azure
DotNetHDInsight [Hadoop] или пакетная служба Azure

Действие MapReduce можно использовать для запуска программ Spark в кластере HDInsight Spark. Дополнительные сведения см. в разделе Вызов программ Spark из фабрики данных. Можно создать настраиваемое действие для выполнения сценариев R в кластере HDInsight, где установлена среда R. Ознакомьтесь с примером в репозитории GitHub Run R Script using Azure Data Factory (Запуск сценария R с помощью фабрики данных Azure).

Наборы данных

Каждое действие принимает некоторое число наборов данных на входе и создает один или несколько наборов данных на выходе. Наборы данных представляют структуры данных в хранилищах данных. Эти структуры указывают или ссылаются на данные, которые нужно использовать в действиях (например, входные и выходные данные).

Например, набор данных больших двоичных объектов Azure указывает контейнер больших двоичных объектов и папку в хранилище BLOB-объектов, из которой конвейер должен считывать данные. Или же набор таблиц SQL Azure указывает таблицу, в которую с помощью действия записываются выходные данные.

Связанные службы

Связанные службы напоминают строки подключения, определяющие сведения о подключении, необходимые для подключения фабрики данных к внешним ресурсам. Таким образом, набор данных представляет структуру данных, а связанная служба определяет подключение к источнику данных.

Например, связанная служба хранилища Azure определяет строку подключения для подключения к учетной записи хранения Azure. А набор данных больших двоичных объектов Azure определяет контейнер больших двоичных объектов и папку, которая содержит данные.

Связанные службы используются в фабрике данных для двух целей:

Для представления хранилища данных, включая, помимо прочего, базу данных SQL Server, базу данных Oracle, общую папку и учетную запись хранилища BLOB-объектов Azure. Список поддерживаемых хранилищ данных см. в статье Перемещение данных с помощью действия копирования.

Для представления вычислительного ресурса, в котором можно выполнить действие. Например, действие HDInsightHive выполняется в кластере Hadoop в HDInsight. Список поддерживаемых вычислительных сред см. в разделе Действия преобразования данных.

Связь между сущностями фабрики данных

Фабрика данных что такое

Поддерживаемые регионы

Сейчас фабрики данных можно создавать в таких регионах: западная часть США, восточная часть США и Северная Европа. Однако для перемещения данных между хранилищами данных или для обработки данных с помощью служб вычислений фабрики данных могут обращаться к хранилищам данных и службам вычислений в других регионах Azure.

В самой фабрике данных Azure данные не хранятся. Она позволяет создавать рабочие процессы на основе данных в облаке, чтобы выполнять оркестрацию для перемещения данных между поддерживаемыми хранилищами данных, а также обрабатывать данные с помощью служб вычислений в других регионах или в локальной среде. Кроме того, с помощью фабрики данных можно отслеживать рабочие процессы и управлять ими, используя программные методы и пользовательский интерфейс.

Фабрика данных Azure доступна только в западной части США, восточной части США и Северной Европе. Служба фабрики данных для поддержки перемещения данных доступна глобально в нескольких регионах. Если хранилище данных находится за брандмауэром, данные перемещает шлюз управления данными, установленный в локальной среде.

Предположим, ваши вычислительные среды, например кластер Azure HDInsight и служба «Машинное обучение Azure», расположены в Западной Европе. Вы можете создать экземпляр фабрики данных Azure в Северной Европе и с его помощью планировать задания в вычислительных средах в Западной Европе. Фабрике данных требуется лишь несколько миллисекунд, чтобы запустить задание в вычислительной среде, но время выполнения задания в вашей вычислительной среде остается неизменным.

Начало работы — создание конвейера

Для создания конвейеров данных в фабрике данных Azure можно использовать API-интерфейсы или одно из следующих средств:

Чтобы научиться создавать фабрики данных с конвейерами данных, выполните пошаговые инструкции из следующих руководств:

Источник

Часто задаваемые вопросы о фабрике данных Azure

применимо к: Фабрика данных что такоеAzure синапсе Analytics фабрика данных Azure Фабрика данных что такое

Эта статья содержит ответы на часто задаваемые вопросы о фабрике данных Azure.

Что такое Фабрика данных Azure?

Фабрика данных — это полностью управляемая облачная служба извлечения, преобразования, загрузки и интеграции данных, которая автоматизирует перемещение и преобразование данных. Как на фабрике сырье превращается в готовую продукцию с помощью оборудования, так и в фабриках данных Azure необработанные данные собираются и преобразовываются в готовые к использованию сведения с помощью специальных служб.

Фабрика данных Azure позволяет создавать управляемые данными рабочие процессы для перемещения данных между локальными и облачными хранилищами данных. Эти данные можно обрабатывать и преобразовывать, используя средство под названием «Поток данных». ADF поддерживает также внешние вычислительные подсистемы для выполнения запрограммированных вручную преобразований с помощью служб вычислений, таких как Azure HDInsight, Azure Databricks и среды выполнения интеграции SQL Server Integration Services (SSIS).

С помощью фабрики данных вы можете выполнить обработку данных, используя облачную службу на основе Azure или собственную вычислительную среду с локальным размещением, например SSIS, SQL Server или Oracle. Для созданного конвейера, который выполняет необходимое действие, можно запланировать периодический запуск (например, ежечасно, ежедневно или еженедельно), запуск по временному окну или по некоторому событию. Дополнительную информацию см. в статье Общие сведения о службе фабрики данных Azure, службе интеграции данных в облаке.

Соответствие и безопасность

Фабрика данных Azure сертифицирована по ряду стандартов соответствия, включая SOC 1, 2, 3, HIPAA BAAи HITRUST. Полный список сертификатов, который постоянно пополняется, можно найти здесь. Цифровые копии отчетов об аудите и сертификатов соответствия можно найти в центре управления безопасностью служб.

Потоки управления и масштабирование

Чтобы обеспечить поддержку разнообразных потоков и шаблонов интеграции в современных хранилищах данных, Фабрика данных реализует новую гибкую модель конвейеров данных. Это предполагает парадигму полноценного программирования потока управления, в том числе условное выполнение, ветвление в конвейерах данных и возможность явно передавать параметры внутри потоков и между ними. В потоке управления можно также преобразовывать данные путем отправки действий во внешние подсистемы выполнения и организовывать потоки данных, включая перемещение данных в большом масштабе, с применением действия Copy.

Фабрика данных позволяет создать любой поток для своего сценария интеграции данных и запускать его по запросу или постоянно по расписанию. Ниже приведены несколько общих потоков, которые эта модель поддерживает.

Конвейеры без кода как средство преобразования данных в большом масштабе

Новый браузерный инструментарий позволяет писать и развертывать конвейеры без кода с помощью современного интерактивного веб-интерфейса.

Пользовательский веб-интерфейс Фабрики данных представляет собой среду проектирования без написания кода, которую разработчики, занимающиеся визуализацией данных, и специалисты по обработке и анализу данных могут использовать для создания конвейеров. Он полностью интегрирован с Visual Studio Online Git и обеспечивает сопряжение с процессами непрерывной интеграции и поставки (CI/CD), а также итеративной разработки с возможностями отладки.

Расширенный кроссплатформенный пакет SDK для опытных пользователей

В Фабрике данных версии 2 доступен широкий ассортимент пакетов SDK, которые можно использовать для создания, администрирования и мониторинга конвейеров средствами предпочитаемой IDE, в том числе следующими.

Пользователи пакета SDK для C# могут также использовать задокументированные REST API для обмена данными с Фабрикой данных версии 2.

Итеративная разработка и отладка с использованием визуальных средств

Визуальные инструменты Фабрики данных Azure позволяют выполнять итеративную разработку и отладку. Вы можете создавать конвейеры и выполнять тестовые запуски с помощью функции Отладка на холсте конвейера, не написав ни строки кода. Просмотреть результаты тестовых запусков можно в окне Выходные данные на холсте конвейера. После успешных тестовых запусков можно добавить дополнительные действия в конвейер и продолжать отладку итеративным методом. Выполняемые тестовые запуски также можно отменить.

Перед выбором функции Отладка необязательно публиковать изменения в службе фабрики данных. Это помогает в сценариях, когда перед обновлением рабочих процессов фабрики данных в среде разработки, тестирования и рабочей среде необходимо убедиться, что добавленные элементы и изменения работают, как и ожидалось.

Развертывание пакетов служб интеграции SSIS в Azure

Если вы хотите перемещать рабочие нагрузки служб SSIS, то создайте фабрику данных и подготовьте среду выполнения интеграции Azure SSIS. Среда выполнения интеграции Azure SSIS — это полностью управляемый кластер виртуальных машин (узлов) Azure, выделенный для выполнения пакетов служб SSIS в облаке. Пошаговые инструкции см. в руководстве Развертывание пакетов служб интеграции SQL Server (SSIS) в Azure.

Пакеты SDK

Мониторинг

Фабрики данных можно отслеживать с помощью PowerShell, пакета SDK и визуальных средств наблюдения в браузерном пользовательском интерфейсе. Вы можете отслеживать пользовательские потоки, запускаемые по требованию, на основе триггера и по времени, и управлять ими эффективно и без лишних затрат. Отменяйте существующие задачи, просматривайте общие сведения о сбоях, детализируйте сбои, чтобы получить подробные сообщения об ошибках, и выполняйте отладку неполадок на одной панели без переключения контекста или перехода между экранами.

Новые возможности служб SSIS в Фабрике данных Azure

С момента первоначального выпуска общедоступной предварительной версии в 2017 году в Фабрике данных были добавлены следующие возможности и компоненты для служб SSIS.

Что такое среда выполнения интеграции?

Среда выполнения интеграции — это вычислительная инфраструктура, с помощью которой Фабрика данных Azure обеспечивает перечисленные ниже возможности интеграции данных в разных сетевых средах.

Вы можете развертывать один экземпляр среды выполнения интеграции или несколько по необходимости, чтобы переместить или преобразовать данные. Среда выполнения интеграции может работать в общедоступной сети Azure или в частной сети (локальной сети, виртуальной сети Azure или виртуальном частном облаке Amazon Web Services [VPC]). В фабрике данных действия определяют выполняемые операции. Связанная служба обозначает целевое хранилище данных или службу вычислений. Среда выполнения интеграции соединяет между собой действия и связанные службы. На нее ссылаются связанные с ней службы или действия, а кроме того она предоставляет вычислительную среду, в которой действие выполняется или из которой оно диспетчеризируется. Такая схема позволяет выполнять действия в регионе, который максимально близко расположен к целевому хранилищу данных или службе вычислений, обеспечивает высокую производительность и соблюдение требований по безопасности и соответствию.

Среды выполнения интеграции можно создать в Фабрике данных Azure через центр управления и с помощью любых действий, наборов данных или потоков данных, которые на них ссылаются. Дополнительные сведения см. в статье Среда выполнения интеграции в фабрике данных Azure.

Что такое ограничение количества сред выполнения интеграции?

В фабрике данных нет жестких ограничений на количество экземпляров среды выполнения интеграции. Однако есть ограничение на число ядер виртуальной машины, которые среда выполнения интеграции может использовать для каждой подписки при выполнении пакетов служб SSIS. Дополнительные сведения см. в разделе Ограничения фабрики данных.

Какие основные концепции в фабрике данных Azure?

В подписке Azure может быть один или несколько экземпляров фабрики данных Azure. Фабрика данных Azure содержит четыре ключевых компонента. Они образуют платформу, на которой можно создавать управляемые данными рабочие процессы, предусматривающие перемещение и преобразование данных.

Конвейеры

Фабрика данных может иметь один или несколько конвейеров. Конвейер — это логическая группа действий, которые выполняют определенный блок задач. Действия в конвейере совместно выполняют задачу. Например, конвейер может включать группу действий, которые принимают данные из большого двоичного объекта Azure и выполняют запрос Hive в кластере HDInsight для секционирования данных. Преимуществом является то, что конвейер позволяет управлять группами действий, а не каждым отдельным действием. Вы можете связать вместе действия в конвейере, чтобы выполнять их последовательно, или выполнять их параллельно и независимо друг от друга.

Потоки данных

Потоки данных — это объекты, создаваемые визуально в Фабрике данных, которые преобразуют данные в большом масштабе в серверных службах Spark. Вам не нужно разбираться в программировании или внутренних компонентах Spark. Просто спроектируйте свое намерение преобразования данных с помощью графиков (сопоставление) или электронных таблиц (активность запросов Power).

Действия

Действия представляют отдельные этапы обработки в конвейере. Например, действие Copy может использоваться для копирования данных из одного хранилища данных в другое. Точно так же можно использовать действие Hive, которое выполняет запрос Hive к кластеру Azure HDInsight для преобразования или анализа данных. Фабрика данных поддерживает три типа действий: действия перемещения данных, действия преобразования данных и действия управления.

Наборы данных

Наборы данных представляют структуры данных в хранилищах. Эти структуры указывают данные, необходимые для использования в действиях, разделяя их на входные и выходные.

Связанные службы

Связанные службы напоминают строки подключения, определяющие сведения о подключении, необходимые для подключения фабрики данных к внешним ресурсам. Таким образом, набор данных представляет структуру данных, а связанная служба определяет подключение к источнику данных. Например, связанная служба хранилища Azure определяет строку подключения для подключения к учетной записи хранения Azure. А набор данных больших двоичных объектов Azure определяет контейнер больших двоичных объектов и папку, которая содержит данные.

Связанные службы используются в фабрике данных для двух целей:

Триггеры

Триггеры обозначают единицу обработки, которая определяет время запуска для выполнения конвейера. Существует несколько типов триггеров для разных событий.

Запуски конвейера

Запуск конвейера — это экземпляр выполнения конвейера. Запуск конвейера обычно выполняется путем передачи аргументов для параметров, определенных в конвейере. Вы можете передать аргументы вручную или в определении триггера.

Параметры

Параметры представляют собой пары «ключ — значение» в конфигурации только для чтения. Вы определяете параметры в конвейере и передаете для них аргументы во время выполнения из контекста запуска. Контекст запуска создается триггером или из конвейера, который выполняется вручную. Действия в конвейере используют значения параметров.

Набор данных — это строго типизированный параметр и сущность, на которую можно ссылаться и которую можно использовать повторно. Действие может ссылаться на наборы данных и может использовать параметры, определенные в определении набора данных.

Связанная служба также является строго типизированным параметром, который содержит сведения о подключении к хранилищу данных или среде вычислений. Это также сущность, доступная для ссылок или повторного использования.

Потоки управления

Потоки управления выполняют оркестрацию действий в конвейере, которая включает цепочки действий в последовательности, ветвление и параметры, определяемые на уровне конвейера, а также аргументы, которые передаются во время вызова конвейера по запросу или из триггера. Сюда также входит передача пользовательского состояния и контейнеры зацикливания (то есть итераторы forEach).

Дополнительные сведения о понятиях фабрики данных см. в следующих статьях:

Какая модель ценообразования применяется для фабрики данных?

Подробные сведения о ценах на фабрику данных Azure см. на этой странице.

Как оставаться в курсе последних новостей о фабрике данных?

Чтобы узнавать о последних новостях о фабрике данных Azure, используйте следующие сайты:

Подробное техническое руководство

Как запланировать конвейер?

Для планирования конвейера можно использовать триггер планировщика или триггер по временному окну. Триггер использует календарное расписание с указанием времени, которое позволяет планировать конвейеры, выполняемые периодически или по повторяющимся шаблонам на основе календаря (например, еженедельно по понедельникам в 18:00 и по четвергам в 21:00). Дополнительные сведения см. в статье Выполнение конвейера и триггеры в фабрике данных Azure.

Можно ли передать параметры в выполнение конвейера?

Да, параметры являются основной концепцией в Фабрике данных. Вы можете определить параметры на уровне конвейера и передать аргументы при выполнении конвейера, запускаемого по требованию или с помощью триггера.

Можно ли определить значения по умолчанию для параметров конвейера?

Да. Вы можете определить значения по умолчанию для параметров в конвейерах.

Может ли действие в конвейере использовать аргументы, передаваемые в конвейер?

Может ли свойство из выходных данных действия использоваться в другом действии?

Как корректно обрабатывать значения null в выходных данных действия?

Сопоставление потоков данных

Мне нужна помощь в устранении неполадок с логикой потока данных. Какие сведения необходимо предоставить для получения помощи?

Если вам нужна помощь Майкрософт в решении проблем с потоками данных, предоставьте соответствующие файлы поддержки конвейера ADF. Этот ZIP-файл содержит сценарий кода программной части из вашего графика потока данных. В пользовательском интерфейсе ADF нажмите . рядом с конвейером, после чего нажмите Загрузить файлы поддержки.

Как получить доступ к данным с помощью остальных 90 типов наборов данных в Фабрике данных?

В настоящее время функция потока данных для сопоставления разрешает использовать в качестве источника и приемника Базу данных SQL Azure, Azure Synapse Analytics, текстовые файлы с разделителями из хранилища BLOB-объектов Azure или Azure Data Lake Storage 2-го поколения, а также файлы Parquet из хранилища BLOB-объектов или Data Lake Storage 2-го поколения.

Используйте действие Copy для промежуточного размещения данных из других соединителей, а затем выполните действие Потока данных для преобразования. Например, конвейер сначала скопирует данные в хранилище BLOB-объектов, а затем действие Потока данных будет использовать набор данных в источнике для преобразования этих данных.

Доступна ли локальная среда выполнения интеграции для потоков данных?

Локальная среда выполнения интеграции — это конструкция конвейера ADF, которую можно использовать с действием копирования для получения или перемещения данных между локальными источниками и приемниками данных на основе виртуальных машин. Виртуальные машины, используемые для локальной среды выполнения интеграции, также могут размещаться в той же виртуальной сети, что и защищенные хранилища данных, для доступа к этим хранилищам данных из ADF. Используя потоки данных, вы сможете достичь тех же конечных результатов с помощью Azure IR с управляемой виртуальной сетью.

Может ли вычислительный модуль потока данных обслуживать несколько клиентов?

Кластеры никогда не используются совместно. Мы гарантируем изоляцию для каждого задания, выполняемого в рабочей среде. Для отладки один пользователь получает один кластер, и все операции отладки будут относиться к кластеру, инициированному этим пользователем.

Существует ли способ записи атрибутов в Cosmos DB в том же порядке, в котором они указаны в приемнике в потоке данных ADF?

Базовый формат каждого документа в Cosmos DB — это объект JSON, который является неупорядоченным набором пар «имя — значение», поэтому порядок невозможно сохранить.

Почему пользователь не может использовать предварительный просмотр данных в потоках данных?

Необходимо проверить разрешения для пользовательской роли. Предварительный просмотр данных в потоке данных связан с несколькими действиями. Сначала проверьте сетевой трафик во время отладки в браузере. Выполните все действия, чтобы получить дополнительные сведения, и обратитесь к поставщику ресурсов.

Можно ли в ADF вычислить значение нового столбца по существующему столбцу из сопоставления?

Используйте производное преобразование в потоке данных для сопоставления, чтобы создать новый столбец с нужной логикой. При создании производного столбца можно либо сформировать новый столбец, либо изменить существующий. В текстовом поле Столбец введите столбец, который вы создаете. Чтобы переопределить в своей схеме существующий столбец, можно использовать раскрывающийся список столбцов. Чтобы построить выражение производного столбца, щелкните текстовое поле Введите выражение. Начните вводить выражение, либо откройте построитель логических выражений.

Почему предварительный просмотр потока данных для сопоставления завершается сбоем из-за времени ожидания шлюза?

Попробуйте использовать кластер большего размера и измените ограничения для строк в параметрах отладки на меньшее значение, чтобы уменьшить размер выходных данных отладки.

Как параметризовать имя столбца в потоке данных?

Имя столбца может быть параметризовано аналогично другим свойствам. Как и в производном столбце клиент может использовать $ColumnNameParam = ToString (бинаме ($myColumnNameParamInData)). Эти параметры могут передаваться из выполнения конвейера в потоки данных.

Рекомендации по сроку жизни и затраты для потока данных

Первичная обработка данных Power Query

Какие регионы поддерживаются для первичной обработки данных?

Фабрика данных доступна в следующих регионах. Функция Power Query доступна во всех областях потока данных. Если эта функция недоступна в вашем регионе, обратитесь в службу поддержки.

В чем разница между отображением потока данных для сопоставления и активностью запроса мощности (первичная обработка данных)?

Поток данных для сопоставления обеспечивает способ преобразования данных в большом масштабе без какого-либо кодирования. Вы можете создать задание преобразования данных на холсте потока данных, создав серию преобразований. Начните с произвольным количеством исходных преобразований, за которыми следуют шаги преобразования данных. Заполните поток данных с помощью приемника, чтобы получить результаты в пункте назначения. Поток данных для сопоставления отлично подходит для сопоставления и преобразования данных с известными и неизвестными схемами в приемниках и источниках.

Первичная обработка данных Power Query позволяет выполнять гибкую подготовку и исследование данных с помощью редактора гибридных приложений Power Query Online в любом масштабе посредством выполнения Spark. С распространением озер данных иногда вам нужно просто исследовать набор данных или создать набор данных в озере. При этом не выполняется сопоставление с известным целевым объектом.

Поддерживаемые типы SQL

Первичная обработка данных Power Query поддерживает следующие типы данных в SQL. При использовании неподдерживаемого типа данных возникнет ошибка проверки.

Дальнейшие действия

Пошаговые инструкции по созданию фабрики данных см. в следующих руководствах:

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *