728x90
반응형

머신러닝데이터 2

Apache Arrow Flight SQL

개요Apache Arrow Flight SQL은 대용량 데이터 전송을 위한 고속 RPC(Remote Procedure Call) 프로토콜인 Arrow Flight를 기반으로 한 SQL 쿼리 실행 프레임워크입니다. 기존 JDBC/ODBC 방식의 병목을 해결하고, 고속 데이터 파이프라인 및 분산 SQL 처리에 최적화된 데이터 액세스 계층을 제공합니다.1. 개념 및 정의 구분 내용 정의Apache Arrow 기반의 고성능 SQL API로, Arrow Flight 위에 SQL 인터페이스를 구현한 프로토콜목적분산 환경에서 빠르고 효율적인 SQL 질의 처리 및 데이터 전송 지원필요성기존 ODBC/JDBC의 성능 한계와 직렬화/역직렬화 비용 문제 해결2. 특징특징설명차별점Arrow 기반 전송열지향(Columar) ..

Topic 2025.05.18

Data Card

개요Data Card는 머신러닝 및 인공지능 모델 개발에 사용되는 데이터셋에 대한 정보를 구조화된 형태로 문서화한 설명서로, 데이터의 출처, 구성, 품질, 윤리적 고려사항 등을 명확히 밝힘으로써 AI 시스템의 투명성과 신뢰성을 높이는 역할을 한다. 데이터셋 공개 시 책임 있는 사용과 반복 가능한 연구를 위해 필수적인 도구로 각광받고 있다.1. 개념 및 정의Data Card는 데이터셋 사용자가 해당 데이터의 특성, 출처, 목적, 제한사항 등을 명확히 이해할 수 있도록 설계된 데이터 설명서이다.목적: AI 시스템 개발 시 데이터 편향, 불균형, 법적 이슈 등을 예방포맷: HTML, PDF, Markdown 등 다양한 문서 형식기반: Google의 Know Your Data 프로젝트, Datasheets fo..

Topic 2025.04.27
728x90
반응형