DATA INGESTION

1 of
Published on Video
Go to video
Download PDF version
Download PDF version
Embed video
Share video
Ask about this video

Page 1 (0s)

Image. DATA INGESTION.

Page 2 (6s)

Image. Bird eye view of Data management & Strategy.

Page 3 (21s)

วัตถุประสงค์. เพื่อให้ผู้เรียนสามารถระบุประเด็นสาเหตุของปัญหาที่ต้องเผชิญ ผ่าน กระบวนการระบุปัญหา (Problem Identifying Process) ได้เป็นอย่างดี เพื่อให้ผู้เรียนสามารถทำความเข้าใจเรื่อง การนำเข้าข้อมูล (Data Ingestion) และสามารถนำเข้าข้อมูลผ่านการตั้งคำถาม เพื่อให้ได้มาซึ่งข้อมูลเชิงลึก (Insight) เพื่อนำไปต่อยอดในการวิเคราะห์ข้อมูลได้อย่างมีประสิทธิภาพ เพื่อให้ผู้เรียนทราบประโยชน์ของ การประยุกต์ใช้เทคโนโลยีข้อมูล (Data Technology) รวมถึงอธิบายถึงความแตกต่างกันของเทคโนโลยีข้อมูลเหล่านั้นได้เป็นอย่างดี เพื่อให้ผู้เรียนสามารถอธิบายถึงการนำเข้าข้อมูล (Data Ingestion) ที่สอดคล้องกับ เทคโนโลยีข้อมูล (Data Technology) ได้ ตลอดจนทราบถึง กระบวนการ (Ingestion Process) เพื่อใช้ในการนำเข้าข้อมูลอัตโนมัติได้.

Page 4 (36s)

A person in a suit and tie Description automatically generated with low confidence.

Page 5 (44s)

WHERE to BEGIN?. WHAT. Do you NEED them to do? Be Explicit!, Objective Don’t assume they will connect the dots!.

Page 6 (56s)

Start with Why? Simon Sinek.

Page 7 (1m 3s)

ร้านยูนิฟายด์ คอมพิวเตอร์ - บริการซ่อมคอมพิวเตอร์ ใน บางวัว.

Page 8 (1m 10s)

Apple Store iStudio Notebookspec. “พี่กำลังหาซื้อคอมอยู่ใช่มั้ยครับ” “พี่ต้องการคอมไปใช้ทำอะไร”.

Page 9 (1m 17s)

5 Why s.

Page 10 (1m 23s)

Alexandre III bridge in Paris. Why Bridge?.

Page 11 (1m 30s)

Pedestrians walking on city cross walk. Why Crossing?.

Page 12 (1m 38s)

Man carrying packages. Why Delivery?.

Page 13 (1m 44s)

Green shopping trolley in supermarket. Why Product out of Stock?.

Page 14 (1m 52s)

Close-up of a person using a mobile phone. Mobile Stock/Shopping App.

Page 15 (2m 1s)

Case Telco Increase Revenue Increase Income Reduce Cost Red Ocean Explorer Data Insight Solution.

Page 16 (2m 9s)

HOW. Will DATA HELP make your point? Be Discerning! What data will act as evidence for the case?.

Page 17 (2m 21s)

Understand Data Technology.

Page 18 (2m 27s)

Illuminated server room panel. Files Base Structured Unstructured.

Page 19 (2m 42s)

Image. Relational Database. Relational Database Non-Atomic Atomic.

Page 20 (2m 50s)

Image. ER-Diagram: Relational Database. t. FEVER Name NVARCHAR(120) genres Genreld INTEGER NVARCHAR(120) playlists Playlistld INIE-±R Name NVARCHAR(12C) playlist_track Playlistid Trackld INTEGER tracks Trackld ,NTEGER Name NVARCHAR(20C) Albumid INTEGER MediaTypeId INTEGER Genreld 'NTEGER NVARCHAR(220 Milliseconds INTEGER INTEGER I-JnitPrice NuMERlC artists MistJd Name NVARCHAR<2C) tnvo•ces Invoiceld INIEorR Customertd INTEGER InvoiceDate DATETIME BillingRIdress WAR. BillingCity NVARCHA- 4 more columns m invoice_items Invaceltemld i eut:R Invoiceld INTEGER Trackld INTEGER UnitPrjce NUMERIC Quantity 'NTEGER albums Abumld Title NVARCHAR<OO) INTEGER cust(Nners Customerld FirstName WARCHARi40) LastName WARCHARi20) Company WARCHARi80) Address NVARCHAR(70) City NVARCHARi40) NVARCHAR(4C) Country NVARCHAR(40) NVARCHAR( 0) Phone NVARCHARf24) Fax NVARCHAR(24) Email NVARCHAR(60) INTEGER employees Empvoyeeld LastName WARCHARi20) FirstName WARCHAR(20) Title NVARCHAR(30) ReponsTo INTEGER BirthDate DATETIME HireDate DATETIME Address WARCHAR@O) 7 more columns.. Entity Attribute Relationship.

Page 21 (3m 6s)

Data Language. “S E Q UE L” Structure English Query Language Initially developed at IBM by Donald D. Chamberlin and Raymond F. Boyce.

Page 22 (3m 18s)

Structure Query Language “เป็นภาษาใช้สำหรับจัดการและดึงข้อมูลจากฐานข้อมูลเชิงสัมพันธ์”.

Page 23 (3m 25s)

Image. Enterprise Data Warehouse. Data Warehouse Implementation. Step by Step Guide | Addepto.

Page 24 (3m 34s)

Image. Modern Data Warehouse. The Azure Modern Data Warehouse: Unparalleled Performance.

Page 25 (3m 42s)

doopet.l+•. Hadoop Distributes File System (HDFS) File are split into blocks and distributed across nodes in cluster.

Page 26 (3m 53s)

Hello Vaccine ? Arrr? I love Sinovac? Me too ??? Fighto!! ??? Input (?,1) ( ?,1) Map (?,1) ( ?,3) (?,1) ( ?, 2 ) (?, [1,1] ) (?,[1,2,3]) Sort Reduce Output (?, 2 ) (?,6) (?,1) (?, 2 ) (?,6) (?,1) (?,[1]).

Page 27 (4m 19s)

Hive Provides an SQL-like language called HiveQL HiveQL is transformed into a sequence of MapReduce jobs.

Page 28 (4m 28s)

Image. Cloud. SaaS Applications Data Runtime Middleware Virtualization Servers Storage Networking Paas Applications Data Runtime Middleware Virtualization Servers Storage Networking Other Manage laaS Applications Data Runtime Middleware Virtualization Servers Storage Networking On-Premises Applications Data Runtime Middleware Virtualization Servers Storage Networking Your Manage.

Page 29 (4m 36s)

Public, Private Or Hybrid Cloud: What's Best For You & Why - Alibaba Cloud Developer Forums: Cloud Discussion Forums.

Page 30 (4m 47s)

icesupse ßl.sune. i.esuctse usune pnouo 0!lqnd.

Page 31 (4m 54s)

Data Ingestion.

Page 32 (4m 59s)

Image. Modern Data W arehouse. The Azure Modern Data Warehouse: Unparalleled Performance.

Page 33 (5m 8s)

Data Types. Quantitative - Anything that has exact numbers or measurement. For example, Effort in points: 0, 1, 2, 3, 5, 8, 13. Duration in days: 1, 4, 666..

Page 34 (5m 37s)

Image. Structured VS Unstructured Data. ผลการค้นหารูปภาพสำหรับ structure and unstructured data.

Page 35 (5m 46s)

Image. ผลการค้นหารูปภาพสำหรับ json file example. ผลการค้นหารูปภาพสำหรับ database table.

Page 36 (5m 56s)

Data Lake VS Data Warehouse Data Lake Data Warehouse Extract Extract Transform Load Transform Load.

Page 37 (6m 5s)

ข้อมูลไม่พอ. ข้อมูลซ้ำซ้อน หรือ ไม่สามารถระบุความชัดเจนของข้อมูลได้.

Page 38 (6m 20s)

Duplicate Elimination Standardizing Correct Data msnölujogaö,ü-vatmo Parsing mstnn1tMöotF nSoms7öriojou0JQoj01F.

Page 39 (6m 29s)

Image. Parsing. คือ การแจกแจงข้อมูล หรือการใช้หัวข้อของชุดข้อมูล เช่น ชื่อ: สมศรี, จังหวัด: กรุงเทพ, น้ำหนัก: 75, ส่วนสูง: 160, อายุ: 60, เพศ: หญิง “ เป็นการ ทำความเข้าใจว่าคำจำกัดความของชุดข้อมูลนั้นๆ คืออะไร เช่น ความหมายของข้อมูล ค่าเฉลี่ย ค่าสูงสุด หรือต่ำสุด เป็นต้น ”.

Page 40 (6m 45s)

Image. Correct Data. Reference: Coraline.co.th. คือ การแก้ไขข้อมูลที่ผิดพลาด วิธีการ Correct data อาจใช้ความรู้ทางสถิติ เช่น การหาค่าเฉลี่ย ค่าเบี่ยงเบียนมาตรฐาน หรือ standard deviation หรือ Clustering algorithm หากข้อมูลมีความผิดพลาดมาก ต้องพิจารณาว่าควร ลบทิ้งทั้งแถว หรือจะ แก้ไขข้อมูลที่ผิด นั้นด้วยการแทนที่ ด้วยตัวใดตัวหนึ่งด้วยวิธีทางสถิติ.

Page 41 (6m 57s)

Image. Standardizing. Reference: Coraline.co.th. คือ การทำข้อมูลให้เป็นรูปแบบเดียวกัน เช่น กทม. กรุงเทพฯ และ กรุงเทพมหานคร ซึ่งคอมพิวเตอร์ไม่สามารถทราบได้เอง ว่ามันคือจังหวัดเดียวกัน ข้อมูลที่เป็นตัวเลข กรณีที่หน่วยของตัวเลขต่างกันมาก หรือความกว้างของช่วงตัวเลขไม่เท่ากัน เช่น อายุ กับเงินเดือน สามารถใช้วิธี Standard Normal Distribution ได้ ซึ่งวิธีนี้เป็นการจัดเรียงข้อมูลให้อยู่ในรูป Normalization.

Page 42 (7m 8s)

Image. Duplicate Elimination. คือ การลบข้อมูลที่มีความซ้ำซ้อนทิ้ง ซึ่งอาจต้องใช้การเขียน Algorithm เพื่อระบุชุดข้อมูลที่ซ้ำซ้อน หรือใช้ฟังก์ชั่นสำเร็จรูปช่วยในการค้นหา.

Page 43 (7m 17s)

Image. + Data Transformation. Reference: Coraline.co.th.

Page 44 (7m 32s)

Tools & Use Case.

Page 46 (7m 44s)

Traffy Fondue ตัวช่วย “ชัชชาติ” รับแจ้งปัญหา กทม..

Page 47 (7m 50s)

10 เรื่องต้องรู้ แอพ SCB EASY โฉมใหม่...บอกลา 'การเงิน' แบบน่าเบื่อๆ - Brand Buffet.

Page 48 (7m 58s)

Transform Preprocess each document, Extract the data fields you are after, Validate the extracted data Extract : OCR (scan document) Data Scrape (computer display) Web Scrape (HTML) Rest API Internal System (DB) Load Move The Data To Where It Belongs The Process of Data Automation Identify data Determine access Define transformations Develop and test ETL process Schedule.