Nghiên cứu và Phát triển các Giải pháp Theo dõi Mắt hỗ trợ Trẻ em Rối loạn Phát triển

Khung Theo dõi Mắt Tiên tiến cho Rối loạn Phổ Tự kỷ (ASD):
Trích xuất Tự động Dấu ấn Sinh học và Tối ưu hóa Can thiệp.

Cầu nối giữa Thị giác Máy tính (SAM) và Thực tiễn Lâm sàng.

Bối cảnh Lâm sàng & Tỷ lệ Phát hiện Gia tăng
02/50

Bối cảnh Lâm sàng

  • Rối loạn Phổ Tự kỷ (ASD) được đặc trưng bởi sự khiếm khuyết dai dẳng trong giao tiếp và tương tác xã hội.
  • Khoảng 25-35% trẻ em được chẩn đoán mắc bệnh không phát triển được ngôn ngữ nói.
  • Khiếm khuyết trong giao tiếp chức năng tạo ra rào cản lớn, đòi hỏi các chiến lược trị liệu mạnh mẽ.
  • Các vấn đề liên quan: Sự gia tăng chẩn đoán đặt ra áp lực lớn lên hệ thống y tế, giáo dục đặc biệt, đồng thời đòi hỏi sự hỗ trợ lâu dài và phân bổ nguồn lực công bằng.

Tỷ lệ Phát hiện ASD Toàn cầu

  • Thống kê (CDC): Tỷ lệ mắc ASD đã tăng mạnh từ 1/150 (năm 2000) lên mức 1/31 (năm 2025).
  • Nguyên nhân: Do mở rộng tiêu chuẩn chẩn đoán, cải thiện công cụ sàng lọc và nhận thức cộng đồng ngày càng cao.
Vai trò của Chú ý Thị giác
03/50

Hạn chế Sinh lý

Nhận thức gắn liền với tri giác thị giác. Tuy nhiên, điểm vàng (fovea) chỉ xử lý được độ phân giải cao trong khoảng hẹp của trường nhìn.

Điểm vàng 2° Ngoại vi

Kiểu hình Phân kỳ ở ASD

Trẻ mắc ASD sở hữu các kiểu phân bổ chú ý thị giác không điển hình. Đây được xem là một kiểu hình đặc trưng cốt lõi của hội chứng.

Trẻ Điển hình (TD) Trẻ mắc ASD

Lăng kính Khách quan

Theo dõi mắt (ET) chuyển hóa ánh nhìn thành dữ liệu định lượng, vượt qua hoàn toàn sự chủ quan và sai số của việc quan sát bằng mắt thường.

Nút thắt Phương pháp luận
04/50

Khó khăn trong Phân tích

  • Phân tích dữ liệu ET trên các kích thích video động đòi hỏi phải xác định liên tục Vùng Quan tâm (AOI) theo từng khung hình.
  • Gán nhãn hộp giới hạn thủ công cực kỳ tốn kém: cần từ 30 đến 60 phút lao động của con người chỉ cho 1 phút video.
  • Sự chênh lệch này giới hạn các nhà nghiên cứu ở quy mô mẫu nhỏ, làm giảm sức mạnh thống kê cần thiết để thiết lập các dấu ấn sinh học chẩn đoán.

Quy trình Xác định AOI Thủ công

Mặt (Face) Khối (Blocks) Xe (Car) . . . t . . . Nhiều đối tượng × 1800 khung hình = 1 phút video
Từ Hành vi Thị giác đến Cơ chế Nhận thức
05/50

Các Giả thuyết Nhận thức Ẩn giấu

  • Ánh nhìn không điển hình ở trẻ ASD không phải là sự thiếu hụt ngẫu nhiên, mà phản ánh các chiến lược nhận thức chủ động để thích nghi với thế giới.
  • Thuyết Siêu hệ thống hóa: Não bộ tự kỷ bị thu hút bởi các quy luật máy móc (tất định, dễ dự đoán) hơn là các tương tác xã hội (ngẫu nhiên, khó đoán).
  • Sự không dung nạp Lỗi dự đoán (HIPPE): Trẻ ASD có xu hướng lảng tránh các kích thích bất ngờ, hỗn loạn để bảo vệ não bộ khỏi tình trạng quá tải thông tin cảm giác.

Khoảng trống Phương pháp luận

Mặc dù các giả thuyết tâm lý học này rất vững chắc, việc thiếu hụt các công cụ phân tích tự động (như đã nêu ở Slide 4) khiến việc chứng minh thực nghiệm trên diện rộng gặp bế tắc.

Dữ liệu mắt thô (x, y, t) ? (Nút thắt) Cơ chế Nhận thức - Thuyết Siêu hệ thống hóa - Ác cảm Lỗi Dự đoán (HIPPE) ➡ Cần một bộ máy "phiên dịch" tự động
Mục tiêu Nghiên cứu
06/50
  • Mục tiêu 1: Phát triển một khung phân vùng zero-shot (dựa trên SAM) để tự động hóa việc trích xuất các dấu ấn sinh học thị giác từ dữ liệu video động.
  • Mục tiêu 2: Định lượng các lý thuyết nhận thức (Siêu hệ thống hóa & Lỗi dự đoán HIPPE) thông qua việc thiết kế các mô hình thực nghiệm lâm sàng trực quan (Mô hình Bài toán Nhân quả & Bất ngờ).
  • Mục tiêu 3: Triển khai khung can thiệp thích ứng tích hợp theo dõi mắt (ET) nhằm tối ưu hóa và cá nhân hóa các phương pháp trị liệu truyền thống (PECS, ABLLS-R).
Sự khác biệt trong Phát triển Thần kinh
07/50

Từ Phản xạ đến Tự nguyện

  • Sự chú ý thị giác ban đầu ở trẻ sơ sinh được kiểm soát chủ yếu bởi cơ chế phản xạ dưới vỏ não (subcortical).
  • Trong khoảng thời gian từ 2 đến 6 tháng tuổi, hệ thống thần kinh có sự chuyển giao quyền kiểm soát hướng lên vỏ não (cortical) để đánh giá thông tin tự nguyện và tinh vi hơn.

Sự Phân kỳ Chủ động

  • Trẻ sơ sinh sau này mắc ASD ban đầu có định hướng xã hội nguyên vẹn (nhìn vào mắt người khác bình thường ở tháng thứ 2).
  • Tuy nhiên, khi vỏ não bắt đầu tiếp quản, các em cho thấy sự sụt giảm dần trong giao tiếp mắt (từ tháng thứ 2 đến tháng 24).
  • Điều này chứng tỏ đây là một sự phân kỳ chủ động trong cách bộ não diễn dịch thông tin, không phải do khiếm khuyết sinh lý bẩm sinh.

Quỹ đạo Giao tiếp bằng Mắt & Chuyển giao Nhận thức

Giai đoạn chuyển giao Vỏ não Dưới vỏ não % Mắt 2m 6m 12m 18m 24m Trẻ Điển hình (TD) Trẻ Tự kỷ (ASD)
Thuyết Siêu hệ thống hóa (Hyper-Systemizing)
08/50

Hệ thống hóa (Systematizing) là quá trình não bộ nỗ lực tìm kiếm quy luật chi phối theo mô hình: Đầu vào (Input) → Quy tắc → Đầu ra (Output).

Trẻ mắc ASD là những người "siêu hệ thống hóa". Khi não bộ áp dụng bộ lọc quy tắc này lên dữ liệu logic thì thành công, nhưng khi áp dụng lên dữ liệu xã hội phi logic, chu trình sẽ đứt gãy và gây ra quá tải.

BỘ LỌC QUY LUẬT Dữ liệu Hệ thống (Logic, Cơ học) Dự đoán 100% (An tâm, Thích thú) Dữ liệu Xã hội (Cảm xúc, Ngẫu nhiên) Lỗi Dự đoán (Quá tải, Lảng tránh) KHÔNG QUY LUẬT

Hệ thống Cơ học (Thành công)

Ví dụ: Bánh răng, công tắc đèn, lịch trình.
Đặc tính: Tất định, hoàn hảo, có thể giải mã.

INPUT OUTPUT

Tác nhân Xã hội (Thất bại)

Ví dụ: Biểu cảm khuôn mặt, cuộc trò chuyện.
Đặc tính: Ngẫu nhiên, hỗn loạn, phi logic.

INPUT 😊 😠 ? ??? X
Mã hóa Dự đoán & HIPPE (Xử lý Nhiễu)
09/50

1. Lỗi Dự đoán:

Sự chênh lệch giữa kỳ vọng của não và thực tế.

2. HIPPE:

Gán độ chính xác cực cao cho mọi lỗi dự đoán.

3. Quá khớp (Overfitting):

Mô hình cứng nhắc, dễ sụp đổ trước cái mới.

Não bộ Điển hình (Dung nạp Nhiễu)

Bộ lọc linh hoạt phớt lờ các Lỗi dự đoán ngẫu nhiên (nhiễu), giữ cho mô hình thế giới khái quát và ổn định.

BỘ LỌC Lỗi Dự đoán MÔ HÌNH

Não bộ ASD (HIPPE & Quá khớp)

HIPPE khuếch đại Lỗi dự đoán, ép buộc não vặn vẹo thành mô hình Quá khớp đầy gai góc và dễ sụp đổ.

KHUẾCH ĐẠI Lỗi Dự đoán QUÁ KHỚP ĐỔ VỠ!
Bản chất của Sự ác cảm với Sự Mới mẻ
10/50

Học tập Tích cực (Trẻ TD)

Não bộ điển hình xử lý "sự bất ngờ" như một tín hiệu học tập tích cực thông qua hệ thống dopamine, thúc đẩy sự khám phá.

DOPAMINE

Quá tải & Lảng tránh (Trẻ ASD)

Bất ngờ bị xem là lỗi khổng lồ gây lo âu. Lảng tránh ánh nhìn là cách điều chỉnh cân bằng nội môi, hướng tới sự ổn định.

VÙNG TĨNH QUÁ TẢI! LẢNG TRÁNH
Kiến trúc Tổng thể Hệ thống
11/50
  • Một luồng xử lý dạng mô-đun tích hợp phần cứng (thiết bị theo dõi mắt) và ngăn xếp phần mềm gồm năm mô-đun.
  • Các mô-đun: Tích hợp kích thích thị giác, Ghi nhận chuyển động mắt, Tiền xử lý dữ liệu, Nhận dạng AOI Zero-shot, và Trích xuất đặc trưng.
Kiến trúc Tổng thể Hệ thống
Giới thiệu Mô hình Phân vùng vạn vật (SAM)
12/50

Sức mạnh Zero-Shot

  • Mô hình Nền tảng: Huấn luyện trên hơn 1 tỷ mặt nạ (masks), loại bỏ sự cần thiết phải huấn luyện các mô hình tùy chỉnh (như YOLO) trên từng đồ chơi cụ thể.
  • Theo dõi Tự động: Cung cấp khả năng phân vùng và bám sát đối tượng chính xác đến từng pixel trong video mà không cần tinh chỉnh.

Giải quyết Sự Mơ hồ Phân cấp

SAM có khả năng hiểu các lớp không gian lồng nhau từ một "điểm gợi ý" (prompt) duy nhất, ví dụ: phân vùng một cái nút áo, một chiếc áo và toàn bộ một người cùng lúc.

1. Toàn bộ Người 2. Chiếc Áo 3. Nút áo Điểm Prompt
Tổng quan: Prompt & Track
13/50

Sự cần thiết của Tracking

  • Xác định Vùng Quan tâm (AOI) trên video động không thể gán nhãn tĩnh như trên hình ảnh.
  • Dữ liệu mắt (x,y) liên tục thay đổi ý nghĩa nếu không có công cụ tự động bám sát tọa độ vật thể theo từng khung hình.
  • Q quy trình giải quyết dựa trên nguyên lý: "Nhắc (Prompt)" điểm ban đầu và "Theo dõi (Track)" sự dịch chuyển.

Luồng Thực thi Động

Vòng lặp cơ bản của hệ thống từ khung hình T0 đến Tn.

Prompt Khởi tạo (t=0) Mở rộng Bounding Box (Bắt chuyển động) SAM Tinh chỉnh (Edge) (Xuất ra Mask chính xác) Khung hình tiếp theo
Bước 1 & 2: Mở rộng Vùng tìm kiếm (Expansion)
14/50

Vấn đề của Khung tĩnh

  • Khi vật thể di chuyển nhanh trong video, hộp giới hạn (Bounding Box) của khung hình trước sẽ lập tức bị sai lệch (mất dấu).
  • Giải pháp (Expansion): Tự động mở rộng biên của hộp giới hạn cũ thêm 10% đến 20% ở khung hình hiện tại. Điều này tạo ra một "mạng lưới an toàn" đảm bảo tóm gọn được vật thể dù nó đã dịch chuyển khỏi vị trí cũ.

Mô phỏng Mở rộng Hộp giới hạn

Ngăn chặn sự mất dấu bằng cách mở rộng vùng dự đoán.

Khung hình trước (t-1) Khung hình hiện tại (t) + Mở rộng 20% Box (t-1) MẤT DẤU! Expanded Box
Bước 3: SAM Tinh chỉnh Mặt nạ (Edge Refinement)
15/50

Độ chính xác Cấp độ Pixel

  • Hộp giới hạn mở rộng (ở bước 2) chứa rất nhiều nhiễu và phông nền không mong muốn.
  • Quyền năng của SAM: Mô hình sẽ nhận hộp giới hạn này làm "Prompt" (gợi ý không gian). Bộ giải mã mặt nạ (Mask Decoder) của SAM ngay lập tức tự động loại bỏ phông nền.
  • Kết quả (Shrink-to-fit): Tạo ra một mặt nạ (mask) ôm sát hoàn hảo từng đường cong và góc cạnh của vật thể thực tế, mang lại độ chính xác tuyệt đối cho việc phân tích điểm nhìn.

Bóc tách Phông nền & Khớp Biên dạng

Quá trình SAM khử nhiễu từ hộp giới hạn vuông thành mặt nạ chuẩn xác.

Input: Bounding Box Output: Edge-fitted Mask
Thu thập Dữ liệu & Khử nhiễu Tín hiệu
16/50

Tiền xử lý Tín hiệu Mắt (Gaze Data)

  • Tọa độ thô: Chuyển động mắt được ghi lại liên tục dưới dạng tọa độ không gian và thời gian (x,y,t). Tín hiệu này thường chứa nhiều nhiễu do rung giật nhãn cầu.
  • Bộ lọc Trung bình động: Sử dụng cửa sổ trượt (kích thước = 3) để làm mịn quỹ đạo, loại bỏ các can nhiễu vi mô (microsaccades).
  • Nội suy Tuyến tính: Tự động phát hiện khoảng trống dữ liệu (do chớp mắt, chiếm ~2%) và nội suy nối liền quỹ đạo để bảo toàn tính liên tục của hành vi.

Mô phỏng Quá trình Khử nhiễu

Thuật toán làm mịn (Moving Average) và nối liền khoảng trống do chớp mắt.

Thời gian (t) Tọa độ (x,y) Chớp mắt (Mất dữ liệu) Tín hiệu thô (Nhiễu) Trung bình động Nội suy Tuyến tính
Phát hiện Điểm nhìn (Fixations): Thuật toán PeyeMMV
17/50

Sàng lọc Dựa trên Không gian & Thời gian

  • Để xác định một "điểm nhìn tĩnh" (Fixation), thuật toán PeyeMMV sẽ đánh giá sự tụ tập của các tọa độ mắt.
  • Ngưỡng không gian 2 bước: Điểm bắt đầu phải nằm trong vùng T1 (cốt lõi). Các điểm sau được phép nới lỏng dao động trong vùng l2 (dung sai).
  • Ngưỡng thời gian: Ánh nhìn phải duy trì liên tục trong vùng này lớn hơn một khoảng MinDuration (vd: 100ms) thì mới chính thức được xác nhận là một Fixation.

Mô phỏng Cơ chế PeyeMMV

Khi đủ điều kiện không gian và thời gian, cụm dữ liệu sẽ hóa thành Điểm nhìn.

Ngưỡng t₁ Dung sai l₂ Duration ≥ Min_Duration FIXATION
Phát hiện Chuyển động nhanh: Thuật toán I-VT
18/50

Tách biệt Saccade qua Vận tốc

  • Dữ liệu không đáp ứng được ngưỡng thời gian của PeyeMMV (ánh nhìn lướt qua quá nhanh) sẽ được đưa vào thuật toán I-VT.
  • Thuật toán I-VT (Velocity-Threshold): Tính toán vận tốc nhãn cầu (độ/giây) giữa các điểm liên tiếp.
  • Nếu vận tốc vọt lên và vượt quá ngưỡng tĩnh (vd: 30°/s), điểm đó tự động được dán nhãn là một cú liếc mắt nhanh (Saccade). Điều này giúp hệ thống loại bỏ các đường quét không có chủ đích.

Cơ chế Lọc theo Ngưỡng Vận Tốc

Hoạt hình mô phỏng thuật toán phân tách tự động.

Thời gian (t) Vận tốc (°/s) Ngưỡng (30°/s) FIXATION SACCADE
Ánh xạ Không gian: Thuật toán Hit-Test AOI
19/50

Sự Giao Thoa 2 Luồng Dữ Liệu

THẾ GIỚI CỦA MẮT

PeyeMMV

Cung cấp tọa độ Điểm nhìn (Fixation) dưới dạng (x, y).

THẾ GIỚI HÌNH ẢNH

Mô hình SAM

Vẽ ra ranh giới đối tượng dưới dạng Mặt nạ đa giác (Mask).

VỊ TRỌNG TÀI PHÂN XỬ

Thuật toán Hit-Test

Kiểm tra xem tọa độ của mắt có nằm BÊN TRONG đa giác của SAM hay không để xác định người dùng đang nhìn vào đồ vật nào.

Bản chất của Hit-Test:

PeyeMMV không hề biết hình ảnh trên video là gì. Ngược lại, SAM cũng không hề biết người dùng đang nhìn đi đâu.

Hit-Test chính là cây cầu nối (Ray-Casting) đối chiếu tọa độ Toán học từ mắt vào ranh giới Không gian của ảnh để đưa ra kết luận cuối cùng.

Mô phỏng Phép chiếu Tia (Ray-Casting)

Bắn tia từ tọa độ (x,y). Cắt viền lẻ lần = HIT, chẵn lần = MISS.

AOI Mask (Từ SAM) HIT Cắt 1 cạnh (Số Lẻ) MISS Cắt 2 cạnh (Số Chẵn)
Định lượng Dấu ấn Sinh học (Biomarkers)
20/50

Chuyển Hóa Thành Y học Chẩn Đoán

  • Sau khi các điểm nhìn đã được gắn nhãn (Hit) với đối tượng (AOI), chúng được tổng hợp thành các chỉ số (Biomarkers) đặc trưng.
  • Time to First Fixation (TTFF): Đo lường tốc độ chú ý (thời gian từ lúc video bật đến lúc mắt nhìn vào vật thể đầu tiên).
  • Tổng thời lượng (Dwell Time): Tổng thời gian lưu lại ánh nhìn trên vật thể.
  • Số lần nhìn (Fixation Count): Tần suất quay lại nhìn vật thể.

Trục Thời gian Phân tích (Gantt Chart)

Cách các chỉ số được cộng dồn theo thời gian.

Start (t=0) TTFF (ms) Fix 1 Fix 2 Fix 3 Dwell Time = Σ(Fix 1, 2, 3) Fixation Count = 3
Phương pháp Đánh giá Kỹ thuật Hệ thống
21/50

Thiết lập Thực nghiệm

  • Để đánh giá độ chính xác của luồng AI (SAM + PeyeMMV + Hit-Test), chúng tôi tiến hành kiểm thử trên tập dữ liệu video chuyển động thực tế.
  • Nhãn tham chiếu (Ground-Truth): Con người gán nhãn thủ công mặt nạ từng vật thể trên 600 khung hình video một cách cực kỳ tỉ mỉ.
  • Phép thử: Cho hệ thống chạy tự động hoàn toàn (Zero-Shot) trên cùng 600 khung hình đó và đo lường sự chênh lệch so với con người.

Mô phỏng Quy trình So sánh

Frame t Con Người Hệ thống AI SO SÁNH
Độ chính xác Hình thái (Chỉ số IoU)
22/50

Chỉ số Intersection over Union

  • IoU là thước đo chuẩn mực nhất để đánh giá các thuật toán phân vùng hình ảnh, tính bằng tỷ lệ giữa Phần Giao nhau (Overlap) chia cho Phần Hợp nhất (Union).
  • Hệ thống AI đạt được Chỉ số IoU trung bình = 0.92 trên tổng số 600 khung hình được gán nhãn ground-truth.
  • Một điểm số IoU > 0.9 chứng tỏ mặt nạ tự động do AI sinh ra gần như khớp hoàn hảo với phán đoán của mắt người.

Mô phỏng Chỉ số IoU

So sánh vùng nhận diện của AI (Xanh) vs. Nhãn con người (Đứt nét).

Ground-Truth (Human) Prediction (SAM AI) IoU Score = 0.92
Hiệu quả Thời gian & Khả năng Mở rộng
23/50

Sức mạnh của Tự động hóa

  • Trong nghiên cứu thực nghiệm lâm sàng với dữ liệu ánh nhìn lớn, việc gán nhãn thủ công video tạo ra một "nút thắt cổ chai" khổng lồ, giới hạn quy mô mẫu nghiên cứu.
  • Khung AI tự động hóa của chúng tôi đã giảm 95% thời gian xử lý.
  • Từ việc mất nhiều giờ đồng hồ thao tác tay thủ công cho một đoạn video ngắn, giờ đây hệ thống chỉ mất vài phút, mở ra khả năng triển khai sàng lọc diện rộng (Scalability).

So sánh Tốc độ Xử lý (1 phút Video)

HOÀN THÀNH Gán nhãn Thủ công (~60 Phút) Hệ thống AI (~3 Phút) GIẢM 95%!
Mô hình Lâm sàng A: Bài toán Nhân quả
24/50

Sự Mâu Thuẫn Chú Ý (Conflict of Interest)

  • Thiết kế Kích thích: Sử dụng đồ chơi "Gấu bấm nút". Đồ chơi này đặt hai loại kích thích cạnh tranh trực tiếp với nhau trên cùng một khung hình.
  • Nguyên nhân Công cụ (Mechanical): Nút bấm vật lý (Logic hệ thống, tất định).
  • Hiệu ứng Xã hội (Social Reward): Khuôn mặt con gấu phát sáng và phát nhạc (Kích thích xã hội, cảm xúc).
  • Giả thuyết: Trẻ Tự kỷ (ASD) sẽ bị thu hút bởi Nguyên nhân (bàn tay bấm nút), trong khi trẻ Điển hình (TD) sẽ hướng ánh nhìn vào Kết quả (khuôn mặt gấu).

Mô phỏng Xung đột Thị giác

Cơ chế: Bấm nút → Gấu phát sáng.

Điểm Khởi đầu (Gaze) NÚT BẤM HIỆU ỨNG (MẶT GẤU) Nhóm ASD Nhóm TD
Đối tượng Nghiên cứu (Participants)
25/50

Nhóm Lâm sàng (ASD)

n = 45

Trẻ em được chẩn đoán mắc Rối loạn Phổ Tự kỷ thông qua tiêu chuẩn ADOS-2 và DSM-5.

Nhóm Đối chứng (TD)

n = 50

Trẻ em phát triển điển hình, không có tiền sử rối loạn thần kinh hoặc chậm phát triển.

Tiêu chí Đối chiếu (Matching Criteria)

Độ tuổi

24 - 72 tháng tuổi

Giới tính

Tỷ lệ Nam:Nữ ~ 3:1

Thị lực

Bình thường hoặc đã hiệu chỉnh

Thiết kế Kích thích & Quy trình Thời gian
26/50

Trình tự Thu thập Dữ liệu

  • Mỗi thử nghiệm video kéo dài trung bình từ 8 đến 10 giây, được chia làm 3 giai đoạn rõ rệt để đo lường phản ứng thời gian thực.
  • Giai đoạn 1 (T1 - Baseline): Đồ chơi ở trạng thái tĩnh. Thu thập xu hướng chú ý tự nhiên ban đầu.
  • Giai đoạn 2 (T2 - Cause): Bàn tay người xuất hiện và thực hiện hành động ấn nút (Mechanical Action).
  • Giai đoạn 3 (T3 - Effect): Đồ chơi kích hoạt phần thưởng xã hội (Social Reward) kéo dài đến hết video.

Lưu đồ Thời gian (Timeline)

0s 3s 5s 10s T₁: Trạng thái Tĩnh T₂: Hành động (Nhân) T₃: Hiệu ứng (Quả)
Quy trình Phân tích Dữ liệu (SAM + Hit-Test)
27/50

Trích xuất Dữ liệu Định lượng

  • Để đánh giá mức độ chú ý, mô hình SAM được ứng dụng để tạo ra hai Vùng Quan tâm (AOI) chạy theo từng khung hình động của video.
  • AOI 1 (Khuôn mặt Gấu): Đại diện cho vùng phần thưởng xã hội.
  • AOI 2 (Khu vực Nút bấm & Bàn tay): Đại diện cho hệ thống cơ học và hành động nguyên nhân.
  • Hit-Test: Dữ liệu quỹ đạo mắt (Gaze) của người tham gia được nạp vào, chồng lên các AOI này để tự động tính toán Tổng thời lượng nhìn (Dwell Time) cho mỗi vùng.

Bản đồ Phân vùng Video Tự động

SAM bao quanh các vật thể và thu thập điểm nhìn (Fixations).

AOI 1 (Face) AOI 2 (Action)
Bản đồ Nhiệt (Heatmap) - Mô hình A
28/50

Nhóm Điển Hình (TD)

Điểm nóng tập trung hoàn toàn vào khuôn mặt gấu (Kích thích Xã hội)

TD Heatmap Model A

Nhóm Tự Kỷ (ASD)

Điểm nóng phân bổ dồn dập vào bàn tay và nút bấm (Kích thích Cơ học)

ASD Heatmap Model A
Kết quả A: Xác thực tính Siêu hệ thống hóa
29/50

Sự Chênh Lệch Định Hướng

  • Nhóm tham gia TD đã dành ~70% thời gian nhìn cho chú gấu xã hội (Hiệu ứng Xã hội).
  • Nhóm tham gia ASD hướng ~75% thời gian nhìn vào giao diện nút bấm cơ học (Nguyên nhân Công cụ).
  • Kết luận: Điều này chứng minh rằng hệ thống chú ý của trẻ tự kỷ vẫn hoạt động hoàn hảo, nhưng có sự thiên vị có chọn lọc đối với các quy tắc tất định (Đầu vào → Đầu ra) thay vì các kích thích xã hội.

Tỷ lệ Tổng Thời lượng Nhìn (Dwell Time)

Sự phân ly rõ rệt giữa hai nhóm tham gia.

Nhóm Điển Hình (TD)
Gấu (Xã hội): 70%
Nút: 30%
Nhóm Tự Kỷ (ASD)
Gấu: 25%
Nút bấm (Cơ học): 75%
Trọng tâm đảo ngược hoàn toàn
Mô hình Lâm sàng B: Bài toán Bất ngờ (Surprise)
30/50

Sự Chuyển Đổi Entropy Cao

  • Thiết kế Kích thích: Đồ chơi "Jack-in-the-Box". Quá trình chơi chuyển đổi đột ngột giữa sự lặp lại tất định và một sự kiện bất ngờ.
  • Trạng thái Tĩnh (Quy luật): Hành động xoay tay quay và giai điệu hộp nhạc diễn ra đều đặn, dễ dự đoán (Entropy thấp).
  • Trạng thái Động (Phá vỡ): Chú hề 3D bất ngờ bật nắp lao ra kèm theo âm thanh lớn (Entropy cao, Lỗi dự đoán lớn).
  • Giả thuyết: Nhóm ASD sẽ cảm thấy quá tải (HIPPE) khi khuôn mặt 3D bật ra và sẽ lảng tránh ánh nhìn sang các họa tiết 2D tĩnh để tự xoa dịu.

Mô phỏng: Jack-in-the-Box

Hình vẽ 2D (Tĩnh) POP!
Thiết kế Kích thích & Đỉnh Entropy
31/50

Trục Thời gian (Timeline)

  • Giai đoạn 1 (T1 - Baseline): Âm thanh hộp nhạc tít tít, hình vẽ không đổi. Vùng Dự đoán thành công hoàn hảo.
  • Giai đoạn 2 (T2 - Bất ngờ): Chú hề phóng ra. Thông tin thay đổi đột biến. Tạo ra Đỉnh Entropy (Lỗi Dự đoán).
  • Giai đoạn 3 (T3 - Phục hồi): Đồ chơi dừng hẳn. Não bộ xử lý dư chấn sự kiện.

Đồ thị Lỗi Dự đoán (Prediction Error)

Mức độ Bất ngờ (Entropy) T₁ (Baseline) T₂ T₃ (Phục hồi) !
Ánh xạ Quỹ đạo Phản ứng (Gaze Aversion)
32/50

Truy vết Phản ứng tại Thời điểm T2

  • Hệ thống SAM tự động tạo ra: AOI 1 (Khuôn mặt 3D động) đại diện cho sự bất ngờ, và AOI 2 (Hình vẽ 2D trên hộp) đại diện cho sự an toàn, có tính tĩnh.
  • Phát hiện: Nhóm TD bị thu hút ngay vào khuôn mặt 3D. Nhóm ASD lập tức liếc mắt (Saccade) bỏ chạy xuống phần dưới của hộp để duy trì sự cân bằng nội môi.

Phân ly Ánh nhìn Tự động

AOI 2 (Tĩnh) AOI 1 (Động)
Bản đồ Nhiệt (Heatmap) - Mô hình B
33/50

Nhóm Điển Hình (TD)

Ánh nhìn bị thu hút mạnh mẽ bởi chú hề 3D bật ra (Entropy cao)

TD Heatmap Model B

Nhóm Tự Kỷ (ASD)

Lảng tránh khu vực động, khóa chặt ánh nhìn vào họa tiết 2D tĩnh bên hông hộp

ASD Heatmap Model B
Kết quả B: Phân ly Lỗi Dự đoán
34/50

Xóa bỏ Lầm tưởng "Sợ Khuôn mặt"

  • Trẻ Điển hình (TD) hướng ~85% thời lượng nhìn vào khuôn mặt 3D bật ra.
  • Trẻ Tự kỷ (ASD) hoàn toàn lảng tránh nhân vật 3D, dành ~75% thời lượng nhìn khóa chặt vào bức vẽ khuôn mặt 2D tĩnh lặng bên sườn hộp.
  • Kết luận: Trẻ ASD không phải "sợ khuôn mặt con người", mà các em ác cảm với các chuyển động không thể dự đoán (Entropy cao).

Tỷ lệ Dwell Time (AOI 1 vs AOI 2)

Nhóm Điển Hình (TD)
AOI 1 (Động): 85%
AOI 2: 10%
Nhóm Tự Kỷ (ASD)
AOI 1: 5%
AOI 2 (Tĩnh): 75%
Phân loại Tự động (Chẩn đoán)
35/50

Sức mạnh của Dấu ấn Sinh học

  • Dữ liệu không chỉ dừng lại ở phân tích thống kê. Các chỉ số Biomarkers (TTFF, Dwell Time, Fixation Count) từ 12 loại kích thích được đưa vào huấn luyện mô hình Máy véc-tơ hỗ trợ (SVM).
  • Mục tiêu là tạo ra một công cụ hỗ trợ y tế có khả năng tự động phân biệt nhóm ASD với trẻ phát triển điển hình (TD) chỉ thông qua phân tích dữ liệu ánh nhìn khách quan.
  • Hiệu suất Mô hình: Đạt độ chính xác tổng thể 90.91%, chứng minh tính khả thi của việc dùng Eye-tracking làm công cụ chẩn đoán không xâm lấn.

Mô phỏng Phân loại SVM & Hiệu suất

Nhóm TD Nhóm ASD
91%

Độ chính xác

87%

Độ nhạy

97%

Độ đặc hiệu

Chu trình Can thiệp Truyền thống (Hiện trạng)

Vòng lặp Mở & Nút thắt Chủ quan

  • Các phương pháp can thiệp chuẩn vàng tuân theo quy trình 5 giai đoạn nghiêm ngặt: (1) Đánh giá → (2) Lập KH → (3) Triển khai → (4) Giám sát → (5) Điều chỉnh.
  • Nút thắt cổ chai: Giai đoạn (4) phụ thuộc hoàn toàn vào quan sát mắt thường và trí nhớ của nhà trị liệu, khiến thông tin dễ bị sai lệch.
  • Hệ quả (Độ trễ): Vòng lặp từ (5) quay về (2) bị đứt gãy. Sự điều chỉnh Kế hoạch không diễn ra ngay lập tức mà bị trì hoãn sang phiên trị liệu của ngày hôm sau.

Mô hình Trễ (Delayed Feedback)

1. Đánh giá (Baseline) 2. Lập KH (Giáo án) 3. Triển khai (Phiên trị liệu) 4. Giám sát (Mắt thường) Trễ: Chờ buổi sau 5. Điều chỉnh (Phản ứng muộn)
Giải pháp Đề xuất: Hệ thống Vòng lặp Kín (Closed-Loop)

Can Thiệp Tức Thì (Real-Time)

  • Quy trình vẫn bám sát 5 bước nền tảng, nhưng thay đổi hoàn toàn phương thức vận hành ở Bước 4 và vòng lặp 5 → 2.
  • Bước (4) Khách quan hóa: Eye-tracker (90Hz) liên tục số hóa hành vi mắt, loại bỏ hoàn toàn cảm tính và độ trễ của mắt người.
  • Khép kín Vòng lặp (5 → 2): Hệ thống AI phân tích dữ liệu và tự động điều chỉnh Kế hoạch (Bước 2) để thay đổi UI chỉ trong vài mili-giây. Can thiệp được thực thi ngay trong khi trẻ đang học.

Vòng lặp Thời gian thực AI + ET

Tức thì (Mili-giây) ⚡ 1. Đánh giá (ET Baseline) 2. Lập KH (Cấu hình AI) 3. Triển khai (Giao diện số) 4. Giám sát (ET 90Hz) 5. Điều chỉnh (RBS phân tích) AI
Hệ thống Suy luận Dựa trên Luật (Rule-Based System)
38/50

Kiến trúc Ánh xạ Logic

  • RBS đóng vai trò là "Bộ não" trung tâm, thực hiện việc ánh xạ các thay đổi trong Dấu ấn sinh học ET thành các chẩn đoán hành vi lâm sàng thông qua Logic có điều kiện.
  • Input (Giả thuyết): Hệ thống tiếp nhận sự biến thiên của nhiều chỉ số cùng lúc (VD: Số lần liếc mắt tăng cao, Thời lượng nhìn trung bình giảm mạnh).
  • Dynamic Hypothesis Match: Động cơ suy luận so khớp mẫu (pattern matching) với thư viện quy tắc (Stored Rules List). Nếu khớp 100%, hệ thống tự động xuất ra đề xuất can thiệp UI phù hợp.

Mô phỏng Luồng Xử lý Dữ liệu RBS

Chuyển hóa tín hiệu số thành quyết định lâm sàng.

Tín hiệu ET Count_Fix: Tăng ⬆ Dur_Avg: Giảm ⬇ Scatter: Tăng ⬆ Rule Engine IF (Count_Fix == Tăng) AND (Dur_Avg == Giảm) THEN Match = Rule_01 Kết quả (Action) Trạng thái: Quét quá mức Can thiệp UI: Giảm tải đồ họa Chia nhỏ Tác vụ
Demo Tương tác: Khớp Luật & Ra Quyết định Tức thời
39/50
BỘ ĐIỀU KHIỂN R.B.S (LIVE DEMO)

Tín hiệu Đầu vào (ET Biomarkers)

* Thử chọn: Count (Tăng), Duration (Giảm), Scatter (Tăng) để xem phản ứng.

Hệ thống AI Đề xuất

Chẩn đoán Trạng thái Hành vi
Hành vi ổn định (Baseline)
Hành động Can thiệp (UI Action)
Duy trì giao diện hiện tại. Tiếp tục theo dõi.
Các Chiến lược Hỗ trợ Quyết định Lâm sàng
40/50

Từ Quyết định (AI) đến Giao diện (UI)

  • Dựa trên đầu ra của hệ thống RBS (từ Slide 39), UI sẽ tự động thay đổi theo 2 chiến lược cốt lõi để thao túng ánh nhìn của trẻ.
  • Chiến lược 1 - Thích nghi (Adaptation): Dành cho trẻ thiếu tập trung. Hệ thống dời mục tiêu về đúng "Vùng nhìn ưu tiên" của trẻ, giúp tối đa hóa khả năng giao tiếp mắt và xây dựng sự tự tin.
  • Chiến lược 2 - Mở rộng (Remediation): Dành cho trẻ bị kẹt ánh nhìn (Đường hầm chú ý). Đặt mục tiêu ở ngoại vi kèm hiệu ứng nhấp nháy, ép buộc trẻ phải liếc mắt (Saccade) để phá vỡ thói quen cũ.

Mô phỏng Giao diện Can thiệp Động

Hành vi của mắt người dùng (Vòng tròn đen) phản ứng với màn hình.

1. Tối ưu hóa (Thích nghi) Đem phần thưởng đến đúng nơi trẻ đang nhìn Mục tiêu Giao tiếp mắt thành công (0s) 2. Mở rộng (Khắc phục) Kích thích ngoại vi để phá vỡ sự "kẹt ánh nhìn" Kích thích Liếc mắt (Saccade)
Nghiên cứu Ca 1: Hiện tượng "Thiên vị Trái" (PECS GĐ 3)

Phân tích Baseline (Trẻ 1)

  • Đặc điểm quan sát: Trẻ 1 (5 tuổi) tham gia bài tập PECS Giai đoạn 3 (Phân biệt tranh). Chỉ số nền (Bảng 1) ghi nhận thời lượng nhìn trung bình là 1.8s/lần.
  • Vấn đề "Thiên vị Trái": Theo Bảng 3, 66.67% ánh nhìn của trẻ bị kẹt ở góc trái màn hình. Sự thiếu hụt quét ngang khiến trẻ bỏ qua hoàn toàn các lựa chọn đúng nằm ở phía bên phải.
  • Heatmap (fig8a): Hình ảnh bản đồ nhiệt xác nhận một "điểm mù" lớn bên phải màn hình, giới hạn số đối tượng trẻ khám phá được chỉ ở mức 3/6 (Bảng 2).
Dữ liệu & Heatmap Trước Can thiệp
Số lần nhìn
12
Thời lượng TB
1.8 s
Độ Phân tán
Lệch Trái
Heatmap Left Bias
Fig 8a: Heatmap "Thiên vị Trái"
Di chuột để phóng to
Nghiên cứu Ca 1: Phá vỡ Thói quen Nhìn

Chiến lược RBS & Kết quả (Lần 3)

  • Áp dụng Chiến lược: Hệ thống tự động kích hoạt chế độ "Mở rộng" (Remediation). Các thẻ bài được đặt dồn sang phải kèm cảnh báo nhấp nháy, buộc trẻ phải thực hiện Saccade.
  • Cân bằng Không gian (Bảng 3): Ánh nhìn dịch chuyển mạnh mẽ. Ở Lần 3, tỷ lệ nhìn Trái/Phải đạt mức cân bằng 40/60, xóa bỏ hoàn toàn điểm mù bên phải.
  • Phạm vi Khám phá (Bảng 2): Trẻ bao quát thành công 100% (6/6) các đối tượng trên màn hình (được minh họa qua đường nét đứt màu vàng trên biểu đồ).
Sau can thiệp
Fig 8b: Phân bổ toàn diện sau Can thiệp (Lần 3)
Sự dịch chuyển Ánh nhìn (Bảng 2 & 3)
100% 0% Lần 1 Trái: 66.67% Lần 1 Phải: 33.33% Lần 2 Trái: 50% Lần 2 Phải: 50% Lần 3 Trái: 40% Lần 3 Phải: 60% Lần 1 Lần 2 Lần 3 3/6 4/6 6/6 vật
Tỷ lệ TRÁI
Tỷ lệ PHẢI
Khám phá (Bảng 2)
Nghiên cứu Ca 2: Hiện tượng "Đường hầm Chú ý"
43/50

Phân tích Baseline (Trẻ 2)

  • Đặc điểm quan sát: Trẻ 2 tham gia bài test nhận thức chủ đề. Dữ liệu ET thô (Bảng 1) ghi nhận số lần cố định điểm nhìn thấp, chứng tỏ thiếu sự quét bao quát.
  • Đường hầm Chú ý (Tunnel Vision): Bảng 5 cho thấy 100% ánh nhìn của trẻ bị "khóa chết" vào một đối tượng duy nhất ở giữa màn hình (Con Sư Tử), bỏ qua hoàn toàn các vùng khác.
  • Scanpath (Quỹ đạo mắt): Hình ảnh quỹ đạo (cycle1b & cycle2a) thể hiện các điểm cố định chồng chéo lên nhau tại một vùng hẹp, không có sự dịch chuyển (Saccade) sang các vật thể vệ tinh.
Dữ liệu & Quỹ đạo Trước Can thiệp
Thời lượng TB
124.4 ms
Tập trung (Giữa)
100%
Khám phá
2 / 6
Scanpath Baseline 1
Cycle 1b: Điểm nhìn cục bộ
Scanpath Baseline 2
Cycle 2a: Kẹt ánh nhìn
Di chuột vào quỹ đạo để phóng to
Nghiên cứu Ca 2: Phá vỡ Đường hầm Chú ý
44/50

Hiệu quả Mở rộng Thị giác (RBS)

  • Can thiệp hệ thống: Nhận diện "Đường hầm chú ý", AI điều chỉnh giảm tải lượng đồ họa trên màn hình và kết hợp kích thích động ở ngoại vi.
  • Hình ảnh Scanpath (cycle1c, cycle2b): Các nút giao ánh nhìn đã bung tỏa ra diện rộng, tạo thành một mạng lưới quét bao quát các tùy chọn thay vì chỉ co cụm 1 chỗ.
  • Phân tích Dữ liệu (Bảng 4 & 5): Tỷ lệ nhìn vào vật thể trung tâm giảm mạnh để nhường chỗ cho vùng trái/phải. Số đối tượng được trẻ chủ động khám phá tăng lên mức 5/6 đối tượng.
Scanpath Post 1
Cycle 1c: Phân tán ánh nhìn
Scanpath Post 2
Cycle 2b: Quét đa mục tiêu
Phân bổ Vị trí (Bảng 5) & Khám phá (Bảng 4)
100% 0% Trung tâm: 100% Trung tâm: 50% Ngoại vi: 50% Trung tâm: 20% Ngoại vi: 80% Lần 1 (Baseline) Lần 2 (Can thiệp) Lần 3 (Mở rộng) 2/6 vật 5/6 vật
Nhìn Trung tâm
Nhìn Ngoại vi
Độ phủ (Khám phá)
Nghiên cứu Ca 3: Quỹ đạo Hỗn loạn (Ghép câu PECS)
45/50

Phân tích Baseline (Trẻ 3)

  • Mục tiêu Can thiệp: Hoàn thiện PECS Giai đoạn 4, yêu cầu trẻ ghép câu theo trật tự tuyến tính: "Tôi" → "muốn" → "đồ vật".
  • Vấn đề (Bảng 1): Trẻ 3 gặp khó khăn lớn trong việc xử lý thông tin tuần tự. Dữ liệu ET thô ghi nhận số lần cố định rất cao nhưng thời lượng nhìn lại cực ngắn, thể hiện sự bối rối.
  • Scanpath (fig14a): Quỹ đạo ánh nhìn đan chéo, nhảy cóc (chaotic scanpath) giữa các thẻ từ mà không tuân theo trật tự cú pháp từ trái sang phải, dẫn đến nỗ lực giao tiếp thất bại.
Dữ liệu & Quỹ đạo Trước Can thiệp
Số lần cố định
24
Thời lượng TB
0.6s (Ngắn)
Loại Quỹ đạo
Hỗn loạn
Chaotic Scanpath Baseline
Fig 14a: Scanpath nhảy cóc, thiếu cấu trúc
Di chuột để phóng to
Nghiên cứu Ca 3: Giàn giáo Cú pháp & Tuyến tính hóa
46/50

Can Thiệp & Tổ chức Ánh nhìn (RBS)

  • Can thiệp (Giàn giáo thị giác): Hệ thống làm mờ các thẻ chưa cần thiết, chỉ làm nổi bật (highlight) tuần tự thẻ "Tôi", rồi đến "Muốn", và cuối cùng là các "Đồ vật" để hướng dẫn thị giác.
  • Hình ảnh Scanpath (fig14b): Kết quả tuyệt vời khi các điểm nhìn đã được sắp xếp thành một đường quét thẳng tắp (Linear Scanpath) từ trái sang phải.
  • Phân tích Dữ liệu (Bảng 6): Tính chính xác trong việc lập câu hoàn chỉnh tăng vọt đạt mức tối đa. Thời gian để trẻ hình thành xong một câu giảm mạnh từ 28s xuống chưa đầy 9s.
Linear Scanpath Post
Fig 14b: Quỹ đạo tuyến tính (Trái → Phải) sau can thiệp
Tiến độ Ghép câu (Bảng 6)
Max 0 Độ chính xác: Thấp Độ chính xác: Trung bình Độ chính xác: Khá Độ chính xác: Hoàn hảo Lần 1 Lần 2 Lần 3 Lần 4 28s 9s
Chính xác Cú pháp ⬆
Thời gian Ghép câu ⬇
Phương pháp Đối chiếu Chuyên gia (Validation)
47/50

Khung Đánh giá Kép (Comparative Validation)

  • Để xác thực tính hiệu quả lâm sàng, kết quả can thiệp thực tế của hệ thống ET đã được đối chiếu trực tiếp với các định mức dự đoán (benchmarks).
  • Hội đồng chuyên môn: Thiết lập bởi một nhóm gồm 31 chuyên gia trong lĩnh vực. Đánh giá trên tổng cộng 18 tiêu chí (6 tiêu chí cho mỗi trẻ).
  • Hai chiều đánh giá cốt lõi:
    • 1. Biên độ (Magnitude): Mức độ cải thiện kỹ năng ước tính có thể đạt được trong cửa sổ lâm sàng chuẩn (1-2 tháng) mà không có sự hỗ trợ của ET.
    • 2. Tốc độ (Velocity): Thời gian dự kiến cần thiết để trẻ đạt được các mốc trị liệu cụ thể theo phương pháp chuẩn.

Mô hình Khảo nghiệm Lâm sàng

Hồ sơ Trẻ (Baseline) 31 Chuyên gia Dự đoán (Tiêu chuẩn) Hệ thống ET Can thiệp Thực tế VS Biên độ ⬆ Tốc độ ⬇
Đối chiếu Ca 3: Dự đoán của Chuyên gia vs. Thực tế AI
48/50

Vượt Xa Ước Tính Bảo Thủ

  • Phân tích đa hạt (granular analysis) trên Ca 3 cho thấy một sự phân kỳ đáng chú ý giữa dự đoán và thực tế, đặc biệt là ở mảng đầu ra giao tiếp (Tạo câu).
  • Về Biên độ (Magnitude): Hội đồng dự báo sự gia tăng khiêm tốn sau 1 tháng. Tuy nhiên, thực tế (Nhờ giàn giáo cú pháp ET) đã phá vỡ hoàn toàn các ước tính bảo thủ này.
  • Về Tốc độ (Velocity): Thời gian đạt được mức độ thành thạo giảm thiểu đáng kể (reduced latency) so với lộ trình dự kiến dựa trên hồ sơ quá khứ của trẻ.
Dự đoán (Tiêu chuẩn) Thực tế (Có ET hỗ trợ)
Mức độ Cải thiện Kỹ năng (Magnitude ⬆)
Thời gian Hoàn thành (Velocity ⬇)

Bằng chứng Thị giác (Cột Trái: Dự đoán | Cột Phải: Thực tế)

So sánh 1
Fig 19 (Hover để phóng to)
So sánh 2
Fig 18 (Hover để phóng to)
So sánh 3
Fig 17 (Hover để phóng to)
Tổng quan
Fig 15 (Tổng quan)
Khẳng định 1: Tối ưu hóa Can thiệp & Nhận diện Sớm
49/54

Giải mã "Hộp đen" Nhận thức

  • Bằng cách ánh xạ dữ liệu thị giác thô thành các mục tiêu lâm sàng, hệ thống đã nhận diện thành công các rào cản vô hình như "Thiên vị trái" hay "Đường hầm chú ý" mà mắt thường không thể thấy.
  • Chẩn đoán sinh học: Khi đưa các dấu ấn sinh học này (thời lượng, phân tán) vào mô hình Máy véc-tơ hỗ trợ (SVM), hệ thống đạt độ chính xác 90.91% trong việc nhận diện sớm cấu trúc nhận thức của trẻ ASD.

Khả năng Phân loại của SVM (90.91%)

ACC: 90.91%
Khẳng định 2: Tăng Tốc Độ Tiếp Thu Kỹ Năng
50/54

Vượt Dự Đoán Chuyên Gia

  • Khung hướng dẫn dựa trên ET cho phép chuyên gia thực hiện tinh chỉnh lặp đi lặp lại (iterative adjustment) theo thời gian thực dựa trên dữ liệu sinh lý học.
  • Kết quả: Quá trình này giúp gia tăng tốc độ thu nhận kỹ năng nhanh đến mức đánh bại dự đoán lâm sàng của hội đồng chuyên gia trong 83% tiêu chí. Độ trễ (latency) của quá trình học giảm thiểu tối đa.

Đường Cong Học Tập (Learning Curve)

Dữ liệu mắt (x, y, t) ? (Nút thắt) Cơ chế Nhận thức - Siêu hệ thống hóa - Ác cảm Bất ngờ (HIPPE) ➡ Cần một công cụ "phiên dịch" tự động
Cẩm Nang 1: Cơ Học Mở Khóa Xã Hội
51/55

Bối Cảnh & Tình Huống Thực Tế

Cơ sở khoa học: Trẻ ASD có xu hướng "siêu hệ thống hóa", thích các quy luật logic và lảng tránh sự khó đoán của cảm xúc con người.

Tình huống làm cha mẹ đau đầu:

Bé Bi (4 tuổi) luôn quay mặt đi khi mẹ cố gắng giơ thẻ hình biểu cảm khuôn mặt (Vui/Buồn) để dạy bé. Tuy nhiên, bé có thể ngồi hàng giờ đồng hồ chỉ để bấm các công tắc đèn hoặc xoay bánh xe ô tô đồ chơi một cách say sưa.

Hướng Dẫn Thực Hiện

  • Bước 1 (Neo giữ ánh nhìn): Đưa cho bé một món đồ chơi có nút bấm cơ học (thế mạnh của bé).
  • Bước 2 (Ghép nối phần thưởng): Cài đặt sao cho khi bé ấn nút thành công, nắp hộp bật mở ra một khuôn mặt cười hoặc phát ra câu khen ngợi.
  • Bước 3 (Chuyển hóa): Trẻ sẽ chủ động nhìn vào khuôn mặt đó vì giờ đây nó không còn đáng sợ, mà là "kết quả logic" của việc ấn nút.
1. Tác vụ Cơ học 2. Mở khóa Xã hội
Cẩm Nang 2: Giàn Giáo "Tĩnh Sang Động"
52/55

Bối Cảnh & Tình Huống Thực Tế

Cơ sở khoa học: Sự ác cảm với Lỗi dự đoán (Prediction Error) khiến não bộ trẻ tự kỷ dễ bị quá tải trước các biến đổi đột ngột.

Tình huống làm cha mẹ đau đầu:

Khi mẹ bật một bài hát thiếu nhi vui nhộn trên iPad với các con vật nhảy múa lấp lánh để thu hút sự chú ý, bé Tít (3 tuổi) lập tức nhắm nghiền mắt lại, bịt tai và hét lớn, kiên quyết lảng tránh cái màn hình.

Hướng Dẫn Thực Hiện

  • Bước 1 (Tĩnh hoàn toàn): Tắt iPad. In hình con vật đó ra tờ giấy 2D. Cho bé sờ và nhìn trong môi trường hoàn toàn im lặng để não bé thấy "an toàn".
  • Bước 2 (Động nhẹ nhàng): Chuyển sang màn hình, mở hình ảnh động (GIF) lắc lư nhẹ, KHÔNG BẬT ÂM THANH.
  • Bước 3 (Thêm âm thanh): Khi bé đã quen nhìn chuyển động, bật video nhưng để tốc độ chậm (0.5x) và âm lượng siêu nhỏ, rồi tăng dần lên mức bình thường.
1. Ảnh In (Tĩnh) 2. Lắc nhẹ (Mute) 3. Video Động
Cẩm Nang 3: Khắc Phục Thiên Vị Vị Trí (Gaze Bias)
53/55

Bối Cảnh & Tình Huống Thực Tế

Cơ sở khoa học: Trẻ thường bị kẹt ánh nhìn ở một góc cố định (VD: góc trái), khiến trẻ phớt lờ hoàn toàn các thông tin nằm ngoài "vùng an toàn" này.

Tình huống làm cha mẹ đau đầu:

Khi mẹ dọn cơm, bát cơm và thìa được đặt ở chính giữa bàn. Trẻ (5 tuổi) chỉ chăm chăm nhìn vào đồ vật nằm bên trái tay mình, không chịu vươn mắt tìm chiếc thìa ở giữa hoặc bên phải, dẫn đến việc trẻ không tự xúc ăn được và tỏ ra khó chịu.

Hướng Dẫn Thực Hiện

  • Bước 1 (Thích nghi & Tự tin): Đừng ép con nhìn qua phải. Hãy đặt thẳng bát và thìa vào đúng vùng bên trái (nơi con thích nhìn). Khi con nhìn thấy và tự xúc ăn được, con sẽ có cảm giác thành công.
  • Bước 2 (Mồi nhử & Kéo giãn): Ở các bữa ăn tiếp theo, hãy dán một sticker dạ quang/phát sáng lên chiếc thìa. Mỗi ngày nhích chiếc thìa sang bên phải 2-3 cm. Mắt trẻ sẽ vô thức bị ánh sáng mồi nhử kéo theo, dần dần mở rộng được góc quét sang phải.
Kéo giãn vùng quét bằng "Mồi nhử" Vùng an toàn Nhích dần ra xa
Cẩm Nang 4: Chống Quá Tải "Đường Hầm Chú Ý"
54/55

Bối Cảnh & Tình Huống Thực Tế

Cơ sở khoa học: Khi đối diện với quá nhiều thông tin thị giác cùng lúc, não trẻ ASD bị "đóng băng" tạo ra đường hầm chú ý (nhìn đờ đẫn một điểm vô nghĩa).

Tình huống làm cha mẹ đau đầu:

Cô giáo đổ một rổ gồm 10 loại đồ chơi gỗ nhiều màu sắc ra bàn và yêu cầu: "Lấy cho cô quả bóng màu đỏ". Trẻ nhìn lướt qua đống đồ chơi, sau đó đờ đẫn nhìn chằm chằm vào mép bàn hoặc bắt đầu ném đồ vật đi vì quá bối rối.

Hướng Dẫn Thực Hiện

  • Bước 1 (Làm trống bàn): Lập tức cất hết đồ chơi, giữ mặt bàn trống trơn để cắt đứt sự nhiễu loạn thị giác.
  • Bước 2 (Nghe trước): Trẻ chưa nhìn thấy gì, cô giáo đọc rõ khẩu lệnh "Lấy quả bóng đỏ". Điều này giúp não trẻ có vài giây khởi động "bộ lọc" chỉ tập trung tìm màu đỏ.
  • Bước 3 (Nhìn sau - Tối giản): Đưa ra đúng 2 món đồ (Quả bóng đỏ và 1 khối gỗ xanh). Trẻ sẽ dễ dàng quét mắt qua 2 vật và nhặt đúng. Khi trẻ giỏi lên mới tăng dần thành 3-4 vật.
Quy tắc "Nghe trước - Nhìn sau" 🔊 Khẩu lệnh Chờ 2s Chỉ đưa ra 2 vật
Cẩm Nang 5: Xây Dựng Tư Duy Tuyến Tính (PECS)
55/57

Bối Cảnh & Tình Huống Thực Tế

Cơ sở khoa học: Khi ghép câu, trẻ thường bị rối loạn quỹ đạo nhìn (chaotic scanpath), không biết phải bắt đầu nhìn từ đâu dẫn đến việc ghép sai thứ tự từ vựng.

Tình huống thực tế:

Khi dạy bé ghép câu "Tôi muốn quả táo", trên bàn có 3 thẻ chữ. Bé nhìn lướt loạn xạ qua lại giữa thẻ "Quả táo" và "Tôi", rồi nhặt đại đưa cho mẹ. Kết quả là bé không hiểu được cấu trúc ngữ pháp cơ bản.

Hướng Dẫn Thực Hiện (Giàn giáo)

  • Bước 1 (Làm mờ): Úp úp hoặc lấy tay che 2 thẻ cuối lại. Chỉ để lộ và gõ nhẹ vào thẻ đầu tiên ("Tôi") để mắt bé nhìn vào đó trước.
  • Bước 2 (Hiển thị tuần tự): Sau khi bé đã nhìn thẻ 1, mới lật tiếp thẻ 2 ("Muốn") lên. Đợi bé nhìn thẻ 2 xong mới lật thẻ 3.
  • Mục đích: Ép quỹ đạo mắt của trẻ phải chạy thành một đường thẳng từ trái sang phải, tạo ra nếp nhăn tư duy logic về ngữ pháp.
Ánh nhìn 1. TÔI 2. MUỐN 3. TÁO
Cẩm Nang 6: Đồng Bộ Ánh Nhìn và Hành Động
56/57

Bối Cảnh & Tình Huống Thực Tế

Cơ sở khoa học: Trẻ tự kỷ thường thiếu sự "chú ý chung" (Joint Attention). Trẻ có thể thực hiện hành động bằng tay (như đưa thẻ hoặc giật đồ) nhưng mắt lại đang nhìn lơ đãng đi chỗ khác.

Tình huống thực tế:

Bé cầm bức tranh "Bánh quy" đưa cho giáo viên để xin ăn. Tuy nhiên, lúc đưa tranh, mặt bé lại quay ngoắt ra nhìn cái quạt trần. Giáo viên lập tức đưa bánh cho bé. Việc này vô tình củng cố một thói quen giao tiếp "mù" (không có tương tác mắt).

Hướng Dẫn Thực Hiện (Intercept)

  • Bước 1 (Đình chỉ): Khi bé đưa thẻ mà không nhìn, tuyệt đối khoan đưa phần thưởng ngay.
  • Bước 2 (Đánh chặn ánh nhìn): Cầm miếng bánh quy đưa lên cao, ngay sát tầm mắt của giáo viên/phụ huynh. Gọi nhẹ tên bé.
  • Bước 3 (Trao thưởng): Chỉ khi ánh mắt bé "chạm" vào miếng bánh (và vô tình chạm vào mắt người lớn), bạn mới lập tức khen ngợi và đưa bánh.
Mắt Trẻ Mắt Mẹ Phần thưởng
Hạn chế & Triển vọng Tương lai
57/57

Những Rào cản Hiện tại

  • Quy mô Mẫu: Nghiên cứu can thiệp chiều dọc hiện tại được thực hiện với số lượng chủ thể đơn lẻ (N=3), cần thử nghiệm đối chứng ngẫu nhiên (RCT) quy mô lớn hơn để khái quát hóa.
  • Giá trị Sinh thái: Sự tương tác chủ yếu dựa trên màn hình 2D, chưa phản ánh đầy đủ độ phức tạp của không gian thực tế 3D.
  • Chi phí Phần cứng: Các thiết bị Eye-Tracker hồng ngoại chuyên dụng có giá thành cao, khó tiếp cận đối với các trung tâm giáo dục công lập.

Định hướng Công việc Tương lai

  • Tích hợp Kính thông minh (Wearable ET): Chuyển đổi từ màn hình sang kính theo dõi mắt để phân tích hành vi trong các tương tác xã hội ngoài đời thực (ví dụ: chơi đồ chơi thực tế, giao tiếp mặt đối mặt).
  • Dân chủ hóa Công nghệ (SAM 2 & Webcam): Ứng dụng mô hình SAM 2 kết hợp với thuật toán Gaze-Tracking qua Webcam laptop thông thường, đưa hệ thống phân tích này đến từng gia đình với chi phí bằng 0.