專題內容 | My Site

top of page

此網站是使用

網站幫手設計的。立即用來製作您的網站吧！立即開始

一、工作環境

在專題製作期間，教授給予我們充分的彈性與自主空間。製作環境不受限制，無論是在家中的書房、學校圖書館的自習區，或是咖啡廳等能夠專心投入的場所，都能成為我們的工作據點。這樣的彈性安排讓我們能依據個人習慣與當下需求，選擇最有效率的工作環境。

為確保專題進度穩定推進，我們平均每週與指導教授進行一次會議，在這些定期會談中，我們會向教授報告當週的專題進度、遇到的技術難題以及下階段的規劃方向。

教授也會針對我們的進度提供專業建議，協助我們釐清思路、突破瓶頸，並適時調整研究方向。這種定期且密集的指導模式，讓整個專題開發過程既具有彈性，又能維持明確的方向感。

二、專題詳述

1. 研究動機

學測放榜後，交叉查榜是學生與家長評估志願填寫的重要工具。然而，現有網站的資料分散於多個頁面，無法依科系、縣市或考區快速整合，也缺乏圖表化與視覺比較功能。使用者只能逐頁查詢，不但耗時，也難以掌握整體趨勢。因此，本專題希望透過爬蟲、資料庫與視覺化工具，建立一套能自動整合交叉查榜資料並提供互動分析的平台，協助使用者更有效率地進行查榜與資訊比較。

螢幕擷取畫面 2025-11-16 132906.png

2. 資料來源

研究資料來源為交叉查榜網站，內容包含：

各縣市考區頁面
學校與試場連結
每位考生的申請校系
正取與備取順位（部分為圖片需 OCR 辨識）
錄取結果

3. 研究方法

（1）爬蟲技術

本研究使用 Python 實作自動化爬蟲，並採取多項技術以確保資料正確與穩定蒐集。

Selenium：用於操作動態網頁、處理網站反爬機制以及模擬使用者操作行為。
BeautifulSoup：解析 HTML 結構、提取表格內容、校系列表與個別考生資料。
OCR（Pytesseract）：用於辨識網頁中以圖片呈現的數字，例如正取或備取順位、考生編號等無法直接擷取的資訊。
多層巢狀爬取架構：依網站階層設計爬取流程，包括：縣市 → 區域 → 試場 → 考生 → 校系 → 錄取與順位資訊
容錯與續爬機制：加入重試、等待、例外處理與頁面完整性判斷，避免因網頁延遲、資料漏抓或瀏覽器異常而導致爬蟲中斷。

透過上述方法，成功取得 113 年學測交叉查榜完整資料。

（2）資料庫建置

資料採用 SQL Server 進行儲存與管理，並根據分析需求設計五張主要資料表，以保持資料的結構化與關聯性。

欄位標準化：包括縣市名稱、校系格式、錄取狀態統一化。
主鍵與外鍵關聯設計：使不同資料表之間具有邏輯連結，便於後續查詢與視覺化。
資料清洗與整併：移除重複資料，並整合正備取順位、最終錄取情形及跨年份資料。

透過資料庫的整理，能確保 Power BI 在後續分析時具備一致且高品質的資料來源。

（3）資料分析與視覺化

使用 Power BI 作為分析與呈現工具，將大量資料轉換成可互動、易理解的視覺圖表，包含：

高中 → 科系流向圖：顯示不同高中學生的申請與錄取流向。
正取與備取統計：展示各科系正備取人數與比例。
依地區、縣市、學校之互動式查詢：提供多條件動態篩選。

此外，本研究也使用 DAX 量值公式（Measures）製作運算型指標，包括：

正取率、備取率
正取 / 備取人數統計
依篩選條件動態計算的錄取人數

DAX 的運用使得報表不僅能顯示靜態資料，更能依使用者互動即時計算各項比例與指標，提高整體分析深度與實用性。

4.研究成果

(1)校系申請錄取指標

該模組用於分析各校系在申請入學階段的招生效率。它可以比較各校系在特定學年度的錄取率、報到率等關鍵指標，從而評估各校系對考生的吸引力及校系競爭強度，如下圖。

螢幕擷取畫面 2025-11-16 143816 - 複製.png

(2)校系隔年差額比較

此模組專門用於追蹤各校系招生名額的年度變化。它計算並視覺化「今年名額」相較於「去年名額」的差額，以協助使用者了解科系發展和招生規模的調整趨勢，如下圖。

(3)區域流失分析

分析各區域學生的正取/備取報到人數、人數比例情況，揭示學生地域流動特徵。它幫助學校了解在不同區域市場的競爭力與流失風險，如下圖。

(4)校系報到語流失統計

此模組提供全面的報到和流失數據統計，包括正取和備取的報到率和放棄率，呈現學校整體招生表現與學生選擇傾向，如下圖。

(5)校系流出入分析

這是最重要的分析模組之一，它追蹤學生在不同校系間的流動情況,呈現了學生流向和流失的具體路徑。它分為「學校流失分析」、「科系流失分析」和「特定科系之間流失分析」，幫助學校識別最主要的競爭者，如下圖。

bottom of page