top of page

一、工作環境

在專題製作期間,教授給予我們充分的彈性與自主空間。製作環境不受限制,無論是在家中的書房、學校圖書館的自習區,或是咖啡廳等能夠專心投入的場所,都能成為我們的工作據點。這樣的彈性安排讓我們能依據個人習慣與當下需求,選擇最有效率的工作環境。

為確保專題進度穩定推進,我們平均每週與指導教授進行一次會議,在這些定期會談中,我們會向教授報告當週的專題進度、遇到的技術難題以及下階段的規劃方向。

教授也會針對我們的進度提供專業建議,協助我們釐清思路、突破瓶頸,並適時調整研究方向。這種定期且密集的指導模式,讓整個專題開發過程既具有彈性,又能維持明確的方向感。

二、專題詳述​​

1. 研究動機

學測放榜後,交叉查榜是學生與家長評估志願填寫的重要工具。然而,現有網站的資料分散於多個頁面,無法依科系、縣市或考區快速整合,也缺乏圖表化與視覺比較功能。使用者只能逐頁查詢,不但耗時,也難以掌握整體趨勢。因此,本專題希望透過爬蟲、資料庫與視覺化工具,建立一套能自動整合交叉查榜資料並提供互動分析的平台,協助使用者更有效率地進行查榜與資訊比較。​​

螢幕擷取畫面 2025-11-16 132906.png

2. 資料來源

研究資料來源為交叉查榜網站,內容包含:

  • 各縣市考區頁面

  • 學校與試場連結

  • 每位考生的申請校系

  • 正取與備取順位(部分為圖片需 OCR 辨識)

  • 錄取結果

3. 研究方法

(1)爬蟲技術

本研究使用 Python 實作自動化爬蟲,並採取多項技術以確保資料正確與穩定蒐集。

  • Selenium:用於操作動態網頁、處理網站反爬機制以及模擬使用者操作行為。

  • BeautifulSoup:解析 HTML 結構、提取表格內容、校系列表與個別考生資料。

  • OCR(Pytesseract):用於辨識網頁中以圖片呈現的數字,例如正取或備取順位、考生編號等無法直接擷取的資訊。

  • 多層巢狀爬取架構:依網站階層設計爬取流程,包括:縣市 → 區域 → 試場 → 考生 → 校系 → 錄取與順位資訊

  • 容錯與續爬機制:加入重試、等待、例外處理與頁面完整性判斷,避免因網頁延遲、資料漏抓或瀏覽器異常而導致爬蟲中斷。

透過上述方法,成功取得 113 年學測交叉查榜完整資料。​

(2)資料庫建置

資料採用 SQL Server 進行儲存與管理,並根據分析需求設計五張主要資料表,以保持資料的結構化與關聯性。

  • 欄位標準化:包括縣市名稱、校系格式、錄取狀態統一化。

  • 主鍵與外鍵關聯設計:使不同資料表之間具有邏輯連結,便於後續查詢與視覺化。

  • 資料清洗與整併:移除重複資料,並整合正備取順位、最終錄取情形及跨年份資料。

透過資料庫的整理,能確保 Power BI 在後續分析時具備一致且高品質的資料來源。​

(3)資料分析與視覺化

使用 Power BI 作為分析與呈現工具,將大量資料轉換成可互動、易理解的視覺圖表,包含:

  • 高中 → 科系 流向圖:顯示不同高中學生的申請與錄取流向。

  • 正取與備取統計:展示各科系正備取人數與比例。

  • 依地區、縣市、學校之互動式查詢:提供多條件動態篩選。

此外,本研究也使用 DAX 量值公式(Measures) 製作運算型指標,包括:

  • 正取率、備取率

  • 正取 / 備取 人數統計

  • 依篩選條件動態計算的錄取人數

DAX 的運用使得報表不僅能顯示靜態資料,更能依使用者互動即時計算各項比例與指標,提高整體分析深度與實用性。

4.研究成果

(1)校系申請錄取指標

該模組用於分析各校系在申請入學階段的招生效率。它可以比較各校系在特定學年度的錄取率、報到率等關鍵指標,從而評估各校系對考生的吸引力及校系競爭強度,如下圖。

螢幕擷取畫面 2025-11-16 143816 - 複製.png

(2)校系隔年差額比較

此模組專門用於追蹤各校系招生名額的年度變化。它計算並視覺化「今年名額」相較於「去年名額」的差額,以協助使用者了解科系發展和招生規模的調整趨勢,如下圖。

(3)區域流失分析

分析各區域學生的正取/備取報到人數、人數比例情況,揭示學生地域流動特徵。它幫助學校了解在不同區域市場的競爭力與流失風險,如下圖。

(4)校系報到語流失統計

此模組提供全面的報到和流失數據統計,包括正取和備取的報到率和放棄率,呈現學校整體招生表現與學生選擇傾向,如下圖。

(5)校系流出入分析

這是最重要的分析模組之一,它追蹤學生在不同校系間的流動情況,呈現了學生流向和流失的具體路徑。它分為「學校流失分析」、「科系流失分析」和「特定科系之間流失分析」,幫助學校識別最主要的競爭者,如下圖。

© 2025 by 陳韻涵

bottom of page