AI 怎麼看懂騎樓空間?為遮風避雨的步行路線鋪路

烈日大雨不怕!AI 幫你搜出騎樓空間

出門在外遇到豔陽天或下大雨,總是希望眼前出現一排可以遮陽擋雨的騎樓,但打開 Google 地圖的步行推薦路線,首先跳出的是能最快抵達目的地的捷徑,卻不一定是走起來最舒適的環境。中央研究院「研之有物」專訪院內人文社會科學研究中心郭巧玲副研究員,研究團隊開發的「騎樓 AI 偵測模型」可以讓系統快速辨識騎樓空間,有助發展專屬行人的騎樓步行路線。
各國不同風格的騎樓圖|研之有物(來源|Google Street View)
各國不同風格的騎樓
圖|研之有物(來源|Google Street View)

走在世界各地的街道上,常有機會看到風格各異的騎樓,像是日本的商店街、香港的唐樓、歐洲的拱型長廊。臺灣也經常可見設有騎樓的建築,不僅有利商家提供舒適的消費空間,也為路過的行人遮風擋雨、避免與車爭道。

喜歡觀察所到之處、路上一景一物的郭巧玲,就曾感受過騎樓帶給行人的舒適感。她瀏覽 Google 街景圖,想從中找到一條理想的路線,即有成排騎樓或遮蔽,讓前往會場開會或演講的她可以免去被烈日曝曬。

這讓她不禁靈機一動,如果 Google 的步行推薦路線可以增加騎樓優先選項,就可以降低走在路上汗流浹背或被淋成落湯雞的風險,但前提是必須能讓系統辨識出騎樓空間,才能做更多「微觀尺度」的延伸應用。

談到最愛的空間資訊研究,郭巧玲興奮地展示一張張「騎樓 AI 偵測模型」的影像。在 Google 街景圖的騎樓位置上,出現一個個框框,上頭顯示高於 0.6 的信心分數。看似簡單的畫面,卻是研究團隊苦心研發的成果,更開創了空間偵測的可能性。

郭巧玲博士,現任中研院人文社會科學研究中心副研究員,研究領域為地理資訊系統、巨量地理空間資料、資料語意、知識本體與整合。 圖|研之有物
郭巧玲博士,現任中研院人文社會科學研究中心副研究員,研究領域為地理資訊系統、巨量地理空間資料、資料語意、知識本體與整合。
圖|研之有物

怎麼偵測「摸不到」的空間?

第一代騎樓 AI 偵測模型於 2024 年發表,採用的是當時效率較佳、獲廣泛應用的 YOLOv5s 作為基礎架構。YOLO 的全名是「You Only Look Once」,是目前全球最快、最高精準度的物件偵測系統,主打只要讓系統看一眼,就能立即辨識物件與其資訊。

雖然 YOLO 的功能強大,但要用在騎樓辨識仍有難關需要克服,郭巧玲談到研究中最具挑戰性的地方:

YOLO 的特性在於,框起來的部分就是要偵測的目標,而且主要是「摸的到」的物件,例如車子、行人等,但騎樓卻是一種「摸不到」的隱含式空間。

YOLO 物件偵測系統常被用來即時偵測車流量、車速等資訊。影片為 YOLOv4 版本。
來源|中研院資訊科學研究所

為了讓 YOLO 可以認得隱含在建築裡的騎樓空間,必須先清楚定義出什麼是騎樓,再將標記有騎樓特徵(包含非騎樓背景)的街景影像資料,提供給 AI 進行模型訓練與建置。

研究團隊首先從 Google 開發的應用程式介面「Street View Image API」蒐集並觀察上千張來自臺北市 7 個行政區的街景影像,也查詢文獻、實地考察騎樓的結構特性,最終歸納出騎樓的定義:

位於建築物一樓的外廊式建築設計,由一或兩側柱子(少數無柱子)、地板、天花板所構成的空間,上方為二樓以上樓層,宛如二樓「騎」在一樓上。

反之,如果上方沒有二樓以上建築物,只是用鐵皮、帆布、採光罩圍出來的空間,就不是定義下的騎樓。

一起來分辨什麼是騎樓 圖|研之有物(來源|Google Street View)
一起來分辨什麼是騎樓
圖|研之有物(來源|Google Street View)

在清楚定義出騎樓後,研究團隊遇到的下一個難題是,什麼樣的標記範圍能讓 AI 有效學習騎樓辨識?

第一種方法是一棟一棟認「柱子」。每個標記框以兩側柱子為左右邊界,柱子的最下方為下邊界,天花板或招牌的最下緣為上邊界。如果騎樓空間相臨、共用柱子,則相鄰騎樓皆包含該共用柱。

第二種方法是不管柱子,把整排騎樓空間直接標記起來。第三種方法是第一種的延伸,把二樓的空間納入標記。第四種方法則是將整排一、二樓空間全部標記。

四種騎樓框標記方法 圖|研之有物(來源|Google Street View)
四種騎樓框標記方法
圖|研之有物(來源|Google Street View)

在經過「訓練」AI 辨別騎樓空間、「驗證」並選出效能最佳模型、「測試」模型穩定度與準確率等三大步驟後,團隊發現第一種方法訓練出來的模型效能最好,準確率高達 8 成。因為以柱子為界,可以縮小偵測範圍,讓 AI 專注在小單位的辨識、降低因變數過多而增加的誤差。

此外,共用柱的重複標記,也可以讓之後的路徑規劃導航得知,這個位置的騎樓空間是延續不間斷的,行人可以安穩地在騎樓內直行。

訓練 AI 模型時,是以正對建築物的 Google 街景圖為資料集,以上三張為非正面、隨手拍攝的影像,模型皆能成功辨識出騎樓空間。 圖|研之有物(來源|Google Street View、Mapillary、郭巧玲)
訓練 AI 模型時,是以正對建築物的 Google 街景圖為資料集,以上三張為非正面、隨手拍攝的影像,模型皆能成功辨識出騎樓空間。
圖|研之有物(來源|Google Street View、Mapillary、郭巧玲)

然而,YOLO 以偵測框為辨識範圍的特色,也造成一些困擾與限制。如果騎樓剛好被路樹、車子、攤販或施工帆布擋住,就可能出現誤判。此外,由於該模型是用臺北市的街景訓練而成,如果拿到中、南部或國外去做騎樓辨識,也可能因為街景差異過大而誤判。

想突破框限?先處理好「關係」

為了改善上述狀況,郭巧玲帶領團隊研發了第二代 AI 偵測模型,透過研究騎樓的周邊物件來建立整體環境的空間關係,讓模型的偵測視野大開、運算邏輯更靈活。

仔細觀察生活周遭的騎樓空間,除了基本的柱子、地板、天花板,還存在五花八門的東西。郭巧玲秀出一張物件清單,裡頭包含常見的行人、路樹、機車、腳踏車,還有招牌、盆栽、攤販、交通錐、遮雨棚及排水管等,零零總總分出 30 項物件。

研究的終極目標,是要讓模型學會連結騎樓與周遭複雜物件的關係,進而可以靈活地推論什麼是騎樓空間。

此處使用到「圖卷積網路」(Graph Convolutional Networks, GCN),是一種能夠針對不規則圖結構資料進行深度學習的技術。

首先要做「全景分割」(Panoptic Segmentation)把影像裡的每一樣物件萃取出來,成為一個個帶有特徵資訊的「節點」(Node)。就像在做紙雕模型前,把一樣樣小零件獨立切割出來。

騎樓除了基本的建築結構,還存在各種生活物件。研究團隊應用「全景分割」技術,將影像裡的物件萃取出來,為之後的空間關係建立預做準備。 圖|郭巧玲
騎樓除了基本的建築結構,還存在各種生活物件。研究團隊應用「全景分割」技術,將影像裡的物件萃取出來,為之後的空間關係建立預做準備。
圖|郭巧玲

接著透過「邊」(Edge)串起節點與節點之間的雙向關聯,當中存在相鄰、包含、內部、重疊等不同關係。例如騎樓通常與騎樓相鄰、騎樓包含柱子、柱子在騎樓內部、車子與騎樓空間重疊。有一些不是騎樓的空間也可以透過關係的建立來推斷,例如出現遮雨棚、採光罩、帆布屋頂,就有很高的機率不是騎樓。

此步驟的目標是將原本只是像素排列的影像,轉換成圖卷積網路可以處理的「雙向場景圖」(Bi-directed scene graph)。接著藉由三層的加權平均運算,讓節點與節點之間相互收集資訊、更新自身特徵,包括學習哪些物件常一起出現、騎樓場景的空間配置模式等,最終強化分類並判斷騎樓、非騎樓空間的準確率。

第二代騎樓 AI 偵測模型的建置流程 圖|研之有物(來源|郭巧玲)
第二代騎樓 AI 偵測模型的建置流程
圖|研之有物(來源|郭巧玲)

回顧第一代到第二代騎樓 AI 偵測模型的發展,郭巧玲彷彿看著一個孩子從按部就班到能舉一反三:「就像小孩在學習新事物,剛開始也是像第一代模型,先把可能是騎樓的地方框起來;然後再像第二代模型,逐一去細看柱子、樓地板、天花板等結構,從概括性的認識邁向專業化的發展。」

當模型達到可以舉一反三的階段,等同掌握了偵測目標的基本結構,不僅不用一直增加資料訓練量,還有助後續進行更廣泛的應用。

郭巧玲曾拿自己在賽普勒斯拍攝的美麗拱型騎樓給模型辨識,就算訓練資料沒有包含相關影像,優化後的模型仍能正確框出騎樓空間。以及就算騎樓被一整排路樹擋住,也會因模型學習過騎樓與路樹的空間關聯,而能準確判斷出騎樓所在地。

圖卷積網路(CGN)模型,可精確辨識國外騎樓空間、路樹遮住的騎樓空間。 圖|研之有物(來源、郭巧玲、Google Street View)
圖卷積網路(CGN)模型,可精確辨識國外騎樓空間、路樹遮住的騎樓空間。
圖|研之有物(來源、郭巧玲、Google Street View)

未來她將嘗試把騎樓帶給行人的「感受」與模型結合。

不同的場景總會帶給人不同的感受,例如中古屋集結的騎樓,走道常見上下起伏或摩托車成排,讓長輩、輪椅族倍感艱辛。又或者某些社區,會在騎樓增設夜間照明、請騎樓店家協助守望相助,讓夜歸民眾感到安心。

郭巧玲認為,如果能將這些對騎樓空間的感受轉化成具體的定義,就有辦法讓 AI 學習、擴充模型功能,讓研究有助於全民福祉與社會安全的提升。

結合時空與感受!空間資訊技術的超展開

我對研究工作的期許,就是希望貢獻一己之力,發掘社會上可以再改善的地方、解決眾人的問題,讓大家的生活過的更便利、更好。

這是郭巧玲在訪談過程中不斷強調的初心,可以將空間資訊研究與自身興趣、社會關懷結合,是促使她持續拓展研究藍圖的動力。

學生時期就喜歡寫程式的她,親自為騎樓 AI 偵測模型設計標記系統,只要在照片上連點兩下,就可以增加標記框及移動位置,讓原本耗時費力的標記工作,變得更有效率;AI 模型的訓練,也更加地自動化。

為了和各國、各領域學者溝通,她也構思「資料語意整合」方法,企圖轉譯並詮釋不同來源的街景圖、航照影像、領域主題點線面資料,讓使用者可以清楚掌握資料的本質與涵意,找到可以相互串聯、接續分析的立基點。

在郭巧玲與研究團隊的努力下,一個個包含空間、時間、感受,且可相互溝通的知識圖譜正逐漸成形,為人文與科技的跨域共創帶來更多契機。

2025-12-31

採訪撰文|田偲妤
美術設計|蔡宛潔

延伸閱讀