國立政治大學資訊科學系 Department of Computer Science National Chengchi University 立碩士論文 Master s Thesis 政治大國學運用詮釋資料之線上社群圖片搜尋系統 Design and Implementation o

資訊科系 Department of Computer Science 碩士論文 Master s Thesis 運用詮釋資料之線上社群圖片搜尋系統 Design and Implementation of an Annotation-Based Image Search System for Online Communities 研究生 : 范佐玄指導教授 : 陳恭中華民一百零三年七月 July 2014

運用詮釋資料之線上社群圖片搜尋系統 Design and Implementation of an Annotation-Based Image Search System for Online Communities 研究生 : 范佐玄 Student:Zuo-Syuan Fan 指導教授 : 陳恭 Advisor:Kung Chen 資訊科系碩士論文 A Thesis submitted to Department of Computer Science in partial fulfillment of the Requirements for the degree of Master in Computer Science 中華民一百零三年七月 July 2014

運用詮釋資料之線上社群圖片搜尋系統摘要近年搜尋系統的技術日漸完善, 不但查詢速度快且精準度也提高, 但搜尋的目標內容多是以文字為主在圖片搜尋這項任務中, 傳統的圖片搜尋系統致分為兩種方法 : 一是採用低階的圖形識別方式, 或是採用高階的文字內容, 利用文字標籤等資訊來協助辨識圖片內容本論文運用特定結構的詮釋資料 (Annotation Data) 來協助辨識圖片內容, 有別於文字標籤和圖片的簡單連結, 我們採用的詮釋資料可以加註在照片上的特定區域, 並針對該區域內的圖片內容歸屬類別以及補充文字說明本論文並實作了一個線上社群圖片搜尋系統, 提供線上社群針對有添加這種詮釋資料的圖片進行搜尋本圖片搜尋系統除了讓使用者能夠簡單輸入關鍵字來尋找照片之外, 並能夠限制關鍵字對應的類別是人物或是時地物不同屬性, 還會根據照片庫內的資料關聯性來針對使用者輸入的關鍵字推薦相關的內容

Design and Implementation of an Annotation-Based Image Search System for Online Communities Abstract The technology of text-based search systems is well-developed in recent years. However, for image-based search systems, there are still much to be researched. Basically, there are two approaches: image recognition and text-analysis. The first approach is based on lower-resolution image recognition, and the second approach relies on text attached to images to be searched. In this thesis, we follow the text-based approach and adopt a specific format of annotation to facilitate image search. It differs from the simple yet popular approach of image tagging in important ways. Specifically, we can attach more than one annotations to an image, and put them to any selected area in an image. Besides, we can give a specific type, namely people, object, event, time and place, to an annotation and comment it by a piece of text. Based on such annotations, we implement an image search system, that can serve online communities interested to share and discuss images. In keywords search, we provide special search based on types of image annotations, such as people, location and time. Our research results also include suggestions produced from analysis of relations using a RDF-like approach.

目錄第一章... 1 緒論... 1 1.1 前言... 1 1.2 研究之背景... 1 1.2.1 圖片搜尋 (Image Search)... 1 1.2.2 詮釋資料 (Annotations)... 2 1.2.3 資源描述框架 (Resource Description Framework,RDF)... 4 1.3 研究動機與目的... 5 1.4 論文研究成果... 6 1.5 論文之章節架構... 6 第二章... 7 相關研究的概況與評述... 7 2.1 圖片搜尋的相關研究... 7 2.2 提供圖片標記與搜尋的線上社群服務... 8 2.2.1 Facebook... 8 2.2.2 Flickr... 9 第三章... 11 研究方法與架構... 11 3.1 系統架構... 11 3.2 系統設計概念... 11 3.3 系統設計元件... 12 第四章... 15 系統實作與使用者情境... 15 4.1 實作方法... 15 4.1.1 詮釋資料的格式定義與說明... 15 4.1.2 系統運作流程... 17 4.2 使用者情境... 20 4.2.1 照片的資料編輯介面... 20 4.2.2 照片的搜尋介面... 21 4.2.3 搜尋結果的呈現與建議搜尋介面... 23 第五章... 25

結論與未來發展... 25 5.1 結論... 25 5.2 未來發展... 25 參考文獻... 27

表目錄表格 1: 系統流程工作表 ( 對應圖 9)... 17 圖目錄圖表 1: 樹狀分類式的圖片搜尋... 2 圖表 2: 圖片與圖片的詮釋資料... 3 圖表 3: 圖片與標籤的關聯, 照片來自於 FLICKR... 4 圖表 4: RDF 的語法示意圖 ( 來源自圖書資訊與檔案研究所的技術服務小百科部落格 )... 5 圖表 5:P. ENSER, 2000 [18] 提到的 CONCEPT-BASED IMAGE RETRIEVAL MODEL... 8 圖表 6:P. ENSER, 2000 [18] 提到的 CONTENT-BASED IMAGE RETRIEVAL MODEL... 8 圖表 7:FACEBOOK 的個人相片主要分成兩個類別... 9 圖表 8: 系統架構圖... 12 圖表 9: 系統設計概念圖... 12 圖表 10: 照片的背景資料與詮釋資料格式定義... 15 圖表 11: 系統架構及流程工作規劃圖 ( 對應表二 )... 17 圖表 12: 4.2.1 的使用者情境介面, 照片的詮釋資料編輯... 20

第一章緒論 1.1 前言從網際網路的應用技術到了 Web 2.0 的時代以後, 網站的內容資訊以使用者為中心, 出現了許多由使用者生產的內容, 或經過使用者評鑑過的網站應用, 諸如部落格維基百科以及本論文討論到的問答系統等應用基於使用者間的互動, 問答系統的服務提供了一個網站平台, 讓使用者可以在平台上發問問題, 或著去回答其他使用者的發問隨著服務持續經營一段時間之後, 平台上積累的多個問題與答案會逐漸成為一個龐的知識庫, 這些由使用者提供的知識內容透過平台的適當管理可以讓使用者在網路上更容易地獲得想知道的資訊我們將詮釋資料 (Annotations) 的概念引入問答系統的提問結構裡, 以利發問人的問題中包含圖片檔案時, 能夠更簡潔的表達出文字內容與圖片連結關係, 使問題瀏覽人輕鬆地得到發問人欲傳達的資訊此外, 我們使用了資源描述架構 (Resource Description Framework, RDF) 作為詮釋資料的描述架構,RDF 在語意搜尋 (Semantic Search) 功能的實作上是一項常用的技術我們的系統將提供使用者在檢索照片時, 除了傳統的關鍵字搜尋功能外, 還可以進行簡單的語意搜尋 1.2 研究之背景 1.2.1 圖片搜尋 (Image Search) 1

在傳統上對圖片的搜尋方式是用類似於圖書館的文字標籤與樹狀分類檢索, 如圖表 1 一般圖像檢索的方式是利用一些增加元資料 (metadata) 的方法, 例如 : 字幕關鍵詞或是圖像的說明, 如此一來就可以透過註解詞完成檢索人工的圖像註解是費時費力並且昂貴 ; 為了解決這個問題, 已經有量的研究在做自動圖像註解方面上此外, 越來越多的社會網路應用和語義網已經產生了數個以網路為基底發展的圖像註解工具圖像註解的困難在於以下兩個議題 :[13] 1. pixel-to-predicate: 文字可能僅是描述圖片中的某個區域, 而簡單的文字標籤無法具體指出 2. semantic gap: 人們對於同一物件的稱呼不一定相同圖表 1: 樹狀分類式的圖片搜尋 1.2.2 詮釋資料 (Annotations) 我們將以圖片的詮釋資料 (Image Annotations)[7] 為主, 應用在圖片搜尋系統中詮釋資料的概念與目前已知的標籤系統 (Tagging System)[1] 的概念會有些相似, 以下是兩者的定義 2

圖片的詮釋資料 : 使用者可以對圖片中的某片區域進行註解 (annotate), 加上文字或是其他與目標區域相關的資訊標籤系統 : 使用者給予整張圖片的關鍵字說明, 一張圖片可以有許多不同的標籤 ( 如圖表 2 與圖表 3) 標籤系統能夠讓不同使用者分享的照片以透過相同的標籤名稱將這些原本不關連的照片連結起來運用標籤名稱也讓圖片的分享以及檢索更加容易與方便運用標籤系統可能可以加以應用 : 假定現在有一個事件或物品, 卻擁有不同的標籤名稱, 可以用一些方法將這個事件或物品的名稱統一圖片的詮釋資料因為有特定區域的指示, 讓文字與圖片的關連性更緊密同時這種圖與文的呈現方式也讓使用者更容易弄懂圖片發佈者想傳達的意義而在圖片上註解的這些詮釋資料在做基於概念的圖片檢索 (Concept-based image retrieval) 時, 比起標籤系統能夠運用詮釋資料所框記的特定圖片區域進行更細緻的深度查詢圖表 2: 圖片與圖片的詮釋資料 3

圖表 3: 圖片與標籤的關聯, 照片來自於 Flickr 1.2.3 資源描述框架 (Resource Description Framework,RDF) 資源描述架構 (Resource Description Framework)[2] 及 RDF Schema 是網際網路標準組織 (W3C) 為解決資源描述問題的先導規範, 它允許使用者建階層式的概念及屬性, 因此具有本體的雛型, 主要為網路的編碼資料交換可供閱讀再使用機器可了解的 metadata, 提供基礎的架構 RDF 主要包括二部分 :RDF 資料模型 (Data Model) 與 RDF 語法規範 (Syntax Specification) RDF Schema 則是定義 RDF 的詞彙, 類似簡單的 Ontologies RDF 資料基本模型包括資源 (Resources) 屬性 (Properties) 以及敘述 (Statements), 見圖四及以下 1. 來源 (Resources): 資料來源 2. 屬性 (Properties): 屬性可以是來源的觀點特徵或是關係每個屬性都有一個意義, 定義許可的值描述來源的型別和其他屬性的關係 3. 敘述 (Statements): 敘述的語句以 RDF 的格式表示敘述被分成三個部分, 分別是 Subject Predicate 和 Object Subject 可以表示來源,Predicate 可以表示屬性,Object 可以是文字或是其他的來源 RDF 資料模型並沒有指定特別的 RDF 語法規範, 基本的 RDF 語法如圖四所示 RDF 主要是對網際網路上的資源作資訊與狀態的呈現, 而它特別適合來表示 4

詮釋資料, 並載明了特定領域的框架 (Schema), 以宣告該領域的資源描述語彙, 利用此框架表達領域的定義概念及階層間的關係, 使得該領域的應用將可由語法的層級提昇至語意層級, 能讓機器理解及處理, 而不喪失語意的通用框架圖表 4: RDF 的語法示意圖 ( 來源自圖書資訊與檔案研究所的技術服務小百科部落格 ) 1.3 研究動機與目的在資料全面數位化的時代裡, 圖片搜尋系統傳統上運用文字的作法都是利用標籤系統去實行, 但是標籤系統有 pixel-to-predicate 的問題, 因此我們希望藉由新的 HTML5 技術讓文字在圖片內容的描述上, 能夠更精確地去描述到特定區域, 也就是本論文所提出之圖片的詮釋資料結構在老舊照片也數位化將之作為保存的同時, 其本身所具有的紀念價值或內容涵義可能隨著時間而淡化逝去, 我們期許透過詮釋資料利用精確描述的特性, 可以在老舊照片還可供辨認的時刻, 讓能說出照片裡故事的使用者來添加詮釋資料, 讓該照片被保存下來的不只是圖片, 還包含照片裡頭的人事物背後藏有的故事或是含意我們的系統實作以校裡的系所單位為標的使用者, 一個系所每年都會有固定舉辦的活動, 如系慶或是校際比賽還有全校參加的典禮都會留下具有紀念價值的照片, 但照片中的人事物除了當事人外都較難以辨認, 我們可以在老系友的聚會中, 進行老系友話當年的活動, 替多年前的照片標上詮釋資料, 並供給搜尋系 5

統使用這些詮釋資料累積成一定數量之後, 我們可利用 RDF Graph 模型的方便語意操作特性, 進行 RDF 推論 [3], 讓不同的照片因為可能有相近的詮釋資料而產生連結關係, 供使用者在檢索照片時有更多的選擇 1.4 論文研究成果本論文實作了供線上社群使用的照片詮釋資料添加服務, 以及一個對應前者的包含語意搜尋概念的圖片檢索服務主要成果如下 : 1. 提供照片與其詮釋資料的註記與保存服務 2. 允許使用者詮釋資料的多個類型 (type) 去做語意搜尋 3. 根據搜尋結果去分析出相關的關鍵字作為推薦給使用者的延伸搜尋 1.5 論文之章節架構本論文接下來的章節架構如下 : 第二章中會介紹重要的相關研究, 以及討論相關研究的目前概況和優缺點的比較第三章裡會談到論文中所使用的技術方法與其相關基本背景知識, 包含詮釋資料屬性的定義與搜尋系統的各功能設計需求第四章的前半段將說明系統實作細節, 說明每一個系統元件的實作因果 ; 後半段是根據研究動機所設計出來的的使用者情境最後第五章會就本論文的實作成果做一個總結, 並且探討未來值得延伸展的方向及其相關議題 6

第二章相關研究的概況與評述本論文在此章節分成兩部分探討, 第一節就圖片搜尋之議題, 引用一些論文對圖片搜尋的技術做一些定義第二節將介紹照片詮釋資料的相關研究及線上服務, 並且在服務所提供的照片檢索功能上比較優缺點 2.1 圖片搜尋的相關研究 P. Enser, 2000 [18] 就圖片檢索的兩種方法分類做了深入的介紹 : Concept based image retrieval: 基於概念的圖片索引, 以多個關鍵字或標籤甚或自然語言描述對圖片建索引關係以進行搜尋見圖表 5 Content-based image retrieval: 基於內容的圖片檢索, 以圖片內容的顏色形體的形狀或線條為主要搜尋媒介見圖表 6 Datta et al., 2008 [17], 將圖片搜尋的使用者傾向分成以下三類 : 1. Browser: 該類使用者沒有明確的搜尋目標, 每次搜尋的內容可能並不關聯, 他們就只是想隨意瀏覽 Surfer: 該類使用者有著致方向的搜尋目標, 他們一開始會給予一個模糊的關鍵字並隨著多次搜尋結果與修正逐漸找到目標 Searcher: 該類使用者有極為明確的目標, 他們給予具體的條件並且希望快速找到 7

圖表 5:P. Enser, 2000 [18] 提到的 concept-based image retrieval model 圖表 6:P. Enser, 2000 [18] 提到的 content-based image retrieval model 2.2 提供圖片標記與搜尋的線上社群服務本論文將以目前為人熟知的社群網站 Facebook 和分享照片最常使用到的 Flickr 為例子, 分別就詮釋資料的結構和使用者搜尋圖片兩個層面去進行評述 2.2.1 Facebook 8

Facebook 的照片 tag 功能可以主動偵測人臉進行自動標記, 並利用其服務的社群網路達到人與人的互動功能但是 Facebook 對照片所能加入的詮釋資料僅限於與人有關, 無法讓使用者自行選取其他區域進行自由的標記在 Facebook 上在一個使用者的相關照片分成了兩類 : 使用者自己上傳的照片與使用者被朋友標註在上的照片, 後者就是利用了第一段提到的功能所達成的分類, 但在照片搜尋上必須先找到使用者才能找到照片,Facebook 沒有提供一個便於查找照片的功能圖表 7:Facebook 的個人相片主要分成兩個類別 2.2.2 Flickr Flicker 為一家提供免費及付費數位照片儲存分享方案之線上服務, 也有提供網路社群平台除了有許多使用者在 Flickr 上分享他們的私人照片, 該服務由於可以作為部落格圖片的存放空間, 亦受到許多部落格作者喜愛 Flickr 受到歡迎的原因是其創新的線上社群工具, 能夠將照片標上標籤並且以此方式瀏覽 Flickr 集合了藉由使用者間的關係彼此相互連接的數位影像, 影像可依其內容彼此產生關聯圖片上傳者可自己定義該相片的關鍵字, 也就是標籤 (Tags), 如此一來搜尋者可很快的找到想要的相片, 例如指定拍攝地點或照片的主題, 而創作者也能很快了解相同標籤 (Tags) 下有哪些由其他人所分享的照片,Flickr 9

也會挑選出最受歡迎的標籤名單, 縮短搜尋相片的時間 Flickr 被普遍認為是有效使用分眾分類法 (Floksonomy) 的典範此外,Flickr 也是第一個使用標籤雲的網站圖表 3 即是 Flickr 的照片與標籤關聯作為最早提供照片儲存與分享的線上服務,Flickr 使用的標籤系統非常成功, 許多研究與應用也基於標籤的基礎去補足原本不足的地方 10

第三章研究方法與架構本章節參考相關研究之作法, 實作一個可供線上社群瀏覽的網站服務, 支持使用者用簡單方便的方式去編輯照片與添加詮釋資料, 並利用詮釋資料的型態屬性, 在圖片搜尋系統的功能上不僅是關鍵字的比對 3.1 系統架構由於我們是要實作讓使用者能用網頁瀏覽的線上服務, 必須要有一個伺服器來運作這個網站服務, 以及一個資料庫來儲存照片及其相關資料除此之外, 我們採用的詮釋資料希望能夠轉成 RDF Graph 模型來處理, 所以還另一個 Server 專門來負責管理詮釋資料, 以及另一個相對應的資料表格來儲存結合上述需求, 整個系統架構圖致就如圖 8 3.2 系統設計概念我們的系統主要是要架設一個提供使用者編輯照片詮釋資料與圖片搜尋的網站服務, 在後端的伺服器方面, 有負責與前端溝通的 App Server, 以及處理 RDF 資料的 RDF Management Server, 將系統分成兩個伺服器的目的是兩者處理的資料不同, 以及 App Server 應該專注於使用者的請求 App Server 將直接面對使用者在客戶端給予的一切請求, 關於圖片的詮釋資料在這裡會被挑選出來送到更後端的 RDF Management Server, 其餘的使用者資料則直接存入關聯式資料庫裡 RDF Management Server 顧名思義只負責關於存成 RDF 格式的詮釋資料的處理以及保存當使用者從客戶端發出照片搜尋的請求時,App Server 會將解讀使用者設定的搜尋條件, 並且轉發成查詢指令向 RDF Management Server 作查詢 11

圖表 8: 系統設計架構圖圖表 9: 系統設計元件圖 3.3 系統設計元件在圖 9 中, 可以看到 App Server 的部分我們使用 Django, 一個 Python 程式 12

語言實作的 Web Framework, 它同時負責客戶端的請求和關連式資料庫的的管理外, 也和後端的 RDF Management Server 作詮釋資料的交換而 RDF Management Server 則是採用 Jena, 一個 Java 程式語言實作, 用來管理 RDF 的 Framework 在兩個伺服器間的資料傳遞上, 由於是用兩個不同的程式語言實作的 Framework, Protocol Buffer 可以在資料收發的程式開發上給予很的幫助以下將針對系統架構裡的每個元件做逐一介紹 : Django Django[5] 是一個開放原始碼的 Web 應用框架, 採用了 MVC[14] 的軟體設計模式, 即模型 Model, 視圖 View 和控制器 Controller Django 的主要目標是使得開發複雜的資料庫驅動的網站變得簡單 Django 注重組件的重用性和可插拔性, 敏捷開發和 DRY 法則 (Don't Repeat Yourself)[15] 在 Django 中 Python 被普遍使用, 甚至包括配置文件和資料模型 Django 框架的核心包括 : 一個物件導向的映射器, 用作資料模型 ( 以 Python 類別的形式定義 ) 和關聯性資料庫間的媒介 ; 一個基於正則表達式的 URL 分發器 ; 一個視圖系統, 用於處理請求 ; 以及一個模板系統 Django 的 MVC 模式在應用開發速度上給予了很的幫助, 同時擁有更多相關的開源 Library, 如 Piston 在定義客戶端對伺服器的四種請求 (GET POST DELETE 和 PUT) 路徑時讓程式碼架構變得極為簡潔, 而 South 在管理關聯式資料庫上, 尤其是 Transaction 的機制變得非常容易 Jena Jena[4] 是一個開放原始碼的 Java Framework, 提供了一套 API 以供 RDF 資料的讀寫資料來源可以是檔案資料庫或是 URLs 以及以上的組合,Jena 也接受使用 SPAQL 來進行資料的查詢 Jena 有個特點是可以進行 RDF Inference, 支持開發者撰寫 OWL(Web Ontology Language), 並提供不同的 Reasoners 進行 RDF Inference, 此外 Jena 13

還提供 RDF 序列化的功能, 可將 RDF 資料存進關聯式資料庫 (Jena SDB API) 或是 XML 以及 Notation 3 之類的其他格式我們不止是利用 Jena 來進行 RDF 的讀出與寫出, 還採用了 RDF Inference 的功能, 在使用者給予一些詮釋資料後, 由我們定義幾項推理規則使得多個詮釋資料能夠發揮一加一於二的效果 Protocol Buffer Protocol Buffer[16] 是 Google 公司內部的混合語言數據標準, 目前已經正在使用的有超過 48,162 種報文格式定義和超過 12,183 個.proto 文件他們用於 RPC 系統和持續數據存儲系統 Protocol Buffer 擁有以下幾項優點 : 1. 結構化數據儲存格式 (xml, json) 2. 用於通信協議數據儲存等 3. 高效的序列化和反序列化 4. 語言無關平台無關擴展性好 5. 官方支持 C++, Java, Python 三種語言在我們規劃的系統架構中, 後端的 App Server 與 RDF Management Server 分別由兩個語言支持的 Framework 進行實作, 第四及第五點與系統的實作語言正好配合, 而在第一點中提到的 json 儲存格式是 Python 語言裡很容易操作的格式, 甚至從客戶端送回來的資料預設就是用 json 格式來作儲存 Protocol Buffer 在本論文的系統開發上帶來了很的幫助, 並且在資料傳遞的效能上也會比我們自己去定義 socket 封包的格式與接收來得更好 14

第四章系統實作與使用者情境在此章節中我們將會就系統的細節實作方法, 包含詮釋資料的格式定義, 系統的運作流程, 接著會設計幾個成果評估的使用者情境 4.1 實作方法在實作方法的部分, 先說明系統流程工作的實作細節, 接下來是詮釋資料的格式定義與說明 4.1.1 詮釋資料的格式定義與說明圖表 8: 照片的背景資料與詮釋資料格式定義見圖 10, 照片的相關資料依照整張照片或是局部照片分為兩列清單,photo 的部分是有關整張照片的說明資料, 有以下欄位以及描述 : - photo_id: 照片的識別 ID, 每張照片的 ID 都不同 - photo_user: 照片的上傳者 - photo_updatetime: 照片的上傳時間 - photo_time: 照片的拍攝時間 - photo_locate: 照片的拍攝地點 15

- photo_event: 照片的拍攝事件 - photo_title: 照片的描述標題以上欄位中的時間地點以及事件是屬於詮釋資料, 它們可以被設定成條件, 再透過語意搜尋的方式來檢索到這張照片在 annotation 清單裡的屬性則是此照片被使用者操作方框選取後, 該局部部分的詮釋資料, 因此內容也包刮了方框的描述 - annot_id: 詮釋資料的 ID, 每筆詮釋資料的 ID 都不同 - annot_user: 詮釋資料的作者 - annot_updatetime: 詮釋資料的上傳時間 - annot_type: 詮釋資料的型態, 有人物地點及事件 - photo_id: 詮釋資料所描述的目標照片 ID - left: 詮釋資料所描述照片的方框選取區之左側座標 - top: 詮釋資料所描述照片的方框選取區之頂部座標 - height: 詮釋資料所描述照片的方框選取區之高度量 - width: 詮釋資料所描述照片的方框選取區之寬度量 - text: 詮釋資料的文字內容 16

4.1.2 系統運作流程表格 1: 系統流程工作表 ( 對應圖 9) 圖表 9: 系統架構及流程工作規劃圖 ( 對應表二 ) 17

在這個段落裡, 依據圖 12 以及表格 1 中所對應的流程標號, 我們將依序說明系統架構中的幾個關鍵流程工作的實作細節 (1). 客戶端向伺服器檢索照片的背景資料或詮釋資料 : 使用者在瀏覽發文照片及其詮釋資料時, 需要向伺服器請求資料在照片檢索的功能部分, 我們提供傳統的關鍵字搜尋, 關鍵字搜尋主要針對照片標題以及整張照片的詮釋資料作查詢此外, 我們還提供簡單的語意搜尋介面, 使用者可以操作多個下拉式選單調整檢索條件以及設定關鍵字, 針對照片的時間或是地點甚至照片上的人物設限以進行語意搜尋 (2). 客戶端上傳照片或照片的背景資料及詮釋資料 : 欲發問問題的使用者可以上傳欲發問的相關照片並填寫已知的背景資料及詮釋資料進行上傳而一般使用者在瀏覽照片時, 對於照片上的未知詮釋資料想要進行留言或討論, 也都會先將資料送到 APP Server (3). APP Server 與關聯式資料庫交換存取照片的背景資料 : APP Server 會把客戶端送來的資料區分出背景資料及詮釋資料, 背景資料不需要語意的操作, 單純的存取在關聯式資料庫就可以 (4). Protocol Buffer 幫助照片的詮釋資料在兩個伺服器間交換 : 前端的 APP Server 將詮釋資料跳選出來之後, 就透過 Protocol Buffer 把資料發送到後端的 RDF Management Server 而當使用者有檢索照片的語意搜尋請求時,APP Server 將使用者設定的條件限制轉寫成 Spaql 指令, 此指令透過 Protocol Buffer 傳到 RDF Management Server, 查詢出語意搜尋的目標照片 ID 後再傳回 APP Server,APP Server 根據此 ID 向關聯式資料庫取出 18

對應的照片以及相關資料 (5). Jena Reasoner 會利用現有的詮釋資料進行 Inference: 由於使用者能給予的詮釋資料在一張照片上未必總是齊全的,Jena 提供了 RDF Inference 的機制, 我們事先撰寫好一些固定的推理規則,Jena Reasoner 依據這些規則和現有的詮釋資料進行 Inference, 進而擴充詮釋資料的豐富性 (6). 透過 Jena SDB API 與關聯式資料庫進行資料的永續存取 : RDF Management Server 上的詮釋資料也需要一個永續的儲存空間, 而 Jena SDB API 滿足了這項需求, 它可以將 RDF 格式的資料序列化成關聯式資料庫的格式, 並提供了一系列用於讀寫的 API 讓開發者使用 19

4.2 使用者情境此章節將展示已完成的介面功能, 同時說明該介面下的使用者情境 4.2.1 照片的資料編輯介面圖表 10: 4.2.1 的使用者情境介面, 照片的詮釋資料編輯圖 13 中所展示的是整張照片的編輯介面, 我們可以看到在照片的上方有四個文字欄位, 供照片的擁有者填寫照片標題以及已知的照片背景詮釋資料, 並且設定該項資料屬性是否可以被其他使用者回答圖 13 的下方則是在照片中央有一個黑色方框的選取區以及一個編輯詮釋資料型態的選單, 使用者可以直接拖曳方框的位置或是調整方框的小以確定選取的區域符合描述的內容, 在方框旁的操作盤則是讓使用者填入描述內容的型態以及內容說明文字, 並設定權限是否允許旁人修改 20

4.2.2 照片的搜尋介面圖表 14: 允許限制詮釋資料型態的條件搜尋使用者可以快速的輸入關鍵字作簡單的檢索, 也可以在搜尋欄的下方, 針對 5 種不同的形態來限制欲搜尋的詮釋資料內容, 被選取到的型態之外框會呈紅色表示, 若再選取同一型態按鈕, 則會取消型態限制的條件搜尋文字輸入區域可以簡單的輸入單一關鍵字再按放鏡的搜尋按鈕, 即會開始圖片搜尋之作業, 以下將針對文字區域輸入作更詳細的說明 : 多個關鍵字的布林邏輯搜尋 : 使用情境見圖 15 布林邏輯主要分成 AND 與 OR 兩種關係, 在我們實作的關鍵字剖析器中, 當關鍵字以加號 (+) 分隔時, 表示 OR 的邏輯關係 ; 而當關鍵字以乘號 (*) 分隔時, 表示 AND 的邏輯關係另外以空白字元 ( ) 作為分隔時, 將直接是用 OR 的邏輯關係去辨認簡潔的時間型態搜尋 : 在型態限制為時間屬性時, 使用者可以簡單地輸入一至三組阿拉伯數字, 程式會在合邏輯的情況下由左至右推測出年月日的斷定如果有 21

三組數字, 程式將先判斷最小的兩組數字中的第一組為月, 次小的數字為日, 最後的數字為年分 ; 當輸入的數字為兩組時, 先判斷是否符合月日的組成, 如果不行則斷定是年月的組合 ; 輸入的數字如果只有一個, 斷定的優先順序是月再來日最後是年程式採用的年份紀錄方式是西元紀年圖表 15 輸入關鍵字時邏輯符號使用說明圖表 16: 多重條件的條件搜尋使用者也可以針對不同的型態都給予不同的關鍵字限制, 在每個屬性標籤後都填入此次搜尋的限制條件之後, 留白的欄位視同不限制該欄位, 點擊操作盤下的紅色放鏡按鈕即可執行多重條件的搜尋功能 22

4.2.3 搜尋結果的呈現與建議搜尋介面搜尋結果的呈現介面如圖 18, 我們選用了條列的呈現方式, 每一筆搜尋結果會顯示目標照片的縮圖, 以及該照片被標記的詮釋資料的文字內容, 詮釋資料對應的區域並不會在縮圖上顯示, 使用者可以直接點擊照片的縮圖以進入整張照片的詮釋資料瀏覽頁面 ( 即圖 13) 而在清單的最上方使用者可以決定清單的排列方式是依照時間的遠近或是其他排序依據在結果呈現介面的右側會有一個搜尋建議的表單 ( 圖 17), 我們根據詮釋資料所建的 RDF Graph, 去分析出最常一起出現的人物與地點, 以及搜尋目標的最早及最近出現時間使用者可以簡單的點擊推薦的超連結去做一次快速的新搜尋圖表 17: 根據照片結果所給予的延伸搜尋建議 23

圖表 18: 多重條件的條件搜尋 24

第五章結論與未來發展本章對本論文的實作與內容作結論, 以及探討本論文未來發展的相關研究與探討可能性 5.1 結論以標籤作為圖片搜尋的依據參考當受限於標籤的描述性不足, 本論文依據詮釋資料有別於標籤系統的特性實作了基於網頁瀏覽的圖片搜尋系統, 在已經標註了多筆詮釋資料與照片的資料庫之外, 以詮釋資料建了 RDF Graph, 使得語意搜尋的概念得以在圖片為目標的搜尋時也能應用目前實作出來的成果達成了以下目標 : 1. 詮釋資料的型態 (type) 概念以利語意分析工作的進行 2. 多個型態對多個關鍵字的語意搜尋 3. 根據搜尋結果所提供的搜尋建議本論文是以校系所為目標使用者所實作出的一個系統服務與設計, 若是不同的使用者客群來使用本系統的話, 可能會有詮釋資料的型態彈性不足的情況, 並且在搜尋建議的部分, 本論文也是僅實作幾個能夠應用的功能, 還有更多的可能性將在下一小節討論 5.2 未來發展針對不同面向使用者客群, 詮釋資料的屬性客製化是一個很重要的議題同時詮釋資料不僅可以用在圖片的標註上, 將圖片區域的描述欄位修改成文章段落 25

位置並且給予作者與發佈單位及時間, 可以是一篇新聞報導的註解, 或著是機關組織公文發布時的註解, 有了這些註解之後, 可以幫助讀者來快速檢閱被標註的物件內容, 以及在瀏覽內容時做更貼切的閱讀推薦搜尋建議也就是上個段落提到的閱讀推薦, 在本論文實作的系統中只列了 4 項 : 與搜尋標的同時出現人物或地點及時間如果程式能夠對自然語言做一定的理解, 讓使用者可以在延伸搜尋時自由輸入比如和某人的最早出現時間以及和某人的最近出現時間, 可以交集出一個時間區間更進一步的對兩人關係做追蹤搜尋 26

參考文獻 [1] George W. Furnas, Caterina Fake, Luis von Ahn, Joshua Schachter, Scott Golder, Kevin Fox, Marc Davis, Cameron Marlow, Mor Naaman, Why do tagging systems work?, CHI '06 extended abstracts on Human factors in computing systems, April 22-27, 2006, Montréal, Québec, Canada. [2] Lassila, O., Swick, R. (1998). The Resource Description Framework (RDF) Model & Syntax. W3C Working Draft. http://www.w3.org/tr/wd-rdf-syntax. [3] Stefan Decker, Dan Brickley, Janne Saarela, Jürgen Angele, A Query and Inference Service for RDF, W3C Query Languages Workshop (1998), http://purl.org/net/rdf/papers/ql98-queryservice [4] B. McBride, "Jena: A Semantic Web Toolkit", IEEE Internet Computing, November - December 2002. [5] Ariel Ortiz, Web development with python and django, Proceedings of the 43rd ACM technical symposium on Computer science education. ACM, 2012. P. 686. [6] Datta, R., Joshi, D., Li, J. and Wang, J., Image Retrieval: Ideas, Influences, and Trends of the New Age. in ACM Computing Surveys, (2008). [7] Yan, R., Natsev, A., and Campbell, M. 2007., An efficient manual image annotation approach based on tagging and browsing. In Workshop on Multimedia Information Retrieval on the Many Faces of Multimedia Semantics. ACM, New York, 13 20. [8] A. Leff and J. Rayfield "Web-application development using the Model/View/Controller design pattern", Proc. Int. Enterprise Distrib. Object Comput. Conf., pp.118-127 2001 27

[9] Lavrenko, V., R. Manmatha, and J. Jeon: 2004, A model for learning the semantics of pictures. In: Advances in Neural Information Processing Systems 16. [10] A. Goodrum. Image information retrieval: An overview of current research. Informing Science, 3(2):63 67, 2000. [11] Blei, D. M. and M. I. Jordan: 2003, Modeling annotated data. In: Proc. ACM SIGIR. pp. 127 134. [12] Carneiro, G. and N. Vasconcelos: 2005a, A database centric view of semantic image annotation and retrieval. In: SIGIR. pp. 559 566. [13] Makadia, A.; Pavlovic, V.; and Kumar, S. 2010. Baselines for image annotation. In IJCV, 90(1):88 105. [14] S.-J. P. Jae-Hun Choi, Seong-Hee Park, "Design and imple-mentation of a concept-based image retrieval system with edge description templates," in SPIE Storage and Retrieval Methods and Application for Multmedia, vol. 5307, 2004, pp. 571 581. [15] Wilson, G., Aruliah, D., Brown, C.T., Hong, N.P.C., Davis, M., Guy, R.T., Haddock, S.H., Huff, K., Mitchell, I.M., Plumbley, M.D., et al. (2012). Best practices for scientific computing. [16] Google. Protocol Buffers: Google's Data Interchange Format. Documentation and open source release, http://code.google.com/p/protobuf/ [17] Datta, Ritendra, Joshi, Dhiraj, Li, Jia, Wang, James Z., 2008. Image retrieval: Ideas, influences, and trends of the new age. ACM Computing Surveys 40 (2) (Article 5). [18] P. Enser, Visual image retrieval: Seeking the alliance of concept-based and content-based paradigms, Journal of Information Science 26(4) (2000) 199 210. 28

附錄一資料庫的 model schema (/photos/models.py) Album Photo 及其背景資料 Photo 與使用者互動相關的 metadata 29

詮釋資料 (Annotations) 二網頁瀏覽的 URL Patterns 的 regular expression 規則 (/photos/urls.py) 30

三多個 API 之呼叫處理器 (/api/handlers.py) 處理詮釋資料的建與讀取之類別 Server 將詮釋資料送到前端的 JSON 打包,annotationdata 是該照片的詮釋資料串列 31

詮釋資料上傳到 Server 後, 經過剖析處理並儲存到資料庫 32

將詮釋資料匯入進 RDF Graph 內, 並建這張照片上的詮釋資料之兩兩關係 33

刪除詮釋資料用另一個處理器應用 PUT method 使之較為彈性處理單一搜尋請求的處理器 34

判斷使用者給予的型態限制去做關鍵字剖析與執行搜尋 35

剖析多個關鍵字時的布林邏輯關係多個關鍵字會做多次搜尋, 該函數是在處理每次搜尋結果的合併 36

搜尋流程將先做關鍵字的前處理, 接著執行一個迴圈根據關鍵字的數目去執行 doserch(), 並將搜尋結果相關的照片預覽資料打包準備回傳 37

作為搜尋結果延伸建議的分析, 從 RDF Graph 讀取相關資料後分析並記錄將搜尋結果打包成一個 JSON 並傳至前端 38

使用者使用多選搜尋時的處理器, 根據型態限制的多寡 ( 主要在時間 ) 做搜尋的語意判斷, 最後將結果包成一個 JSON 傳至前端 39

國立政治大學資訊科學系 Department of Computer Science National Chengchi University 立 碩士論文 Master s Thesis 政 治 大 國 學 運用詮釋資料之線上社群圖片搜尋系統 Design and Implementation o

國立政治大學資訊科學系 Department of Computer Science National Chengchi University 立碩士論文 Master s Thesis 政治大國學運用詮釋資料之線上社群圖片搜尋系統 Design and Implementation o