• TOP
  • 記事
  • 静岡県立中央図書館、静岡県内...

静岡県立中央図書館、静岡県内の自治体WebサイトにアップロードされたPDFを自動収集するクローリングシステムを地元企業と共同開発[ニュース]

静岡県立中央図書館、静岡県内の自治体WebサイトにアップロードされたPDFを自動収集するクローリングシステムを地元企業と共同開発[ニュース]

静岡県立中央図書館は、後世に引き継ぐ地域資料収集の一環として、静岡県内の自治体WebサイトにアップロードされたPDFを自動収集するクローリングシステムを株式会社Geolocation Technologyと共同開発した。このシステムにより、これまで人手で収集していたPDFを自動で収集することが可能に。公共図書館におけるクローリングシステムの開発は全国初。なお、この取り組みは、2021年度から静岡県立中央図書館が行っている「図書館DX実証実験」の一部となる。


システム概要は以下のとおり

●クローリング対象

静岡県内の自治体Webサイトのドメイン内に格納されているPDF

●収集範囲

ドメイン以下5階層目まで

※5階層内のHTMLにPDFへのリンク(<a href=”*.pdf”></a>)があれば,収集範囲の対象階層外であっても収集する。一方、外部ドメインへのリンクは収集しない

●保存方法

収集したPDFは、Googleドライブで収集した日付ごと、収集元のドメインと同じディレクトリ構造で保存される。また世代管理も行っている

●管理方法

1.収集範囲内にあるすべてのPDFを機械的に管理 2.収集したPDFをリネームし管理

(執筆:デジタル行政 編集部 渡辺 龍)