另外, 除了便於分析研究等相關工作外, 網頁內容掘取的技術也被 apply 到許多應用上 , 例如可以將網頁文字內容擷取並美觀的應用 Readability , 可以讓使用者將有興趣閱讀的網頁內容 "稍後再看" 的 pocket app ; rss/news reader app 如 pulse , feedly , 甚至是為了讓現有網頁能夠在 mobile 端被適當的呈現給使用者
網路上有人整理了幾種目前解決 html content extraction 演算法的比較 : http://tomazkovacic.com/blog/56/list-of-resources-article-text-extraction-from-html-documents/ 裡頭整理了目前學界在此問題上的 state-of-arts solutions.
而對於開發者來說, 其實大可不必要花太多時間研讀上述所提及的演算法 ; 開發出 readability 的 arc90 公司除了提供 API 之外也將其 source code 開放源碼, 目前更陸續被 port 在許多不同的語言 , 例如 php , ruby 與 python , java 等等版本 , 讓使用者可以自行選擇適合的
除了 readability 的 solution 外, 以下整理出一些其他的 solutions :
Google mobilizer : http://www.google.com/gwt/n
Pocket API 提供的 parser : http://getpocket.com/api/
fivefilters : http://fivefilters.org/content-only/
viewtext : http://viewtext.org/
Goose : http://jimplush.com/blog/goose