之前写过一篇《巧用OutWit Hub light采集外链资源》,里面详细介绍了OutWit Hub这个软件在SEO中的一些用法,那么在这里我会对这一软件做一个详细的介绍。
OutWit Hub是一款用于信息收集和信息管理的软件,由OutWit Technologies公司研发而成。OutWit Hub使用范围很广,可以用于网络数据抓取整理的研究课题,商务网站的在线数据抓取,或者辅助SEO分析。
OutWit Hub大多功能都是免费的,能够深入分析网站,自动收集整理组织互联网中的各项数据,并将网站信息分割开来,然后提取有效信息,形成可用的集合。但是要自动提取精确数据就需要付费版本了,同时免费版一次提取的数据量也是有限制的,如果需要大批量的操作,可以选择购买专业版。
OutWit Hub目前的版本号为2.1.4.22,可以在windows、macosx、linux等多个平台上使用,OutWit Hub拥有一个firefox的附加组件,能够在firefox4.0到15.0的不同版本中使用。包括以下版本:
- Standalone application for Windows (installer)
- Standalone application for Windows (zip)
- Standalone application for MacOSX (Intel 32 bits)
- Standalone application for MacOSX (Intel 64 bits)
- Standalone application for Linux (32 bits)
- Standalone application for Linux (64 bits)
- Extension for Mozilla Firefox (all platforms)
OutWit Hub的界面非常直观和简洁,但能识别复杂的网页数据结构,能够解决各种网页数据收集的需求。操作中无需掌握任何编程技术或者高端IT知识,用户可以从一系列页面中提取出页面源代码的文字、链接、图像、电子邮件地址、RSS新闻、数据表等,也可以通过简单的设置提取条件,将自己所需要的数据进行提取。提取出的数据会以数据表格的形式重新呈现,这些数据也可以直接导出到CSV,HTML,Excel或者SQL数据库中,而图像等文件会直接保存到本地硬盘。
OutWit Hub被广大seoer用于搜索引擎的数据采集,具体操作如下:
第一步,打开GOOGLE或百度,输入你要的内容;
第二步,点击浏览器输入框左边的按钮,打开主程序可以看到相关的功能,包括链接项,图片,EMAIL,文本还有不同方式的排序等;
第三步,可以由软件自动来采集识别,点击GUESS可以自动把链接和标题分开;
第四步,手工分割scrapers,设定输入需要显示的内容规则;
第五步,输入规则完后保存点EXECUTE,回到DATA下的SCRAPED将显示你要的内容了;
第六步,查询到内容后要把它导出来方便统计与分析;
第七步,然后全选内容,点周最上面的文件导出文件为EXCEL,CSV,HTML或者SQL形式;
最后导出的内容就是你要查询与采