Google Reader Holics » 讨论
足兆叉虫的寒假作业:全文Feed烧录器
#1 - 2011-2-12 13:26
足兆叉虫 (安心点格子。。。)
其实做全文烧录其实有很多了,有根据readable生成的,也有yahoo pipes这种高级货。。。
但是对于网页来说,最有效的内容匹配方式我觉得还是CSS选择器。。。
虽然我后来发现http://fivefilters.org/content-only/这货也能够基于CSS选择器,而且开放了源码。嘛,还是需要个php主机。。。
于是基于Google App Engin做了一个烧录器。请帮忙测试
特点:
1、使用CSS选择器匹配内容
2、支持广告过滤
3、实时抓取
4、尽量抓取策略,无条目数限制
地址:http://cssfulltext.appspot.com/
示例:http://cssfulltext.appspot.com/s/all/?q=
但是对于网页来说,最有效的内容匹配方式我觉得还是CSS选择器。。。
虽然我后来发现http://fivefilters.org/content-only/这货也能够基于CSS选择器,而且开放了源码。嘛,还是需要个php主机。。。
于是基于Google App Engin做了一个烧录器。请帮忙测试
特点:
1、使用CSS选择器匹配内容
2、支持广告过滤
3、实时抓取
4、尽量抓取策略,无条目数限制
地址:http://cssfulltext.appspot.com/
示例:http://cssfulltext.appspot.com/s/all/?q=
没实现自动匹配readable内容,而且很多时候就是因为自动的不好使才做的这个东西的。。
简介里面加上一行
#header[Accept-Language]=zh-CN,zh;q=0.8
就可以了
不过msdn的页面挺复杂的,可能要多写几个内容匹配的选择器
不太靠谱
仅仅相当于将自己用的脚本网络化罢了