Google Reader Holics » 讨论
足兆叉虫的寒假作业：全文Feed烧录器

#1 - 2011-2-12 13:26

足兆叉虫 (安心点格子。。。)

其实做全文烧录其实有很多了，有根据readable生成的，也有yahoo pipes这种高级货。。。
但是对于网页来说，最有效的内容匹配方式我觉得还是CSS选择器。。。
虽然我后来发现http://fivefilters.org/content-only/这货也能够基于CSS选择器，而且开放了源码。嘛，还是需要个php主机。。。

于是基于Google App Engin做了一个烧录器。请帮忙测试

特点：
1、使用CSS选择器匹配内容
2、支持广告过滤
3、实时抓取
4、尽量抓取策略，无条目数限制

地址：http://cssfulltext.appspot.com/
示例：http://cssfulltext.appspot.com/s/all/?q=

#2 - 2011-2-12 13:32

若卡 (VIP已到期，请尽快续费)

不知道是干什么用的……

#3 - 2011-2-12 13:56

_(・ω・｣ DSM∠)_ (灯光太昏暗遍寻不着蓝色的小格子)

报告，blog.sina.com.cn/rss/1189591617.xml无法抓取
这个我用まるごと和feedex都搞不定，yahoo pipes高级货不会用……

#3-1 - 2011-2-12 14:12

足兆叉虫

http://cssfulltext.appspot.com/e/?id=5001

没实现自动匹配readable内容，而且很多时候就是因为自动的不好使才做的这个东西的。。

#4 - 2011-2-13 17:43

J (男達よマダオであれ)

有办法抓取 http://msdn.microsoft.com/zh-cn/magazine/rss/default.aspx 这货吗，M$把link里放了个跳转地址，然后通过请求里的accpet-langage返回不同语言的页面。FeedEx什么的只能抓回英文全文

#4-1 - 2011-2-13 20:44

足兆叉虫

好吧，加了一个header重载的配置项
简介里面加上一行
#header[Accept-Language]=zh-CN,zh;q=0.8
就可以了

不过msdn的页面挺复杂的，可能要多写几个内容匹配的选择器

#4-2 - 2011-2-14 11:25

足兆叉虫说: 好吧，加了一个header重载的配置项
简介里面加上一行
#header[Accept-Language]=zh-CN,zh;q=0.8
就可以了

不过msdn的页面挺复杂的，可能要多写几个内容匹配...

万分感谢

#4-3 - 2011-2-14 11:54

编辑保存的时候报500错

#4-4 - 2011-2-14 13:10

足兆叉虫

J 说: 编辑保存的时候报500错

fixed

#4-5 - 2011-2-14 13:26

足兆叉虫

J 说: 万分感谢

不过msdn全文实在太大了。。甚至都超过google fetch的限额了。。
不太靠谱

#4-6 - 2011-2-14 13:30

足兆叉虫说: 不过msdn全文实在太大了。。甚至都超过google fetch的限额了。。
不太靠谱

嗯，那个是全部归档的，我做了一个本期的，那个可以删掉了

#5 - 2011-2-13 20:52

谷米 (Ruby ❤ Sapphire)

嘛，CSS全文神马的，好像不太感兴趣。yahoo pipes已经能满足我了。 (bgm124)

拖来拖去很方便的说。。。

倒是对douban2bangumi很感兴趣。。。之前没注意过。。。现在才知道。。。

#5-1 - 2011-2-13 22:45

足兆叉虫

那个也是今年刚做的，而且因为需要一个个确认，而且没有想到好的交互模型，用起来还是不是那么方便。
仅仅相当于将自己用的脚本网络化罢了

#6 - 2011-2-20 22:48

不小心 (啊！又拖延了！)

听上去不错，有机会试试，偶的Yahoo Pipes怎么分配的自己都忘了，正打算重炼呢

/ 返回Google Reader Holics小组

Google Reader Holics » 讨论足兆叉虫的寒假作业：全文Feed烧录器

Google Reader Holics » 讨论
足兆叉虫的寒假作业：全文Feed烧录器