让所有网页变成RSS —— Huginn

相关文章推荐

帅气的甜瓜 · Huginn & ...· 1 月前 ·

帅气的甜瓜 · Huginn and Muninn ...· 1 月前 ·

帅气的甜瓜 · Hugin and Munin - ...· 1 月前 ·

帅气的甜瓜 · Huginn and Muninn: ...· 1 月前 ·

帅气的甜瓜 · RSS ...· 1 月前 ·

我是一个重度 RSS 使用者，一般来说，我获取信息有微博，微信，邮件，还有就是 RSS 。每次打开 Chrome 之后第一个打开的就是 Feedly，看看有没有新的内容更新，省去我了一次性打开多个网站的麻烦。但是问题来了，有些网站没有 RSS 怎么办？

前几天在利器的群里，看到有在讨论一个叫 Huginn 的东西，一个叫祥子的朋友还很热心的给大家解答一些关于这个的问题，我稍微查了查，发现这个东西可以解决我一直的一个痛点，就决定花时间来倒腾一下。

Huginn 是一个 Github 的开源项目，已经上万 Star 了。简单的说这个东西是一个 IFTTT 形式的东西，可以把所有网页转换成 RSS 输出。更简单的说，就是工作流形式，类似于 iPhone 上的 Workflow。

使用的方式我捉摸了很久才搞定..我会举个把网页转换成RSS的详细的例子。

开始之前首先需要解释几个东西。

网页的格式是 html，RSS 的格式是 xml。

xpath 是你用来确定网页元素的方法，这一步我会有一个很简单的方法来教大家怎么去搞定元素的确定。

由于是工作流的形式，所以我们整个的过程其实有两步，第一步是抓取网页的信息，第二步是返回 RSS 的地址。

下面开始举例子。我们现在要把我的博客 http://walkginkgo.com/ 转换成 RSS。

按照3中说的，我们需要先抓取网页信息。抓取网页信息，要创建一个 Website Agent。

按照图示，名字随便起，其他可以先默认。（全部解释太麻烦）

然后是关键的一步，我们要开始确定网页的元素。

点击 Toggle View 到文本编辑模式。我们要修改我圈出来的两个地方。

我们需要修改url到我们的网址，在这里就是 http://walkginkgo.com/ 了。

extract 是我们要提取的信息，我们这里要提取博客的题目，网址，发布日期，简述。

我们现在打开 tesths 这个博客进去来看怎么抓取元素。

在 Chrome 打开，然后选择你要的元素，右键选择 Inspect 。可以看到 Chrome 下面的审查元素信息已经出来了。

可以看到我们的元素在 span 标签里，这时候我们如图右键选择之后然后复制。

如果多了就全部删除重新运行。

总之真的没有很难，最难的是 xpath 获取元素，但是我已经用了最简单的方式来教大家了，剩下的无论是不是专业学编程的都能很快搞定啦，就看大家怎么去玩这个了。

至于抓取 RSS 的频率，正在测试中..敬请关注更新。