跳转到主要内容

标签(标签)

资源精选(342) Go开发(108) Go语言(103) Go(99) angular(83) LLM(79) 大语言模型(63) 人工智能(53) 前端开发(50) LangChain(43) golang(43) 机器学习(39) Go工程师(38) Go程序员(38) Go开发者(36) React(34) Go基础(29) Python(24) Vue(23) Web开发(20) Web技术(19) 精选资源(19) 深度学习(19) Java(18) ChatGTP(17) Cookie(16) android(16) 前端框架(13) JavaScript(13) Next.js(12) 安卓(11) 聊天机器人(10) typescript(10) 资料精选(10) NLP(10) 第三方Cookie(9) Redwoodjs(9) ChatGPT(9) LLMOps(9) Go语言中级开发(9) 自然语言处理(9) PostgreSQL(9) 区块链(9) mlops(9) 安全(9) 全栈开发(8) OpenAI(8) Linux(8) AI(8) GraphQL(8) iOS(8) 软件架构(7) RAG(7) Go语言高级开发(7) AWS(7) C++(7) 数据科学(7) 智能体(6) whisper(6) Prisma(6) 隐私保护(6) JSON(6) DevOps(6) 数据可视化(6) wasm(6) 计算机视觉(6) 算法(6) Rust(6) 微服务(6) 隐私沙盒(5) FedCM(5) 语音识别(5) Angular开发(5) 快速应用开发(5) 提示工程(5) Agent(5) LLaMA(5) 低代码开发(5) Go测试(5) gorm(5) REST API(5) kafka(5) 推荐系统(5) WebAssembly(5) GameDev(5) CMS(5) CSS(5) machine-learning(5) 机器人(5) 游戏开发(5) Blockchain(5) Web安全(5) nextjs(5) Kotlin(5) 低代码平台(5) 机器学习资源(5) Go资源(5) Nodejs(5) PHP(5) Swift(5) RAG架构(4) devin(4) Blitz(4) javascript框架(4) Redwood(4) GDPR(4) 生成式人工智能(4) Angular16(4) Alpaca(4) 编程语言(4) SAML(4) JWT(4) JSON处理(4) Go并发(4) 移动开发(4) 移动应用(4) security(4) 隐私(4) spring-boot(4) 物联网(4) 网络安全(4) API(4) Ruby(4) 信息安全(4) flutter(4) 专家智能体(3) Chrome(3) CHIPS(3) 3PC(3) SSE(3) 人工智能软件工程师(3) LLM Agent(3) Remix(3) Ubuntu(3) GPT4All(3) 软件开发(3) 问答系统(3) 开发工具(3) 最佳实践(3) RxJS(3) SSR(3) Node.js(3) Dolly(3) 移动应用开发(3) 低代码(3) IAM(3) Web框架(3) CORS(3) 基准测试(3) Go语言数据库开发(3) Oauth2(3) 并发(3) 主题(3) Theme(3) earth(3) nginx(3) 软件工程(3) azure(3) keycloak(3) 生产力工具(3) gpt3(3) 工作流(3) C(3) jupyter(3) 认证(3) prometheus(3) GAN(3) Spring(3) 逆向工程(3) 应用安全(3) Docker(3) Django(3) R(3) .NET(3) 大数据(3) Hacking(3) 渗透测试(3) C++资源(3) Mac(3) 微信小程序(3) Python资源(3) JHipster(3) 语言模型(2) 可穿戴设备(2) JDK(2) SQL(2) Apache(2) Hashicorp Vault(2) Spring Cloud Vault(2) Go语言Web开发(2) Go测试工程师(2) WebSocket(2) 容器化(2) AES(2) 加密(2) 输入验证(2) ORM(2) Fiber(2) Postgres(2) Gorilla Mux(2) Go数据库开发(2) 模块(2) 泛型(2) 指针(2) HTTP(2) PostgreSQL开发(2) Vault(2) K8s(2) Spring boot(2) R语言(2) 深度学习资源(2) 半监督学习(2) semi-supervised-learning(2) architecture(2) 普罗米修斯(2) 嵌入模型(2) productivity(2) 编码(2) Qt(2) 前端(2) Rust语言(2) NeRF(2) 神经辐射场(2) 元宇宙(2) CPP(2) 数据分析(2) spark(2) 流处理(2) Ionic(2) 人体姿势估计(2) human-pose-estimation(2) 视频处理(2) deep-learning(2) kotlin语言(2) kotlin开发(2) burp(2) Chatbot(2) npm(2) quantum(2) OCR(2) 游戏(2) game(2) 内容管理系统(2) MySQL(2) python-books(2) pentest(2) opengl(2) IDE(2) 漏洞赏金(2) Web(2) 知识图谱(2) PyTorch(2) 数据库(2) reverse-engineering(2) 数据工程(2) swift开发(2) rest(2) robotics(2) ios-animation(2) 知识蒸馏(2) 安卓开发(2) nestjs(2) solidity(2) 爬虫(2) 面试(2) 容器(2) C++精选(2) 人工智能资源(2) Machine Learning(2) 备忘单(2) 编程书籍(2) angular资源(2) 速查表(2) cheatsheets(2) SecOps(2) mlops资源(2) R资源(2) DDD(2) 架构设计模式(2) 量化(2) Hacking资源(2) 强化学习(2) flask(2) 设计(2) 性能(2) Sysadmin(2) 系统管理员(2) Java资源(2) 机器学习精选(2) android资源(2) android-UI(2) Mac资源(2) iOS资源(2) Vue资源(2) flutter资源(2) JavaScript精选(2) JavaScript资源(2) Rust开发(2) deeplearning(2) RAD(2)

一些迁移到Mastodon的Twitter用户错过了对自己的toots进行全文搜索的机会。以下是如何使用R和 rtoot p包搜索您自己的帖子。

无论你是从Twitter完全迁移到了Mastodon,只是在试用“fediverse”,还是长期使用Mastodon的用户,你都可能会错过搜索“toots”(也称为帖子)全文的机会。在Mastodon中,标签是可搜索的,但其他非标签文本是不可搜索的。全文搜索的不可用性让用户可以控制他们的内容有多少容易被陌生人发现。但如果你想搜索自己的帖子呢?

一些Mastodon实例允许用户对自己的嘟嘟进行全文搜索,但其他实例则不允许,具体取决于管理员。幸运的是,由于R和David Schoch开发的rtot包,可以轻松全文搜索您自己的Mastodon帖子。这就是本文的主旨。

目录

  • 设置全文搜索
  • 提取并保存数据
  • 使用您的结果创建可搜索的表
  • 如何拉入新的Mastodon桩
  • 如何阅读下载的Mastodon存档

设置全文搜索

首先,如果您的系统上没有安装rtot包(“rtot”),请安装它。我还将使用dplyr和DT包。可以使用以下命令加载这三个文件:

# install.packages("rtoot") # if needed
library(rtoot) 
library(dplyr) 
library(DT)

接下来,您需要您的Mastodon ID,它与您的用户名和实例不同。rtot包包括一种在联邦快递中搜索账户的方法。如果你想知道某人是否在Mastodon上有账户,这是一个有用的工具。但由于它还返回帐户ID,您也可以使用它来查找自己的ID。


要搜索我自己的ID,我会使用:

accounts <- search_accounts("smach@fosstodon.org")

这可能只会带回一个结果的数据帧。如果只搜索用户名而不搜索实例,例如search_accounts(“posit”),以查看posit(以前的RStudio)是否在Mastodon上处于活动状态,则可能会有更多结果。

我的搜索只有一个结果,因此我的ID是ID列中的第一个(也是唯一的)项目:

my_id <- accounts$id[1]

 

我现在可以使用rtot的get_account_statuses()函数检索我的帖子。

提取并保存数据

默认值返回20个结果,至少目前是这样,但如果使用limit参数手动设置,则限制值似乎要高得多。不过,请务必利用这一设置,因为大多数Mastodon实例都是由志愿者运行的,最近托管成本大大增加。

第一次尝试提取自己的数据时,将要求您进行身份验证。我运行以下命令来获取我最近的50篇文章(注意使用verbose=TRUE来查看可能返回的任何消息):

smach_statuses <- get_account_statuses(my_id, limit = 50, verbose = TRUE)

接下来,我被问到是否要进行身份验证。选择“是”后,我收到以下查询:

On which instance do you want to authenticate (e.g., "mastodon.social")? 

重要的

尽管“mastodon.social”的例子包括引号,但对我有效的回应是我的例子没有引号;也就是说,只有fosstodon.org,而不是“fosstodonorg”。

接下来,我被问到:

What type of token do you want? 

1: public
2: user

因为我想让权限查看我自己帐户中的所有活动,所以我选择了user。然后,包为我存储了一个身份验证令牌,然后我可以运行get_account_statuses()。

生成的数据帧实际上是一个tibble,一种由tidyverse包使用的特殊类型的数据帧,包括29列。一些是列表列,如account和media_attachments,其中包含非原子结果,这意味着结果不是严格的二维格式。

我建议在进一步操作之前保存此结果,以便在R会话或代码出错时不需要重新ping服务器。我通常使用saveRDS,如下所示:


saveRDS(smach_statuses,“smach_stateses.Rds”)

由于列表列复杂,尝试将结果保存为拼花文件不起作用。使用vroom包将其另存为CSV文件,并包含列表列的全文。但是,我宁愿保存为本机.Rds或.Rdata文件。

使用您的结果创建可搜索的表

如果您只需要一个用于全文搜索的可搜索表,那么只需要这29列中的几列。您肯定需要created_at、url、剧透_text(如果您使用内容警告并希望这些警告出现在表中)和内容。如果您错过了帖子中的敬业度指标,请添加reblogs_count、proportes_count和replies_count。

下面是我用来为可搜索表创建数据以供自己查看的代码。我添加了一个URL列,以创建一个带有帖子URL的可点击>>,然后将其添加到每个帖子内容的末尾。这样就可以很容易地点击到原始版本:

tabledata <- smach_statuses |>
  filter(content != "") |>
  # filter(visibility == "public") |>   # If you want to make this public somewhere. Default includes direct messages.
  mutate(
    url = paste0("<a target = 'blank' href = '", uri,"'><strong> >></strong></a>"),
    content = paste(content, url),
    created_at := as.character(as.POSIXct(created_at, format = "%Y-%m-%d %H:%M UTC"))
  ) |>
  select(CreatedAt = created_at, Post = content, Replies = replies_count, Favorites = favourites_count, Boosts = reblogs_count)

若我公开共享这个表,我会确保取消注释过滤器(visibility==“public”),以便只有我的公开帖子可用。get_account_statuses()为您自己的帐户返回的数据包括未列出的帖子(任何找到它们的人都可以看到,但默认情况下不在公共时间线上)以及仅为关注者或直接消息设置的帖子。

有很多方法可以将这些数据转换为可搜索的表。一种方法是使用DT包。下面的代码创建了一个交互式HTML表,其中包含可以使用正则表达式的搜索筛选框。(有关使用DT的更多信息,请参阅使用R:快速交互式HTML表。)

DT::datatable(tabledata, filter = 'top', escape = FALSE, rownames = FALSE, 
              options = list(
                search = list(regex = TRUE, caseInsensitive = TRUE),  
                pageLength = 20,
                lengthMenu = c(25, 50, 100),
                autowidth = TRUE,
                columnDefs = list(list(width = '80%', targets = list(2)))
              ))

下面是生成的表格的屏幕截图:

Table showing some of my Mastodon posts filtered for the #rstats tag in a search box

我的Mastodon帖子的互动表。此表是使用rtot使用DTR包创建的。

如何拉入新的Mastodon posts

更新数据以拉新帖子很容易,因为get_account_statuses()函数包含since_id参数。首先,从现有数据中查找最大ID:


max_id<-max(smach_statuses$id)

接下来,查找自max_id之后的所有帖子的更新:

new_statuses <- get_account_statuses(my_id, since_id = max_id, 
                limit = 10, verbose = TRUE)
all_statuses <- bind_rows(new_statuses, smach_statuses)

如果您想在现有数据中看到最近的一些帖子的最新参与度指标,我建议使用最后10或20篇帖子,而不是使用since_id。然后,您可以将其与现有数据相结合,并通过保留第一项来进行重复数据消除。有一种方法可以做到:

new_statuses <- get_account_statuses(my_id, limit = 25, verbose = TRUE)
all_statuses <- bind_rows(new_statuses, smach_statuses) |>
  distinct(id, .keep_all = TRUE)

如何阅读下载的Mastodon存档

还有一种方法可以获取所有帖子,如果你已经在Mastodon上玩了一段时间,并且在这段时间里有很多活动,这一方法特别有用。您可以从网站下载Mastodon存档。

在Mastodon web界面中,单击左侧“设置”列上方的小齿轮图标,然后单击“导入和导出”>“数据导出”。您应该可以看到一个选项来下载文章和媒体的存档。不过,您只能每七天请求一次归档,而且它不会包含任何参与度指标。

一旦下载了存档文件,您可以手动解压缩它,或者根据我的喜好,使用存档包(CRAN上提供)提取文件。在从归档文件中提取文件之前,我还将加载jsonlite、stringr和tidyr包:

library(archive)
library(jsonlite)
library(stringr)
library(tidyr)
archive_extract("name-of-your-archive-file.tar.gz")

 

接下来,您需要查看outbox.json的orderItems。以下是我如何将其导入R:

my_outbox <- fromJSON("outbox.json")[["orderedItems"]]
my_posts <- my_outbox |> 
  unnest_wider(object, names_sep = "_")

从那里,我为一个可搜索的表创建了一个数据集,与rtot结果中的数据集类似。这个存档包括所有活动,例如喜欢另一篇文章,这就是为什么我要过滤类型Create和确保object_content有值。与之前一样,我在帖子内容中添加了一个>>可点击的URL,并调整了日期的显示方式:

search_table_data <- my_posts |>
  filter(type == "Create") |>
  filter(!is.na(object_content)) |>
  mutate(
    url = paste0("<a target = 'blank' href = '", object_url,"'><strong> >></strong></a>")
  ) |>
  rename(CreatedAt = published, Post = object_content) |>
  mutate(CreatedAt = str_replace_all(CreatedAt, "T", " "),
         CreatedAt = str_replace_all(CreatedAt, "Z", " "),
         Post = str_replace(Post, "<\\/p>$", " "),
         Post = paste0(Post, "&nbsp;&nbsp;", url, "</p>")
  ) |>
  select(CreatedAt, Post) |>
  arrange(desc(CreatedAt))

然后,使用DT创建可搜索表是另一个简单的单一功能:

datatable(search_table_data, rownames = FALSE, escape = FALSE, 
  filter = 'top', options = list(search = list(regex = TRUE)))

这对于您自己使用很方便,但我不会使用存档结果公开共享,因为其中哪些可能是私人消息不太明显(您需要对to列进行一些过滤)。

 

有关更多R提示,请访问InfoWorld的Do more With R页面。

标签