专题API -检索数据

请注意:本文假设您有一个ACCESS_TOKEN准备使用.下面代码中的示例将包括需要将单词ACCESS_TOKEN替换为令牌的地方。

注2:请参阅底部区域说明。

这些说明包括在bash符号中使用curl的示例,如果您使用的是不同的终端,可能需要进行一些修改才能使命令工作。这些命令还假定您正在使用美国数据中心。如果情况并非如此,则需要使用正确的基url修改示例。

组织和数据集(调查)标识符

这一页上传数据包含有关如何检索进行本文中使用的调用所需的组织和数据集(调查)标识符的详细信息。请参阅该页以获取有关的标识符。

检索数据的方法

返回数据有两种主要方法,各有优缺点。

  1. 以原始表格格式检索所有数据。不能进行过滤
  2. 从json格式的特定字段中检索数据。可以进行过滤

本文将介绍这两种方法。

检索表格格式的数据

有一些端点可用于检索表格格式的所有数据。这些返回的csv文件映射到您的数据的内部表示。它们的计算成本很高,需要下载大量数据,因此应该谨慎使用。

curl——request GET \——url https://client.www.optionviager.com/api/survey/SURVEY_IDENTIFIER/data_csv?format=FORMAT&translateThemes=TRANSLATE_THEMES \——header '授权:持有者ACCESS_TOKEN'
. curl——request GET \——url https://client.www.optionviager.com/api/survey/SURVEY_IDENTIFIER/data_csv?format=FORMAT&translateThemes=TRANSLATE_THEMES \——header '授权:持有者ACCESS_TOKEN

需要替换的字段:

  • SURVEY_IDENTIFIER:调查的标识符
  • FORMAT:您希望检索的数据的格式(参见下面的选项)
  • TRANSLATE_THEMES:是否以唯一代码的形式返回主题,还是以可能随时间变化的人类可读标题的形式返回主题
  • ACCESS_TOKEN:访问令牌

格式的参数

专题目前支持检索数据的4种不同格式。所有这些都将在这里进行描述。

byResponse

这是默认格式,将返回与提供的格式相近的数据(可能已经进行了一些翻译和修改,使其符合预期的格式)。主题和其他提取的信息将作为附加到现有数据的列返回。

response返回的数据示例

文件的格式将包含以下列:

  • 其它。列的原始数据,经过初始清洗
  • n+1:为此响应提取的主题。请参阅“理解返回的主题数据”部分。
  • n+2:为该反应提取的特异性
  • n+3:为该响应提取的情绪

denormalizedResponses

在这种格式中,我们使用一行的唯一标识符以及问题列,为每个编码的响应创建一行。这在将数据拉回数据仓库以及文件格式可能随时间变化时非常有用。

由denormalizedResponses返回的数据示例

文件的格式将包含以下列:

  1. 响应的标识符。这取决于在Thematic中为标识配置了哪一列
  2. 问题的标识符。这将是'c'后面跟着列号
  3. 响应
  4. 为该响应提取的主题。请参阅“理解返回的主题数据”部分。
  5. 为这种反应提取的特异性
  6. 为这个回答提取的情感

noThemes

在这种格式中,返回的数据将接近于提供的格式(可能已经做了一些翻译和修改,使其符合预期的格式)。不包括来自专题的额外数据。


TRANSLATE_THEMES参数

Thematic对主题使用唯一的代码标识符,这些代码标识符不会随着时间的推移而改变。这些代码是人类可以理解的,但不适合在可视化中显示。为了在可视化中显示,我们有与每个主题相关联的人类可读的标题,可以在主题编辑器中编辑。因此,它们会随着时间而变化。

TRANSLATE_THEMES参数允许选择作为唯一的代码或作为人类可读的标题返回。默认情况下,这将是一个唯一的代码。

将独特的代码翻译成人类可读的标题

通过检索与数据集(调查)相关的主题并使用此文件中找到的标题,可以及时地将代码转换为标题。

检索包含标题的主题

curl——url "https://client.www.optionviager.com/api/survey/SURVEY_IDENTIFIER/data_themes" \——头'授权:持有者ACCESS_TOKEN'

这将下载“themes”文件,该文件是一个json文件,包含用于应用主题的模型的可人工编辑部分。

与本文相关的themes文件的结构是,在根级对象中有一个条目:

  • 标题:主题代码到主题标题的字符串-字符串映射。

理解返回的“主题”数据

每处理一个评论列,都会附加3个列

  1. 主题:从文本中提取的所有主题的json编码数据列表。每个列表条目的格式如下:
    1. 基地:基主题的代码
    2. 子主题的代码
    3. 数据
      1. 疯狂的:注释中可以找到主题的字符位置数组
      2. 概率:表示主题的概率。1.0意味着它匹配一个已知短语
      3. 发送:评论内主题的情绪在-1到1之间
      4. 规范:在评论中衡量该主题的特异性(从文本中可以收集到多少具体的见解)
  2. 专一性:一个介于0和1之间的数字,用来衡量从文本中可以收集到多少具体的见解
  3. 整体评论情绪:一个介于-1和1之间的数字,用来衡量消极或积极的情绪

检索json格式的数据

有两个端点可以返回json格式的数据,过滤为特定的字符串

相关的端点如下:

https://client.www.optionviager.com/api/survey/SURVEY_IDENTIFIER/visualization/VISUALIZATION_IDENTIFIER/comments < a href = " https://client.www.optionviager.com/api/survey/SURVEY_IDENTIFIER/visualization/VISUALIZATION_IDENTIFIER/results " > < br > < / >
https://client.www.optionviager.com/api/survey/SURVEY_IDENTIFIER/visualization/VISUALIZATION_IDENTIFIER/results

这些端点都支持查询参数来限制返回的数据:

  • 过滤器:限制返回结果的过滤器字符串。可用的参数取决于数据集,但常用的参数是按日期筛选。我们使用FIQL格式从2020年5月1日起要求回复的过滤器看起来会是这样的
    • 日期= ge = 2015-05-01
  • :已处理的评论列,结果应包括其中

关于区域的说明

专题支持不同地理区域保障数据主权。当调用主题API(或查看文档)时,重要的是查看正确的区域并使用正确的url。专题目前支持的区域有:

在登录到Thematic's Client Portal时,通过查看URL可以看到您所在的区域。