原文:Using Predictive Algorithms to Track Real Time Health Trends
这是由Chris Hannam,一个专业的Python和Java开发者,发表的客座文章。想要贡献你自己的how-to文章吗》让我们知道,在这里联系我们。
我们已经展示了如何使用预测算法来跟踪经济发展。在本教程中,我们将构建一个实时健康显示面板,用来追踪一个人的血压读数,进行时间序列分析,然后使用预测算法绘制时间趋势。本教程是使用时间序列算法和预测API来创建你个人健康显示面板的起点。
我们会在Python中创建这个现实面板,对我们的数据使用Withings API,使用来自Algorithmia的预测和简单移动平均微服务,以及Plotly来绘制数据。
tl;dr 这里是使用Python对Withings数据运行Algorithmia任务的GitHub repo。
为什么是血压数据?我的一个朋友被诊断为高血压,并决心用数据来降低它。根据疾病预防控制中心统计数据,有多大三分之一的美国人患有高血压,这将带来患心脏疾病和中风的高风险。
我是一个Python程序员,认为我可以构建一个而简单无服务器的健康显示面板来帮助我的朋友测量和了解他的血压。
第一步是使用便宜的血压监视器和Withings应用来建立测量血压并记录的例行程序。然后,我们将使用Withings API,为健康显示面板访问我们的数据 (Withings还为那些不想手动记录他们的数据的人搞了一个启用wifi功能的血压袖带)。
我的朋友已经在记录过去五个月内早上和夜间的心脏率、收缩压和舒张压。下面是Withings提供的显示面板快照。
该图没问题,但我们都发现它让人困惑,并且对追踪趋势并没有太大的帮助。我还希望能够使用预测算法来基于过去预测未来。
下面是我们如何构建自己的健康显示面板来取而代之的。
我建立了一个基本的Flask应用来从Withings API抽取血压数据,处理数据,并在客户端绘制它。要访问那些数据,我使用了一个Withings Python库 (可通过PyPi获得)。对于绘制,我选择Plot.ly。仅需几行HTML代码,你就能快速的创建功能强大的图。
第一项任务是从Withings获取原始数据。使用Python库让这个任务变得非常简单。有点棘手的是将获取的数据转换成一些Plotly可以用来绘制的数据。将Jinja2作为Flask的一部分使用,我找到了一种简单的方法来构建一个文本字符串,用来在模板中渲染。
我们将定义自己的函数来从Withings API抽取数据 (为了简洁起见,我移除了一些代码,但是这个repo有你开始所需的一切 )。我们调用Withings API来获取测量数据,然后遍历响应,从而对测量数据和时间进行排序。我们将同时构建一个用于绘制的对象,以及可以传递给Algorithmia以运行他们的预测算法的原始数据之一。
def _fetch_withings():
results = []
client = WithingsApi(creds)
readings = {
# analysis of past readings
'past': {
'x': '',
'diastolic': '',
'systolic': '',
'pulse': '',
'simple_moving_average' : {
'diastolic': '',
'pulse': '',
'systolic': '',
}
}
}
measures = client.get_measures()
last_reading_date = measures[-1].date
counter = 1
raw_readings = {
'systolic': [],
'diastolic': [],
'pulse': [],
}
for measure in measures:
if measure.systolic_blood_pressure\
and measure.diastolic_blood_pressure:
next_date = last_reading_date + timedelta(days=counter)
# sort out date times
readings['past']['x'] += '"' + measure.date.strftime('%Y-%m-%d %H:%M:%S') + '",'
readings['future']['x'] += '"' + next_date.strftime('%Y-%m-%d %H:%M:%S') + '",'
readings['past']['systolic'] += str(measure.systolic_blood_pressure) + ','
readings['past']['diastolic'] += str(measure.diastolic_blood_pressure) + ','
# keep ints for for sending to ALGORITHMIA
raw_readings['systolic'].append(measure.systolic_blood_pressure)
raw_readings['diastolic'].append(measure.diastolic_blood_pressure)
if measure.heart_pulse and measure.heart_pulse > 30:
raw_readings['pulse'].append(measure.heart_pulse)
readings['past']['pulse'] += str(measure.heart_pulse) + ','
counter += 1
return readings
与大多数简单的项目相同,Bootstrap是用嵌入到正常的行布局的图渲染HTML的完美工具。
为了构建图表,在抽取Withings数据时,在我们的Flask应用中,以以下格式创建一个对象:
readings = {
# predictions
'future' : {
'x': '',
'diastolic': '',
'systolic': '',
'pulse': '',
'simple_moving_average' : {
'diastolic': '',
'pulse': '',
'systolic': '',
}
},
# analysis of past readings
'past': {
'x': '',
'diastolic': '',
'systolic': '',
'pulse': '',
'simple_moving_average' : {
'diastolic': '',
'pulse': '',
'systolic': '',
}
}
}
然后,要生成图,我们将数据中的x和y坐标传递给Plot.ly 。我们将x当做索引,将y当成像这样的舒张压值、收缩压值或者脉冲值:
HISTORIC_FUTURE = document.getElementById('historic_future_graph');
Plotly.plot(HISTORIC_FUTURE, [
{
name: 'Systolic',
x: [{{readings.past.x|safe}}],
y: [{{readings.past.systolic|safe}}]
},
{
name: 'Diastolic',
x: [{{readings.past.x|safe}}],
y: [{{readings.past.diastolic|safe}}]
},
{
name: 'Pulse',
x: [{{readings.past.x|safe}}],
y: [{{readings.past.pulse|safe}}]
},
{
name: 'Systolic Future',
x: [{{readings.future.x|safe}}],
y: [{{readings.future.systolic|safe}}]
},
{
name: 'Diastolic Future',
x: [{{readings.future.x|safe}}],
y: [{{readings.future.diastolic|safe}}]
},
{
name: 'Pulse Future',
x: [{{readings.future.x|safe}}],
y: [{{readings.future.pulse|safe}}]
}
],
{
margin: { t: 0 }
});
现在,我们有了自己的图,可以看到,血压数据有一些不可预知的峰值,这使得趋势难以发现。过去,我使用R来处理时间序列数据,但从未在Python中使用任何东西。这就是Algorithmia的用武之地。
我需要尽可能容易地让数据有意义。我研究了一些进行机器学习和数据分析的服务。它们大多数仅限于文本分类,昂贵或者不适合作为无服务器的API。
后来,我发现了Algorithmia,它有大量的作为微服务运行在你的数据之上的算法库。你负责调用算法,传递数据,而它们会在这之上运行算法,然后实时返回结果。它们有一个Python库,并且由于它是一个API,因此与无服务器项目完美契合。
对于这个项目,我选择了两个预测算法:
我使用简单移动平均来平滑数据,使得它更容易在图中绘制趋势。使用移动平均还有助于减少原始数据中的波动和噪音。
首先,定义我们的简单移动平均函数:
def _get_simple_moving_average(data):
string = ''
raw = []
reply = SIMPLE_MOVING_AVERAGE.pipe(data)
for reading in reply.result:
string += str(int(reading)) + ','
raw.append(reading)
string = string[:-1]
return string, raw
然后,作为上面**_fetch_withings()**的一部分,我们像这样传递收缩压数据、舒张压数据和脉冲数据给它:
# simple moving average of existing data
readings['past']['simple_moving_average']['diastolic'], average_diastolic = _get_simple_moving_average(raw_readings['diastolic'])
readings['past']['simple_moving_average']['systolic'], average_systolic = _get_simple_moving_average(raw_readings['systolic'])
readings['past']['simple_moving_average']['pulse'], average_pulse = _get_simple_moving_average(raw_readings['pulse'])
这创建了一个生命体征数据的理顺图。然后,使用预测算法来预测未来趋势。
这就是事情变得很有趣的地方。我手上有差不多五个月的数据,而且一般来说,数据越多越好!
首先,定义我们的预测函数:
def _get_forecast(data):
string = ''
raw = []
reply = FORECAST.pipe(data)
for reading in reply.result:
string += str(int(reading)) + ','
raw.append(reading)
string = string[:-1]
return string, raw
此外,作为**_fetch_withings()**函数的一部分,我将数据作为数组传递给该预测函数。我们可以停在这里,但预测的数据容易发生尖峰和波动。因此,一旦完成,则在预测数据上运行移动平均算法,从而平滑结果:
if FORECAST_ON_AVERAGE:
readings['future']['diastolic'], future_diastolic = _get_forecast(average_diastolic)
readings['future']['systolic'], future_systolic = _get_forecast(average_systolic)
readings['future']['pulse'], future_pulse = _get_forecast(average_pulse)
else:
# populate the standard graphs and get the raw data to feed into thenext algorithm
readings['future']['diastolic'], future_diastolic = _get_forecast(raw_readings['diastolic'])
readings['future']['systolic'], future_systolic = _get_forecast(raw_readings['systolic'])
readings['future']['pulse'], future_pulse = _get_forecast(raw_readings['pulse'])
# simple moving average of future data
readings['future']['simple_moving_average']['diastolic'], average_diastolic = _get_simple_moving_average(future_diastolic)
readings['future']['simple_moving_average']['systolic'], average_systolic = _get_simple_moving_average(future_systolic)
readings['future']['simple_moving_average']['pulse'], average_pulse = _get_simple_moving_average(future_pulse)
下面的绘制结果,显示了五个月的收缩压、舒张压和脉冲数据,每个都带有一个五个月的预测:
这里是预测算法的输出,但这次,使用简单移动平均数据来取代原始数据:
好多了!血压数据很难处理,因为有时它可能非常不稳定。有大量的用于平滑和标准化数据的算法,以后,我打算用它们来改善预测。例如,我可以用线性校正来专注于数据中的波动分析,或者用自动校正来分析时间序列的季节性。我甚至可以使用异常检测来移除原始数据中的异常数据点,它们会表明糟糕的读数。
最主要的是,它表明,我朋友的血压不会变得更糟,并且在接下来的几个月中,应该保持在可接受的范围内。
而且,多亏了他们的新健康显示面板,我的朋友现在有了一组在讨论长期治疗时可以带给他们的医生的图。血压是某些会被一系列因素影响的东西,因此对于长期管理,定期审查是重要的。
这是我在进行预测和了解这类型数据处理背后许许多多想法的第一次尝试。我仅仅触及那些可以用数据来完成的服务。
使用的工具: