Ciencias

Reemplazo de los informes móviles discontinuados de Big Tech: un análisis basado en la penetración

Descripción de la trayectoria

El conjunto de datos de movimiento analizado en este trabajo contiene trayectorias de teléfonos inteligentes recopiladas de 17 países desde el 11.3.2020 hasta el 22.9.2022 (926 días). Cada trayectoria cubre cualquier posible subconjunto de los 926 días (desde un solo día hasta el período completo).

Generalmente hablando \(k\) pista, \(1\le k\le K\)consiste en \({M}_{k}\) hallazgos, con \(K\) el número total de rutas de vuelo. Él \(metro\)percepción, \(1\le m\le {M}_{k}\), \(k\)se da la trayectoria.

$$\left({ID}_{k}, {lat}_{m}, {lon}_{m}, {u}_{m}, {t}_{m}\right),$$

(1)

donde \({No sé}\) es un identificador de pista/smartphone anonimizado, \({lat}_{m}\) y \({lon}_{m}\) son las coordenadas de latitud y longitud del teléfono inteligente, \({u}_{m}\) es la incertidumbre de coordenadas del teléfono inteligente y \({t}_{m}\) es la marca de tiempo.

Incertidumbre \({u}_{m}\) está en metros y representa la desviación estándar (sigma) de dos distribuciones normales independientes centradas en cada coordenada del teléfono inteligente. Marca de tiempo \({t}_{m}\) se basa en la hora local del país y se refiere a la hora \({lat}_{m}\) y \({lon}_{m}\) el teléfono inteligente detecta. Las marcas de tiempo tienen las siguientes limitaciones: \(min\left({t}_{m+1}-{t}_{m}\right)\ge 20\) mín.

Saneamiento de la pista

Las observaciones de seguimiento con latitud y longitud cero se eliminan del seguimiento. El teléfono inteligente devuelve valores cero cuando la ubicación geográfica no es posible. También, \({u}_{m}\) los valores correspondientes a cero o negativos se sustituyen por una incertidumbre de 25 m. Esta es una incertidumbre típica cuando un teléfono inteligente se localiza usando redes Wi-Fi y/o antenas celulares. El efecto de la compensación sobre el porcentaje de observaciones de seguimiento es del 0,08%.

Calificaciones diarias M1 y M2 metros

METRO1 y M2 los medidores de movilidad han sido evaluados con una resolución horaria diaria. Cada día \(d=1,\puntos,926\)solo las trayectorias con al menos 12 observaciones entre las 00:00 y las 23:59:59 hora local y con un intervalo de al menos 12 horas entre la primera y la última observación contribuyen a la estimación de M1 y M2. a \(d\)día y \(i\)en el país, se indica el número de rutas aéreas diarias que cumplen con las restricciones anteriores \({N}_{d,i}\). En general, \({N}_{d,i}\ne {N}_{{d}^{{\prime}},i}\) por \(d\ne {d}^{{\principal}}\).

Para dos observaciones de trayectoria consecutivas, la distancia geodésica \({l}_{m,m+1}\) Entre \(\left({lat}_{m},{lon}_{m}\right)\) y \(\left({lat}_{m+1},{lon}_{m+1}\right)\) ha sido calculado. Entonces se utiliza la siguiente transformación:

$${\widehat{l}}_{m,m+1}=\left\{\begin{matriz}{cc}{l}_{m,m+1}& si\,\, {l} _{m,m+1}\ge {u}_{m}+{u}_{m+1} \\ 0& de lo contrario\end{matriz}.\right.$$

(2)

La conversión significa que la distancia estimada recorrida \({\sombrero ancho{l}}_{m,m+1}\) entre el tiempo \({t}_{m}\) y \({t}_{m+1}\) es mayor que cero solo si las bandas de incertidumbre 1-sigma no se superponen. Distancia diaria recorrida \(k\)el teléfono inteligente es proporcionado por:

READ  Una nueva investigación muestra que los microbios atrapan grandes cantidades de carbono

$${\widehat{L}}_{d,i,k}=\sum_{m=1}^{{M}_{k}}{\widehat{l}}_{m,m+1} I\left({t}_{m}\in \left[\left.{\tau }_{d},{\tau }_{d+1}\right)\right.\right),$$

(3)

where \(I\left({t}_{m}\in \left[\left.{\tau }_{d},{\tau }_{d+1}\right)\right.\right)\) is 1 if timestamp \({t}_{m}\) is within day \(d\) and 0 otherwise (with \({\tau }_{d}\) the timestamp related with midnight of day \(d\)). Since \({\widehat{l}}_{{M}_{k},{M}_{k}+1}\) is computed using the last trajectory observation of day \(d\) and the first of day \(d+1\), Eq. (3) implies that any travel occurring across midnight contributes to the total travelled distance on day \(d\).

Moreover, let

$${\widehat{U}}_{d,i,k}=\left\{\begin{array}{cc}1& if\,\, {\widehat{L}}_{d,i,k}<0.2 \,\, km \\ 0& otherwise\end{array}\right.$$

(4)

be a binary variable equal to 1 if the smartphone does not move during the 24 h of the day and 0 otherwise. The threshold 0.2 \(\mathrm{km}\) is set to accommodate for indoor smartphone movements during the day that may sum up to a small distance.

For each country, first-level administrative divisions (regions) are considered. Each region \({R}_{i,c}\) is described in terms of multiple polygons defined in the geographical space. These polygons are freely available for download at diva-gis.org/gdata. The number of first-level administrative divisions by country is given in Table 1.

Table 1 Number of first-level administrative divisions by country.

The daily average travelled distance for the \(c\)th region of the \(i\)th country is given by:

$${\widehat{L}}_{d,i,c}=\frac{1}{{N}_{d,i,c}}\sum_{k=1}^{{N}_{d,i}}{\widehat{L}}_{d,i,k} \cdot I \left(\left({\overline{lat} }_{k}, {\overline{lon} }_{k}\right)\in {R}_{i,c}\right),$$

(5)

where \(I\left(\left({\overline{lat} }_{k},{\overline{lon} }_{k}\right)\in {R}_{i,c}\right)\) is equal to 1 if the daily average smartphone coordinates \(\left({\overline{lat} }_{k},{\overline{lon} }_{k}\right)\) are in the \({R}_{i,c}\) region, and 0 otherwise. \({N}_{d,i,c}\) is the number of daily trajectories in the \(c\)th region.

Let \({p}_{i,c}\) be the population count of the \(c\)th region, \(1\le c\le {C}_{i}.\) The daily average distance for the \(i\)th country (mobility metric M1) is given by

$${\widehat{L}}_{d,i}=\sum_{c=1}^{{C}_{i}}{\widehat{L}}_{d,i,c}\cdot {w}_{i,c},$$

(6)

where

$${w}_{i,c}=\frac{{p}_{i,c}}{{\sum }_{c=1}^{{C}_{i}}{p}_{i,c}},$$

(7)

is a weight based on the region population. The adoption of this weighting approach is dictated by three reasons: (1) the spatial distribution of smartphone-app users does not necessarily mimic the population distribution; (2) events affecting people mobility may be limited to some regions, or their strength vary across regions47; (3) in general, a weighting approach based on a population stratification helps reduce the bias of estimates48.

By replacing \({\widehat{L}}_{d,i,k}\) with \({\widehat{U}}_{d,i,k}\) in Eq. (5) and following the same procedure described above, the mobility metric M2 (i.e., \({\widehat{U}}_{d,i}\)) is computed for each day and country.

Uncertainty assessment

Uncertainty on daily M1 and M2 figures (i.e., \({\widehat{L}}_{d,i}\) and \({\widehat{U}}_{d,i}\), respectively) is assessed using a non-parametric bootstrap approach49. At the \(b\)th bootstrap iteration, \(1\le b\le B\), values \({\widehat{L}}_{d,i,h,b}\) and \({\widehat{U}}_{d,i,h,b}\), \({1\le h\le N}_{d,i,c}\), are sampled with replacements from the observed \({\widehat{L}}_{d,i,k}\) and \({\widehat{U}}_{d,i,k}\) values restricted to the \(c\)th region. Following Eqs. (5)–(7), the resampled values are used to produce the bootstrap sample \(\left({\widehat{L}}_{d,i,1},\dots ,{\widehat{L}}_{d,i,B}\right)\) and the bootstrap sample \(\left({\widehat{U}}_{d,i,1},\dots ,{\widehat{U}}_{d,i,B}\right)\). Fixing \(B=1000\), bootstrap samples are used to compute their empirical distribution. This allows evaluation of \(\left(100-\alpha \right)\%\) bootstrap confidence intervals50 on the \({\widehat{L}}_{d,i}\) and \({\widehat{U}}_{d,i}\) estimates, with \(\alpha\) equal to 5 in this work.

READ  En imágenes: 10 mejores descubrimientos de especies inusuales de 2022 - Noticias positivas

Temporal smoothing

Temporal smoothing of \(\left\{{\widehat{L}}_{d,i}\right\}\) and \(\left\{{\widehat{U}}_{d,i}\right\}\) time series is based on a \(q\)-day moving average, with \(q\) equal to 7, 14, 21 and 28. The smoothed version of \({\widehat{L}}_{d,i,c}\) is

$${\widehat{L}}_{d,i,c}^{q}=\frac{1}{\sum_{s=d-q+1}^{d}{N}_{s,i,c}}\sum_{s=d-q+1}^{d}\sum_{k=1}^{{N}_{s,i}}{\widehat{L}}_{s,i,k}\cdot I\left(\left({\overline{lat} }_{k},{\overline{lon} }_{k}\right)\in {R}_{c}\right).$$

(8)

Similarly, \({\widehat{U}}_{d,i,c}^{q}\) is defined by replacing \({\widehat{L}}_{s,i,k}\) with \({\widehat{U}}_{s,i,k}\) in Eq. (8). Confidence intervals on \({\widehat{L}}_{d,i,c}^{q}\) and \({\widehat{U}}_{d,i,c}^{q}\) are based on bootstrap samples which include \(q\) days of resampled data. This allows obtaining confidence intervals with the correct width.

Comparison with Google’s Community Mobility Reports

Community Mobility Reports by Google gives percentages of variation in the number of visits to place categories with respect to a baseline. The categories are “Retail and recreation”, “Grocery and pharmacy”, “Parks”, “Transit stations”, “Workplaces” and “Residential”. For each category, time series of percentages of variation are available at both country and regional levels with daily temporal resolution.

M1 and M2 time series are compared with Google’s country-level time series by computing linear correlations. M1 is correlated with “Transit stations”, “Parks” and “Retail and recreation” indices while M2 with “Workplaces” and “Residential” indices. Comparison is made using both non-smoothed and smoothed time series (i.e., \(q\in \left\{7, 14, 21, 28\right\}\)). A highly positive or highly negative correlation means that M1 and/or M2 carry information on people mobility similar to that of Google’s community mobility reports.

Robustness analysis

To test robustness of the comparison described in the previous section, a time-shifted correlation analysis is also implemented. Whenever two time series are considered, one time series is shifted by a lag of \(\Delta =-14,\dots ,0,\dots ,14\) days and linear correlation is computed. Figure 6 shows results for the 17 countries.

Figure 6

Time-shifted correlation graphs for correlations computed between the M1 and M2 metrics and the Google’s indices.

For countries with a relatively high average data set penetration (see for instance ARG, CHL and PER), correlations are maximum when \(\Delta =0\) and, due to the weekly cycle, they also tend to be high when \(\Delta =-14,-7, 7, 14\). When penetration is lower this behaviour is disrupted and the maxima are not necessarily at \(\Delta =0\) (or not all of them are at \(\Delta =0\)). TUR is an exception since peaks of the time-shifted correlation graph are located where expected despite the low penetration.

READ  Collegenamesspringgrads - Wilmington News Journal

Beta regression on correlations vs average penetration

A beta regression is adopted to describe the relationship between the average data set penetration and the correlations without sign \(\left|\rho \right|\) between the non-smoothed M1 and M2 metrics and Google’s indices. Beta regression is imposed by \(\left|\rho \right|\in \left[\mathrm{0,1}\right]\).

Para el público \(i\)YO, \(\left|{\rho }_{i}\right|\sim \mathcal{B}\left({\mu }_{i},\phi \right)\)donde \(\fi\) es el parámetro de precisión de la distribución beta y \(g\left({\mu }_{i}\right)={{\varvec{x}}}_{i}{^{\prime}}{\varvec{\beta}}\)con \(gramo\) función de enlace logit, \({{\varvec{x}}}_{i}\) vector de regresores y \({\varvec{\beta}}\) vector de parámetros de modelo desconocidos. Aquí, \({{\varvec{x}}}_{i}=\izquierda[1,{log}_{10}\left({\pi }_{i}\right)\right]{^{\principal}}\)con \({\pi}_{i}\) extensión promedio del conjunto de datos \(i\)mentir. La capacidad de ajuste del modelo se describe mediante el coeficiente de pseudodeterminación \({R}^{2}={corr\left(\left|\rho \right|,\widehat{\left|\rho \right|}\right)}^{2}\)con \(\sombrero ancho{\izquierda|\rho \derecha|}\) estimación del modelo. La prueba F del modelo de regresión se usa para probar si el modelo se ajusta significativamente mejor que un modelo con solo un término constante (es decir, \({{\varvec{x}}}_{i}\) = 1).

Análisis de sensibilidad

Calificaciones M1 y M2 basado en tres elecciones arbitrarias. Primero, solo las pistas con al menos \(de\) observaciones al menos \(de\)se utilizan las horas (\(n=12\) ). Segundo, \({\sombrero ancho{l}}_{m,m+1}={l}_{m,m+1}\) sólo si \({l}_{m,m+1}\ge {ru}_{m}+{ru}_{m+1}\)(\(r=1\) , véase la ecuación. (2)). Tercero, \({\sombrero ancho{U}}_{d,i,k}=1\) si \({\sombrero ancho{L}}_{d,i,k}(\(z=0.2 \mathrm{km}\) , véase la ecuación. (4)).

Selección \(de\) afecta tanto a M1 y M2mientras que la elección \(r\) y \(z\) solo M se ve afectado2. Los valores utilizados en este trabajo son el resultado de un análisis de sensibilidad. Considerando ITA y el período 03/11/2020-09/22/2022, correlación sin signo \(\izquierda|{\rho}_{1}\derecha|\) Entre M1 (sin suavizar) y índice de estaciones de Google Transit y correlación sin signo \(\izquierda|{\rho}_{2}\derecha|\)Entre M2 (sin ajustar) y el índice de «Residencialidad» de Google se estima para cada combinación \(n\en \izquierda\{3, 6, 9, 12, 15\derecha\}\) , \(r\en \izquierda\{1, 2, 3\derecha\}\)y \(z\in \left\{0.1, 0.2, 0.3, 0.4\right\} \mathrm{km}\) .

Teniendo en cuenta todas las combinaciones, \(\izquierda|{\rho}_{1}\derecha|\) varía entre 0.878 y 0.893, mientras que \(\izquierda|{\rho}_{2}\derecha|\)varía entre 0,766 y 0,781. Las grandes variaciones no afectan significativamente las correlaciones \(de\) , \(r\)y \(z\) . Para ambos \(\izquierda|{\rho}_{1}\derecha|\)y \(\izquierda|{\rho}_{2}\derecha|\)el máximo se alcanza cuando \(n=12\) , \(r=1\)y \(z=0.2 \mathrm{km}\).

Antonio Calzadilla

Experto en redes sociales. Amante de la televisión galardonado. Futuro ídolo adolescente. Evangelista de la música. Gurú del café

Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba
Cerrar
Cerrar