diff --git a/.github/workflows/docs.yml b/.github/workflows/docs.yml
new file mode 100644
index 0000000..e012ac2
--- /dev/null
+++ b/.github/workflows/docs.yml
@@ -0,0 +1,35 @@
+name: website
+
+# build the documentation whenever there are new commits on main
+on:
+  push:
+    branches:
+      - main
+    # Alternative: only build for tags.
+    # tags:
+    #   - '*'
+
+# security: restrict permissions for CI jobs.
+permissions:
+  contents: read
+
+jobs:
+  # Build the documentation and upload the static HTML files as an artifact.
+  build:
+    runs-on: ubuntu-latest
+    steps:
+      - uses: actions/checkout@v3
+      - uses: actions/setup-python@v4
+        with:
+          python-version: '3.11'
+
+      # ADJUST THIS: install all dependencies (including pdoc)
+      - run: pip install -e .
+      - run: pip install pdoc
+      # ADJUST THIS: build your documentation into docs/.
+      # We use a custom build script for pdoc itself, ideally you just run `pdoc -o docs/ ...` here.
+      - run: pdoc src/sciterra -d google --math -o ./docs
+
+      - uses: actions/upload-pages-artifact@v1
+        with:
+          path: docs/
diff --git a/docs/sciterra.html b/docs/sciterra.html
index 66cfe88..217c9fc 100644
--- a/docs/sciterra.html
+++ b/docs/sciterra.html
@@ -79,20 +79,26 @@ <h1 class="modulename">
 
 <p><a href="https://github.com/nathimel/sciterra/actions/workflows/test.yml"><img src="https://github.com/nathimel/sciterra/actions/workflows/test.yml/badge.svg" alt="build" /></a></p>
 
-<p>Software library to support data-driven analyses of scientific literature</p>
+<p>Software library to support data-driven analyses of scientific literature.</p>
 
-<p>Inspired heavily by Zach Hafen's <a href="https://github.com/zhafen/cc">cc</a> library.</p>
+<p>This library is a reimplementation of Zach Hafen's <a href="https://github.com/zhafen/cc">cc</a> library.</p>
 </div>
 
                         <input id="mod-sciterra-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
 
                         <label class="view-source-button" for="mod-sciterra-view-source"><span>View Source</span></label>
 
-                        <div class="pdoc-code codehilite"><pre><span></span><span id="L-1"><a href="#L-1"><span class="linenos">1</span></a><span class="sd">&quot;&quot;&quot;</span>
-</span><span id="L-2"><a href="#L-2"><span class="linenos">2</span></a><span class="sd">.. include:: ../../README.md</span>
-</span><span id="L-3"><a href="#L-3"><span class="linenos">3</span></a><span class="sd">&quot;&quot;&quot;</span>
-</span><span id="L-4"><a href="#L-4"><span class="linenos">4</span></a>
-</span><span id="L-5"><a href="#L-5"><span class="linenos">5</span></a><span class="n">__docformat__</span> <span class="o">=</span> <span class="s2">&quot;google&quot;</span>
+                        <div class="pdoc-code codehilite"><pre><span></span><span id="L-1"><a href="#L-1"><span class="linenos"> 1</span></a><span class="sd">&quot;&quot;&quot;</span>
+</span><span id="L-2"><a href="#L-2"><span class="linenos"> 2</span></a><span class="sd">.. include:: ../../README.md</span>
+</span><span id="L-3"><a href="#L-3"><span class="linenos"> 3</span></a><span class="sd">&quot;&quot;&quot;</span>
+</span><span id="L-4"><a href="#L-4"><span class="linenos"> 4</span></a>
+</span><span id="L-5"><a href="#L-5"><span class="linenos"> 5</span></a><span class="n">__docformat__</span> <span class="o">=</span> <span class="s2">&quot;google&quot;</span>
+</span><span id="L-6"><a href="#L-6"><span class="linenos"> 6</span></a>
+</span><span id="L-7"><a href="#L-7"><span class="linenos"> 7</span></a><span class="kn">from</span> <span class="nn">.mapping.atlas</span> <span class="kn">import</span> <span class="n">Atlas</span>
+</span><span id="L-8"><a href="#L-8"><span class="linenos"> 8</span></a><span class="kn">from</span> <span class="nn">.mapping.cartography</span> <span class="kn">import</span> <span class="n">Cartographer</span>
+</span><span id="L-9"><a href="#L-9"><span class="linenos"> 9</span></a><span class="kn">from</span> <span class="nn">.mapping.publication</span> <span class="kn">import</span> <span class="p">(</span>
+</span><span id="L-10"><a href="#L-10"><span class="linenos">10</span></a>    <span class="n">Publication</span><span class="p">,</span>
+</span><span id="L-11"><a href="#L-11"><span class="linenos">11</span></a><span class="p">)</span>  <span class="c1"># publication should probably be moved out of mapping.</span>
 </span></pre></div>
 
 
diff --git a/docs/sciterra/librarians.html b/docs/sciterra/librarians.html
index 538d15a..126e652 100644
--- a/docs/sciterra/librarians.html
+++ b/docs/sciterra/librarians.html
@@ -71,9 +71,19 @@ <h1 class="modulename">
 <a href="./../sciterra.html">sciterra</a><wbr>.librarians    </h1>
 
                 
-                
-                
-                
+                        <input id="mod-librarians-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
+
+                        <label class="view-source-button" for="mod-librarians-view-source"><span>View Source</span></label>
+
+                        <div class="pdoc-code codehilite"><pre><span></span><span id="L-1"><a href="#L-1"><span class="linenos">1</span></a><span class="kn">from</span> <span class="nn">.librarian</span> <span class="kn">import</span> <span class="n">Librarian</span>
+</span><span id="L-2"><a href="#L-2"><span class="linenos">2</span></a><span class="kn">from</span> <span class="nn">.adslibrarian</span> <span class="kn">import</span> <span class="n">ADSLibrarian</span>
+</span><span id="L-3"><a href="#L-3"><span class="linenos">3</span></a><span class="kn">from</span> <span class="nn">.s2librarian</span> <span class="kn">import</span> <span class="n">SemanticScholarLibrarian</span>
+</span><span id="L-4"><a href="#L-4"><span class="linenos">4</span></a>
+</span><span id="L-5"><a href="#L-5"><span class="linenos">5</span></a><span class="sd">&quot;&quot;&quot;Why is there not an ArxivLibrarian? For now, we are restricting to APIs that allow us to traverse literature graphs, and arxiv does not have one. While there is a useful pip-installable package for querying the arxiv api for papers, https://pypi.org/project/arxiv/, the returned object does not have information on references and citations. However, it may still be possible to obtain a large sample of publications with abstracts and submission dates (though no citation counts), because the arxiv API&#39;s limit for a single query is 300,000 results.</span>
+</span><span id="L-6"><a href="#L-6"><span class="linenos">6</span></a><span class="sd">&quot;&quot;&quot;</span>
+</span></pre></div>
+
+
             </section>
     </main>
 <script>
diff --git a/docs/sciterra/librarians/adslibrarian.html b/docs/sciterra/librarians/adslibrarian.html
index b1773ee..eccc72d 100644
--- a/docs/sciterra/librarians/adslibrarian.html
+++ b/docs/sciterra/librarians/adslibrarian.html
@@ -112,189 +112,200 @@ <h1 class="modulename">
 </span><span id="L-7"><a href="#L-7"><span class="linenos">  7</span></a><span class="kn">from</span> <span class="nn">..mapping.publication</span> <span class="kn">import</span> <span class="n">Publication</span>
 </span><span id="L-8"><a href="#L-8"><span class="linenos">  8</span></a><span class="kn">from</span> <span class="nn">.librarian</span> <span class="kn">import</span> <span class="n">Librarian</span>
 </span><span id="L-9"><a href="#L-9"><span class="linenos">  9</span></a>
-</span><span id="L-10"><a href="#L-10"><span class="linenos"> 10</span></a><span class="kn">from</span> <span class="nn">..misc.utils</span> <span class="kn">import</span> <span class="n">chunk_ids</span><span class="p">,</span> <span class="n">keep_trying</span>
+</span><span id="L-10"><a href="#L-10"><span class="linenos"> 10</span></a><span class="kn">from</span> <span class="nn">..misc.utils</span> <span class="kn">import</span> <span class="n">chunk_ids</span><span class="p">,</span> <span class="n">keep_trying</span><span class="p">,</span> <span class="n">get_verbose</span>
 </span><span id="L-11"><a href="#L-11"><span class="linenos"> 11</span></a>
 </span><span id="L-12"><a href="#L-12"><span class="linenos"> 12</span></a><span class="kn">from</span> <span class="nn">tqdm</span> <span class="kn">import</span> <span class="n">tqdm</span>
 </span><span id="L-13"><a href="#L-13"><span class="linenos"> 13</span></a>
 </span><span id="L-14"><a href="#L-14"><span class="linenos"> 14</span></a><span class="kn">import</span> <span class="nn">warnings</span>
 </span><span id="L-15"><a href="#L-15"><span class="linenos"> 15</span></a>
-</span><span id="L-16"><a href="#L-16"><span class="linenos"> 16</span></a><span class="n">CALL_SIZE</span> <span class="o">=</span> <span class="mi">2000</span>
-</span><span id="L-17"><a href="#L-17"><span class="linenos"> 17</span></a><span class="n">NUM_ATTEMPTS_PER_QUERY</span> <span class="o">=</span> <span class="mi">10</span>
-</span><span id="L-18"><a href="#L-18"><span class="linenos"> 18</span></a>
-</span><span id="L-19"><a href="#L-19"><span class="linenos"> 19</span></a><span class="n">QUERY_FIELDS</span> <span class="o">=</span> <span class="p">[</span>
-</span><span id="L-20"><a href="#L-20"><span class="linenos"> 20</span></a>    <span class="s2">&quot;bibcode&quot;</span><span class="p">,</span>  <span class="c1"># str</span>
-</span><span id="L-21"><a href="#L-21"><span class="linenos"> 21</span></a>    <span class="s2">&quot;abstract&quot;</span><span class="p">,</span>  <span class="c1"># str</span>
-</span><span id="L-22"><a href="#L-22"><span class="linenos"> 22</span></a>    <span class="s2">&quot;title&quot;</span><span class="p">,</span>  <span class="c1"># list</span>
-</span><span id="L-23"><a href="#L-23"><span class="linenos"> 23</span></a>    <span class="s2">&quot;entry_date&quot;</span><span class="p">,</span>  <span class="c1"># datetime (earliest possible)</span>
-</span><span id="L-24"><a href="#L-24"><span class="linenos"> 24</span></a>    <span class="s2">&quot;pubdate&quot;</span><span class="p">,</span>  <span class="c1"># a datetime</span>
-</span><span id="L-25"><a href="#L-25"><span class="linenos"> 25</span></a>    <span class="s2">&quot;year&quot;</span><span class="p">,</span>  <span class="c1"># int</span>
-</span><span id="L-26"><a href="#L-26"><span class="linenos"> 26</span></a>    <span class="s2">&quot;citation_count&quot;</span><span class="p">,</span>
-</span><span id="L-27"><a href="#L-27"><span class="linenos"> 27</span></a>    <span class="s2">&quot;citation&quot;</span><span class="p">,</span>  <span class="c1"># list</span>
-</span><span id="L-28"><a href="#L-28"><span class="linenos"> 28</span></a>    <span class="s2">&quot;reference&quot;</span><span class="p">,</span>  <span class="c1"># list</span>
-</span><span id="L-29"><a href="#L-29"><span class="linenos"> 29</span></a>    <span class="s2">&quot;identifier&quot;</span><span class="p">,</span>  <span class="c1"># list of external ids</span>
-</span><span id="L-30"><a href="#L-30"><span class="linenos"> 30</span></a><span class="p">]</span>
-</span><span id="L-31"><a href="#L-31"><span class="linenos"> 31</span></a>
-</span><span id="L-32"><a href="#L-32"><span class="linenos"> 32</span></a><span class="n">ALLOWED_EXCEPTIONS</span> <span class="o">=</span> <span class="p">(</span><span class="n">ads</span><span class="o">.</span><span class="n">exceptions</span><span class="o">.</span><span class="n">APIResponseError</span><span class="p">,)</span>
+</span><span id="L-16"><a href="#L-16"><span class="linenos"> 16</span></a><span class="n">CALL_SIZE</span> <span class="o">=</span> <span class="p">(</span>
+</span><span id="L-17"><a href="#L-17"><span class="linenos"> 17</span></a>    <span class="mi">50</span>  <span class="c1"># handles more than 2000, much better than S2; but easy to hit TooManyRequests</span>
+</span><span id="L-18"><a href="#L-18"><span class="linenos"> 18</span></a><span class="p">)</span>
+</span><span id="L-19"><a href="#L-19"><span class="linenos"> 19</span></a><span class="n">NUM_ATTEMPTS_PER_QUERY</span> <span class="o">=</span> <span class="mi">10</span>
+</span><span id="L-20"><a href="#L-20"><span class="linenos"> 20</span></a>
+</span><span id="L-21"><a href="#L-21"><span class="linenos"> 21</span></a><span class="n">QUERY_FIELDS</span> <span class="o">=</span> <span class="p">[</span>
+</span><span id="L-22"><a href="#L-22"><span class="linenos"> 22</span></a>    <span class="s2">&quot;bibcode&quot;</span><span class="p">,</span>  <span class="c1"># str</span>
+</span><span id="L-23"><a href="#L-23"><span class="linenos"> 23</span></a>    <span class="s2">&quot;abstract&quot;</span><span class="p">,</span>  <span class="c1"># str</span>
+</span><span id="L-24"><a href="#L-24"><span class="linenos"> 24</span></a>    <span class="s2">&quot;title&quot;</span><span class="p">,</span>  <span class="c1"># list</span>
+</span><span id="L-25"><a href="#L-25"><span class="linenos"> 25</span></a>    <span class="s2">&quot;entry_date&quot;</span><span class="p">,</span>  <span class="c1"># datetime (earliest possible)</span>
+</span><span id="L-26"><a href="#L-26"><span class="linenos"> 26</span></a>    <span class="s2">&quot;pubdate&quot;</span><span class="p">,</span>  <span class="c1"># a datetime</span>
+</span><span id="L-27"><a href="#L-27"><span class="linenos"> 27</span></a>    <span class="s2">&quot;year&quot;</span><span class="p">,</span>  <span class="c1"># int</span>
+</span><span id="L-28"><a href="#L-28"><span class="linenos"> 28</span></a>    <span class="s2">&quot;citation_count&quot;</span><span class="p">,</span>
+</span><span id="L-29"><a href="#L-29"><span class="linenos"> 29</span></a>    <span class="s2">&quot;citation&quot;</span><span class="p">,</span>  <span class="c1"># list</span>
+</span><span id="L-30"><a href="#L-30"><span class="linenos"> 30</span></a>    <span class="s2">&quot;reference&quot;</span><span class="p">,</span>  <span class="c1"># list</span>
+</span><span id="L-31"><a href="#L-31"><span class="linenos"> 31</span></a>    <span class="s2">&quot;identifier&quot;</span><span class="p">,</span>  <span class="c1"># list of external ids</span>
+</span><span id="L-32"><a href="#L-32"><span class="linenos"> 32</span></a><span class="p">]</span>
 </span><span id="L-33"><a href="#L-33"><span class="linenos"> 33</span></a>
-</span><span id="L-34"><a href="#L-34"><span class="linenos"> 34</span></a><span class="n">EXTERNAL_IDS</span> <span class="o">=</span> <span class="p">[</span>
-</span><span id="L-35"><a href="#L-35"><span class="linenos"> 35</span></a>    <span class="s2">&quot;DOI&quot;</span><span class="p">,</span>  <span class="c1"># returns a list</span>
-</span><span id="L-36"><a href="#L-36"><span class="linenos"> 36</span></a>    <span class="s2">&quot;arXiv&quot;</span><span class="p">,</span>  <span class="c1"># returns a str</span>
-</span><span id="L-37"><a href="#L-37"><span class="linenos"> 37</span></a>    <span class="s2">&quot;bibcode&quot;</span><span class="p">,</span>  <span class="c1"># returns a str, preferred</span>
-</span><span id="L-38"><a href="#L-38"><span class="linenos"> 38</span></a><span class="p">]</span>
-</span><span id="L-39"><a href="#L-39"><span class="linenos"> 39</span></a>
-</span><span id="L-40"><a href="#L-40"><span class="linenos"> 40</span></a>
-</span><span id="L-41"><a href="#L-41"><span class="linenos"> 41</span></a><span class="k">class</span> <span class="nc">ADSLibrarian</span><span class="p">(</span><span class="n">Librarian</span><span class="p">):</span>
-</span><span id="L-42"><a href="#L-42"><span class="linenos"> 42</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="L-43"><a href="#L-43"><span class="linenos"> 43</span></a>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
-</span><span id="L-44"><a href="#L-44"><span class="linenos"> 44</span></a>
-</span><span id="L-45"><a href="#L-45"><span class="linenos"> 45</span></a>    <span class="k">def</span> <span class="nf">bibtex_entry_identifier</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">bibtex_entry</span><span class="p">:</span> <span class="nb">dict</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
-</span><span id="L-46"><a href="#L-46"><span class="linenos"> 46</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Parse a bibtex entry for a usable identifier for querying ADS (see EXTERNAL_IDS).&quot;&quot;&quot;</span>
-</span><span id="L-47"><a href="#L-47"><span class="linenos"> 47</span></a>        <span class="n">identifier</span> <span class="o">=</span> <span class="kc">None</span>
-</span><span id="L-48"><a href="#L-48"><span class="linenos"> 48</span></a>        <span class="k">if</span> <span class="s2">&quot;bibcode&quot;</span> <span class="ow">in</span> <span class="n">bibtex_entry</span><span class="p">:</span>
-</span><span id="L-49"><a href="#L-49"><span class="linenos"> 49</span></a>            <span class="n">identifier</span> <span class="o">=</span> <span class="n">bibtex_entry</span><span class="p">[</span><span class="s2">&quot;bibcode&quot;</span><span class="p">]</span>
-</span><span id="L-50"><a href="#L-50"><span class="linenos"> 50</span></a>        <span class="k">elif</span> <span class="s2">&quot;doi&quot;</span> <span class="ow">in</span> <span class="n">bibtex_entry</span><span class="p">:</span>
-</span><span id="L-51"><a href="#L-51"><span class="linenos"> 51</span></a>            <span class="n">identifier</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;doi:</span><span class="si">{</span><span class="n">bibtex_entry</span><span class="p">[</span><span class="s1">&#39;doi&#39;</span><span class="p">]</span><span class="si">}</span><span class="s2">&quot;</span>
-</span><span id="L-52"><a href="#L-52"><span class="linenos"> 52</span></a>        <span class="k">elif</span> <span class="s2">&quot;arxiv&quot;</span> <span class="ow">in</span> <span class="n">bibtex_entry</span><span class="p">:</span>
-</span><span id="L-53"><a href="#L-53"><span class="linenos"> 53</span></a>            <span class="n">identifier</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;arxiv:</span><span class="si">{</span><span class="n">bibtex_entry</span><span class="p">[</span><span class="s1">&#39;arxiv&#39;</span><span class="p">]</span><span class="si">}</span><span class="s2">&quot;</span>
-</span><span id="L-54"><a href="#L-54"><span class="linenos"> 54</span></a>        <span class="k">return</span> <span class="n">identifier</span>
-</span><span id="L-55"><a href="#L-55"><span class="linenos"> 55</span></a>
-</span><span id="L-56"><a href="#L-56"><span class="linenos"> 56</span></a>    <span class="k">def</span> <span class="nf">get_publications</span><span class="p">(</span>
-</span><span id="L-57"><a href="#L-57"><span class="linenos"> 57</span></a>        <span class="bp">self</span><span class="p">,</span>
-</span><span id="L-58"><a href="#L-58"><span class="linenos"> 58</span></a>        <span class="n">bibcodes</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span>
-</span><span id="L-59"><a href="#L-59"><span class="linenos"> 59</span></a>        <span class="o">*</span><span class="n">args</span><span class="p">,</span>
-</span><span id="L-60"><a href="#L-60"><span class="linenos"> 60</span></a>        <span class="n">call_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">CALL_SIZE</span><span class="p">,</span>
-</span><span id="L-61"><a href="#L-61"><span class="linenos"> 61</span></a>        <span class="n">n_attempts_per_query</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">NUM_ATTEMPTS_PER_QUERY</span><span class="p">,</span>
-</span><span id="L-62"><a href="#L-62"><span class="linenos"> 62</span></a>        <span class="n">convert</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
-</span><span id="L-63"><a href="#L-63"><span class="linenos"> 63</span></a>        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
-</span><span id="L-64"><a href="#L-64"><span class="linenos"> 64</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="n">Publication</span><span class="p">]:</span>
-</span><span id="L-65"><a href="#L-65"><span class="linenos"> 65</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Use the NASA ADS python package, which calls the ADS API to retrieve publications.</span>
-</span><span id="L-66"><a href="#L-66"><span class="linenos"> 66</span></a>
-</span><span id="L-67"><a href="#L-67"><span class="linenos"> 67</span></a><span class="sd">        Args:</span>
-</span><span id="L-68"><a href="#L-68"><span class="linenos"> 68</span></a><span class="sd">            bibcodes: the str ids required for querying. While it is possible to use one of EXTERNAL_IDS to query, if ADS returns a paper at all, it will return a bibcode, so it is preferred to use bibcodes.</span>
-</span><span id="L-69"><a href="#L-69"><span class="linenos"> 69</span></a>
-</span><span id="L-70"><a href="#L-70"><span class="linenos"> 70</span></a><span class="sd">            n_attempts_per_query: Number of attempts to access the API per query. Useful when experiencing connection issues.</span>
+</span><span id="L-34"><a href="#L-34"><span class="linenos"> 34</span></a><span class="n">ALLOWED_EXCEPTIONS</span> <span class="o">=</span> <span class="p">(</span><span class="n">ads</span><span class="o">.</span><span class="n">exceptions</span><span class="o">.</span><span class="n">APIResponseError</span><span class="p">,)</span>
+</span><span id="L-35"><a href="#L-35"><span class="linenos"> 35</span></a>
+</span><span id="L-36"><a href="#L-36"><span class="linenos"> 36</span></a><span class="n">EXTERNAL_IDS</span> <span class="o">=</span> <span class="p">[</span>
+</span><span id="L-37"><a href="#L-37"><span class="linenos"> 37</span></a>    <span class="s2">&quot;DOI&quot;</span><span class="p">,</span>  <span class="c1"># returns a list</span>
+</span><span id="L-38"><a href="#L-38"><span class="linenos"> 38</span></a>    <span class="s2">&quot;arXiv&quot;</span><span class="p">,</span>  <span class="c1"># returns a str</span>
+</span><span id="L-39"><a href="#L-39"><span class="linenos"> 39</span></a>    <span class="s2">&quot;bibcode&quot;</span><span class="p">,</span>  <span class="c1"># returns a str, preferred</span>
+</span><span id="L-40"><a href="#L-40"><span class="linenos"> 40</span></a><span class="p">]</span>
+</span><span id="L-41"><a href="#L-41"><span class="linenos"> 41</span></a>
+</span><span id="L-42"><a href="#L-42"><span class="linenos"> 42</span></a>
+</span><span id="L-43"><a href="#L-43"><span class="linenos"> 43</span></a><span class="k">class</span> <span class="nc">ADSLibrarian</span><span class="p">(</span><span class="n">Librarian</span><span class="p">):</span>
+</span><span id="L-44"><a href="#L-44"><span class="linenos"> 44</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="L-45"><a href="#L-45"><span class="linenos"> 45</span></a>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+</span><span id="L-46"><a href="#L-46"><span class="linenos"> 46</span></a>
+</span><span id="L-47"><a href="#L-47"><span class="linenos"> 47</span></a>    <span class="k">def</span> <span class="nf">bibtex_entry_identifier</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">bibtex_entry</span><span class="p">:</span> <span class="nb">dict</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+</span><span id="L-48"><a href="#L-48"><span class="linenos"> 48</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Parse a bibtex entry for a usable identifier for querying ADS (see EXTERNAL_IDS).&quot;&quot;&quot;</span>
+</span><span id="L-49"><a href="#L-49"><span class="linenos"> 49</span></a>        <span class="n">identifier</span> <span class="o">=</span> <span class="kc">None</span>
+</span><span id="L-50"><a href="#L-50"><span class="linenos"> 50</span></a>        <span class="k">if</span> <span class="s2">&quot;bibcode&quot;</span> <span class="ow">in</span> <span class="n">bibtex_entry</span><span class="p">:</span>
+</span><span id="L-51"><a href="#L-51"><span class="linenos"> 51</span></a>            <span class="n">identifier</span> <span class="o">=</span> <span class="n">bibtex_entry</span><span class="p">[</span><span class="s2">&quot;bibcode&quot;</span><span class="p">]</span>
+</span><span id="L-52"><a href="#L-52"><span class="linenos"> 52</span></a>        <span class="k">elif</span> <span class="s2">&quot;doi&quot;</span> <span class="ow">in</span> <span class="n">bibtex_entry</span><span class="p">:</span>
+</span><span id="L-53"><a href="#L-53"><span class="linenos"> 53</span></a>            <span class="n">identifier</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;doi:</span><span class="si">{</span><span class="n">bibtex_entry</span><span class="p">[</span><span class="s1">&#39;doi&#39;</span><span class="p">]</span><span class="si">}</span><span class="s2">&quot;</span>
+</span><span id="L-54"><a href="#L-54"><span class="linenos"> 54</span></a>        <span class="k">elif</span> <span class="s2">&quot;arxiv&quot;</span> <span class="ow">in</span> <span class="n">bibtex_entry</span><span class="p">:</span>
+</span><span id="L-55"><a href="#L-55"><span class="linenos"> 55</span></a>            <span class="n">identifier</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;arxiv:</span><span class="si">{</span><span class="n">bibtex_entry</span><span class="p">[</span><span class="s1">&#39;arxiv&#39;</span><span class="p">]</span><span class="si">}</span><span class="s2">&quot;</span>
+</span><span id="L-56"><a href="#L-56"><span class="linenos"> 56</span></a>        <span class="k">return</span> <span class="n">identifier</span>
+</span><span id="L-57"><a href="#L-57"><span class="linenos"> 57</span></a>
+</span><span id="L-58"><a href="#L-58"><span class="linenos"> 58</span></a>    <span class="k">def</span> <span class="nf">get_publications</span><span class="p">(</span>
+</span><span id="L-59"><a href="#L-59"><span class="linenos"> 59</span></a>        <span class="bp">self</span><span class="p">,</span>
+</span><span id="L-60"><a href="#L-60"><span class="linenos"> 60</span></a>        <span class="n">bibcodes</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span>
+</span><span id="L-61"><a href="#L-61"><span class="linenos"> 61</span></a>        <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+</span><span id="L-62"><a href="#L-62"><span class="linenos"> 62</span></a>        <span class="n">call_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">CALL_SIZE</span><span class="p">,</span>
+</span><span id="L-63"><a href="#L-63"><span class="linenos"> 63</span></a>        <span class="n">n_attempts_per_query</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">NUM_ATTEMPTS_PER_QUERY</span><span class="p">,</span>
+</span><span id="L-64"><a href="#L-64"><span class="linenos"> 64</span></a>        <span class="n">convert</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+</span><span id="L-65"><a href="#L-65"><span class="linenos"> 65</span></a>        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+</span><span id="L-66"><a href="#L-66"><span class="linenos"> 66</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="n">Publication</span><span class="p">]:</span>
+</span><span id="L-67"><a href="#L-67"><span class="linenos"> 67</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Use the NASA ADS python package, which calls the ADS API to retrieve publications.</span>
+</span><span id="L-68"><a href="#L-68"><span class="linenos"> 68</span></a>
+</span><span id="L-69"><a href="#L-69"><span class="linenos"> 69</span></a><span class="sd">        Args:</span>
+</span><span id="L-70"><a href="#L-70"><span class="linenos"> 70</span></a><span class="sd">            bibcodes: the str ids required for querying. While it is possible to use one of EXTERNAL_IDS to query, if ADS returns a paper at all, it will return a bibcode, so it is preferred to use bibcodes.</span>
 </span><span id="L-71"><a href="#L-71"><span class="linenos"> 71</span></a>
-</span><span id="L-72"><a href="#L-72"><span class="linenos"> 72</span></a><span class="sd">            call_size: maximum number of papers to call API for in one query; if less than `len(bibcodes)`, chunking will be performed.</span>
+</span><span id="L-72"><a href="#L-72"><span class="linenos"> 72</span></a><span class="sd">            n_attempts_per_query: Number of attempts to access the API per query. Useful when experiencing connection issues.</span>
 </span><span id="L-73"><a href="#L-73"><span class="linenos"> 73</span></a>
-</span><span id="L-74"><a href="#L-74"><span class="linenos"> 74</span></a><span class="sd">            convert: whether to convert each resulting ADS Article to sciterra Publications (True by default).</span>
+</span><span id="L-74"><a href="#L-74"><span class="linenos"> 74</span></a><span class="sd">            call_size: maximum number of papers to call API for in one query; if less than `len(bibcodes)`, chunking will be performed.</span>
 </span><span id="L-75"><a href="#L-75"><span class="linenos"> 75</span></a>
-</span><span id="L-76"><a href="#L-76"><span class="linenos"> 76</span></a><span class="sd">        Returns:</span>
-</span><span id="L-77"><a href="#L-77"><span class="linenos"> 77</span></a><span class="sd">            the list of publications (or Papers)</span>
-</span><span id="L-78"><a href="#L-78"><span class="linenos"> 78</span></a><span class="sd">        &quot;&quot;&quot;</span>
-</span><span id="L-79"><a href="#L-79"><span class="linenos"> 79</span></a>        <span class="n">bibcodes</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">bibcodes</span><span class="p">)</span>
-</span><span id="L-80"><a href="#L-80"><span class="linenos"> 80</span></a>
-</span><span id="L-81"><a href="#L-81"><span class="linenos"> 81</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">bibcodes</span><span class="p">:</span>
-</span><span id="L-82"><a href="#L-82"><span class="linenos"> 82</span></a>            <span class="k">return</span> <span class="p">[]</span>
-</span><span id="L-83"><a href="#L-83"><span class="linenos"> 83</span></a>
-</span><span id="L-84"><a href="#L-84"><span class="linenos"> 84</span></a>        <span class="n">total</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">bibcodes</span><span class="p">)</span>
-</span><span id="L-85"><a href="#L-85"><span class="linenos"> 85</span></a>        <span class="n">chunked_ids</span> <span class="o">=</span> <span class="n">chunk_ids</span><span class="p">(</span><span class="n">bibcodes</span><span class="p">,</span> <span class="n">call_size</span><span class="o">=</span><span class="n">call_size</span><span class="p">)</span>
-</span><span id="L-86"><a href="#L-86"><span class="linenos"> 86</span></a>
-</span><span id="L-87"><a href="#L-87"><span class="linenos"> 87</span></a>        <span class="k">if</span> <span class="kc">None</span> <span class="ow">in</span> <span class="n">bibcodes</span><span class="p">:</span>
-</span><span id="L-88"><a href="#L-88"><span class="linenos"> 88</span></a>            <span class="c1"># any Nones should have been handled by this point</span>
-</span><span id="L-89"><a href="#L-89"><span class="linenos"> 89</span></a>            <span class="k">raise</span> <span class="ne">Exception</span><span class="p">(</span><span class="s2">&quot;Passed `bibcodes` contains None.&quot;</span><span class="p">)</span>
-</span><span id="L-90"><a href="#L-90"><span class="linenos"> 90</span></a>
-</span><span id="L-91"><a href="#L-91"><span class="linenos"> 91</span></a>        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Querying ADS for </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">bibcodes</span><span class="p">)</span><span class="si">}</span><span class="s2"> total papers.&quot;</span><span class="p">)</span>
-</span><span id="L-92"><a href="#L-92"><span class="linenos"> 92</span></a>        <span class="n">papers</span> <span class="o">=</span> <span class="p">[]</span>
-</span><span id="L-93"><a href="#L-93"><span class="linenos"> 93</span></a>        <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="p">(</span><span class="n">desc</span><span class="o">=</span><span class="sa">f</span><span class="s2">&quot;progress using call_size=</span><span class="si">{</span><span class="n">call_size</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">,</span> <span class="n">total</span><span class="o">=</span><span class="n">total</span><span class="p">)</span>
-</span><span id="L-94"><a href="#L-94"><span class="linenos"> 94</span></a>        <span class="k">for</span> <span class="n">ids</span> <span class="ow">in</span> <span class="n">chunked_ids</span><span class="p">:</span>
-</span><span id="L-95"><a href="#L-95"><span class="linenos"> 95</span></a>
-</span><span id="L-96"><a href="#L-96"><span class="linenos"> 96</span></a>            <span class="nd">@keep_trying</span><span class="p">(</span>
-</span><span id="L-97"><a href="#L-97"><span class="linenos"> 97</span></a>                <span class="n">n_attempts</span><span class="o">=</span><span class="n">n_attempts_per_query</span><span class="p">,</span>
-</span><span id="L-98"><a href="#L-98"><span class="linenos"> 98</span></a>                <span class="n">allowed_exceptions</span><span class="o">=</span><span class="n">ALLOWED_EXCEPTIONS</span><span class="p">,</span>
-</span><span id="L-99"><a href="#L-99"><span class="linenos"> 99</span></a>                <span class="n">sleep_after_attempt</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span>
-</span><span id="L-100"><a href="#L-100"><span class="linenos">100</span></a>            <span class="p">)</span>
-</span><span id="L-101"><a href="#L-101"><span class="linenos">101</span></a>            <span class="k">def</span> <span class="nf">get_papers</span><span class="p">()</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="n">Article</span><span class="p">]:</span>
-</span><span id="L-102"><a href="#L-102"><span class="linenos">102</span></a>                <span class="k">return</span> <span class="p">[</span>
-</span><span id="L-103"><a href="#L-103"><span class="linenos">103</span></a>                    <span class="nb">list</span><span class="p">(</span>
-</span><span id="L-104"><a href="#L-104"><span class="linenos">104</span></a>                        <span class="n">ads</span><span class="o">.</span><span class="n">SearchQuery</span><span class="p">(</span>
-</span><span id="L-105"><a href="#L-105"><span class="linenos">105</span></a>                            <span class="n">query_dict</span><span class="o">=</span><span class="p">{</span>
-</span><span id="L-106"><a href="#L-106"><span class="linenos">106</span></a>                                <span class="s2">&quot;q&quot;</span><span class="p">:</span> <span class="n">query</span><span class="p">,</span>
-</span><span id="L-107"><a href="#L-107"><span class="linenos">107</span></a>                                <span class="s2">&quot;fl&quot;</span><span class="p">:</span> <span class="n">QUERY_FIELDS</span><span class="p">,</span>
-</span><span id="L-108"><a href="#L-108"><span class="linenos">108</span></a>                            <span class="p">}</span>
-</span><span id="L-109"><a href="#L-109"><span class="linenos">109</span></a>                        <span class="p">)</span>
-</span><span id="L-110"><a href="#L-110"><span class="linenos">110</span></a>                    <span class="p">)[</span>
-</span><span id="L-111"><a href="#L-111"><span class="linenos">111</span></a>                        <span class="mi">0</span>
-</span><span id="L-112"><a href="#L-112"><span class="linenos">112</span></a>                    <span class="p">]</span>  <span class="c1"># retrieve from generator</span>
-</span><span id="L-113"><a href="#L-113"><span class="linenos">113</span></a>                    <span class="k">for</span> <span class="n">query</span> <span class="ow">in</span> <span class="n">ids</span>
-</span><span id="L-114"><a href="#L-114"><span class="linenos">114</span></a>                <span class="p">]</span>
-</span><span id="L-115"><a href="#L-115"><span class="linenos">115</span></a>
-</span><span id="L-116"><a href="#L-116"><span class="linenos">116</span></a>            <span class="n">papers</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">get_papers</span><span class="p">())</span>
-</span><span id="L-117"><a href="#L-117"><span class="linenos">117</span></a>            <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">ids</span><span class="p">))</span>
-</span><span id="L-118"><a href="#L-118"><span class="linenos">118</span></a>
-</span><span id="L-119"><a href="#L-119"><span class="linenos">119</span></a>        <span class="n">pbar</span><span class="o">.</span><span class="n">close</span><span class="p">()</span>
+</span><span id="L-76"><a href="#L-76"><span class="linenos"> 76</span></a><span class="sd">            convert: whether to convert each resulting ADS Article to sciterra Publications (True by default).</span>
+</span><span id="L-77"><a href="#L-77"><span class="linenos"> 77</span></a>
+</span><span id="L-78"><a href="#L-78"><span class="linenos"> 78</span></a><span class="sd">        Returns:</span>
+</span><span id="L-79"><a href="#L-79"><span class="linenos"> 79</span></a><span class="sd">            the list of publications (or Papers)</span>
+</span><span id="L-80"><a href="#L-80"><span class="linenos"> 80</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="L-81"><a href="#L-81"><span class="linenos"> 81</span></a>        <span class="n">bibcodes</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">bibcodes</span><span class="p">)</span>
+</span><span id="L-82"><a href="#L-82"><span class="linenos"> 82</span></a>
+</span><span id="L-83"><a href="#L-83"><span class="linenos"> 83</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">bibcodes</span><span class="p">:</span>
+</span><span id="L-84"><a href="#L-84"><span class="linenos"> 84</span></a>            <span class="k">return</span> <span class="p">[]</span>
+</span><span id="L-85"><a href="#L-85"><span class="linenos"> 85</span></a>
+</span><span id="L-86"><a href="#L-86"><span class="linenos"> 86</span></a>        <span class="n">total</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">bibcodes</span><span class="p">)</span>
+</span><span id="L-87"><a href="#L-87"><span class="linenos"> 87</span></a>        <span class="n">chunked_ids</span> <span class="o">=</span> <span class="n">chunk_ids</span><span class="p">(</span><span class="n">bibcodes</span><span class="p">,</span> <span class="n">call_size</span><span class="o">=</span><span class="n">call_size</span><span class="p">)</span>
+</span><span id="L-88"><a href="#L-88"><span class="linenos"> 88</span></a>
+</span><span id="L-89"><a href="#L-89"><span class="linenos"> 89</span></a>        <span class="k">if</span> <span class="kc">None</span> <span class="ow">in</span> <span class="n">bibcodes</span><span class="p">:</span>
+</span><span id="L-90"><a href="#L-90"><span class="linenos"> 90</span></a>            <span class="c1"># any Nones should have been handled by this point</span>
+</span><span id="L-91"><a href="#L-91"><span class="linenos"> 91</span></a>            <span class="k">raise</span> <span class="ne">Exception</span><span class="p">(</span><span class="s2">&quot;Passed `bibcodes` contains None.&quot;</span><span class="p">)</span>
+</span><span id="L-92"><a href="#L-92"><span class="linenos"> 92</span></a>
+</span><span id="L-93"><a href="#L-93"><span class="linenos"> 93</span></a>        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Querying ADS for </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">bibcodes</span><span class="p">)</span><span class="si">}</span><span class="s2"> total papers.&quot;</span><span class="p">)</span>
+</span><span id="L-94"><a href="#L-94"><span class="linenos"> 94</span></a>        <span class="n">papers</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="L-95"><a href="#L-95"><span class="linenos"> 95</span></a>        <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="p">(</span><span class="n">desc</span><span class="o">=</span><span class="sa">f</span><span class="s2">&quot;progress using call_size=</span><span class="si">{</span><span class="n">call_size</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">,</span> <span class="n">total</span><span class="o">=</span><span class="n">total</span><span class="p">)</span>
+</span><span id="L-96"><a href="#L-96"><span class="linenos"> 96</span></a>        <span class="k">for</span> <span class="n">ids</span> <span class="ow">in</span> <span class="n">chunked_ids</span><span class="p">:</span>
+</span><span id="L-97"><a href="#L-97"><span class="linenos"> 97</span></a>
+</span><span id="L-98"><a href="#L-98"><span class="linenos"> 98</span></a>            <span class="nd">@keep_trying</span><span class="p">(</span>
+</span><span id="L-99"><a href="#L-99"><span class="linenos"> 99</span></a>                <span class="n">n_attempts</span><span class="o">=</span><span class="n">n_attempts_per_query</span><span class="p">,</span>
+</span><span id="L-100"><a href="#L-100"><span class="linenos">100</span></a>                <span class="n">allowed_exceptions</span><span class="o">=</span><span class="n">ALLOWED_EXCEPTIONS</span><span class="p">,</span>
+</span><span id="L-101"><a href="#L-101"><span class="linenos">101</span></a>                <span class="n">sleep_after_attempt</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span>
+</span><span id="L-102"><a href="#L-102"><span class="linenos">102</span></a>            <span class="p">)</span>
+</span><span id="L-103"><a href="#L-103"><span class="linenos">103</span></a>            <span class="k">def</span> <span class="nf">get_papers</span><span class="p">()</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="n">Article</span><span class="p">]:</span>
+</span><span id="L-104"><a href="#L-104"><span class="linenos">104</span></a>                <span class="k">return</span> <span class="p">[</span>
+</span><span id="L-105"><a href="#L-105"><span class="linenos">105</span></a>                    <span class="nb">list</span><span class="p">(</span>
+</span><span id="L-106"><a href="#L-106"><span class="linenos">106</span></a>                        <span class="n">ads</span><span class="o">.</span><span class="n">SearchQuery</span><span class="p">(</span>
+</span><span id="L-107"><a href="#L-107"><span class="linenos">107</span></a>                            <span class="n">query_dict</span><span class="o">=</span><span class="p">{</span>
+</span><span id="L-108"><a href="#L-108"><span class="linenos">108</span></a>                                <span class="s2">&quot;q&quot;</span><span class="p">:</span> <span class="n">query</span><span class="p">,</span>
+</span><span id="L-109"><a href="#L-109"><span class="linenos">109</span></a>                                <span class="s2">&quot;fl&quot;</span><span class="p">:</span> <span class="n">QUERY_FIELDS</span><span class="p">,</span>
+</span><span id="L-110"><a href="#L-110"><span class="linenos">110</span></a>                            <span class="p">}</span>
+</span><span id="L-111"><a href="#L-111"><span class="linenos">111</span></a>                        <span class="p">)</span>
+</span><span id="L-112"><a href="#L-112"><span class="linenos">112</span></a>                    <span class="p">)[</span>
+</span><span id="L-113"><a href="#L-113"><span class="linenos">113</span></a>                        <span class="mi">0</span>  <span class="c1"># screw black, this is ugly</span>
+</span><span id="L-114"><a href="#L-114"><span class="linenos">114</span></a>                    <span class="p">]</span>  <span class="c1"># retrieve from generator</span>
+</span><span id="L-115"><a href="#L-115"><span class="linenos">115</span></a>                    <span class="k">for</span> <span class="n">query</span> <span class="ow">in</span> <span class="n">ids</span>
+</span><span id="L-116"><a href="#L-116"><span class="linenos">116</span></a>                <span class="p">]</span>
+</span><span id="L-117"><a href="#L-117"><span class="linenos">117</span></a>
+</span><span id="L-118"><a href="#L-118"><span class="linenos">118</span></a>            <span class="n">papers</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">get_papers</span><span class="p">())</span>
+</span><span id="L-119"><a href="#L-119"><span class="linenos">119</span></a>            <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">ids</span><span class="p">))</span>
 </span><span id="L-120"><a href="#L-120"><span class="linenos">120</span></a>
-</span><span id="L-121"><a href="#L-121"><span class="linenos">121</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">convert</span><span class="p">:</span>
-</span><span id="L-122"><a href="#L-122"><span class="linenos">122</span></a>            <span class="k">return</span> <span class="n">papers</span>
-</span><span id="L-123"><a href="#L-123"><span class="linenos">123</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">convert_publications</span><span class="p">(</span>
-</span><span id="L-124"><a href="#L-124"><span class="linenos">124</span></a>            <span class="n">papers</span><span class="p">,</span>
-</span><span id="L-125"><a href="#L-125"><span class="linenos">125</span></a>            <span class="o">*</span><span class="n">args</span><span class="p">,</span>
-</span><span id="L-126"><a href="#L-126"><span class="linenos">126</span></a>            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
-</span><span id="L-127"><a href="#L-127"><span class="linenos">127</span></a>        <span class="p">)</span>
-</span><span id="L-128"><a href="#L-128"><span class="linenos">128</span></a>
-</span><span id="L-129"><a href="#L-129"><span class="linenos">129</span></a>    <span class="k">def</span> <span class="nf">convert_publication</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">article</span><span class="p">:</span> <span class="n">Article</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Publication</span><span class="p">:</span>
-</span><span id="L-130"><a href="#L-130"><span class="linenos">130</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Convert a ADS Article object to a sciterra.publication.Publication.&quot;&quot;&quot;</span>
-</span><span id="L-131"><a href="#L-131"><span class="linenos">131</span></a>        <span class="k">if</span> <span class="n">article</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="L-132"><a href="#L-132"><span class="linenos">132</span></a>            <span class="k">return</span>
-</span><span id="L-133"><a href="#L-133"><span class="linenos">133</span></a>
-</span><span id="L-134"><a href="#L-134"><span class="linenos">134</span></a>        <span class="c1"># to be consistent with identifiers (e.g., to avoid storing the same publication twice), we always use the bibcode.</span>
-</span><span id="L-135"><a href="#L-135"><span class="linenos">135</span></a>        <span class="n">identifier</span> <span class="o">=</span> <span class="n">article</span><span class="o">.</span><span class="n">bibcode</span>
-</span><span id="L-136"><a href="#L-136"><span class="linenos">136</span></a>
-</span><span id="L-137"><a href="#L-137"><span class="linenos">137</span></a>        <span class="k">def</span> <span class="nf">process_date</span><span class="p">(</span><span class="n">date_str</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
-</span><span id="L-138"><a href="#L-138"><span class="linenos">138</span></a>            <span class="c1"># sometimes there is extra data</span>
-</span><span id="L-139"><a href="#L-139"><span class="linenos">139</span></a>            <span class="n">date_str</span> <span class="o">=</span> <span class="n">date_str</span><span class="p">[:</span><span class="mi">10</span><span class="p">]</span>  <span class="c1"># e.g. yyyy-mm-dd</span>
-</span><span id="L-140"><a href="#L-140"><span class="linenos">140</span></a>            <span class="c1"># sometimes ads has 00 for month or day</span>
-</span><span id="L-141"><a href="#L-141"><span class="linenos">141</span></a>            <span class="k">if</span> <span class="n">date_str</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">:]</span> <span class="o">==</span> <span class="s2">&quot;00&quot;</span><span class="p">:</span>
-</span><span id="L-142"><a href="#L-142"><span class="linenos">142</span></a>                <span class="n">date_str</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">:]</span> <span class="o">=</span> <span class="s2">&quot;01&quot;</span>
-</span><span id="L-143"><a href="#L-143"><span class="linenos">143</span></a>            <span class="k">if</span> <span class="n">date_str</span><span class="p">[</span><span class="o">-</span><span class="mi">5</span><span class="p">:</span><span class="o">-</span><span class="mi">3</span><span class="p">]</span> <span class="o">==</span> <span class="s2">&quot;00&quot;</span><span class="p">:</span>
-</span><span id="L-144"><a href="#L-144"><span class="linenos">144</span></a>                <span class="n">date_str</span><span class="p">[</span><span class="o">-</span><span class="mi">5</span><span class="p">:</span><span class="o">-</span><span class="mi">3</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;01&quot;</span>
-</span><span id="L-145"><a href="#L-145"><span class="linenos">145</span></a>            <span class="n">date_</span> <span class="o">=</span> <span class="n">datetime</span><span class="o">.</span><span class="n">strptime</span><span class="p">(</span><span class="n">date_str</span><span class="p">,</span> <span class="s2">&quot;%Y-%m-</span><span class="si">%d</span><span class="s2">&quot;</span><span class="p">)</span>
-</span><span id="L-146"><a href="#L-146"><span class="linenos">146</span></a>            <span class="k">return</span> <span class="n">date_</span>
-</span><span id="L-147"><a href="#L-147"><span class="linenos">147</span></a>
-</span><span id="L-148"><a href="#L-148"><span class="linenos">148</span></a>        <span class="c1"># Parse date from datetime or year</span>
-</span><span id="L-149"><a href="#L-149"><span class="linenos">149</span></a>        <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">article</span><span class="p">,</span> <span class="s2">&quot;entry_date&quot;</span><span class="p">):</span>
-</span><span id="L-150"><a href="#L-150"><span class="linenos">150</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="n">process_date</span><span class="p">(</span><span class="n">article</span><span class="o">.</span><span class="n">entry_date</span><span class="p">)</span>
-</span><span id="L-151"><a href="#L-151"><span class="linenos">151</span></a>        <span class="k">elif</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">article</span><span class="p">,</span> <span class="s2">&quot;pubdate&quot;</span><span class="p">):</span>
-</span><span id="L-152"><a href="#L-152"><span class="linenos">152</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="n">process_date</span><span class="p">(</span><span class="n">article</span><span class="o">.</span><span class="n">pubdate</span><span class="p">)</span>
-</span><span id="L-153"><a href="#L-153"><span class="linenos">153</span></a>        <span class="k">elif</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">article</span><span class="p">,</span> <span class="s2">&quot;year&quot;</span><span class="p">):</span>
-</span><span id="L-154"><a href="#L-154"><span class="linenos">154</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="n">date</span><span class="p">(</span><span class="n">article</span><span class="o">.</span><span class="n">year</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
-</span><span id="L-155"><a href="#L-155"><span class="linenos">155</span></a>        <span class="k">else</span><span class="p">:</span>
-</span><span id="L-156"><a href="#L-156"><span class="linenos">156</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="kc">None</span>
-</span><span id="L-157"><a href="#L-157"><span class="linenos">157</span></a>
-</span><span id="L-158"><a href="#L-158"><span class="linenos">158</span></a>        <span class="c1"># get doi from Article identifiers</span>
-</span><span id="L-159"><a href="#L-159"><span class="linenos">159</span></a>        <span class="c1"># warning: ADS tracks two DOIs: for official and arxiv</span>
-</span><span id="L-160"><a href="#L-160"><span class="linenos">160</span></a>        <span class="n">doi</span> <span class="o">=</span> <span class="kc">None</span>
-</span><span id="L-161"><a href="#L-161"><span class="linenos">161</span></a>        <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">article</span><span class="p">,</span> <span class="s2">&quot;identifier&quot;</span><span class="p">):</span>
-</span><span id="L-162"><a href="#L-162"><span class="linenos">162</span></a>            <span class="n">dois</span> <span class="o">=</span> <span class="p">[</span><span class="n">item</span> <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">article</span><span class="o">.</span><span class="n">identifier</span> <span class="k">if</span> <span class="n">item</span><span class="p">[:</span><span class="mi">3</span><span class="p">]</span> <span class="o">==</span> <span class="s2">&quot;10.&quot;</span><span class="p">]</span>
-</span><span id="L-163"><a href="#L-163"><span class="linenos">163</span></a>            <span class="k">if</span> <span class="n">dois</span><span class="p">:</span>
-</span><span id="L-164"><a href="#L-164"><span class="linenos">164</span></a>                <span class="n">doi</span> <span class="o">=</span> <span class="n">dois</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
-</span><span id="L-165"><a href="#L-165"><span class="linenos">165</span></a>
-</span><span id="L-166"><a href="#L-166"><span class="linenos">166</span></a>        <span class="n">citations</span> <span class="o">=</span> <span class="n">article</span><span class="o">.</span><span class="n">citation</span>
-</span><span id="L-167"><a href="#L-167"><span class="linenos">167</span></a>        <span class="n">references</span> <span class="o">=</span> <span class="n">article</span><span class="o">.</span><span class="n">reference</span>
-</span><span id="L-168"><a href="#L-168"><span class="linenos">168</span></a>
-</span><span id="L-169"><a href="#L-169"><span class="linenos">169</span></a>        <span class="n">citation_count</span> <span class="o">=</span> <span class="n">article</span><span class="o">.</span><span class="n">citation_count</span>
-</span><span id="L-170"><a href="#L-170"><span class="linenos">170</span></a>        <span class="k">if</span> <span class="n">citation_count</span> <span class="o">!=</span> <span class="nb">len</span><span class="p">(</span><span class="n">citations</span><span class="p">):</span>
-</span><span id="L-171"><a href="#L-171"><span class="linenos">171</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
-</span><span id="L-172"><a href="#L-172"><span class="linenos">172</span></a>                <span class="sa">f</span><span class="s2">&quot;The length of the citations list (</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">citations</span><span class="p">)</span><span class="si">}</span><span class="s2">) is different from citation_count (</span><span class="si">{</span><span class="n">citation_count</span><span class="si">}</span><span class="s2">)&quot;</span>
-</span><span id="L-173"><a href="#L-173"><span class="linenos">173</span></a>            <span class="p">)</span>
-</span><span id="L-174"><a href="#L-174"><span class="linenos">174</span></a>        <span class="k">if</span> <span class="s2">&quot;infer_citation_count&quot;</span> <span class="ow">in</span> <span class="n">kwargs</span> <span class="ow">and</span> <span class="n">kwargs</span><span class="p">[</span><span class="s2">&quot;infer_citation_count&quot;</span><span class="p">]:</span>
-</span><span id="L-175"><a href="#L-175"><span class="linenos">175</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="s2">&quot;Setting citation_count = {len(citations)}.&quot;</span><span class="p">)</span>
-</span><span id="L-176"><a href="#L-176"><span class="linenos">176</span></a>            <span class="n">citation_count</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">citations</span><span class="p">)</span>
-</span><span id="L-177"><a href="#L-177"><span class="linenos">177</span></a>
-</span><span id="L-178"><a href="#L-178"><span class="linenos">178</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="p">{</span>
-</span><span id="L-179"><a href="#L-179"><span class="linenos">179</span></a>            <span class="c1"># primary fields</span>
-</span><span id="L-180"><a href="#L-180"><span class="linenos">180</span></a>            <span class="s2">&quot;identifier&quot;</span><span class="p">:</span> <span class="n">identifier</span><span class="p">,</span>
-</span><span id="L-181"><a href="#L-181"><span class="linenos">181</span></a>            <span class="s2">&quot;abstract&quot;</span><span class="p">:</span> <span class="n">article</span><span class="o">.</span><span class="n">abstract</span><span class="p">,</span>
-</span><span id="L-182"><a href="#L-182"><span class="linenos">182</span></a>            <span class="s2">&quot;publication_date&quot;</span><span class="p">:</span> <span class="n">publication_date</span><span class="p">,</span>
-</span><span id="L-183"><a href="#L-183"><span class="linenos">183</span></a>            <span class="s2">&quot;citations&quot;</span><span class="p">:</span> <span class="n">citations</span><span class="p">,</span>
-</span><span id="L-184"><a href="#L-184"><span class="linenos">184</span></a>            <span class="s2">&quot;references&quot;</span><span class="p">:</span> <span class="n">references</span><span class="p">,</span>
-</span><span id="L-185"><a href="#L-185"><span class="linenos">185</span></a>            <span class="s2">&quot;citation_count&quot;</span><span class="p">:</span> <span class="n">citation_count</span><span class="p">,</span>
-</span><span id="L-186"><a href="#L-186"><span class="linenos">186</span></a>            <span class="c1"># additional fields</span>
-</span><span id="L-187"><a href="#L-187"><span class="linenos">187</span></a>            <span class="s2">&quot;doi&quot;</span><span class="p">:</span> <span class="n">doi</span><span class="p">,</span>
-</span><span id="L-188"><a href="#L-188"><span class="linenos">188</span></a>            <span class="s2">&quot;title&quot;</span><span class="p">:</span> <span class="n">article</span><span class="o">.</span><span class="n">title</span><span class="p">,</span>
-</span><span id="L-189"><a href="#L-189"><span class="linenos">189</span></a>        <span class="p">}</span>
-</span><span id="L-190"><a href="#L-190"><span class="linenos">190</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="p">{</span><span class="n">k</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">data</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span> <span class="n">v</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">}</span>
-</span><span id="L-191"><a href="#L-191"><span class="linenos">191</span></a>
-</span><span id="L-192"><a href="#L-192"><span class="linenos">192</span></a>        <span class="k">return</span> <span class="n">Publication</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
+</span><span id="L-121"><a href="#L-121"><span class="linenos">121</span></a>        <span class="n">pbar</span><span class="o">.</span><span class="n">close</span><span class="p">()</span>
+</span><span id="L-122"><a href="#L-122"><span class="linenos">122</span></a>
+</span><span id="L-123"><a href="#L-123"><span class="linenos">123</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">convert</span><span class="p">:</span>
+</span><span id="L-124"><a href="#L-124"><span class="linenos">124</span></a>            <span class="k">return</span> <span class="n">papers</span>
+</span><span id="L-125"><a href="#L-125"><span class="linenos">125</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">convert_publications</span><span class="p">(</span>
+</span><span id="L-126"><a href="#L-126"><span class="linenos">126</span></a>            <span class="n">papers</span><span class="p">,</span>
+</span><span id="L-127"><a href="#L-127"><span class="linenos">127</span></a>            <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+</span><span id="L-128"><a href="#L-128"><span class="linenos">128</span></a>            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+</span><span id="L-129"><a href="#L-129"><span class="linenos">129</span></a>        <span class="p">)</span>
+</span><span id="L-130"><a href="#L-130"><span class="linenos">130</span></a>
+</span><span id="L-131"><a href="#L-131"><span class="linenos">131</span></a>    <span class="k">def</span> <span class="nf">convert_publication</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">article</span><span class="p">:</span> <span class="n">Article</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Publication</span><span class="p">:</span>
+</span><span id="L-132"><a href="#L-132"><span class="linenos">132</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Convert a ADS Article object to a sciterra.publication.Publication.&quot;&quot;&quot;</span>
+</span><span id="L-133"><a href="#L-133"><span class="linenos">133</span></a>        <span class="k">if</span> <span class="n">article</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="L-134"><a href="#L-134"><span class="linenos">134</span></a>            <span class="k">return</span>
+</span><span id="L-135"><a href="#L-135"><span class="linenos">135</span></a>
+</span><span id="L-136"><a href="#L-136"><span class="linenos">136</span></a>        <span class="n">verbose</span> <span class="o">=</span> <span class="n">get_verbose</span><span class="p">(</span><span class="n">kwargs</span><span class="p">)</span>
+</span><span id="L-137"><a href="#L-137"><span class="linenos">137</span></a>
+</span><span id="L-138"><a href="#L-138"><span class="linenos">138</span></a>        <span class="c1"># to be consistent with identifiers (e.g., to avoid storing the same publication twice), we always use the bibcode.</span>
+</span><span id="L-139"><a href="#L-139"><span class="linenos">139</span></a>        <span class="n">identifier</span> <span class="o">=</span> <span class="n">article</span><span class="o">.</span><span class="n">bibcode</span>
+</span><span id="L-140"><a href="#L-140"><span class="linenos">140</span></a>
+</span><span id="L-141"><a href="#L-141"><span class="linenos">141</span></a>        <span class="k">def</span> <span class="nf">process_date</span><span class="p">(</span><span class="n">date_str</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+</span><span id="L-142"><a href="#L-142"><span class="linenos">142</span></a>            <span class="c1"># sometimes there is extra data</span>
+</span><span id="L-143"><a href="#L-143"><span class="linenos">143</span></a>            <span class="n">date_str</span> <span class="o">=</span> <span class="n">date_str</span><span class="p">[:</span><span class="mi">10</span><span class="p">]</span>  <span class="c1"># e.g. yyyy-mm-dd</span>
+</span><span id="L-144"><a href="#L-144"><span class="linenos">144</span></a>            <span class="c1"># sometimes ads has 00 for month or day</span>
+</span><span id="L-145"><a href="#L-145"><span class="linenos">145</span></a>            <span class="k">if</span> <span class="n">date_str</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">:]</span> <span class="o">==</span> <span class="s2">&quot;00&quot;</span><span class="p">:</span>
+</span><span id="L-146"><a href="#L-146"><span class="linenos">146</span></a>                <span class="n">date_str</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">:]</span> <span class="o">=</span> <span class="s2">&quot;01&quot;</span>
+</span><span id="L-147"><a href="#L-147"><span class="linenos">147</span></a>            <span class="k">if</span> <span class="n">date_str</span><span class="p">[</span><span class="o">-</span><span class="mi">5</span><span class="p">:</span><span class="o">-</span><span class="mi">3</span><span class="p">]</span> <span class="o">==</span> <span class="s2">&quot;00&quot;</span><span class="p">:</span>
+</span><span id="L-148"><a href="#L-148"><span class="linenos">148</span></a>                <span class="n">date_str</span><span class="p">[</span><span class="o">-</span><span class="mi">5</span><span class="p">:</span><span class="o">-</span><span class="mi">3</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;01&quot;</span>
+</span><span id="L-149"><a href="#L-149"><span class="linenos">149</span></a>            <span class="n">date_</span> <span class="o">=</span> <span class="n">datetime</span><span class="o">.</span><span class="n">strptime</span><span class="p">(</span><span class="n">date_str</span><span class="p">,</span> <span class="s2">&quot;%Y-%m-</span><span class="si">%d</span><span class="s2">&quot;</span><span class="p">)</span>
+</span><span id="L-150"><a href="#L-150"><span class="linenos">150</span></a>            <span class="k">return</span> <span class="n">date_</span>
+</span><span id="L-151"><a href="#L-151"><span class="linenos">151</span></a>
+</span><span id="L-152"><a href="#L-152"><span class="linenos">152</span></a>        <span class="c1"># Parse date from datetime or year</span>
+</span><span id="L-153"><a href="#L-153"><span class="linenos">153</span></a>        <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">article</span><span class="p">,</span> <span class="s2">&quot;entry_date&quot;</span><span class="p">):</span>
+</span><span id="L-154"><a href="#L-154"><span class="linenos">154</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="n">process_date</span><span class="p">(</span><span class="n">article</span><span class="o">.</span><span class="n">entry_date</span><span class="p">)</span>
+</span><span id="L-155"><a href="#L-155"><span class="linenos">155</span></a>        <span class="k">elif</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">article</span><span class="p">,</span> <span class="s2">&quot;pubdate&quot;</span><span class="p">):</span>
+</span><span id="L-156"><a href="#L-156"><span class="linenos">156</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="n">process_date</span><span class="p">(</span><span class="n">article</span><span class="o">.</span><span class="n">pubdate</span><span class="p">)</span>
+</span><span id="L-157"><a href="#L-157"><span class="linenos">157</span></a>        <span class="k">elif</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">article</span><span class="p">,</span> <span class="s2">&quot;year&quot;</span><span class="p">):</span>
+</span><span id="L-158"><a href="#L-158"><span class="linenos">158</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="n">date</span><span class="p">(</span><span class="n">article</span><span class="o">.</span><span class="n">year</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
+</span><span id="L-159"><a href="#L-159"><span class="linenos">159</span></a>        <span class="k">else</span><span class="p">:</span>
+</span><span id="L-160"><a href="#L-160"><span class="linenos">160</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="kc">None</span>
+</span><span id="L-161"><a href="#L-161"><span class="linenos">161</span></a>
+</span><span id="L-162"><a href="#L-162"><span class="linenos">162</span></a>        <span class="c1"># get doi from Article identifiers</span>
+</span><span id="L-163"><a href="#L-163"><span class="linenos">163</span></a>        <span class="c1"># warning: ADS tracks two DOIs: for official and arxiv</span>
+</span><span id="L-164"><a href="#L-164"><span class="linenos">164</span></a>        <span class="n">doi</span> <span class="o">=</span> <span class="kc">None</span>
+</span><span id="L-165"><a href="#L-165"><span class="linenos">165</span></a>        <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">article</span><span class="p">,</span> <span class="s2">&quot;identifier&quot;</span><span class="p">):</span>
+</span><span id="L-166"><a href="#L-166"><span class="linenos">166</span></a>            <span class="n">dois</span> <span class="o">=</span> <span class="p">[</span><span class="n">item</span> <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">article</span><span class="o">.</span><span class="n">identifier</span> <span class="k">if</span> <span class="n">item</span><span class="p">[:</span><span class="mi">3</span><span class="p">]</span> <span class="o">==</span> <span class="s2">&quot;10.&quot;</span><span class="p">]</span>
+</span><span id="L-167"><a href="#L-167"><span class="linenos">167</span></a>            <span class="k">if</span> <span class="n">dois</span><span class="p">:</span>
+</span><span id="L-168"><a href="#L-168"><span class="linenos">168</span></a>                <span class="n">doi</span> <span class="o">=</span> <span class="n">dois</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+</span><span id="L-169"><a href="#L-169"><span class="linenos">169</span></a>
+</span><span id="L-170"><a href="#L-170"><span class="linenos">170</span></a>        <span class="c1"># Process citation data</span>
+</span><span id="L-171"><a href="#L-171"><span class="linenos">171</span></a>        <span class="n">citations</span> <span class="o">=</span> <span class="n">article</span><span class="o">.</span><span class="n">citation</span>
+</span><span id="L-172"><a href="#L-172"><span class="linenos">172</span></a>        <span class="n">references</span> <span class="o">=</span> <span class="n">article</span><span class="o">.</span><span class="n">reference</span>
+</span><span id="L-173"><a href="#L-173"><span class="linenos">173</span></a>
+</span><span id="L-174"><a href="#L-174"><span class="linenos">174</span></a>        <span class="n">citation_count</span> <span class="o">=</span> <span class="n">article</span><span class="o">.</span><span class="n">citation_count</span>
+</span><span id="L-175"><a href="#L-175"><span class="linenos">175</span></a>        <span class="k">if</span> <span class="p">(</span>
+</span><span id="L-176"><a href="#L-176"><span class="linenos">176</span></a>            <span class="p">(</span><span class="n">citation_count</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">)</span>
+</span><span id="L-177"><a href="#L-177"><span class="linenos">177</span></a>            <span class="ow">and</span> <span class="p">(</span><span class="n">citations</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">)</span>
+</span><span id="L-178"><a href="#L-178"><span class="linenos">178</span></a>            <span class="ow">and</span> <span class="p">(</span><span class="n">citation_count</span> <span class="o">!=</span> <span class="nb">len</span><span class="p">(</span><span class="n">citations</span><span class="p">))</span>
+</span><span id="L-179"><a href="#L-179"><span class="linenos">179</span></a>            <span class="ow">and</span> <span class="n">verbose</span>
+</span><span id="L-180"><a href="#L-180"><span class="linenos">180</span></a>        <span class="p">):</span>
+</span><span id="L-181"><a href="#L-181"><span class="linenos">181</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+</span><span id="L-182"><a href="#L-182"><span class="linenos">182</span></a>                <span class="sa">f</span><span class="s2">&quot;The length of the citations list (</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">citations</span><span class="p">)</span><span class="si">}</span><span class="s2">) is different from citation_count (</span><span class="si">{</span><span class="n">citation_count</span><span class="si">}</span><span class="s2">)&quot;</span>
+</span><span id="L-183"><a href="#L-183"><span class="linenos">183</span></a>            <span class="p">)</span>
+</span><span id="L-184"><a href="#L-184"><span class="linenos">184</span></a>            <span class="k">if</span> <span class="s2">&quot;infer_citation_count&quot;</span> <span class="ow">in</span> <span class="n">kwargs</span> <span class="ow">and</span> <span class="n">kwargs</span><span class="p">[</span><span class="s2">&quot;infer_citation_count&quot;</span><span class="p">]:</span>
+</span><span id="L-185"><a href="#L-185"><span class="linenos">185</span></a>                <span class="k">if</span> <span class="n">verbose</span><span class="p">:</span>
+</span><span id="L-186"><a href="#L-186"><span class="linenos">186</span></a>                    <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="s2">&quot;Setting citation_count = {len(citations)}.&quot;</span><span class="p">)</span>
+</span><span id="L-187"><a href="#L-187"><span class="linenos">187</span></a>                <span class="n">citation_count</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">citations</span><span class="p">)</span>
+</span><span id="L-188"><a href="#L-188"><span class="linenos">188</span></a>
+</span><span id="L-189"><a href="#L-189"><span class="linenos">189</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="p">{</span>
+</span><span id="L-190"><a href="#L-190"><span class="linenos">190</span></a>            <span class="c1"># primary fields</span>
+</span><span id="L-191"><a href="#L-191"><span class="linenos">191</span></a>            <span class="s2">&quot;identifier&quot;</span><span class="p">:</span> <span class="n">identifier</span><span class="p">,</span>
+</span><span id="L-192"><a href="#L-192"><span class="linenos">192</span></a>            <span class="s2">&quot;abstract&quot;</span><span class="p">:</span> <span class="n">article</span><span class="o">.</span><span class="n">abstract</span><span class="p">,</span>
+</span><span id="L-193"><a href="#L-193"><span class="linenos">193</span></a>            <span class="s2">&quot;publication_date&quot;</span><span class="p">:</span> <span class="n">publication_date</span><span class="p">,</span>
+</span><span id="L-194"><a href="#L-194"><span class="linenos">194</span></a>            <span class="s2">&quot;citations&quot;</span><span class="p">:</span> <span class="n">citations</span><span class="p">,</span>
+</span><span id="L-195"><a href="#L-195"><span class="linenos">195</span></a>            <span class="s2">&quot;references&quot;</span><span class="p">:</span> <span class="n">references</span><span class="p">,</span>
+</span><span id="L-196"><a href="#L-196"><span class="linenos">196</span></a>            <span class="s2">&quot;citation_count&quot;</span><span class="p">:</span> <span class="n">citation_count</span><span class="p">,</span>
+</span><span id="L-197"><a href="#L-197"><span class="linenos">197</span></a>            <span class="c1"># additional fields</span>
+</span><span id="L-198"><a href="#L-198"><span class="linenos">198</span></a>            <span class="s2">&quot;doi&quot;</span><span class="p">:</span> <span class="n">doi</span><span class="p">,</span>
+</span><span id="L-199"><a href="#L-199"><span class="linenos">199</span></a>            <span class="s2">&quot;title&quot;</span><span class="p">:</span> <span class="n">article</span><span class="o">.</span><span class="n">title</span><span class="p">,</span>
+</span><span id="L-200"><a href="#L-200"><span class="linenos">200</span></a>        <span class="p">}</span>
+</span><span id="L-201"><a href="#L-201"><span class="linenos">201</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="p">{</span><span class="n">k</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">data</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span> <span class="n">v</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">}</span>
+</span><span id="L-202"><a href="#L-202"><span class="linenos">202</span></a>
+</span><span id="L-203"><a href="#L-203"><span class="linenos">203</span></a>        <span class="k">return</span> <span class="n">Publication</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
 </span></pre></div>
 
 
@@ -302,7 +313,7 @@ <h1 class="modulename">
                 <section id="CALL_SIZE">
                     <div class="attr variable">
             <span class="name">CALL_SIZE</span>        =
-<span class="default_value">2000</span>
+<span class="default_value">50</span>
 
         
     </div>
@@ -371,158 +382,167 @@ <h1 class="modulename">
 
     </div>
     <a class="headerlink" href="#ADSLibrarian"></a>
-            <div class="pdoc-code codehilite"><pre><span></span><span id="ADSLibrarian-42"><a href="#ADSLibrarian-42"><span class="linenos"> 42</span></a><span class="k">class</span> <span class="nc">ADSLibrarian</span><span class="p">(</span><span class="n">Librarian</span><span class="p">):</span>
-</span><span id="ADSLibrarian-43"><a href="#ADSLibrarian-43"><span class="linenos"> 43</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="ADSLibrarian-44"><a href="#ADSLibrarian-44"><span class="linenos"> 44</span></a>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
-</span><span id="ADSLibrarian-45"><a href="#ADSLibrarian-45"><span class="linenos"> 45</span></a>
-</span><span id="ADSLibrarian-46"><a href="#ADSLibrarian-46"><span class="linenos"> 46</span></a>    <span class="k">def</span> <span class="nf">bibtex_entry_identifier</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">bibtex_entry</span><span class="p">:</span> <span class="nb">dict</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
-</span><span id="ADSLibrarian-47"><a href="#ADSLibrarian-47"><span class="linenos"> 47</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Parse a bibtex entry for a usable identifier for querying ADS (see EXTERNAL_IDS).&quot;&quot;&quot;</span>
-</span><span id="ADSLibrarian-48"><a href="#ADSLibrarian-48"><span class="linenos"> 48</span></a>        <span class="n">identifier</span> <span class="o">=</span> <span class="kc">None</span>
-</span><span id="ADSLibrarian-49"><a href="#ADSLibrarian-49"><span class="linenos"> 49</span></a>        <span class="k">if</span> <span class="s2">&quot;bibcode&quot;</span> <span class="ow">in</span> <span class="n">bibtex_entry</span><span class="p">:</span>
-</span><span id="ADSLibrarian-50"><a href="#ADSLibrarian-50"><span class="linenos"> 50</span></a>            <span class="n">identifier</span> <span class="o">=</span> <span class="n">bibtex_entry</span><span class="p">[</span><span class="s2">&quot;bibcode&quot;</span><span class="p">]</span>
-</span><span id="ADSLibrarian-51"><a href="#ADSLibrarian-51"><span class="linenos"> 51</span></a>        <span class="k">elif</span> <span class="s2">&quot;doi&quot;</span> <span class="ow">in</span> <span class="n">bibtex_entry</span><span class="p">:</span>
-</span><span id="ADSLibrarian-52"><a href="#ADSLibrarian-52"><span class="linenos"> 52</span></a>            <span class="n">identifier</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;doi:</span><span class="si">{</span><span class="n">bibtex_entry</span><span class="p">[</span><span class="s1">&#39;doi&#39;</span><span class="p">]</span><span class="si">}</span><span class="s2">&quot;</span>
-</span><span id="ADSLibrarian-53"><a href="#ADSLibrarian-53"><span class="linenos"> 53</span></a>        <span class="k">elif</span> <span class="s2">&quot;arxiv&quot;</span> <span class="ow">in</span> <span class="n">bibtex_entry</span><span class="p">:</span>
-</span><span id="ADSLibrarian-54"><a href="#ADSLibrarian-54"><span class="linenos"> 54</span></a>            <span class="n">identifier</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;arxiv:</span><span class="si">{</span><span class="n">bibtex_entry</span><span class="p">[</span><span class="s1">&#39;arxiv&#39;</span><span class="p">]</span><span class="si">}</span><span class="s2">&quot;</span>
-</span><span id="ADSLibrarian-55"><a href="#ADSLibrarian-55"><span class="linenos"> 55</span></a>        <span class="k">return</span> <span class="n">identifier</span>
-</span><span id="ADSLibrarian-56"><a href="#ADSLibrarian-56"><span class="linenos"> 56</span></a>
-</span><span id="ADSLibrarian-57"><a href="#ADSLibrarian-57"><span class="linenos"> 57</span></a>    <span class="k">def</span> <span class="nf">get_publications</span><span class="p">(</span>
-</span><span id="ADSLibrarian-58"><a href="#ADSLibrarian-58"><span class="linenos"> 58</span></a>        <span class="bp">self</span><span class="p">,</span>
-</span><span id="ADSLibrarian-59"><a href="#ADSLibrarian-59"><span class="linenos"> 59</span></a>        <span class="n">bibcodes</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span>
-</span><span id="ADSLibrarian-60"><a href="#ADSLibrarian-60"><span class="linenos"> 60</span></a>        <span class="o">*</span><span class="n">args</span><span class="p">,</span>
-</span><span id="ADSLibrarian-61"><a href="#ADSLibrarian-61"><span class="linenos"> 61</span></a>        <span class="n">call_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">CALL_SIZE</span><span class="p">,</span>
-</span><span id="ADSLibrarian-62"><a href="#ADSLibrarian-62"><span class="linenos"> 62</span></a>        <span class="n">n_attempts_per_query</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">NUM_ATTEMPTS_PER_QUERY</span><span class="p">,</span>
-</span><span id="ADSLibrarian-63"><a href="#ADSLibrarian-63"><span class="linenos"> 63</span></a>        <span class="n">convert</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
-</span><span id="ADSLibrarian-64"><a href="#ADSLibrarian-64"><span class="linenos"> 64</span></a>        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
-</span><span id="ADSLibrarian-65"><a href="#ADSLibrarian-65"><span class="linenos"> 65</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="n">Publication</span><span class="p">]:</span>
-</span><span id="ADSLibrarian-66"><a href="#ADSLibrarian-66"><span class="linenos"> 66</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Use the NASA ADS python package, which calls the ADS API to retrieve publications.</span>
-</span><span id="ADSLibrarian-67"><a href="#ADSLibrarian-67"><span class="linenos"> 67</span></a>
-</span><span id="ADSLibrarian-68"><a href="#ADSLibrarian-68"><span class="linenos"> 68</span></a><span class="sd">        Args:</span>
-</span><span id="ADSLibrarian-69"><a href="#ADSLibrarian-69"><span class="linenos"> 69</span></a><span class="sd">            bibcodes: the str ids required for querying. While it is possible to use one of EXTERNAL_IDS to query, if ADS returns a paper at all, it will return a bibcode, so it is preferred to use bibcodes.</span>
-</span><span id="ADSLibrarian-70"><a href="#ADSLibrarian-70"><span class="linenos"> 70</span></a>
-</span><span id="ADSLibrarian-71"><a href="#ADSLibrarian-71"><span class="linenos"> 71</span></a><span class="sd">            n_attempts_per_query: Number of attempts to access the API per query. Useful when experiencing connection issues.</span>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="ADSLibrarian-44"><a href="#ADSLibrarian-44"><span class="linenos"> 44</span></a><span class="k">class</span> <span class="nc">ADSLibrarian</span><span class="p">(</span><span class="n">Librarian</span><span class="p">):</span>
+</span><span id="ADSLibrarian-45"><a href="#ADSLibrarian-45"><span class="linenos"> 45</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="ADSLibrarian-46"><a href="#ADSLibrarian-46"><span class="linenos"> 46</span></a>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+</span><span id="ADSLibrarian-47"><a href="#ADSLibrarian-47"><span class="linenos"> 47</span></a>
+</span><span id="ADSLibrarian-48"><a href="#ADSLibrarian-48"><span class="linenos"> 48</span></a>    <span class="k">def</span> <span class="nf">bibtex_entry_identifier</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">bibtex_entry</span><span class="p">:</span> <span class="nb">dict</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+</span><span id="ADSLibrarian-49"><a href="#ADSLibrarian-49"><span class="linenos"> 49</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Parse a bibtex entry for a usable identifier for querying ADS (see EXTERNAL_IDS).&quot;&quot;&quot;</span>
+</span><span id="ADSLibrarian-50"><a href="#ADSLibrarian-50"><span class="linenos"> 50</span></a>        <span class="n">identifier</span> <span class="o">=</span> <span class="kc">None</span>
+</span><span id="ADSLibrarian-51"><a href="#ADSLibrarian-51"><span class="linenos"> 51</span></a>        <span class="k">if</span> <span class="s2">&quot;bibcode&quot;</span> <span class="ow">in</span> <span class="n">bibtex_entry</span><span class="p">:</span>
+</span><span id="ADSLibrarian-52"><a href="#ADSLibrarian-52"><span class="linenos"> 52</span></a>            <span class="n">identifier</span> <span class="o">=</span> <span class="n">bibtex_entry</span><span class="p">[</span><span class="s2">&quot;bibcode&quot;</span><span class="p">]</span>
+</span><span id="ADSLibrarian-53"><a href="#ADSLibrarian-53"><span class="linenos"> 53</span></a>        <span class="k">elif</span> <span class="s2">&quot;doi&quot;</span> <span class="ow">in</span> <span class="n">bibtex_entry</span><span class="p">:</span>
+</span><span id="ADSLibrarian-54"><a href="#ADSLibrarian-54"><span class="linenos"> 54</span></a>            <span class="n">identifier</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;doi:</span><span class="si">{</span><span class="n">bibtex_entry</span><span class="p">[</span><span class="s1">&#39;doi&#39;</span><span class="p">]</span><span class="si">}</span><span class="s2">&quot;</span>
+</span><span id="ADSLibrarian-55"><a href="#ADSLibrarian-55"><span class="linenos"> 55</span></a>        <span class="k">elif</span> <span class="s2">&quot;arxiv&quot;</span> <span class="ow">in</span> <span class="n">bibtex_entry</span><span class="p">:</span>
+</span><span id="ADSLibrarian-56"><a href="#ADSLibrarian-56"><span class="linenos"> 56</span></a>            <span class="n">identifier</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;arxiv:</span><span class="si">{</span><span class="n">bibtex_entry</span><span class="p">[</span><span class="s1">&#39;arxiv&#39;</span><span class="p">]</span><span class="si">}</span><span class="s2">&quot;</span>
+</span><span id="ADSLibrarian-57"><a href="#ADSLibrarian-57"><span class="linenos"> 57</span></a>        <span class="k">return</span> <span class="n">identifier</span>
+</span><span id="ADSLibrarian-58"><a href="#ADSLibrarian-58"><span class="linenos"> 58</span></a>
+</span><span id="ADSLibrarian-59"><a href="#ADSLibrarian-59"><span class="linenos"> 59</span></a>    <span class="k">def</span> <span class="nf">get_publications</span><span class="p">(</span>
+</span><span id="ADSLibrarian-60"><a href="#ADSLibrarian-60"><span class="linenos"> 60</span></a>        <span class="bp">self</span><span class="p">,</span>
+</span><span id="ADSLibrarian-61"><a href="#ADSLibrarian-61"><span class="linenos"> 61</span></a>        <span class="n">bibcodes</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span>
+</span><span id="ADSLibrarian-62"><a href="#ADSLibrarian-62"><span class="linenos"> 62</span></a>        <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+</span><span id="ADSLibrarian-63"><a href="#ADSLibrarian-63"><span class="linenos"> 63</span></a>        <span class="n">call_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">CALL_SIZE</span><span class="p">,</span>
+</span><span id="ADSLibrarian-64"><a href="#ADSLibrarian-64"><span class="linenos"> 64</span></a>        <span class="n">n_attempts_per_query</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">NUM_ATTEMPTS_PER_QUERY</span><span class="p">,</span>
+</span><span id="ADSLibrarian-65"><a href="#ADSLibrarian-65"><span class="linenos"> 65</span></a>        <span class="n">convert</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+</span><span id="ADSLibrarian-66"><a href="#ADSLibrarian-66"><span class="linenos"> 66</span></a>        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+</span><span id="ADSLibrarian-67"><a href="#ADSLibrarian-67"><span class="linenos"> 67</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="n">Publication</span><span class="p">]:</span>
+</span><span id="ADSLibrarian-68"><a href="#ADSLibrarian-68"><span class="linenos"> 68</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Use the NASA ADS python package, which calls the ADS API to retrieve publications.</span>
+</span><span id="ADSLibrarian-69"><a href="#ADSLibrarian-69"><span class="linenos"> 69</span></a>
+</span><span id="ADSLibrarian-70"><a href="#ADSLibrarian-70"><span class="linenos"> 70</span></a><span class="sd">        Args:</span>
+</span><span id="ADSLibrarian-71"><a href="#ADSLibrarian-71"><span class="linenos"> 71</span></a><span class="sd">            bibcodes: the str ids required for querying. While it is possible to use one of EXTERNAL_IDS to query, if ADS returns a paper at all, it will return a bibcode, so it is preferred to use bibcodes.</span>
 </span><span id="ADSLibrarian-72"><a href="#ADSLibrarian-72"><span class="linenos"> 72</span></a>
-</span><span id="ADSLibrarian-73"><a href="#ADSLibrarian-73"><span class="linenos"> 73</span></a><span class="sd">            call_size: maximum number of papers to call API for in one query; if less than `len(bibcodes)`, chunking will be performed.</span>
+</span><span id="ADSLibrarian-73"><a href="#ADSLibrarian-73"><span class="linenos"> 73</span></a><span class="sd">            n_attempts_per_query: Number of attempts to access the API per query. Useful when experiencing connection issues.</span>
 </span><span id="ADSLibrarian-74"><a href="#ADSLibrarian-74"><span class="linenos"> 74</span></a>
-</span><span id="ADSLibrarian-75"><a href="#ADSLibrarian-75"><span class="linenos"> 75</span></a><span class="sd">            convert: whether to convert each resulting ADS Article to sciterra Publications (True by default).</span>
+</span><span id="ADSLibrarian-75"><a href="#ADSLibrarian-75"><span class="linenos"> 75</span></a><span class="sd">            call_size: maximum number of papers to call API for in one query; if less than `len(bibcodes)`, chunking will be performed.</span>
 </span><span id="ADSLibrarian-76"><a href="#ADSLibrarian-76"><span class="linenos"> 76</span></a>
-</span><span id="ADSLibrarian-77"><a href="#ADSLibrarian-77"><span class="linenos"> 77</span></a><span class="sd">        Returns:</span>
-</span><span id="ADSLibrarian-78"><a href="#ADSLibrarian-78"><span class="linenos"> 78</span></a><span class="sd">            the list of publications (or Papers)</span>
-</span><span id="ADSLibrarian-79"><a href="#ADSLibrarian-79"><span class="linenos"> 79</span></a><span class="sd">        &quot;&quot;&quot;</span>
-</span><span id="ADSLibrarian-80"><a href="#ADSLibrarian-80"><span class="linenos"> 80</span></a>        <span class="n">bibcodes</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">bibcodes</span><span class="p">)</span>
-</span><span id="ADSLibrarian-81"><a href="#ADSLibrarian-81"><span class="linenos"> 81</span></a>
-</span><span id="ADSLibrarian-82"><a href="#ADSLibrarian-82"><span class="linenos"> 82</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">bibcodes</span><span class="p">:</span>
-</span><span id="ADSLibrarian-83"><a href="#ADSLibrarian-83"><span class="linenos"> 83</span></a>            <span class="k">return</span> <span class="p">[]</span>
-</span><span id="ADSLibrarian-84"><a href="#ADSLibrarian-84"><span class="linenos"> 84</span></a>
-</span><span id="ADSLibrarian-85"><a href="#ADSLibrarian-85"><span class="linenos"> 85</span></a>        <span class="n">total</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">bibcodes</span><span class="p">)</span>
-</span><span id="ADSLibrarian-86"><a href="#ADSLibrarian-86"><span class="linenos"> 86</span></a>        <span class="n">chunked_ids</span> <span class="o">=</span> <span class="n">chunk_ids</span><span class="p">(</span><span class="n">bibcodes</span><span class="p">,</span> <span class="n">call_size</span><span class="o">=</span><span class="n">call_size</span><span class="p">)</span>
-</span><span id="ADSLibrarian-87"><a href="#ADSLibrarian-87"><span class="linenos"> 87</span></a>
-</span><span id="ADSLibrarian-88"><a href="#ADSLibrarian-88"><span class="linenos"> 88</span></a>        <span class="k">if</span> <span class="kc">None</span> <span class="ow">in</span> <span class="n">bibcodes</span><span class="p">:</span>
-</span><span id="ADSLibrarian-89"><a href="#ADSLibrarian-89"><span class="linenos"> 89</span></a>            <span class="c1"># any Nones should have been handled by this point</span>
-</span><span id="ADSLibrarian-90"><a href="#ADSLibrarian-90"><span class="linenos"> 90</span></a>            <span class="k">raise</span> <span class="ne">Exception</span><span class="p">(</span><span class="s2">&quot;Passed `bibcodes` contains None.&quot;</span><span class="p">)</span>
-</span><span id="ADSLibrarian-91"><a href="#ADSLibrarian-91"><span class="linenos"> 91</span></a>
-</span><span id="ADSLibrarian-92"><a href="#ADSLibrarian-92"><span class="linenos"> 92</span></a>        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Querying ADS for </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">bibcodes</span><span class="p">)</span><span class="si">}</span><span class="s2"> total papers.&quot;</span><span class="p">)</span>
-</span><span id="ADSLibrarian-93"><a href="#ADSLibrarian-93"><span class="linenos"> 93</span></a>        <span class="n">papers</span> <span class="o">=</span> <span class="p">[]</span>
-</span><span id="ADSLibrarian-94"><a href="#ADSLibrarian-94"><span class="linenos"> 94</span></a>        <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="p">(</span><span class="n">desc</span><span class="o">=</span><span class="sa">f</span><span class="s2">&quot;progress using call_size=</span><span class="si">{</span><span class="n">call_size</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">,</span> <span class="n">total</span><span class="o">=</span><span class="n">total</span><span class="p">)</span>
-</span><span id="ADSLibrarian-95"><a href="#ADSLibrarian-95"><span class="linenos"> 95</span></a>        <span class="k">for</span> <span class="n">ids</span> <span class="ow">in</span> <span class="n">chunked_ids</span><span class="p">:</span>
-</span><span id="ADSLibrarian-96"><a href="#ADSLibrarian-96"><span class="linenos"> 96</span></a>
-</span><span id="ADSLibrarian-97"><a href="#ADSLibrarian-97"><span class="linenos"> 97</span></a>            <span class="nd">@keep_trying</span><span class="p">(</span>
-</span><span id="ADSLibrarian-98"><a href="#ADSLibrarian-98"><span class="linenos"> 98</span></a>                <span class="n">n_attempts</span><span class="o">=</span><span class="n">n_attempts_per_query</span><span class="p">,</span>
-</span><span id="ADSLibrarian-99"><a href="#ADSLibrarian-99"><span class="linenos"> 99</span></a>                <span class="n">allowed_exceptions</span><span class="o">=</span><span class="n">ALLOWED_EXCEPTIONS</span><span class="p">,</span>
-</span><span id="ADSLibrarian-100"><a href="#ADSLibrarian-100"><span class="linenos">100</span></a>                <span class="n">sleep_after_attempt</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span>
-</span><span id="ADSLibrarian-101"><a href="#ADSLibrarian-101"><span class="linenos">101</span></a>            <span class="p">)</span>
-</span><span id="ADSLibrarian-102"><a href="#ADSLibrarian-102"><span class="linenos">102</span></a>            <span class="k">def</span> <span class="nf">get_papers</span><span class="p">()</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="n">Article</span><span class="p">]:</span>
-</span><span id="ADSLibrarian-103"><a href="#ADSLibrarian-103"><span class="linenos">103</span></a>                <span class="k">return</span> <span class="p">[</span>
-</span><span id="ADSLibrarian-104"><a href="#ADSLibrarian-104"><span class="linenos">104</span></a>                    <span class="nb">list</span><span class="p">(</span>
-</span><span id="ADSLibrarian-105"><a href="#ADSLibrarian-105"><span class="linenos">105</span></a>                        <span class="n">ads</span><span class="o">.</span><span class="n">SearchQuery</span><span class="p">(</span>
-</span><span id="ADSLibrarian-106"><a href="#ADSLibrarian-106"><span class="linenos">106</span></a>                            <span class="n">query_dict</span><span class="o">=</span><span class="p">{</span>
-</span><span id="ADSLibrarian-107"><a href="#ADSLibrarian-107"><span class="linenos">107</span></a>                                <span class="s2">&quot;q&quot;</span><span class="p">:</span> <span class="n">query</span><span class="p">,</span>
-</span><span id="ADSLibrarian-108"><a href="#ADSLibrarian-108"><span class="linenos">108</span></a>                                <span class="s2">&quot;fl&quot;</span><span class="p">:</span> <span class="n">QUERY_FIELDS</span><span class="p">,</span>
-</span><span id="ADSLibrarian-109"><a href="#ADSLibrarian-109"><span class="linenos">109</span></a>                            <span class="p">}</span>
-</span><span id="ADSLibrarian-110"><a href="#ADSLibrarian-110"><span class="linenos">110</span></a>                        <span class="p">)</span>
-</span><span id="ADSLibrarian-111"><a href="#ADSLibrarian-111"><span class="linenos">111</span></a>                    <span class="p">)[</span>
-</span><span id="ADSLibrarian-112"><a href="#ADSLibrarian-112"><span class="linenos">112</span></a>                        <span class="mi">0</span>
-</span><span id="ADSLibrarian-113"><a href="#ADSLibrarian-113"><span class="linenos">113</span></a>                    <span class="p">]</span>  <span class="c1"># retrieve from generator</span>
-</span><span id="ADSLibrarian-114"><a href="#ADSLibrarian-114"><span class="linenos">114</span></a>                    <span class="k">for</span> <span class="n">query</span> <span class="ow">in</span> <span class="n">ids</span>
-</span><span id="ADSLibrarian-115"><a href="#ADSLibrarian-115"><span class="linenos">115</span></a>                <span class="p">]</span>
-</span><span id="ADSLibrarian-116"><a href="#ADSLibrarian-116"><span class="linenos">116</span></a>
-</span><span id="ADSLibrarian-117"><a href="#ADSLibrarian-117"><span class="linenos">117</span></a>            <span class="n">papers</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">get_papers</span><span class="p">())</span>
-</span><span id="ADSLibrarian-118"><a href="#ADSLibrarian-118"><span class="linenos">118</span></a>            <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">ids</span><span class="p">))</span>
-</span><span id="ADSLibrarian-119"><a href="#ADSLibrarian-119"><span class="linenos">119</span></a>
-</span><span id="ADSLibrarian-120"><a href="#ADSLibrarian-120"><span class="linenos">120</span></a>        <span class="n">pbar</span><span class="o">.</span><span class="n">close</span><span class="p">()</span>
+</span><span id="ADSLibrarian-77"><a href="#ADSLibrarian-77"><span class="linenos"> 77</span></a><span class="sd">            convert: whether to convert each resulting ADS Article to sciterra Publications (True by default).</span>
+</span><span id="ADSLibrarian-78"><a href="#ADSLibrarian-78"><span class="linenos"> 78</span></a>
+</span><span id="ADSLibrarian-79"><a href="#ADSLibrarian-79"><span class="linenos"> 79</span></a><span class="sd">        Returns:</span>
+</span><span id="ADSLibrarian-80"><a href="#ADSLibrarian-80"><span class="linenos"> 80</span></a><span class="sd">            the list of publications (or Papers)</span>
+</span><span id="ADSLibrarian-81"><a href="#ADSLibrarian-81"><span class="linenos"> 81</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="ADSLibrarian-82"><a href="#ADSLibrarian-82"><span class="linenos"> 82</span></a>        <span class="n">bibcodes</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">bibcodes</span><span class="p">)</span>
+</span><span id="ADSLibrarian-83"><a href="#ADSLibrarian-83"><span class="linenos"> 83</span></a>
+</span><span id="ADSLibrarian-84"><a href="#ADSLibrarian-84"><span class="linenos"> 84</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">bibcodes</span><span class="p">:</span>
+</span><span id="ADSLibrarian-85"><a href="#ADSLibrarian-85"><span class="linenos"> 85</span></a>            <span class="k">return</span> <span class="p">[]</span>
+</span><span id="ADSLibrarian-86"><a href="#ADSLibrarian-86"><span class="linenos"> 86</span></a>
+</span><span id="ADSLibrarian-87"><a href="#ADSLibrarian-87"><span class="linenos"> 87</span></a>        <span class="n">total</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">bibcodes</span><span class="p">)</span>
+</span><span id="ADSLibrarian-88"><a href="#ADSLibrarian-88"><span class="linenos"> 88</span></a>        <span class="n">chunked_ids</span> <span class="o">=</span> <span class="n">chunk_ids</span><span class="p">(</span><span class="n">bibcodes</span><span class="p">,</span> <span class="n">call_size</span><span class="o">=</span><span class="n">call_size</span><span class="p">)</span>
+</span><span id="ADSLibrarian-89"><a href="#ADSLibrarian-89"><span class="linenos"> 89</span></a>
+</span><span id="ADSLibrarian-90"><a href="#ADSLibrarian-90"><span class="linenos"> 90</span></a>        <span class="k">if</span> <span class="kc">None</span> <span class="ow">in</span> <span class="n">bibcodes</span><span class="p">:</span>
+</span><span id="ADSLibrarian-91"><a href="#ADSLibrarian-91"><span class="linenos"> 91</span></a>            <span class="c1"># any Nones should have been handled by this point</span>
+</span><span id="ADSLibrarian-92"><a href="#ADSLibrarian-92"><span class="linenos"> 92</span></a>            <span class="k">raise</span> <span class="ne">Exception</span><span class="p">(</span><span class="s2">&quot;Passed `bibcodes` contains None.&quot;</span><span class="p">)</span>
+</span><span id="ADSLibrarian-93"><a href="#ADSLibrarian-93"><span class="linenos"> 93</span></a>
+</span><span id="ADSLibrarian-94"><a href="#ADSLibrarian-94"><span class="linenos"> 94</span></a>        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Querying ADS for </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">bibcodes</span><span class="p">)</span><span class="si">}</span><span class="s2"> total papers.&quot;</span><span class="p">)</span>
+</span><span id="ADSLibrarian-95"><a href="#ADSLibrarian-95"><span class="linenos"> 95</span></a>        <span class="n">papers</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="ADSLibrarian-96"><a href="#ADSLibrarian-96"><span class="linenos"> 96</span></a>        <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="p">(</span><span class="n">desc</span><span class="o">=</span><span class="sa">f</span><span class="s2">&quot;progress using call_size=</span><span class="si">{</span><span class="n">call_size</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">,</span> <span class="n">total</span><span class="o">=</span><span class="n">total</span><span class="p">)</span>
+</span><span id="ADSLibrarian-97"><a href="#ADSLibrarian-97"><span class="linenos"> 97</span></a>        <span class="k">for</span> <span class="n">ids</span> <span class="ow">in</span> <span class="n">chunked_ids</span><span class="p">:</span>
+</span><span id="ADSLibrarian-98"><a href="#ADSLibrarian-98"><span class="linenos"> 98</span></a>
+</span><span id="ADSLibrarian-99"><a href="#ADSLibrarian-99"><span class="linenos"> 99</span></a>            <span class="nd">@keep_trying</span><span class="p">(</span>
+</span><span id="ADSLibrarian-100"><a href="#ADSLibrarian-100"><span class="linenos">100</span></a>                <span class="n">n_attempts</span><span class="o">=</span><span class="n">n_attempts_per_query</span><span class="p">,</span>
+</span><span id="ADSLibrarian-101"><a href="#ADSLibrarian-101"><span class="linenos">101</span></a>                <span class="n">allowed_exceptions</span><span class="o">=</span><span class="n">ALLOWED_EXCEPTIONS</span><span class="p">,</span>
+</span><span id="ADSLibrarian-102"><a href="#ADSLibrarian-102"><span class="linenos">102</span></a>                <span class="n">sleep_after_attempt</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span>
+</span><span id="ADSLibrarian-103"><a href="#ADSLibrarian-103"><span class="linenos">103</span></a>            <span class="p">)</span>
+</span><span id="ADSLibrarian-104"><a href="#ADSLibrarian-104"><span class="linenos">104</span></a>            <span class="k">def</span> <span class="nf">get_papers</span><span class="p">()</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="n">Article</span><span class="p">]:</span>
+</span><span id="ADSLibrarian-105"><a href="#ADSLibrarian-105"><span class="linenos">105</span></a>                <span class="k">return</span> <span class="p">[</span>
+</span><span id="ADSLibrarian-106"><a href="#ADSLibrarian-106"><span class="linenos">106</span></a>                    <span class="nb">list</span><span class="p">(</span>
+</span><span id="ADSLibrarian-107"><a href="#ADSLibrarian-107"><span class="linenos">107</span></a>                        <span class="n">ads</span><span class="o">.</span><span class="n">SearchQuery</span><span class="p">(</span>
+</span><span id="ADSLibrarian-108"><a href="#ADSLibrarian-108"><span class="linenos">108</span></a>                            <span class="n">query_dict</span><span class="o">=</span><span class="p">{</span>
+</span><span id="ADSLibrarian-109"><a href="#ADSLibrarian-109"><span class="linenos">109</span></a>                                <span class="s2">&quot;q&quot;</span><span class="p">:</span> <span class="n">query</span><span class="p">,</span>
+</span><span id="ADSLibrarian-110"><a href="#ADSLibrarian-110"><span class="linenos">110</span></a>                                <span class="s2">&quot;fl&quot;</span><span class="p">:</span> <span class="n">QUERY_FIELDS</span><span class="p">,</span>
+</span><span id="ADSLibrarian-111"><a href="#ADSLibrarian-111"><span class="linenos">111</span></a>                            <span class="p">}</span>
+</span><span id="ADSLibrarian-112"><a href="#ADSLibrarian-112"><span class="linenos">112</span></a>                        <span class="p">)</span>
+</span><span id="ADSLibrarian-113"><a href="#ADSLibrarian-113"><span class="linenos">113</span></a>                    <span class="p">)[</span>
+</span><span id="ADSLibrarian-114"><a href="#ADSLibrarian-114"><span class="linenos">114</span></a>                        <span class="mi">0</span>  <span class="c1"># screw black, this is ugly</span>
+</span><span id="ADSLibrarian-115"><a href="#ADSLibrarian-115"><span class="linenos">115</span></a>                    <span class="p">]</span>  <span class="c1"># retrieve from generator</span>
+</span><span id="ADSLibrarian-116"><a href="#ADSLibrarian-116"><span class="linenos">116</span></a>                    <span class="k">for</span> <span class="n">query</span> <span class="ow">in</span> <span class="n">ids</span>
+</span><span id="ADSLibrarian-117"><a href="#ADSLibrarian-117"><span class="linenos">117</span></a>                <span class="p">]</span>
+</span><span id="ADSLibrarian-118"><a href="#ADSLibrarian-118"><span class="linenos">118</span></a>
+</span><span id="ADSLibrarian-119"><a href="#ADSLibrarian-119"><span class="linenos">119</span></a>            <span class="n">papers</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">get_papers</span><span class="p">())</span>
+</span><span id="ADSLibrarian-120"><a href="#ADSLibrarian-120"><span class="linenos">120</span></a>            <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">ids</span><span class="p">))</span>
 </span><span id="ADSLibrarian-121"><a href="#ADSLibrarian-121"><span class="linenos">121</span></a>
-</span><span id="ADSLibrarian-122"><a href="#ADSLibrarian-122"><span class="linenos">122</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">convert</span><span class="p">:</span>
-</span><span id="ADSLibrarian-123"><a href="#ADSLibrarian-123"><span class="linenos">123</span></a>            <span class="k">return</span> <span class="n">papers</span>
-</span><span id="ADSLibrarian-124"><a href="#ADSLibrarian-124"><span class="linenos">124</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">convert_publications</span><span class="p">(</span>
-</span><span id="ADSLibrarian-125"><a href="#ADSLibrarian-125"><span class="linenos">125</span></a>            <span class="n">papers</span><span class="p">,</span>
-</span><span id="ADSLibrarian-126"><a href="#ADSLibrarian-126"><span class="linenos">126</span></a>            <span class="o">*</span><span class="n">args</span><span class="p">,</span>
-</span><span id="ADSLibrarian-127"><a href="#ADSLibrarian-127"><span class="linenos">127</span></a>            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
-</span><span id="ADSLibrarian-128"><a href="#ADSLibrarian-128"><span class="linenos">128</span></a>        <span class="p">)</span>
-</span><span id="ADSLibrarian-129"><a href="#ADSLibrarian-129"><span class="linenos">129</span></a>
-</span><span id="ADSLibrarian-130"><a href="#ADSLibrarian-130"><span class="linenos">130</span></a>    <span class="k">def</span> <span class="nf">convert_publication</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">article</span><span class="p">:</span> <span class="n">Article</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Publication</span><span class="p">:</span>
-</span><span id="ADSLibrarian-131"><a href="#ADSLibrarian-131"><span class="linenos">131</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Convert a ADS Article object to a sciterra.publication.Publication.&quot;&quot;&quot;</span>
-</span><span id="ADSLibrarian-132"><a href="#ADSLibrarian-132"><span class="linenos">132</span></a>        <span class="k">if</span> <span class="n">article</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="ADSLibrarian-133"><a href="#ADSLibrarian-133"><span class="linenos">133</span></a>            <span class="k">return</span>
-</span><span id="ADSLibrarian-134"><a href="#ADSLibrarian-134"><span class="linenos">134</span></a>
-</span><span id="ADSLibrarian-135"><a href="#ADSLibrarian-135"><span class="linenos">135</span></a>        <span class="c1"># to be consistent with identifiers (e.g., to avoid storing the same publication twice), we always use the bibcode.</span>
-</span><span id="ADSLibrarian-136"><a href="#ADSLibrarian-136"><span class="linenos">136</span></a>        <span class="n">identifier</span> <span class="o">=</span> <span class="n">article</span><span class="o">.</span><span class="n">bibcode</span>
-</span><span id="ADSLibrarian-137"><a href="#ADSLibrarian-137"><span class="linenos">137</span></a>
-</span><span id="ADSLibrarian-138"><a href="#ADSLibrarian-138"><span class="linenos">138</span></a>        <span class="k">def</span> <span class="nf">process_date</span><span class="p">(</span><span class="n">date_str</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
-</span><span id="ADSLibrarian-139"><a href="#ADSLibrarian-139"><span class="linenos">139</span></a>            <span class="c1"># sometimes there is extra data</span>
-</span><span id="ADSLibrarian-140"><a href="#ADSLibrarian-140"><span class="linenos">140</span></a>            <span class="n">date_str</span> <span class="o">=</span> <span class="n">date_str</span><span class="p">[:</span><span class="mi">10</span><span class="p">]</span>  <span class="c1"># e.g. yyyy-mm-dd</span>
-</span><span id="ADSLibrarian-141"><a href="#ADSLibrarian-141"><span class="linenos">141</span></a>            <span class="c1"># sometimes ads has 00 for month or day</span>
-</span><span id="ADSLibrarian-142"><a href="#ADSLibrarian-142"><span class="linenos">142</span></a>            <span class="k">if</span> <span class="n">date_str</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">:]</span> <span class="o">==</span> <span class="s2">&quot;00&quot;</span><span class="p">:</span>
-</span><span id="ADSLibrarian-143"><a href="#ADSLibrarian-143"><span class="linenos">143</span></a>                <span class="n">date_str</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">:]</span> <span class="o">=</span> <span class="s2">&quot;01&quot;</span>
-</span><span id="ADSLibrarian-144"><a href="#ADSLibrarian-144"><span class="linenos">144</span></a>            <span class="k">if</span> <span class="n">date_str</span><span class="p">[</span><span class="o">-</span><span class="mi">5</span><span class="p">:</span><span class="o">-</span><span class="mi">3</span><span class="p">]</span> <span class="o">==</span> <span class="s2">&quot;00&quot;</span><span class="p">:</span>
-</span><span id="ADSLibrarian-145"><a href="#ADSLibrarian-145"><span class="linenos">145</span></a>                <span class="n">date_str</span><span class="p">[</span><span class="o">-</span><span class="mi">5</span><span class="p">:</span><span class="o">-</span><span class="mi">3</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;01&quot;</span>
-</span><span id="ADSLibrarian-146"><a href="#ADSLibrarian-146"><span class="linenos">146</span></a>            <span class="n">date_</span> <span class="o">=</span> <span class="n">datetime</span><span class="o">.</span><span class="n">strptime</span><span class="p">(</span><span class="n">date_str</span><span class="p">,</span> <span class="s2">&quot;%Y-%m-</span><span class="si">%d</span><span class="s2">&quot;</span><span class="p">)</span>
-</span><span id="ADSLibrarian-147"><a href="#ADSLibrarian-147"><span class="linenos">147</span></a>            <span class="k">return</span> <span class="n">date_</span>
-</span><span id="ADSLibrarian-148"><a href="#ADSLibrarian-148"><span class="linenos">148</span></a>
-</span><span id="ADSLibrarian-149"><a href="#ADSLibrarian-149"><span class="linenos">149</span></a>        <span class="c1"># Parse date from datetime or year</span>
-</span><span id="ADSLibrarian-150"><a href="#ADSLibrarian-150"><span class="linenos">150</span></a>        <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">article</span><span class="p">,</span> <span class="s2">&quot;entry_date&quot;</span><span class="p">):</span>
-</span><span id="ADSLibrarian-151"><a href="#ADSLibrarian-151"><span class="linenos">151</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="n">process_date</span><span class="p">(</span><span class="n">article</span><span class="o">.</span><span class="n">entry_date</span><span class="p">)</span>
-</span><span id="ADSLibrarian-152"><a href="#ADSLibrarian-152"><span class="linenos">152</span></a>        <span class="k">elif</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">article</span><span class="p">,</span> <span class="s2">&quot;pubdate&quot;</span><span class="p">):</span>
-</span><span id="ADSLibrarian-153"><a href="#ADSLibrarian-153"><span class="linenos">153</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="n">process_date</span><span class="p">(</span><span class="n">article</span><span class="o">.</span><span class="n">pubdate</span><span class="p">)</span>
-</span><span id="ADSLibrarian-154"><a href="#ADSLibrarian-154"><span class="linenos">154</span></a>        <span class="k">elif</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">article</span><span class="p">,</span> <span class="s2">&quot;year&quot;</span><span class="p">):</span>
-</span><span id="ADSLibrarian-155"><a href="#ADSLibrarian-155"><span class="linenos">155</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="n">date</span><span class="p">(</span><span class="n">article</span><span class="o">.</span><span class="n">year</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
-</span><span id="ADSLibrarian-156"><a href="#ADSLibrarian-156"><span class="linenos">156</span></a>        <span class="k">else</span><span class="p">:</span>
-</span><span id="ADSLibrarian-157"><a href="#ADSLibrarian-157"><span class="linenos">157</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="kc">None</span>
-</span><span id="ADSLibrarian-158"><a href="#ADSLibrarian-158"><span class="linenos">158</span></a>
-</span><span id="ADSLibrarian-159"><a href="#ADSLibrarian-159"><span class="linenos">159</span></a>        <span class="c1"># get doi from Article identifiers</span>
-</span><span id="ADSLibrarian-160"><a href="#ADSLibrarian-160"><span class="linenos">160</span></a>        <span class="c1"># warning: ADS tracks two DOIs: for official and arxiv</span>
-</span><span id="ADSLibrarian-161"><a href="#ADSLibrarian-161"><span class="linenos">161</span></a>        <span class="n">doi</span> <span class="o">=</span> <span class="kc">None</span>
-</span><span id="ADSLibrarian-162"><a href="#ADSLibrarian-162"><span class="linenos">162</span></a>        <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">article</span><span class="p">,</span> <span class="s2">&quot;identifier&quot;</span><span class="p">):</span>
-</span><span id="ADSLibrarian-163"><a href="#ADSLibrarian-163"><span class="linenos">163</span></a>            <span class="n">dois</span> <span class="o">=</span> <span class="p">[</span><span class="n">item</span> <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">article</span><span class="o">.</span><span class="n">identifier</span> <span class="k">if</span> <span class="n">item</span><span class="p">[:</span><span class="mi">3</span><span class="p">]</span> <span class="o">==</span> <span class="s2">&quot;10.&quot;</span><span class="p">]</span>
-</span><span id="ADSLibrarian-164"><a href="#ADSLibrarian-164"><span class="linenos">164</span></a>            <span class="k">if</span> <span class="n">dois</span><span class="p">:</span>
-</span><span id="ADSLibrarian-165"><a href="#ADSLibrarian-165"><span class="linenos">165</span></a>                <span class="n">doi</span> <span class="o">=</span> <span class="n">dois</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
-</span><span id="ADSLibrarian-166"><a href="#ADSLibrarian-166"><span class="linenos">166</span></a>
-</span><span id="ADSLibrarian-167"><a href="#ADSLibrarian-167"><span class="linenos">167</span></a>        <span class="n">citations</span> <span class="o">=</span> <span class="n">article</span><span class="o">.</span><span class="n">citation</span>
-</span><span id="ADSLibrarian-168"><a href="#ADSLibrarian-168"><span class="linenos">168</span></a>        <span class="n">references</span> <span class="o">=</span> <span class="n">article</span><span class="o">.</span><span class="n">reference</span>
-</span><span id="ADSLibrarian-169"><a href="#ADSLibrarian-169"><span class="linenos">169</span></a>
-</span><span id="ADSLibrarian-170"><a href="#ADSLibrarian-170"><span class="linenos">170</span></a>        <span class="n">citation_count</span> <span class="o">=</span> <span class="n">article</span><span class="o">.</span><span class="n">citation_count</span>
-</span><span id="ADSLibrarian-171"><a href="#ADSLibrarian-171"><span class="linenos">171</span></a>        <span class="k">if</span> <span class="n">citation_count</span> <span class="o">!=</span> <span class="nb">len</span><span class="p">(</span><span class="n">citations</span><span class="p">):</span>
-</span><span id="ADSLibrarian-172"><a href="#ADSLibrarian-172"><span class="linenos">172</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
-</span><span id="ADSLibrarian-173"><a href="#ADSLibrarian-173"><span class="linenos">173</span></a>                <span class="sa">f</span><span class="s2">&quot;The length of the citations list (</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">citations</span><span class="p">)</span><span class="si">}</span><span class="s2">) is different from citation_count (</span><span class="si">{</span><span class="n">citation_count</span><span class="si">}</span><span class="s2">)&quot;</span>
-</span><span id="ADSLibrarian-174"><a href="#ADSLibrarian-174"><span class="linenos">174</span></a>            <span class="p">)</span>
-</span><span id="ADSLibrarian-175"><a href="#ADSLibrarian-175"><span class="linenos">175</span></a>        <span class="k">if</span> <span class="s2">&quot;infer_citation_count&quot;</span> <span class="ow">in</span> <span class="n">kwargs</span> <span class="ow">and</span> <span class="n">kwargs</span><span class="p">[</span><span class="s2">&quot;infer_citation_count&quot;</span><span class="p">]:</span>
-</span><span id="ADSLibrarian-176"><a href="#ADSLibrarian-176"><span class="linenos">176</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="s2">&quot;Setting citation_count = {len(citations)}.&quot;</span><span class="p">)</span>
-</span><span id="ADSLibrarian-177"><a href="#ADSLibrarian-177"><span class="linenos">177</span></a>            <span class="n">citation_count</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">citations</span><span class="p">)</span>
-</span><span id="ADSLibrarian-178"><a href="#ADSLibrarian-178"><span class="linenos">178</span></a>
-</span><span id="ADSLibrarian-179"><a href="#ADSLibrarian-179"><span class="linenos">179</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="p">{</span>
-</span><span id="ADSLibrarian-180"><a href="#ADSLibrarian-180"><span class="linenos">180</span></a>            <span class="c1"># primary fields</span>
-</span><span id="ADSLibrarian-181"><a href="#ADSLibrarian-181"><span class="linenos">181</span></a>            <span class="s2">&quot;identifier&quot;</span><span class="p">:</span> <span class="n">identifier</span><span class="p">,</span>
-</span><span id="ADSLibrarian-182"><a href="#ADSLibrarian-182"><span class="linenos">182</span></a>            <span class="s2">&quot;abstract&quot;</span><span class="p">:</span> <span class="n">article</span><span class="o">.</span><span class="n">abstract</span><span class="p">,</span>
-</span><span id="ADSLibrarian-183"><a href="#ADSLibrarian-183"><span class="linenos">183</span></a>            <span class="s2">&quot;publication_date&quot;</span><span class="p">:</span> <span class="n">publication_date</span><span class="p">,</span>
-</span><span id="ADSLibrarian-184"><a href="#ADSLibrarian-184"><span class="linenos">184</span></a>            <span class="s2">&quot;citations&quot;</span><span class="p">:</span> <span class="n">citations</span><span class="p">,</span>
-</span><span id="ADSLibrarian-185"><a href="#ADSLibrarian-185"><span class="linenos">185</span></a>            <span class="s2">&quot;references&quot;</span><span class="p">:</span> <span class="n">references</span><span class="p">,</span>
-</span><span id="ADSLibrarian-186"><a href="#ADSLibrarian-186"><span class="linenos">186</span></a>            <span class="s2">&quot;citation_count&quot;</span><span class="p">:</span> <span class="n">citation_count</span><span class="p">,</span>
-</span><span id="ADSLibrarian-187"><a href="#ADSLibrarian-187"><span class="linenos">187</span></a>            <span class="c1"># additional fields</span>
-</span><span id="ADSLibrarian-188"><a href="#ADSLibrarian-188"><span class="linenos">188</span></a>            <span class="s2">&quot;doi&quot;</span><span class="p">:</span> <span class="n">doi</span><span class="p">,</span>
-</span><span id="ADSLibrarian-189"><a href="#ADSLibrarian-189"><span class="linenos">189</span></a>            <span class="s2">&quot;title&quot;</span><span class="p">:</span> <span class="n">article</span><span class="o">.</span><span class="n">title</span><span class="p">,</span>
-</span><span id="ADSLibrarian-190"><a href="#ADSLibrarian-190"><span class="linenos">190</span></a>        <span class="p">}</span>
-</span><span id="ADSLibrarian-191"><a href="#ADSLibrarian-191"><span class="linenos">191</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="p">{</span><span class="n">k</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">data</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span> <span class="n">v</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">}</span>
-</span><span id="ADSLibrarian-192"><a href="#ADSLibrarian-192"><span class="linenos">192</span></a>
-</span><span id="ADSLibrarian-193"><a href="#ADSLibrarian-193"><span class="linenos">193</span></a>        <span class="k">return</span> <span class="n">Publication</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
+</span><span id="ADSLibrarian-122"><a href="#ADSLibrarian-122"><span class="linenos">122</span></a>        <span class="n">pbar</span><span class="o">.</span><span class="n">close</span><span class="p">()</span>
+</span><span id="ADSLibrarian-123"><a href="#ADSLibrarian-123"><span class="linenos">123</span></a>
+</span><span id="ADSLibrarian-124"><a href="#ADSLibrarian-124"><span class="linenos">124</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">convert</span><span class="p">:</span>
+</span><span id="ADSLibrarian-125"><a href="#ADSLibrarian-125"><span class="linenos">125</span></a>            <span class="k">return</span> <span class="n">papers</span>
+</span><span id="ADSLibrarian-126"><a href="#ADSLibrarian-126"><span class="linenos">126</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">convert_publications</span><span class="p">(</span>
+</span><span id="ADSLibrarian-127"><a href="#ADSLibrarian-127"><span class="linenos">127</span></a>            <span class="n">papers</span><span class="p">,</span>
+</span><span id="ADSLibrarian-128"><a href="#ADSLibrarian-128"><span class="linenos">128</span></a>            <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+</span><span id="ADSLibrarian-129"><a href="#ADSLibrarian-129"><span class="linenos">129</span></a>            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+</span><span id="ADSLibrarian-130"><a href="#ADSLibrarian-130"><span class="linenos">130</span></a>        <span class="p">)</span>
+</span><span id="ADSLibrarian-131"><a href="#ADSLibrarian-131"><span class="linenos">131</span></a>
+</span><span id="ADSLibrarian-132"><a href="#ADSLibrarian-132"><span class="linenos">132</span></a>    <span class="k">def</span> <span class="nf">convert_publication</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">article</span><span class="p">:</span> <span class="n">Article</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Publication</span><span class="p">:</span>
+</span><span id="ADSLibrarian-133"><a href="#ADSLibrarian-133"><span class="linenos">133</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Convert a ADS Article object to a sciterra.publication.Publication.&quot;&quot;&quot;</span>
+</span><span id="ADSLibrarian-134"><a href="#ADSLibrarian-134"><span class="linenos">134</span></a>        <span class="k">if</span> <span class="n">article</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="ADSLibrarian-135"><a href="#ADSLibrarian-135"><span class="linenos">135</span></a>            <span class="k">return</span>
+</span><span id="ADSLibrarian-136"><a href="#ADSLibrarian-136"><span class="linenos">136</span></a>
+</span><span id="ADSLibrarian-137"><a href="#ADSLibrarian-137"><span class="linenos">137</span></a>        <span class="n">verbose</span> <span class="o">=</span> <span class="n">get_verbose</span><span class="p">(</span><span class="n">kwargs</span><span class="p">)</span>
+</span><span id="ADSLibrarian-138"><a href="#ADSLibrarian-138"><span class="linenos">138</span></a>
+</span><span id="ADSLibrarian-139"><a href="#ADSLibrarian-139"><span class="linenos">139</span></a>        <span class="c1"># to be consistent with identifiers (e.g., to avoid storing the same publication twice), we always use the bibcode.</span>
+</span><span id="ADSLibrarian-140"><a href="#ADSLibrarian-140"><span class="linenos">140</span></a>        <span class="n">identifier</span> <span class="o">=</span> <span class="n">article</span><span class="o">.</span><span class="n">bibcode</span>
+</span><span id="ADSLibrarian-141"><a href="#ADSLibrarian-141"><span class="linenos">141</span></a>
+</span><span id="ADSLibrarian-142"><a href="#ADSLibrarian-142"><span class="linenos">142</span></a>        <span class="k">def</span> <span class="nf">process_date</span><span class="p">(</span><span class="n">date_str</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+</span><span id="ADSLibrarian-143"><a href="#ADSLibrarian-143"><span class="linenos">143</span></a>            <span class="c1"># sometimes there is extra data</span>
+</span><span id="ADSLibrarian-144"><a href="#ADSLibrarian-144"><span class="linenos">144</span></a>            <span class="n">date_str</span> <span class="o">=</span> <span class="n">date_str</span><span class="p">[:</span><span class="mi">10</span><span class="p">]</span>  <span class="c1"># e.g. yyyy-mm-dd</span>
+</span><span id="ADSLibrarian-145"><a href="#ADSLibrarian-145"><span class="linenos">145</span></a>            <span class="c1"># sometimes ads has 00 for month or day</span>
+</span><span id="ADSLibrarian-146"><a href="#ADSLibrarian-146"><span class="linenos">146</span></a>            <span class="k">if</span> <span class="n">date_str</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">:]</span> <span class="o">==</span> <span class="s2">&quot;00&quot;</span><span class="p">:</span>
+</span><span id="ADSLibrarian-147"><a href="#ADSLibrarian-147"><span class="linenos">147</span></a>                <span class="n">date_str</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">:]</span> <span class="o">=</span> <span class="s2">&quot;01&quot;</span>
+</span><span id="ADSLibrarian-148"><a href="#ADSLibrarian-148"><span class="linenos">148</span></a>            <span class="k">if</span> <span class="n">date_str</span><span class="p">[</span><span class="o">-</span><span class="mi">5</span><span class="p">:</span><span class="o">-</span><span class="mi">3</span><span class="p">]</span> <span class="o">==</span> <span class="s2">&quot;00&quot;</span><span class="p">:</span>
+</span><span id="ADSLibrarian-149"><a href="#ADSLibrarian-149"><span class="linenos">149</span></a>                <span class="n">date_str</span><span class="p">[</span><span class="o">-</span><span class="mi">5</span><span class="p">:</span><span class="o">-</span><span class="mi">3</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;01&quot;</span>
+</span><span id="ADSLibrarian-150"><a href="#ADSLibrarian-150"><span class="linenos">150</span></a>            <span class="n">date_</span> <span class="o">=</span> <span class="n">datetime</span><span class="o">.</span><span class="n">strptime</span><span class="p">(</span><span class="n">date_str</span><span class="p">,</span> <span class="s2">&quot;%Y-%m-</span><span class="si">%d</span><span class="s2">&quot;</span><span class="p">)</span>
+</span><span id="ADSLibrarian-151"><a href="#ADSLibrarian-151"><span class="linenos">151</span></a>            <span class="k">return</span> <span class="n">date_</span>
+</span><span id="ADSLibrarian-152"><a href="#ADSLibrarian-152"><span class="linenos">152</span></a>
+</span><span id="ADSLibrarian-153"><a href="#ADSLibrarian-153"><span class="linenos">153</span></a>        <span class="c1"># Parse date from datetime or year</span>
+</span><span id="ADSLibrarian-154"><a href="#ADSLibrarian-154"><span class="linenos">154</span></a>        <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">article</span><span class="p">,</span> <span class="s2">&quot;entry_date&quot;</span><span class="p">):</span>
+</span><span id="ADSLibrarian-155"><a href="#ADSLibrarian-155"><span class="linenos">155</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="n">process_date</span><span class="p">(</span><span class="n">article</span><span class="o">.</span><span class="n">entry_date</span><span class="p">)</span>
+</span><span id="ADSLibrarian-156"><a href="#ADSLibrarian-156"><span class="linenos">156</span></a>        <span class="k">elif</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">article</span><span class="p">,</span> <span class="s2">&quot;pubdate&quot;</span><span class="p">):</span>
+</span><span id="ADSLibrarian-157"><a href="#ADSLibrarian-157"><span class="linenos">157</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="n">process_date</span><span class="p">(</span><span class="n">article</span><span class="o">.</span><span class="n">pubdate</span><span class="p">)</span>
+</span><span id="ADSLibrarian-158"><a href="#ADSLibrarian-158"><span class="linenos">158</span></a>        <span class="k">elif</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">article</span><span class="p">,</span> <span class="s2">&quot;year&quot;</span><span class="p">):</span>
+</span><span id="ADSLibrarian-159"><a href="#ADSLibrarian-159"><span class="linenos">159</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="n">date</span><span class="p">(</span><span class="n">article</span><span class="o">.</span><span class="n">year</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
+</span><span id="ADSLibrarian-160"><a href="#ADSLibrarian-160"><span class="linenos">160</span></a>        <span class="k">else</span><span class="p">:</span>
+</span><span id="ADSLibrarian-161"><a href="#ADSLibrarian-161"><span class="linenos">161</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="kc">None</span>
+</span><span id="ADSLibrarian-162"><a href="#ADSLibrarian-162"><span class="linenos">162</span></a>
+</span><span id="ADSLibrarian-163"><a href="#ADSLibrarian-163"><span class="linenos">163</span></a>        <span class="c1"># get doi from Article identifiers</span>
+</span><span id="ADSLibrarian-164"><a href="#ADSLibrarian-164"><span class="linenos">164</span></a>        <span class="c1"># warning: ADS tracks two DOIs: for official and arxiv</span>
+</span><span id="ADSLibrarian-165"><a href="#ADSLibrarian-165"><span class="linenos">165</span></a>        <span class="n">doi</span> <span class="o">=</span> <span class="kc">None</span>
+</span><span id="ADSLibrarian-166"><a href="#ADSLibrarian-166"><span class="linenos">166</span></a>        <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">article</span><span class="p">,</span> <span class="s2">&quot;identifier&quot;</span><span class="p">):</span>
+</span><span id="ADSLibrarian-167"><a href="#ADSLibrarian-167"><span class="linenos">167</span></a>            <span class="n">dois</span> <span class="o">=</span> <span class="p">[</span><span class="n">item</span> <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">article</span><span class="o">.</span><span class="n">identifier</span> <span class="k">if</span> <span class="n">item</span><span class="p">[:</span><span class="mi">3</span><span class="p">]</span> <span class="o">==</span> <span class="s2">&quot;10.&quot;</span><span class="p">]</span>
+</span><span id="ADSLibrarian-168"><a href="#ADSLibrarian-168"><span class="linenos">168</span></a>            <span class="k">if</span> <span class="n">dois</span><span class="p">:</span>
+</span><span id="ADSLibrarian-169"><a href="#ADSLibrarian-169"><span class="linenos">169</span></a>                <span class="n">doi</span> <span class="o">=</span> <span class="n">dois</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+</span><span id="ADSLibrarian-170"><a href="#ADSLibrarian-170"><span class="linenos">170</span></a>
+</span><span id="ADSLibrarian-171"><a href="#ADSLibrarian-171"><span class="linenos">171</span></a>        <span class="c1"># Process citation data</span>
+</span><span id="ADSLibrarian-172"><a href="#ADSLibrarian-172"><span class="linenos">172</span></a>        <span class="n">citations</span> <span class="o">=</span> <span class="n">article</span><span class="o">.</span><span class="n">citation</span>
+</span><span id="ADSLibrarian-173"><a href="#ADSLibrarian-173"><span class="linenos">173</span></a>        <span class="n">references</span> <span class="o">=</span> <span class="n">article</span><span class="o">.</span><span class="n">reference</span>
+</span><span id="ADSLibrarian-174"><a href="#ADSLibrarian-174"><span class="linenos">174</span></a>
+</span><span id="ADSLibrarian-175"><a href="#ADSLibrarian-175"><span class="linenos">175</span></a>        <span class="n">citation_count</span> <span class="o">=</span> <span class="n">article</span><span class="o">.</span><span class="n">citation_count</span>
+</span><span id="ADSLibrarian-176"><a href="#ADSLibrarian-176"><span class="linenos">176</span></a>        <span class="k">if</span> <span class="p">(</span>
+</span><span id="ADSLibrarian-177"><a href="#ADSLibrarian-177"><span class="linenos">177</span></a>            <span class="p">(</span><span class="n">citation_count</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">)</span>
+</span><span id="ADSLibrarian-178"><a href="#ADSLibrarian-178"><span class="linenos">178</span></a>            <span class="ow">and</span> <span class="p">(</span><span class="n">citations</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">)</span>
+</span><span id="ADSLibrarian-179"><a href="#ADSLibrarian-179"><span class="linenos">179</span></a>            <span class="ow">and</span> <span class="p">(</span><span class="n">citation_count</span> <span class="o">!=</span> <span class="nb">len</span><span class="p">(</span><span class="n">citations</span><span class="p">))</span>
+</span><span id="ADSLibrarian-180"><a href="#ADSLibrarian-180"><span class="linenos">180</span></a>            <span class="ow">and</span> <span class="n">verbose</span>
+</span><span id="ADSLibrarian-181"><a href="#ADSLibrarian-181"><span class="linenos">181</span></a>        <span class="p">):</span>
+</span><span id="ADSLibrarian-182"><a href="#ADSLibrarian-182"><span class="linenos">182</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+</span><span id="ADSLibrarian-183"><a href="#ADSLibrarian-183"><span class="linenos">183</span></a>                <span class="sa">f</span><span class="s2">&quot;The length of the citations list (</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">citations</span><span class="p">)</span><span class="si">}</span><span class="s2">) is different from citation_count (</span><span class="si">{</span><span class="n">citation_count</span><span class="si">}</span><span class="s2">)&quot;</span>
+</span><span id="ADSLibrarian-184"><a href="#ADSLibrarian-184"><span class="linenos">184</span></a>            <span class="p">)</span>
+</span><span id="ADSLibrarian-185"><a href="#ADSLibrarian-185"><span class="linenos">185</span></a>            <span class="k">if</span> <span class="s2">&quot;infer_citation_count&quot;</span> <span class="ow">in</span> <span class="n">kwargs</span> <span class="ow">and</span> <span class="n">kwargs</span><span class="p">[</span><span class="s2">&quot;infer_citation_count&quot;</span><span class="p">]:</span>
+</span><span id="ADSLibrarian-186"><a href="#ADSLibrarian-186"><span class="linenos">186</span></a>                <span class="k">if</span> <span class="n">verbose</span><span class="p">:</span>
+</span><span id="ADSLibrarian-187"><a href="#ADSLibrarian-187"><span class="linenos">187</span></a>                    <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="s2">&quot;Setting citation_count = {len(citations)}.&quot;</span><span class="p">)</span>
+</span><span id="ADSLibrarian-188"><a href="#ADSLibrarian-188"><span class="linenos">188</span></a>                <span class="n">citation_count</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">citations</span><span class="p">)</span>
+</span><span id="ADSLibrarian-189"><a href="#ADSLibrarian-189"><span class="linenos">189</span></a>
+</span><span id="ADSLibrarian-190"><a href="#ADSLibrarian-190"><span class="linenos">190</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="p">{</span>
+</span><span id="ADSLibrarian-191"><a href="#ADSLibrarian-191"><span class="linenos">191</span></a>            <span class="c1"># primary fields</span>
+</span><span id="ADSLibrarian-192"><a href="#ADSLibrarian-192"><span class="linenos">192</span></a>            <span class="s2">&quot;identifier&quot;</span><span class="p">:</span> <span class="n">identifier</span><span class="p">,</span>
+</span><span id="ADSLibrarian-193"><a href="#ADSLibrarian-193"><span class="linenos">193</span></a>            <span class="s2">&quot;abstract&quot;</span><span class="p">:</span> <span class="n">article</span><span class="o">.</span><span class="n">abstract</span><span class="p">,</span>
+</span><span id="ADSLibrarian-194"><a href="#ADSLibrarian-194"><span class="linenos">194</span></a>            <span class="s2">&quot;publication_date&quot;</span><span class="p">:</span> <span class="n">publication_date</span><span class="p">,</span>
+</span><span id="ADSLibrarian-195"><a href="#ADSLibrarian-195"><span class="linenos">195</span></a>            <span class="s2">&quot;citations&quot;</span><span class="p">:</span> <span class="n">citations</span><span class="p">,</span>
+</span><span id="ADSLibrarian-196"><a href="#ADSLibrarian-196"><span class="linenos">196</span></a>            <span class="s2">&quot;references&quot;</span><span class="p">:</span> <span class="n">references</span><span class="p">,</span>
+</span><span id="ADSLibrarian-197"><a href="#ADSLibrarian-197"><span class="linenos">197</span></a>            <span class="s2">&quot;citation_count&quot;</span><span class="p">:</span> <span class="n">citation_count</span><span class="p">,</span>
+</span><span id="ADSLibrarian-198"><a href="#ADSLibrarian-198"><span class="linenos">198</span></a>            <span class="c1"># additional fields</span>
+</span><span id="ADSLibrarian-199"><a href="#ADSLibrarian-199"><span class="linenos">199</span></a>            <span class="s2">&quot;doi&quot;</span><span class="p">:</span> <span class="n">doi</span><span class="p">,</span>
+</span><span id="ADSLibrarian-200"><a href="#ADSLibrarian-200"><span class="linenos">200</span></a>            <span class="s2">&quot;title&quot;</span><span class="p">:</span> <span class="n">article</span><span class="o">.</span><span class="n">title</span><span class="p">,</span>
+</span><span id="ADSLibrarian-201"><a href="#ADSLibrarian-201"><span class="linenos">201</span></a>        <span class="p">}</span>
+</span><span id="ADSLibrarian-202"><a href="#ADSLibrarian-202"><span class="linenos">202</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="p">{</span><span class="n">k</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">data</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span> <span class="n">v</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">}</span>
+</span><span id="ADSLibrarian-203"><a href="#ADSLibrarian-203"><span class="linenos">203</span></a>
+</span><span id="ADSLibrarian-204"><a href="#ADSLibrarian-204"><span class="linenos">204</span></a>        <span class="k">return</span> <span class="n">Publication</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
 </span></pre></div>
 
 
@@ -539,16 +559,16 @@ <h1 class="modulename">
 
     </div>
     <a class="headerlink" href="#ADSLibrarian.bibtex_entry_identifier"></a>
-            <div class="pdoc-code codehilite"><pre><span></span><span id="ADSLibrarian.bibtex_entry_identifier-46"><a href="#ADSLibrarian.bibtex_entry_identifier-46"><span class="linenos">46</span></a>    <span class="k">def</span> <span class="nf">bibtex_entry_identifier</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">bibtex_entry</span><span class="p">:</span> <span class="nb">dict</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
-</span><span id="ADSLibrarian.bibtex_entry_identifier-47"><a href="#ADSLibrarian.bibtex_entry_identifier-47"><span class="linenos">47</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Parse a bibtex entry for a usable identifier for querying ADS (see EXTERNAL_IDS).&quot;&quot;&quot;</span>
-</span><span id="ADSLibrarian.bibtex_entry_identifier-48"><a href="#ADSLibrarian.bibtex_entry_identifier-48"><span class="linenos">48</span></a>        <span class="n">identifier</span> <span class="o">=</span> <span class="kc">None</span>
-</span><span id="ADSLibrarian.bibtex_entry_identifier-49"><a href="#ADSLibrarian.bibtex_entry_identifier-49"><span class="linenos">49</span></a>        <span class="k">if</span> <span class="s2">&quot;bibcode&quot;</span> <span class="ow">in</span> <span class="n">bibtex_entry</span><span class="p">:</span>
-</span><span id="ADSLibrarian.bibtex_entry_identifier-50"><a href="#ADSLibrarian.bibtex_entry_identifier-50"><span class="linenos">50</span></a>            <span class="n">identifier</span> <span class="o">=</span> <span class="n">bibtex_entry</span><span class="p">[</span><span class="s2">&quot;bibcode&quot;</span><span class="p">]</span>
-</span><span id="ADSLibrarian.bibtex_entry_identifier-51"><a href="#ADSLibrarian.bibtex_entry_identifier-51"><span class="linenos">51</span></a>        <span class="k">elif</span> <span class="s2">&quot;doi&quot;</span> <span class="ow">in</span> <span class="n">bibtex_entry</span><span class="p">:</span>
-</span><span id="ADSLibrarian.bibtex_entry_identifier-52"><a href="#ADSLibrarian.bibtex_entry_identifier-52"><span class="linenos">52</span></a>            <span class="n">identifier</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;doi:</span><span class="si">{</span><span class="n">bibtex_entry</span><span class="p">[</span><span class="s1">&#39;doi&#39;</span><span class="p">]</span><span class="si">}</span><span class="s2">&quot;</span>
-</span><span id="ADSLibrarian.bibtex_entry_identifier-53"><a href="#ADSLibrarian.bibtex_entry_identifier-53"><span class="linenos">53</span></a>        <span class="k">elif</span> <span class="s2">&quot;arxiv&quot;</span> <span class="ow">in</span> <span class="n">bibtex_entry</span><span class="p">:</span>
-</span><span id="ADSLibrarian.bibtex_entry_identifier-54"><a href="#ADSLibrarian.bibtex_entry_identifier-54"><span class="linenos">54</span></a>            <span class="n">identifier</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;arxiv:</span><span class="si">{</span><span class="n">bibtex_entry</span><span class="p">[</span><span class="s1">&#39;arxiv&#39;</span><span class="p">]</span><span class="si">}</span><span class="s2">&quot;</span>
-</span><span id="ADSLibrarian.bibtex_entry_identifier-55"><a href="#ADSLibrarian.bibtex_entry_identifier-55"><span class="linenos">55</span></a>        <span class="k">return</span> <span class="n">identifier</span>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="ADSLibrarian.bibtex_entry_identifier-48"><a href="#ADSLibrarian.bibtex_entry_identifier-48"><span class="linenos">48</span></a>    <span class="k">def</span> <span class="nf">bibtex_entry_identifier</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">bibtex_entry</span><span class="p">:</span> <span class="nb">dict</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+</span><span id="ADSLibrarian.bibtex_entry_identifier-49"><a href="#ADSLibrarian.bibtex_entry_identifier-49"><span class="linenos">49</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Parse a bibtex entry for a usable identifier for querying ADS (see EXTERNAL_IDS).&quot;&quot;&quot;</span>
+</span><span id="ADSLibrarian.bibtex_entry_identifier-50"><a href="#ADSLibrarian.bibtex_entry_identifier-50"><span class="linenos">50</span></a>        <span class="n">identifier</span> <span class="o">=</span> <span class="kc">None</span>
+</span><span id="ADSLibrarian.bibtex_entry_identifier-51"><a href="#ADSLibrarian.bibtex_entry_identifier-51"><span class="linenos">51</span></a>        <span class="k">if</span> <span class="s2">&quot;bibcode&quot;</span> <span class="ow">in</span> <span class="n">bibtex_entry</span><span class="p">:</span>
+</span><span id="ADSLibrarian.bibtex_entry_identifier-52"><a href="#ADSLibrarian.bibtex_entry_identifier-52"><span class="linenos">52</span></a>            <span class="n">identifier</span> <span class="o">=</span> <span class="n">bibtex_entry</span><span class="p">[</span><span class="s2">&quot;bibcode&quot;</span><span class="p">]</span>
+</span><span id="ADSLibrarian.bibtex_entry_identifier-53"><a href="#ADSLibrarian.bibtex_entry_identifier-53"><span class="linenos">53</span></a>        <span class="k">elif</span> <span class="s2">&quot;doi&quot;</span> <span class="ow">in</span> <span class="n">bibtex_entry</span><span class="p">:</span>
+</span><span id="ADSLibrarian.bibtex_entry_identifier-54"><a href="#ADSLibrarian.bibtex_entry_identifier-54"><span class="linenos">54</span></a>            <span class="n">identifier</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;doi:</span><span class="si">{</span><span class="n">bibtex_entry</span><span class="p">[</span><span class="s1">&#39;doi&#39;</span><span class="p">]</span><span class="si">}</span><span class="s2">&quot;</span>
+</span><span id="ADSLibrarian.bibtex_entry_identifier-55"><a href="#ADSLibrarian.bibtex_entry_identifier-55"><span class="linenos">55</span></a>        <span class="k">elif</span> <span class="s2">&quot;arxiv&quot;</span> <span class="ow">in</span> <span class="n">bibtex_entry</span><span class="p">:</span>
+</span><span id="ADSLibrarian.bibtex_entry_identifier-56"><a href="#ADSLibrarian.bibtex_entry_identifier-56"><span class="linenos">56</span></a>            <span class="n">identifier</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;arxiv:</span><span class="si">{</span><span class="n">bibtex_entry</span><span class="p">[</span><span class="s1">&#39;arxiv&#39;</span><span class="p">]</span><span class="si">}</span><span class="s2">&quot;</span>
+</span><span id="ADSLibrarian.bibtex_entry_identifier-57"><a href="#ADSLibrarian.bibtex_entry_identifier-57"><span class="linenos">57</span></a>        <span class="k">return</span> <span class="n">identifier</span>
 </span></pre></div>
 
 
@@ -562,84 +582,84 @@ <h1 class="modulename">
 <div class="attr function">
             
         <span class="def">def</span>
-        <span class="name">get_publications</span><span class="signature pdoc-code multiline">(<span class="param">	<span class="bp">self</span>,</span><span class="param">	<span class="n">bibcodes</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span>,</span><span class="param">	<span class="o">*</span><span class="n">args</span>,</span><span class="param">	<span class="n">call_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">2000</span>,</span><span class="param">	<span class="n">n_attempts_per_query</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">10</span>,</span><span class="param">	<span class="n">convert</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>,</span><span class="param">	<span class="o">**</span><span class="n">kwargs</span></span><span class="return-annotation">) -> <span class="nb">list</span><span class="p">[</span><span class="n"><a href="../mapping/publication.html#Publication">sciterra.mapping.publication.Publication</a></span><span class="p">]</span>:</span></span>
+        <span class="name">get_publications</span><span class="signature pdoc-code multiline">(<span class="param">	<span class="bp">self</span>,</span><span class="param">	<span class="n">bibcodes</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span>,</span><span class="param">	<span class="o">*</span><span class="n">args</span>,</span><span class="param">	<span class="n">call_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">50</span>,</span><span class="param">	<span class="n">n_attempts_per_query</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">10</span>,</span><span class="param">	<span class="n">convert</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>,</span><span class="param">	<span class="o">**</span><span class="n">kwargs</span></span><span class="return-annotation">) -> <span class="nb">list</span><span class="p">[</span><span class="n"><a href="../mapping/publication.html#Publication">sciterra.mapping.publication.Publication</a></span><span class="p">]</span>:</span></span>
 
                 <label class="view-source-button" for="ADSLibrarian.get_publications-view-source"><span>View Source</span></label>
 
     </div>
     <a class="headerlink" href="#ADSLibrarian.get_publications"></a>
-            <div class="pdoc-code codehilite"><pre><span></span><span id="ADSLibrarian.get_publications-57"><a href="#ADSLibrarian.get_publications-57"><span class="linenos"> 57</span></a>    <span class="k">def</span> <span class="nf">get_publications</span><span class="p">(</span>
-</span><span id="ADSLibrarian.get_publications-58"><a href="#ADSLibrarian.get_publications-58"><span class="linenos"> 58</span></a>        <span class="bp">self</span><span class="p">,</span>
-</span><span id="ADSLibrarian.get_publications-59"><a href="#ADSLibrarian.get_publications-59"><span class="linenos"> 59</span></a>        <span class="n">bibcodes</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span>
-</span><span id="ADSLibrarian.get_publications-60"><a href="#ADSLibrarian.get_publications-60"><span class="linenos"> 60</span></a>        <span class="o">*</span><span class="n">args</span><span class="p">,</span>
-</span><span id="ADSLibrarian.get_publications-61"><a href="#ADSLibrarian.get_publications-61"><span class="linenos"> 61</span></a>        <span class="n">call_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">CALL_SIZE</span><span class="p">,</span>
-</span><span id="ADSLibrarian.get_publications-62"><a href="#ADSLibrarian.get_publications-62"><span class="linenos"> 62</span></a>        <span class="n">n_attempts_per_query</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">NUM_ATTEMPTS_PER_QUERY</span><span class="p">,</span>
-</span><span id="ADSLibrarian.get_publications-63"><a href="#ADSLibrarian.get_publications-63"><span class="linenos"> 63</span></a>        <span class="n">convert</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
-</span><span id="ADSLibrarian.get_publications-64"><a href="#ADSLibrarian.get_publications-64"><span class="linenos"> 64</span></a>        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
-</span><span id="ADSLibrarian.get_publications-65"><a href="#ADSLibrarian.get_publications-65"><span class="linenos"> 65</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="n">Publication</span><span class="p">]:</span>
-</span><span id="ADSLibrarian.get_publications-66"><a href="#ADSLibrarian.get_publications-66"><span class="linenos"> 66</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Use the NASA ADS python package, which calls the ADS API to retrieve publications.</span>
-</span><span id="ADSLibrarian.get_publications-67"><a href="#ADSLibrarian.get_publications-67"><span class="linenos"> 67</span></a>
-</span><span id="ADSLibrarian.get_publications-68"><a href="#ADSLibrarian.get_publications-68"><span class="linenos"> 68</span></a><span class="sd">        Args:</span>
-</span><span id="ADSLibrarian.get_publications-69"><a href="#ADSLibrarian.get_publications-69"><span class="linenos"> 69</span></a><span class="sd">            bibcodes: the str ids required for querying. While it is possible to use one of EXTERNAL_IDS to query, if ADS returns a paper at all, it will return a bibcode, so it is preferred to use bibcodes.</span>
-</span><span id="ADSLibrarian.get_publications-70"><a href="#ADSLibrarian.get_publications-70"><span class="linenos"> 70</span></a>
-</span><span id="ADSLibrarian.get_publications-71"><a href="#ADSLibrarian.get_publications-71"><span class="linenos"> 71</span></a><span class="sd">            n_attempts_per_query: Number of attempts to access the API per query. Useful when experiencing connection issues.</span>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="ADSLibrarian.get_publications-59"><a href="#ADSLibrarian.get_publications-59"><span class="linenos"> 59</span></a>    <span class="k">def</span> <span class="nf">get_publications</span><span class="p">(</span>
+</span><span id="ADSLibrarian.get_publications-60"><a href="#ADSLibrarian.get_publications-60"><span class="linenos"> 60</span></a>        <span class="bp">self</span><span class="p">,</span>
+</span><span id="ADSLibrarian.get_publications-61"><a href="#ADSLibrarian.get_publications-61"><span class="linenos"> 61</span></a>        <span class="n">bibcodes</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span>
+</span><span id="ADSLibrarian.get_publications-62"><a href="#ADSLibrarian.get_publications-62"><span class="linenos"> 62</span></a>        <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+</span><span id="ADSLibrarian.get_publications-63"><a href="#ADSLibrarian.get_publications-63"><span class="linenos"> 63</span></a>        <span class="n">call_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">CALL_SIZE</span><span class="p">,</span>
+</span><span id="ADSLibrarian.get_publications-64"><a href="#ADSLibrarian.get_publications-64"><span class="linenos"> 64</span></a>        <span class="n">n_attempts_per_query</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">NUM_ATTEMPTS_PER_QUERY</span><span class="p">,</span>
+</span><span id="ADSLibrarian.get_publications-65"><a href="#ADSLibrarian.get_publications-65"><span class="linenos"> 65</span></a>        <span class="n">convert</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+</span><span id="ADSLibrarian.get_publications-66"><a href="#ADSLibrarian.get_publications-66"><span class="linenos"> 66</span></a>        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+</span><span id="ADSLibrarian.get_publications-67"><a href="#ADSLibrarian.get_publications-67"><span class="linenos"> 67</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="n">Publication</span><span class="p">]:</span>
+</span><span id="ADSLibrarian.get_publications-68"><a href="#ADSLibrarian.get_publications-68"><span class="linenos"> 68</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Use the NASA ADS python package, which calls the ADS API to retrieve publications.</span>
+</span><span id="ADSLibrarian.get_publications-69"><a href="#ADSLibrarian.get_publications-69"><span class="linenos"> 69</span></a>
+</span><span id="ADSLibrarian.get_publications-70"><a href="#ADSLibrarian.get_publications-70"><span class="linenos"> 70</span></a><span class="sd">        Args:</span>
+</span><span id="ADSLibrarian.get_publications-71"><a href="#ADSLibrarian.get_publications-71"><span class="linenos"> 71</span></a><span class="sd">            bibcodes: the str ids required for querying. While it is possible to use one of EXTERNAL_IDS to query, if ADS returns a paper at all, it will return a bibcode, so it is preferred to use bibcodes.</span>
 </span><span id="ADSLibrarian.get_publications-72"><a href="#ADSLibrarian.get_publications-72"><span class="linenos"> 72</span></a>
-</span><span id="ADSLibrarian.get_publications-73"><a href="#ADSLibrarian.get_publications-73"><span class="linenos"> 73</span></a><span class="sd">            call_size: maximum number of papers to call API for in one query; if less than `len(bibcodes)`, chunking will be performed.</span>
+</span><span id="ADSLibrarian.get_publications-73"><a href="#ADSLibrarian.get_publications-73"><span class="linenos"> 73</span></a><span class="sd">            n_attempts_per_query: Number of attempts to access the API per query. Useful when experiencing connection issues.</span>
 </span><span id="ADSLibrarian.get_publications-74"><a href="#ADSLibrarian.get_publications-74"><span class="linenos"> 74</span></a>
-</span><span id="ADSLibrarian.get_publications-75"><a href="#ADSLibrarian.get_publications-75"><span class="linenos"> 75</span></a><span class="sd">            convert: whether to convert each resulting ADS Article to sciterra Publications (True by default).</span>
+</span><span id="ADSLibrarian.get_publications-75"><a href="#ADSLibrarian.get_publications-75"><span class="linenos"> 75</span></a><span class="sd">            call_size: maximum number of papers to call API for in one query; if less than `len(bibcodes)`, chunking will be performed.</span>
 </span><span id="ADSLibrarian.get_publications-76"><a href="#ADSLibrarian.get_publications-76"><span class="linenos"> 76</span></a>
-</span><span id="ADSLibrarian.get_publications-77"><a href="#ADSLibrarian.get_publications-77"><span class="linenos"> 77</span></a><span class="sd">        Returns:</span>
-</span><span id="ADSLibrarian.get_publications-78"><a href="#ADSLibrarian.get_publications-78"><span class="linenos"> 78</span></a><span class="sd">            the list of publications (or Papers)</span>
-</span><span id="ADSLibrarian.get_publications-79"><a href="#ADSLibrarian.get_publications-79"><span class="linenos"> 79</span></a><span class="sd">        &quot;&quot;&quot;</span>
-</span><span id="ADSLibrarian.get_publications-80"><a href="#ADSLibrarian.get_publications-80"><span class="linenos"> 80</span></a>        <span class="n">bibcodes</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">bibcodes</span><span class="p">)</span>
-</span><span id="ADSLibrarian.get_publications-81"><a href="#ADSLibrarian.get_publications-81"><span class="linenos"> 81</span></a>
-</span><span id="ADSLibrarian.get_publications-82"><a href="#ADSLibrarian.get_publications-82"><span class="linenos"> 82</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">bibcodes</span><span class="p">:</span>
-</span><span id="ADSLibrarian.get_publications-83"><a href="#ADSLibrarian.get_publications-83"><span class="linenos"> 83</span></a>            <span class="k">return</span> <span class="p">[]</span>
-</span><span id="ADSLibrarian.get_publications-84"><a href="#ADSLibrarian.get_publications-84"><span class="linenos"> 84</span></a>
-</span><span id="ADSLibrarian.get_publications-85"><a href="#ADSLibrarian.get_publications-85"><span class="linenos"> 85</span></a>        <span class="n">total</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">bibcodes</span><span class="p">)</span>
-</span><span id="ADSLibrarian.get_publications-86"><a href="#ADSLibrarian.get_publications-86"><span class="linenos"> 86</span></a>        <span class="n">chunked_ids</span> <span class="o">=</span> <span class="n">chunk_ids</span><span class="p">(</span><span class="n">bibcodes</span><span class="p">,</span> <span class="n">call_size</span><span class="o">=</span><span class="n">call_size</span><span class="p">)</span>
-</span><span id="ADSLibrarian.get_publications-87"><a href="#ADSLibrarian.get_publications-87"><span class="linenos"> 87</span></a>
-</span><span id="ADSLibrarian.get_publications-88"><a href="#ADSLibrarian.get_publications-88"><span class="linenos"> 88</span></a>        <span class="k">if</span> <span class="kc">None</span> <span class="ow">in</span> <span class="n">bibcodes</span><span class="p">:</span>
-</span><span id="ADSLibrarian.get_publications-89"><a href="#ADSLibrarian.get_publications-89"><span class="linenos"> 89</span></a>            <span class="c1"># any Nones should have been handled by this point</span>
-</span><span id="ADSLibrarian.get_publications-90"><a href="#ADSLibrarian.get_publications-90"><span class="linenos"> 90</span></a>            <span class="k">raise</span> <span class="ne">Exception</span><span class="p">(</span><span class="s2">&quot;Passed `bibcodes` contains None.&quot;</span><span class="p">)</span>
-</span><span id="ADSLibrarian.get_publications-91"><a href="#ADSLibrarian.get_publications-91"><span class="linenos"> 91</span></a>
-</span><span id="ADSLibrarian.get_publications-92"><a href="#ADSLibrarian.get_publications-92"><span class="linenos"> 92</span></a>        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Querying ADS for </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">bibcodes</span><span class="p">)</span><span class="si">}</span><span class="s2"> total papers.&quot;</span><span class="p">)</span>
-</span><span id="ADSLibrarian.get_publications-93"><a href="#ADSLibrarian.get_publications-93"><span class="linenos"> 93</span></a>        <span class="n">papers</span> <span class="o">=</span> <span class="p">[]</span>
-</span><span id="ADSLibrarian.get_publications-94"><a href="#ADSLibrarian.get_publications-94"><span class="linenos"> 94</span></a>        <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="p">(</span><span class="n">desc</span><span class="o">=</span><span class="sa">f</span><span class="s2">&quot;progress using call_size=</span><span class="si">{</span><span class="n">call_size</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">,</span> <span class="n">total</span><span class="o">=</span><span class="n">total</span><span class="p">)</span>
-</span><span id="ADSLibrarian.get_publications-95"><a href="#ADSLibrarian.get_publications-95"><span class="linenos"> 95</span></a>        <span class="k">for</span> <span class="n">ids</span> <span class="ow">in</span> <span class="n">chunked_ids</span><span class="p">:</span>
-</span><span id="ADSLibrarian.get_publications-96"><a href="#ADSLibrarian.get_publications-96"><span class="linenos"> 96</span></a>
-</span><span id="ADSLibrarian.get_publications-97"><a href="#ADSLibrarian.get_publications-97"><span class="linenos"> 97</span></a>            <span class="nd">@keep_trying</span><span class="p">(</span>
-</span><span id="ADSLibrarian.get_publications-98"><a href="#ADSLibrarian.get_publications-98"><span class="linenos"> 98</span></a>                <span class="n">n_attempts</span><span class="o">=</span><span class="n">n_attempts_per_query</span><span class="p">,</span>
-</span><span id="ADSLibrarian.get_publications-99"><a href="#ADSLibrarian.get_publications-99"><span class="linenos"> 99</span></a>                <span class="n">allowed_exceptions</span><span class="o">=</span><span class="n">ALLOWED_EXCEPTIONS</span><span class="p">,</span>
-</span><span id="ADSLibrarian.get_publications-100"><a href="#ADSLibrarian.get_publications-100"><span class="linenos">100</span></a>                <span class="n">sleep_after_attempt</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span>
-</span><span id="ADSLibrarian.get_publications-101"><a href="#ADSLibrarian.get_publications-101"><span class="linenos">101</span></a>            <span class="p">)</span>
-</span><span id="ADSLibrarian.get_publications-102"><a href="#ADSLibrarian.get_publications-102"><span class="linenos">102</span></a>            <span class="k">def</span> <span class="nf">get_papers</span><span class="p">()</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="n">Article</span><span class="p">]:</span>
-</span><span id="ADSLibrarian.get_publications-103"><a href="#ADSLibrarian.get_publications-103"><span class="linenos">103</span></a>                <span class="k">return</span> <span class="p">[</span>
-</span><span id="ADSLibrarian.get_publications-104"><a href="#ADSLibrarian.get_publications-104"><span class="linenos">104</span></a>                    <span class="nb">list</span><span class="p">(</span>
-</span><span id="ADSLibrarian.get_publications-105"><a href="#ADSLibrarian.get_publications-105"><span class="linenos">105</span></a>                        <span class="n">ads</span><span class="o">.</span><span class="n">SearchQuery</span><span class="p">(</span>
-</span><span id="ADSLibrarian.get_publications-106"><a href="#ADSLibrarian.get_publications-106"><span class="linenos">106</span></a>                            <span class="n">query_dict</span><span class="o">=</span><span class="p">{</span>
-</span><span id="ADSLibrarian.get_publications-107"><a href="#ADSLibrarian.get_publications-107"><span class="linenos">107</span></a>                                <span class="s2">&quot;q&quot;</span><span class="p">:</span> <span class="n">query</span><span class="p">,</span>
-</span><span id="ADSLibrarian.get_publications-108"><a href="#ADSLibrarian.get_publications-108"><span class="linenos">108</span></a>                                <span class="s2">&quot;fl&quot;</span><span class="p">:</span> <span class="n">QUERY_FIELDS</span><span class="p">,</span>
-</span><span id="ADSLibrarian.get_publications-109"><a href="#ADSLibrarian.get_publications-109"><span class="linenos">109</span></a>                            <span class="p">}</span>
-</span><span id="ADSLibrarian.get_publications-110"><a href="#ADSLibrarian.get_publications-110"><span class="linenos">110</span></a>                        <span class="p">)</span>
-</span><span id="ADSLibrarian.get_publications-111"><a href="#ADSLibrarian.get_publications-111"><span class="linenos">111</span></a>                    <span class="p">)[</span>
-</span><span id="ADSLibrarian.get_publications-112"><a href="#ADSLibrarian.get_publications-112"><span class="linenos">112</span></a>                        <span class="mi">0</span>
-</span><span id="ADSLibrarian.get_publications-113"><a href="#ADSLibrarian.get_publications-113"><span class="linenos">113</span></a>                    <span class="p">]</span>  <span class="c1"># retrieve from generator</span>
-</span><span id="ADSLibrarian.get_publications-114"><a href="#ADSLibrarian.get_publications-114"><span class="linenos">114</span></a>                    <span class="k">for</span> <span class="n">query</span> <span class="ow">in</span> <span class="n">ids</span>
-</span><span id="ADSLibrarian.get_publications-115"><a href="#ADSLibrarian.get_publications-115"><span class="linenos">115</span></a>                <span class="p">]</span>
-</span><span id="ADSLibrarian.get_publications-116"><a href="#ADSLibrarian.get_publications-116"><span class="linenos">116</span></a>
-</span><span id="ADSLibrarian.get_publications-117"><a href="#ADSLibrarian.get_publications-117"><span class="linenos">117</span></a>            <span class="n">papers</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">get_papers</span><span class="p">())</span>
-</span><span id="ADSLibrarian.get_publications-118"><a href="#ADSLibrarian.get_publications-118"><span class="linenos">118</span></a>            <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">ids</span><span class="p">))</span>
-</span><span id="ADSLibrarian.get_publications-119"><a href="#ADSLibrarian.get_publications-119"><span class="linenos">119</span></a>
-</span><span id="ADSLibrarian.get_publications-120"><a href="#ADSLibrarian.get_publications-120"><span class="linenos">120</span></a>        <span class="n">pbar</span><span class="o">.</span><span class="n">close</span><span class="p">()</span>
+</span><span id="ADSLibrarian.get_publications-77"><a href="#ADSLibrarian.get_publications-77"><span class="linenos"> 77</span></a><span class="sd">            convert: whether to convert each resulting ADS Article to sciterra Publications (True by default).</span>
+</span><span id="ADSLibrarian.get_publications-78"><a href="#ADSLibrarian.get_publications-78"><span class="linenos"> 78</span></a>
+</span><span id="ADSLibrarian.get_publications-79"><a href="#ADSLibrarian.get_publications-79"><span class="linenos"> 79</span></a><span class="sd">        Returns:</span>
+</span><span id="ADSLibrarian.get_publications-80"><a href="#ADSLibrarian.get_publications-80"><span class="linenos"> 80</span></a><span class="sd">            the list of publications (or Papers)</span>
+</span><span id="ADSLibrarian.get_publications-81"><a href="#ADSLibrarian.get_publications-81"><span class="linenos"> 81</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="ADSLibrarian.get_publications-82"><a href="#ADSLibrarian.get_publications-82"><span class="linenos"> 82</span></a>        <span class="n">bibcodes</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">bibcodes</span><span class="p">)</span>
+</span><span id="ADSLibrarian.get_publications-83"><a href="#ADSLibrarian.get_publications-83"><span class="linenos"> 83</span></a>
+</span><span id="ADSLibrarian.get_publications-84"><a href="#ADSLibrarian.get_publications-84"><span class="linenos"> 84</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">bibcodes</span><span class="p">:</span>
+</span><span id="ADSLibrarian.get_publications-85"><a href="#ADSLibrarian.get_publications-85"><span class="linenos"> 85</span></a>            <span class="k">return</span> <span class="p">[]</span>
+</span><span id="ADSLibrarian.get_publications-86"><a href="#ADSLibrarian.get_publications-86"><span class="linenos"> 86</span></a>
+</span><span id="ADSLibrarian.get_publications-87"><a href="#ADSLibrarian.get_publications-87"><span class="linenos"> 87</span></a>        <span class="n">total</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">bibcodes</span><span class="p">)</span>
+</span><span id="ADSLibrarian.get_publications-88"><a href="#ADSLibrarian.get_publications-88"><span class="linenos"> 88</span></a>        <span class="n">chunked_ids</span> <span class="o">=</span> <span class="n">chunk_ids</span><span class="p">(</span><span class="n">bibcodes</span><span class="p">,</span> <span class="n">call_size</span><span class="o">=</span><span class="n">call_size</span><span class="p">)</span>
+</span><span id="ADSLibrarian.get_publications-89"><a href="#ADSLibrarian.get_publications-89"><span class="linenos"> 89</span></a>
+</span><span id="ADSLibrarian.get_publications-90"><a href="#ADSLibrarian.get_publications-90"><span class="linenos"> 90</span></a>        <span class="k">if</span> <span class="kc">None</span> <span class="ow">in</span> <span class="n">bibcodes</span><span class="p">:</span>
+</span><span id="ADSLibrarian.get_publications-91"><a href="#ADSLibrarian.get_publications-91"><span class="linenos"> 91</span></a>            <span class="c1"># any Nones should have been handled by this point</span>
+</span><span id="ADSLibrarian.get_publications-92"><a href="#ADSLibrarian.get_publications-92"><span class="linenos"> 92</span></a>            <span class="k">raise</span> <span class="ne">Exception</span><span class="p">(</span><span class="s2">&quot;Passed `bibcodes` contains None.&quot;</span><span class="p">)</span>
+</span><span id="ADSLibrarian.get_publications-93"><a href="#ADSLibrarian.get_publications-93"><span class="linenos"> 93</span></a>
+</span><span id="ADSLibrarian.get_publications-94"><a href="#ADSLibrarian.get_publications-94"><span class="linenos"> 94</span></a>        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Querying ADS for </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">bibcodes</span><span class="p">)</span><span class="si">}</span><span class="s2"> total papers.&quot;</span><span class="p">)</span>
+</span><span id="ADSLibrarian.get_publications-95"><a href="#ADSLibrarian.get_publications-95"><span class="linenos"> 95</span></a>        <span class="n">papers</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="ADSLibrarian.get_publications-96"><a href="#ADSLibrarian.get_publications-96"><span class="linenos"> 96</span></a>        <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="p">(</span><span class="n">desc</span><span class="o">=</span><span class="sa">f</span><span class="s2">&quot;progress using call_size=</span><span class="si">{</span><span class="n">call_size</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">,</span> <span class="n">total</span><span class="o">=</span><span class="n">total</span><span class="p">)</span>
+</span><span id="ADSLibrarian.get_publications-97"><a href="#ADSLibrarian.get_publications-97"><span class="linenos"> 97</span></a>        <span class="k">for</span> <span class="n">ids</span> <span class="ow">in</span> <span class="n">chunked_ids</span><span class="p">:</span>
+</span><span id="ADSLibrarian.get_publications-98"><a href="#ADSLibrarian.get_publications-98"><span class="linenos"> 98</span></a>
+</span><span id="ADSLibrarian.get_publications-99"><a href="#ADSLibrarian.get_publications-99"><span class="linenos"> 99</span></a>            <span class="nd">@keep_trying</span><span class="p">(</span>
+</span><span id="ADSLibrarian.get_publications-100"><a href="#ADSLibrarian.get_publications-100"><span class="linenos">100</span></a>                <span class="n">n_attempts</span><span class="o">=</span><span class="n">n_attempts_per_query</span><span class="p">,</span>
+</span><span id="ADSLibrarian.get_publications-101"><a href="#ADSLibrarian.get_publications-101"><span class="linenos">101</span></a>                <span class="n">allowed_exceptions</span><span class="o">=</span><span class="n">ALLOWED_EXCEPTIONS</span><span class="p">,</span>
+</span><span id="ADSLibrarian.get_publications-102"><a href="#ADSLibrarian.get_publications-102"><span class="linenos">102</span></a>                <span class="n">sleep_after_attempt</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span>
+</span><span id="ADSLibrarian.get_publications-103"><a href="#ADSLibrarian.get_publications-103"><span class="linenos">103</span></a>            <span class="p">)</span>
+</span><span id="ADSLibrarian.get_publications-104"><a href="#ADSLibrarian.get_publications-104"><span class="linenos">104</span></a>            <span class="k">def</span> <span class="nf">get_papers</span><span class="p">()</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="n">Article</span><span class="p">]:</span>
+</span><span id="ADSLibrarian.get_publications-105"><a href="#ADSLibrarian.get_publications-105"><span class="linenos">105</span></a>                <span class="k">return</span> <span class="p">[</span>
+</span><span id="ADSLibrarian.get_publications-106"><a href="#ADSLibrarian.get_publications-106"><span class="linenos">106</span></a>                    <span class="nb">list</span><span class="p">(</span>
+</span><span id="ADSLibrarian.get_publications-107"><a href="#ADSLibrarian.get_publications-107"><span class="linenos">107</span></a>                        <span class="n">ads</span><span class="o">.</span><span class="n">SearchQuery</span><span class="p">(</span>
+</span><span id="ADSLibrarian.get_publications-108"><a href="#ADSLibrarian.get_publications-108"><span class="linenos">108</span></a>                            <span class="n">query_dict</span><span class="o">=</span><span class="p">{</span>
+</span><span id="ADSLibrarian.get_publications-109"><a href="#ADSLibrarian.get_publications-109"><span class="linenos">109</span></a>                                <span class="s2">&quot;q&quot;</span><span class="p">:</span> <span class="n">query</span><span class="p">,</span>
+</span><span id="ADSLibrarian.get_publications-110"><a href="#ADSLibrarian.get_publications-110"><span class="linenos">110</span></a>                                <span class="s2">&quot;fl&quot;</span><span class="p">:</span> <span class="n">QUERY_FIELDS</span><span class="p">,</span>
+</span><span id="ADSLibrarian.get_publications-111"><a href="#ADSLibrarian.get_publications-111"><span class="linenos">111</span></a>                            <span class="p">}</span>
+</span><span id="ADSLibrarian.get_publications-112"><a href="#ADSLibrarian.get_publications-112"><span class="linenos">112</span></a>                        <span class="p">)</span>
+</span><span id="ADSLibrarian.get_publications-113"><a href="#ADSLibrarian.get_publications-113"><span class="linenos">113</span></a>                    <span class="p">)[</span>
+</span><span id="ADSLibrarian.get_publications-114"><a href="#ADSLibrarian.get_publications-114"><span class="linenos">114</span></a>                        <span class="mi">0</span>  <span class="c1"># screw black, this is ugly</span>
+</span><span id="ADSLibrarian.get_publications-115"><a href="#ADSLibrarian.get_publications-115"><span class="linenos">115</span></a>                    <span class="p">]</span>  <span class="c1"># retrieve from generator</span>
+</span><span id="ADSLibrarian.get_publications-116"><a href="#ADSLibrarian.get_publications-116"><span class="linenos">116</span></a>                    <span class="k">for</span> <span class="n">query</span> <span class="ow">in</span> <span class="n">ids</span>
+</span><span id="ADSLibrarian.get_publications-117"><a href="#ADSLibrarian.get_publications-117"><span class="linenos">117</span></a>                <span class="p">]</span>
+</span><span id="ADSLibrarian.get_publications-118"><a href="#ADSLibrarian.get_publications-118"><span class="linenos">118</span></a>
+</span><span id="ADSLibrarian.get_publications-119"><a href="#ADSLibrarian.get_publications-119"><span class="linenos">119</span></a>            <span class="n">papers</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">get_papers</span><span class="p">())</span>
+</span><span id="ADSLibrarian.get_publications-120"><a href="#ADSLibrarian.get_publications-120"><span class="linenos">120</span></a>            <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">ids</span><span class="p">))</span>
 </span><span id="ADSLibrarian.get_publications-121"><a href="#ADSLibrarian.get_publications-121"><span class="linenos">121</span></a>
-</span><span id="ADSLibrarian.get_publications-122"><a href="#ADSLibrarian.get_publications-122"><span class="linenos">122</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">convert</span><span class="p">:</span>
-</span><span id="ADSLibrarian.get_publications-123"><a href="#ADSLibrarian.get_publications-123"><span class="linenos">123</span></a>            <span class="k">return</span> <span class="n">papers</span>
-</span><span id="ADSLibrarian.get_publications-124"><a href="#ADSLibrarian.get_publications-124"><span class="linenos">124</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">convert_publications</span><span class="p">(</span>
-</span><span id="ADSLibrarian.get_publications-125"><a href="#ADSLibrarian.get_publications-125"><span class="linenos">125</span></a>            <span class="n">papers</span><span class="p">,</span>
-</span><span id="ADSLibrarian.get_publications-126"><a href="#ADSLibrarian.get_publications-126"><span class="linenos">126</span></a>            <span class="o">*</span><span class="n">args</span><span class="p">,</span>
-</span><span id="ADSLibrarian.get_publications-127"><a href="#ADSLibrarian.get_publications-127"><span class="linenos">127</span></a>            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
-</span><span id="ADSLibrarian.get_publications-128"><a href="#ADSLibrarian.get_publications-128"><span class="linenos">128</span></a>        <span class="p">)</span>
+</span><span id="ADSLibrarian.get_publications-122"><a href="#ADSLibrarian.get_publications-122"><span class="linenos">122</span></a>        <span class="n">pbar</span><span class="o">.</span><span class="n">close</span><span class="p">()</span>
+</span><span id="ADSLibrarian.get_publications-123"><a href="#ADSLibrarian.get_publications-123"><span class="linenos">123</span></a>
+</span><span id="ADSLibrarian.get_publications-124"><a href="#ADSLibrarian.get_publications-124"><span class="linenos">124</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">convert</span><span class="p">:</span>
+</span><span id="ADSLibrarian.get_publications-125"><a href="#ADSLibrarian.get_publications-125"><span class="linenos">125</span></a>            <span class="k">return</span> <span class="n">papers</span>
+</span><span id="ADSLibrarian.get_publications-126"><a href="#ADSLibrarian.get_publications-126"><span class="linenos">126</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">convert_publications</span><span class="p">(</span>
+</span><span id="ADSLibrarian.get_publications-127"><a href="#ADSLibrarian.get_publications-127"><span class="linenos">127</span></a>            <span class="n">papers</span><span class="p">,</span>
+</span><span id="ADSLibrarian.get_publications-128"><a href="#ADSLibrarian.get_publications-128"><span class="linenos">128</span></a>            <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+</span><span id="ADSLibrarian.get_publications-129"><a href="#ADSLibrarian.get_publications-129"><span class="linenos">129</span></a>            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+</span><span id="ADSLibrarian.get_publications-130"><a href="#ADSLibrarian.get_publications-130"><span class="linenos">130</span></a>        <span class="p">)</span>
 </span></pre></div>
 
 
@@ -674,70 +694,79 @@ <h6 id="returns">Returns:</h6>
 
     </div>
     <a class="headerlink" href="#ADSLibrarian.convert_publication"></a>
-            <div class="pdoc-code codehilite"><pre><span></span><span id="ADSLibrarian.convert_publication-130"><a href="#ADSLibrarian.convert_publication-130"><span class="linenos">130</span></a>    <span class="k">def</span> <span class="nf">convert_publication</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">article</span><span class="p">:</span> <span class="n">Article</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Publication</span><span class="p">:</span>
-</span><span id="ADSLibrarian.convert_publication-131"><a href="#ADSLibrarian.convert_publication-131"><span class="linenos">131</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Convert a ADS Article object to a sciterra.publication.Publication.&quot;&quot;&quot;</span>
-</span><span id="ADSLibrarian.convert_publication-132"><a href="#ADSLibrarian.convert_publication-132"><span class="linenos">132</span></a>        <span class="k">if</span> <span class="n">article</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="ADSLibrarian.convert_publication-133"><a href="#ADSLibrarian.convert_publication-133"><span class="linenos">133</span></a>            <span class="k">return</span>
-</span><span id="ADSLibrarian.convert_publication-134"><a href="#ADSLibrarian.convert_publication-134"><span class="linenos">134</span></a>
-</span><span id="ADSLibrarian.convert_publication-135"><a href="#ADSLibrarian.convert_publication-135"><span class="linenos">135</span></a>        <span class="c1"># to be consistent with identifiers (e.g., to avoid storing the same publication twice), we always use the bibcode.</span>
-</span><span id="ADSLibrarian.convert_publication-136"><a href="#ADSLibrarian.convert_publication-136"><span class="linenos">136</span></a>        <span class="n">identifier</span> <span class="o">=</span> <span class="n">article</span><span class="o">.</span><span class="n">bibcode</span>
-</span><span id="ADSLibrarian.convert_publication-137"><a href="#ADSLibrarian.convert_publication-137"><span class="linenos">137</span></a>
-</span><span id="ADSLibrarian.convert_publication-138"><a href="#ADSLibrarian.convert_publication-138"><span class="linenos">138</span></a>        <span class="k">def</span> <span class="nf">process_date</span><span class="p">(</span><span class="n">date_str</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
-</span><span id="ADSLibrarian.convert_publication-139"><a href="#ADSLibrarian.convert_publication-139"><span class="linenos">139</span></a>            <span class="c1"># sometimes there is extra data</span>
-</span><span id="ADSLibrarian.convert_publication-140"><a href="#ADSLibrarian.convert_publication-140"><span class="linenos">140</span></a>            <span class="n">date_str</span> <span class="o">=</span> <span class="n">date_str</span><span class="p">[:</span><span class="mi">10</span><span class="p">]</span>  <span class="c1"># e.g. yyyy-mm-dd</span>
-</span><span id="ADSLibrarian.convert_publication-141"><a href="#ADSLibrarian.convert_publication-141"><span class="linenos">141</span></a>            <span class="c1"># sometimes ads has 00 for month or day</span>
-</span><span id="ADSLibrarian.convert_publication-142"><a href="#ADSLibrarian.convert_publication-142"><span class="linenos">142</span></a>            <span class="k">if</span> <span class="n">date_str</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">:]</span> <span class="o">==</span> <span class="s2">&quot;00&quot;</span><span class="p">:</span>
-</span><span id="ADSLibrarian.convert_publication-143"><a href="#ADSLibrarian.convert_publication-143"><span class="linenos">143</span></a>                <span class="n">date_str</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">:]</span> <span class="o">=</span> <span class="s2">&quot;01&quot;</span>
-</span><span id="ADSLibrarian.convert_publication-144"><a href="#ADSLibrarian.convert_publication-144"><span class="linenos">144</span></a>            <span class="k">if</span> <span class="n">date_str</span><span class="p">[</span><span class="o">-</span><span class="mi">5</span><span class="p">:</span><span class="o">-</span><span class="mi">3</span><span class="p">]</span> <span class="o">==</span> <span class="s2">&quot;00&quot;</span><span class="p">:</span>
-</span><span id="ADSLibrarian.convert_publication-145"><a href="#ADSLibrarian.convert_publication-145"><span class="linenos">145</span></a>                <span class="n">date_str</span><span class="p">[</span><span class="o">-</span><span class="mi">5</span><span class="p">:</span><span class="o">-</span><span class="mi">3</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;01&quot;</span>
-</span><span id="ADSLibrarian.convert_publication-146"><a href="#ADSLibrarian.convert_publication-146"><span class="linenos">146</span></a>            <span class="n">date_</span> <span class="o">=</span> <span class="n">datetime</span><span class="o">.</span><span class="n">strptime</span><span class="p">(</span><span class="n">date_str</span><span class="p">,</span> <span class="s2">&quot;%Y-%m-</span><span class="si">%d</span><span class="s2">&quot;</span><span class="p">)</span>
-</span><span id="ADSLibrarian.convert_publication-147"><a href="#ADSLibrarian.convert_publication-147"><span class="linenos">147</span></a>            <span class="k">return</span> <span class="n">date_</span>
-</span><span id="ADSLibrarian.convert_publication-148"><a href="#ADSLibrarian.convert_publication-148"><span class="linenos">148</span></a>
-</span><span id="ADSLibrarian.convert_publication-149"><a href="#ADSLibrarian.convert_publication-149"><span class="linenos">149</span></a>        <span class="c1"># Parse date from datetime or year</span>
-</span><span id="ADSLibrarian.convert_publication-150"><a href="#ADSLibrarian.convert_publication-150"><span class="linenos">150</span></a>        <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">article</span><span class="p">,</span> <span class="s2">&quot;entry_date&quot;</span><span class="p">):</span>
-</span><span id="ADSLibrarian.convert_publication-151"><a href="#ADSLibrarian.convert_publication-151"><span class="linenos">151</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="n">process_date</span><span class="p">(</span><span class="n">article</span><span class="o">.</span><span class="n">entry_date</span><span class="p">)</span>
-</span><span id="ADSLibrarian.convert_publication-152"><a href="#ADSLibrarian.convert_publication-152"><span class="linenos">152</span></a>        <span class="k">elif</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">article</span><span class="p">,</span> <span class="s2">&quot;pubdate&quot;</span><span class="p">):</span>
-</span><span id="ADSLibrarian.convert_publication-153"><a href="#ADSLibrarian.convert_publication-153"><span class="linenos">153</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="n">process_date</span><span class="p">(</span><span class="n">article</span><span class="o">.</span><span class="n">pubdate</span><span class="p">)</span>
-</span><span id="ADSLibrarian.convert_publication-154"><a href="#ADSLibrarian.convert_publication-154"><span class="linenos">154</span></a>        <span class="k">elif</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">article</span><span class="p">,</span> <span class="s2">&quot;year&quot;</span><span class="p">):</span>
-</span><span id="ADSLibrarian.convert_publication-155"><a href="#ADSLibrarian.convert_publication-155"><span class="linenos">155</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="n">date</span><span class="p">(</span><span class="n">article</span><span class="o">.</span><span class="n">year</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
-</span><span id="ADSLibrarian.convert_publication-156"><a href="#ADSLibrarian.convert_publication-156"><span class="linenos">156</span></a>        <span class="k">else</span><span class="p">:</span>
-</span><span id="ADSLibrarian.convert_publication-157"><a href="#ADSLibrarian.convert_publication-157"><span class="linenos">157</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="kc">None</span>
-</span><span id="ADSLibrarian.convert_publication-158"><a href="#ADSLibrarian.convert_publication-158"><span class="linenos">158</span></a>
-</span><span id="ADSLibrarian.convert_publication-159"><a href="#ADSLibrarian.convert_publication-159"><span class="linenos">159</span></a>        <span class="c1"># get doi from Article identifiers</span>
-</span><span id="ADSLibrarian.convert_publication-160"><a href="#ADSLibrarian.convert_publication-160"><span class="linenos">160</span></a>        <span class="c1"># warning: ADS tracks two DOIs: for official and arxiv</span>
-</span><span id="ADSLibrarian.convert_publication-161"><a href="#ADSLibrarian.convert_publication-161"><span class="linenos">161</span></a>        <span class="n">doi</span> <span class="o">=</span> <span class="kc">None</span>
-</span><span id="ADSLibrarian.convert_publication-162"><a href="#ADSLibrarian.convert_publication-162"><span class="linenos">162</span></a>        <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">article</span><span class="p">,</span> <span class="s2">&quot;identifier&quot;</span><span class="p">):</span>
-</span><span id="ADSLibrarian.convert_publication-163"><a href="#ADSLibrarian.convert_publication-163"><span class="linenos">163</span></a>            <span class="n">dois</span> <span class="o">=</span> <span class="p">[</span><span class="n">item</span> <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">article</span><span class="o">.</span><span class="n">identifier</span> <span class="k">if</span> <span class="n">item</span><span class="p">[:</span><span class="mi">3</span><span class="p">]</span> <span class="o">==</span> <span class="s2">&quot;10.&quot;</span><span class="p">]</span>
-</span><span id="ADSLibrarian.convert_publication-164"><a href="#ADSLibrarian.convert_publication-164"><span class="linenos">164</span></a>            <span class="k">if</span> <span class="n">dois</span><span class="p">:</span>
-</span><span id="ADSLibrarian.convert_publication-165"><a href="#ADSLibrarian.convert_publication-165"><span class="linenos">165</span></a>                <span class="n">doi</span> <span class="o">=</span> <span class="n">dois</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
-</span><span id="ADSLibrarian.convert_publication-166"><a href="#ADSLibrarian.convert_publication-166"><span class="linenos">166</span></a>
-</span><span id="ADSLibrarian.convert_publication-167"><a href="#ADSLibrarian.convert_publication-167"><span class="linenos">167</span></a>        <span class="n">citations</span> <span class="o">=</span> <span class="n">article</span><span class="o">.</span><span class="n">citation</span>
-</span><span id="ADSLibrarian.convert_publication-168"><a href="#ADSLibrarian.convert_publication-168"><span class="linenos">168</span></a>        <span class="n">references</span> <span class="o">=</span> <span class="n">article</span><span class="o">.</span><span class="n">reference</span>
-</span><span id="ADSLibrarian.convert_publication-169"><a href="#ADSLibrarian.convert_publication-169"><span class="linenos">169</span></a>
-</span><span id="ADSLibrarian.convert_publication-170"><a href="#ADSLibrarian.convert_publication-170"><span class="linenos">170</span></a>        <span class="n">citation_count</span> <span class="o">=</span> <span class="n">article</span><span class="o">.</span><span class="n">citation_count</span>
-</span><span id="ADSLibrarian.convert_publication-171"><a href="#ADSLibrarian.convert_publication-171"><span class="linenos">171</span></a>        <span class="k">if</span> <span class="n">citation_count</span> <span class="o">!=</span> <span class="nb">len</span><span class="p">(</span><span class="n">citations</span><span class="p">):</span>
-</span><span id="ADSLibrarian.convert_publication-172"><a href="#ADSLibrarian.convert_publication-172"><span class="linenos">172</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
-</span><span id="ADSLibrarian.convert_publication-173"><a href="#ADSLibrarian.convert_publication-173"><span class="linenos">173</span></a>                <span class="sa">f</span><span class="s2">&quot;The length of the citations list (</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">citations</span><span class="p">)</span><span class="si">}</span><span class="s2">) is different from citation_count (</span><span class="si">{</span><span class="n">citation_count</span><span class="si">}</span><span class="s2">)&quot;</span>
-</span><span id="ADSLibrarian.convert_publication-174"><a href="#ADSLibrarian.convert_publication-174"><span class="linenos">174</span></a>            <span class="p">)</span>
-</span><span id="ADSLibrarian.convert_publication-175"><a href="#ADSLibrarian.convert_publication-175"><span class="linenos">175</span></a>        <span class="k">if</span> <span class="s2">&quot;infer_citation_count&quot;</span> <span class="ow">in</span> <span class="n">kwargs</span> <span class="ow">and</span> <span class="n">kwargs</span><span class="p">[</span><span class="s2">&quot;infer_citation_count&quot;</span><span class="p">]:</span>
-</span><span id="ADSLibrarian.convert_publication-176"><a href="#ADSLibrarian.convert_publication-176"><span class="linenos">176</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="s2">&quot;Setting citation_count = {len(citations)}.&quot;</span><span class="p">)</span>
-</span><span id="ADSLibrarian.convert_publication-177"><a href="#ADSLibrarian.convert_publication-177"><span class="linenos">177</span></a>            <span class="n">citation_count</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">citations</span><span class="p">)</span>
-</span><span id="ADSLibrarian.convert_publication-178"><a href="#ADSLibrarian.convert_publication-178"><span class="linenos">178</span></a>
-</span><span id="ADSLibrarian.convert_publication-179"><a href="#ADSLibrarian.convert_publication-179"><span class="linenos">179</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="p">{</span>
-</span><span id="ADSLibrarian.convert_publication-180"><a href="#ADSLibrarian.convert_publication-180"><span class="linenos">180</span></a>            <span class="c1"># primary fields</span>
-</span><span id="ADSLibrarian.convert_publication-181"><a href="#ADSLibrarian.convert_publication-181"><span class="linenos">181</span></a>            <span class="s2">&quot;identifier&quot;</span><span class="p">:</span> <span class="n">identifier</span><span class="p">,</span>
-</span><span id="ADSLibrarian.convert_publication-182"><a href="#ADSLibrarian.convert_publication-182"><span class="linenos">182</span></a>            <span class="s2">&quot;abstract&quot;</span><span class="p">:</span> <span class="n">article</span><span class="o">.</span><span class="n">abstract</span><span class="p">,</span>
-</span><span id="ADSLibrarian.convert_publication-183"><a href="#ADSLibrarian.convert_publication-183"><span class="linenos">183</span></a>            <span class="s2">&quot;publication_date&quot;</span><span class="p">:</span> <span class="n">publication_date</span><span class="p">,</span>
-</span><span id="ADSLibrarian.convert_publication-184"><a href="#ADSLibrarian.convert_publication-184"><span class="linenos">184</span></a>            <span class="s2">&quot;citations&quot;</span><span class="p">:</span> <span class="n">citations</span><span class="p">,</span>
-</span><span id="ADSLibrarian.convert_publication-185"><a href="#ADSLibrarian.convert_publication-185"><span class="linenos">185</span></a>            <span class="s2">&quot;references&quot;</span><span class="p">:</span> <span class="n">references</span><span class="p">,</span>
-</span><span id="ADSLibrarian.convert_publication-186"><a href="#ADSLibrarian.convert_publication-186"><span class="linenos">186</span></a>            <span class="s2">&quot;citation_count&quot;</span><span class="p">:</span> <span class="n">citation_count</span><span class="p">,</span>
-</span><span id="ADSLibrarian.convert_publication-187"><a href="#ADSLibrarian.convert_publication-187"><span class="linenos">187</span></a>            <span class="c1"># additional fields</span>
-</span><span id="ADSLibrarian.convert_publication-188"><a href="#ADSLibrarian.convert_publication-188"><span class="linenos">188</span></a>            <span class="s2">&quot;doi&quot;</span><span class="p">:</span> <span class="n">doi</span><span class="p">,</span>
-</span><span id="ADSLibrarian.convert_publication-189"><a href="#ADSLibrarian.convert_publication-189"><span class="linenos">189</span></a>            <span class="s2">&quot;title&quot;</span><span class="p">:</span> <span class="n">article</span><span class="o">.</span><span class="n">title</span><span class="p">,</span>
-</span><span id="ADSLibrarian.convert_publication-190"><a href="#ADSLibrarian.convert_publication-190"><span class="linenos">190</span></a>        <span class="p">}</span>
-</span><span id="ADSLibrarian.convert_publication-191"><a href="#ADSLibrarian.convert_publication-191"><span class="linenos">191</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="p">{</span><span class="n">k</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">data</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span> <span class="n">v</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">}</span>
-</span><span id="ADSLibrarian.convert_publication-192"><a href="#ADSLibrarian.convert_publication-192"><span class="linenos">192</span></a>
-</span><span id="ADSLibrarian.convert_publication-193"><a href="#ADSLibrarian.convert_publication-193"><span class="linenos">193</span></a>        <span class="k">return</span> <span class="n">Publication</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="ADSLibrarian.convert_publication-132"><a href="#ADSLibrarian.convert_publication-132"><span class="linenos">132</span></a>    <span class="k">def</span> <span class="nf">convert_publication</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">article</span><span class="p">:</span> <span class="n">Article</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Publication</span><span class="p">:</span>
+</span><span id="ADSLibrarian.convert_publication-133"><a href="#ADSLibrarian.convert_publication-133"><span class="linenos">133</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Convert a ADS Article object to a sciterra.publication.Publication.&quot;&quot;&quot;</span>
+</span><span id="ADSLibrarian.convert_publication-134"><a href="#ADSLibrarian.convert_publication-134"><span class="linenos">134</span></a>        <span class="k">if</span> <span class="n">article</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="ADSLibrarian.convert_publication-135"><a href="#ADSLibrarian.convert_publication-135"><span class="linenos">135</span></a>            <span class="k">return</span>
+</span><span id="ADSLibrarian.convert_publication-136"><a href="#ADSLibrarian.convert_publication-136"><span class="linenos">136</span></a>
+</span><span id="ADSLibrarian.convert_publication-137"><a href="#ADSLibrarian.convert_publication-137"><span class="linenos">137</span></a>        <span class="n">verbose</span> <span class="o">=</span> <span class="n">get_verbose</span><span class="p">(</span><span class="n">kwargs</span><span class="p">)</span>
+</span><span id="ADSLibrarian.convert_publication-138"><a href="#ADSLibrarian.convert_publication-138"><span class="linenos">138</span></a>
+</span><span id="ADSLibrarian.convert_publication-139"><a href="#ADSLibrarian.convert_publication-139"><span class="linenos">139</span></a>        <span class="c1"># to be consistent with identifiers (e.g., to avoid storing the same publication twice), we always use the bibcode.</span>
+</span><span id="ADSLibrarian.convert_publication-140"><a href="#ADSLibrarian.convert_publication-140"><span class="linenos">140</span></a>        <span class="n">identifier</span> <span class="o">=</span> <span class="n">article</span><span class="o">.</span><span class="n">bibcode</span>
+</span><span id="ADSLibrarian.convert_publication-141"><a href="#ADSLibrarian.convert_publication-141"><span class="linenos">141</span></a>
+</span><span id="ADSLibrarian.convert_publication-142"><a href="#ADSLibrarian.convert_publication-142"><span class="linenos">142</span></a>        <span class="k">def</span> <span class="nf">process_date</span><span class="p">(</span><span class="n">date_str</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+</span><span id="ADSLibrarian.convert_publication-143"><a href="#ADSLibrarian.convert_publication-143"><span class="linenos">143</span></a>            <span class="c1"># sometimes there is extra data</span>
+</span><span id="ADSLibrarian.convert_publication-144"><a href="#ADSLibrarian.convert_publication-144"><span class="linenos">144</span></a>            <span class="n">date_str</span> <span class="o">=</span> <span class="n">date_str</span><span class="p">[:</span><span class="mi">10</span><span class="p">]</span>  <span class="c1"># e.g. yyyy-mm-dd</span>
+</span><span id="ADSLibrarian.convert_publication-145"><a href="#ADSLibrarian.convert_publication-145"><span class="linenos">145</span></a>            <span class="c1"># sometimes ads has 00 for month or day</span>
+</span><span id="ADSLibrarian.convert_publication-146"><a href="#ADSLibrarian.convert_publication-146"><span class="linenos">146</span></a>            <span class="k">if</span> <span class="n">date_str</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">:]</span> <span class="o">==</span> <span class="s2">&quot;00&quot;</span><span class="p">:</span>
+</span><span id="ADSLibrarian.convert_publication-147"><a href="#ADSLibrarian.convert_publication-147"><span class="linenos">147</span></a>                <span class="n">date_str</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">:]</span> <span class="o">=</span> <span class="s2">&quot;01&quot;</span>
+</span><span id="ADSLibrarian.convert_publication-148"><a href="#ADSLibrarian.convert_publication-148"><span class="linenos">148</span></a>            <span class="k">if</span> <span class="n">date_str</span><span class="p">[</span><span class="o">-</span><span class="mi">5</span><span class="p">:</span><span class="o">-</span><span class="mi">3</span><span class="p">]</span> <span class="o">==</span> <span class="s2">&quot;00&quot;</span><span class="p">:</span>
+</span><span id="ADSLibrarian.convert_publication-149"><a href="#ADSLibrarian.convert_publication-149"><span class="linenos">149</span></a>                <span class="n">date_str</span><span class="p">[</span><span class="o">-</span><span class="mi">5</span><span class="p">:</span><span class="o">-</span><span class="mi">3</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;01&quot;</span>
+</span><span id="ADSLibrarian.convert_publication-150"><a href="#ADSLibrarian.convert_publication-150"><span class="linenos">150</span></a>            <span class="n">date_</span> <span class="o">=</span> <span class="n">datetime</span><span class="o">.</span><span class="n">strptime</span><span class="p">(</span><span class="n">date_str</span><span class="p">,</span> <span class="s2">&quot;%Y-%m-</span><span class="si">%d</span><span class="s2">&quot;</span><span class="p">)</span>
+</span><span id="ADSLibrarian.convert_publication-151"><a href="#ADSLibrarian.convert_publication-151"><span class="linenos">151</span></a>            <span class="k">return</span> <span class="n">date_</span>
+</span><span id="ADSLibrarian.convert_publication-152"><a href="#ADSLibrarian.convert_publication-152"><span class="linenos">152</span></a>
+</span><span id="ADSLibrarian.convert_publication-153"><a href="#ADSLibrarian.convert_publication-153"><span class="linenos">153</span></a>        <span class="c1"># Parse date from datetime or year</span>
+</span><span id="ADSLibrarian.convert_publication-154"><a href="#ADSLibrarian.convert_publication-154"><span class="linenos">154</span></a>        <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">article</span><span class="p">,</span> <span class="s2">&quot;entry_date&quot;</span><span class="p">):</span>
+</span><span id="ADSLibrarian.convert_publication-155"><a href="#ADSLibrarian.convert_publication-155"><span class="linenos">155</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="n">process_date</span><span class="p">(</span><span class="n">article</span><span class="o">.</span><span class="n">entry_date</span><span class="p">)</span>
+</span><span id="ADSLibrarian.convert_publication-156"><a href="#ADSLibrarian.convert_publication-156"><span class="linenos">156</span></a>        <span class="k">elif</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">article</span><span class="p">,</span> <span class="s2">&quot;pubdate&quot;</span><span class="p">):</span>
+</span><span id="ADSLibrarian.convert_publication-157"><a href="#ADSLibrarian.convert_publication-157"><span class="linenos">157</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="n">process_date</span><span class="p">(</span><span class="n">article</span><span class="o">.</span><span class="n">pubdate</span><span class="p">)</span>
+</span><span id="ADSLibrarian.convert_publication-158"><a href="#ADSLibrarian.convert_publication-158"><span class="linenos">158</span></a>        <span class="k">elif</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">article</span><span class="p">,</span> <span class="s2">&quot;year&quot;</span><span class="p">):</span>
+</span><span id="ADSLibrarian.convert_publication-159"><a href="#ADSLibrarian.convert_publication-159"><span class="linenos">159</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="n">date</span><span class="p">(</span><span class="n">article</span><span class="o">.</span><span class="n">year</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
+</span><span id="ADSLibrarian.convert_publication-160"><a href="#ADSLibrarian.convert_publication-160"><span class="linenos">160</span></a>        <span class="k">else</span><span class="p">:</span>
+</span><span id="ADSLibrarian.convert_publication-161"><a href="#ADSLibrarian.convert_publication-161"><span class="linenos">161</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="kc">None</span>
+</span><span id="ADSLibrarian.convert_publication-162"><a href="#ADSLibrarian.convert_publication-162"><span class="linenos">162</span></a>
+</span><span id="ADSLibrarian.convert_publication-163"><a href="#ADSLibrarian.convert_publication-163"><span class="linenos">163</span></a>        <span class="c1"># get doi from Article identifiers</span>
+</span><span id="ADSLibrarian.convert_publication-164"><a href="#ADSLibrarian.convert_publication-164"><span class="linenos">164</span></a>        <span class="c1"># warning: ADS tracks two DOIs: for official and arxiv</span>
+</span><span id="ADSLibrarian.convert_publication-165"><a href="#ADSLibrarian.convert_publication-165"><span class="linenos">165</span></a>        <span class="n">doi</span> <span class="o">=</span> <span class="kc">None</span>
+</span><span id="ADSLibrarian.convert_publication-166"><a href="#ADSLibrarian.convert_publication-166"><span class="linenos">166</span></a>        <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">article</span><span class="p">,</span> <span class="s2">&quot;identifier&quot;</span><span class="p">):</span>
+</span><span id="ADSLibrarian.convert_publication-167"><a href="#ADSLibrarian.convert_publication-167"><span class="linenos">167</span></a>            <span class="n">dois</span> <span class="o">=</span> <span class="p">[</span><span class="n">item</span> <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">article</span><span class="o">.</span><span class="n">identifier</span> <span class="k">if</span> <span class="n">item</span><span class="p">[:</span><span class="mi">3</span><span class="p">]</span> <span class="o">==</span> <span class="s2">&quot;10.&quot;</span><span class="p">]</span>
+</span><span id="ADSLibrarian.convert_publication-168"><a href="#ADSLibrarian.convert_publication-168"><span class="linenos">168</span></a>            <span class="k">if</span> <span class="n">dois</span><span class="p">:</span>
+</span><span id="ADSLibrarian.convert_publication-169"><a href="#ADSLibrarian.convert_publication-169"><span class="linenos">169</span></a>                <span class="n">doi</span> <span class="o">=</span> <span class="n">dois</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+</span><span id="ADSLibrarian.convert_publication-170"><a href="#ADSLibrarian.convert_publication-170"><span class="linenos">170</span></a>
+</span><span id="ADSLibrarian.convert_publication-171"><a href="#ADSLibrarian.convert_publication-171"><span class="linenos">171</span></a>        <span class="c1"># Process citation data</span>
+</span><span id="ADSLibrarian.convert_publication-172"><a href="#ADSLibrarian.convert_publication-172"><span class="linenos">172</span></a>        <span class="n">citations</span> <span class="o">=</span> <span class="n">article</span><span class="o">.</span><span class="n">citation</span>
+</span><span id="ADSLibrarian.convert_publication-173"><a href="#ADSLibrarian.convert_publication-173"><span class="linenos">173</span></a>        <span class="n">references</span> <span class="o">=</span> <span class="n">article</span><span class="o">.</span><span class="n">reference</span>
+</span><span id="ADSLibrarian.convert_publication-174"><a href="#ADSLibrarian.convert_publication-174"><span class="linenos">174</span></a>
+</span><span id="ADSLibrarian.convert_publication-175"><a href="#ADSLibrarian.convert_publication-175"><span class="linenos">175</span></a>        <span class="n">citation_count</span> <span class="o">=</span> <span class="n">article</span><span class="o">.</span><span class="n">citation_count</span>
+</span><span id="ADSLibrarian.convert_publication-176"><a href="#ADSLibrarian.convert_publication-176"><span class="linenos">176</span></a>        <span class="k">if</span> <span class="p">(</span>
+</span><span id="ADSLibrarian.convert_publication-177"><a href="#ADSLibrarian.convert_publication-177"><span class="linenos">177</span></a>            <span class="p">(</span><span class="n">citation_count</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">)</span>
+</span><span id="ADSLibrarian.convert_publication-178"><a href="#ADSLibrarian.convert_publication-178"><span class="linenos">178</span></a>            <span class="ow">and</span> <span class="p">(</span><span class="n">citations</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">)</span>
+</span><span id="ADSLibrarian.convert_publication-179"><a href="#ADSLibrarian.convert_publication-179"><span class="linenos">179</span></a>            <span class="ow">and</span> <span class="p">(</span><span class="n">citation_count</span> <span class="o">!=</span> <span class="nb">len</span><span class="p">(</span><span class="n">citations</span><span class="p">))</span>
+</span><span id="ADSLibrarian.convert_publication-180"><a href="#ADSLibrarian.convert_publication-180"><span class="linenos">180</span></a>            <span class="ow">and</span> <span class="n">verbose</span>
+</span><span id="ADSLibrarian.convert_publication-181"><a href="#ADSLibrarian.convert_publication-181"><span class="linenos">181</span></a>        <span class="p">):</span>
+</span><span id="ADSLibrarian.convert_publication-182"><a href="#ADSLibrarian.convert_publication-182"><span class="linenos">182</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+</span><span id="ADSLibrarian.convert_publication-183"><a href="#ADSLibrarian.convert_publication-183"><span class="linenos">183</span></a>                <span class="sa">f</span><span class="s2">&quot;The length of the citations list (</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">citations</span><span class="p">)</span><span class="si">}</span><span class="s2">) is different from citation_count (</span><span class="si">{</span><span class="n">citation_count</span><span class="si">}</span><span class="s2">)&quot;</span>
+</span><span id="ADSLibrarian.convert_publication-184"><a href="#ADSLibrarian.convert_publication-184"><span class="linenos">184</span></a>            <span class="p">)</span>
+</span><span id="ADSLibrarian.convert_publication-185"><a href="#ADSLibrarian.convert_publication-185"><span class="linenos">185</span></a>            <span class="k">if</span> <span class="s2">&quot;infer_citation_count&quot;</span> <span class="ow">in</span> <span class="n">kwargs</span> <span class="ow">and</span> <span class="n">kwargs</span><span class="p">[</span><span class="s2">&quot;infer_citation_count&quot;</span><span class="p">]:</span>
+</span><span id="ADSLibrarian.convert_publication-186"><a href="#ADSLibrarian.convert_publication-186"><span class="linenos">186</span></a>                <span class="k">if</span> <span class="n">verbose</span><span class="p">:</span>
+</span><span id="ADSLibrarian.convert_publication-187"><a href="#ADSLibrarian.convert_publication-187"><span class="linenos">187</span></a>                    <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="s2">&quot;Setting citation_count = {len(citations)}.&quot;</span><span class="p">)</span>
+</span><span id="ADSLibrarian.convert_publication-188"><a href="#ADSLibrarian.convert_publication-188"><span class="linenos">188</span></a>                <span class="n">citation_count</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">citations</span><span class="p">)</span>
+</span><span id="ADSLibrarian.convert_publication-189"><a href="#ADSLibrarian.convert_publication-189"><span class="linenos">189</span></a>
+</span><span id="ADSLibrarian.convert_publication-190"><a href="#ADSLibrarian.convert_publication-190"><span class="linenos">190</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="p">{</span>
+</span><span id="ADSLibrarian.convert_publication-191"><a href="#ADSLibrarian.convert_publication-191"><span class="linenos">191</span></a>            <span class="c1"># primary fields</span>
+</span><span id="ADSLibrarian.convert_publication-192"><a href="#ADSLibrarian.convert_publication-192"><span class="linenos">192</span></a>            <span class="s2">&quot;identifier&quot;</span><span class="p">:</span> <span class="n">identifier</span><span class="p">,</span>
+</span><span id="ADSLibrarian.convert_publication-193"><a href="#ADSLibrarian.convert_publication-193"><span class="linenos">193</span></a>            <span class="s2">&quot;abstract&quot;</span><span class="p">:</span> <span class="n">article</span><span class="o">.</span><span class="n">abstract</span><span class="p">,</span>
+</span><span id="ADSLibrarian.convert_publication-194"><a href="#ADSLibrarian.convert_publication-194"><span class="linenos">194</span></a>            <span class="s2">&quot;publication_date&quot;</span><span class="p">:</span> <span class="n">publication_date</span><span class="p">,</span>
+</span><span id="ADSLibrarian.convert_publication-195"><a href="#ADSLibrarian.convert_publication-195"><span class="linenos">195</span></a>            <span class="s2">&quot;citations&quot;</span><span class="p">:</span> <span class="n">citations</span><span class="p">,</span>
+</span><span id="ADSLibrarian.convert_publication-196"><a href="#ADSLibrarian.convert_publication-196"><span class="linenos">196</span></a>            <span class="s2">&quot;references&quot;</span><span class="p">:</span> <span class="n">references</span><span class="p">,</span>
+</span><span id="ADSLibrarian.convert_publication-197"><a href="#ADSLibrarian.convert_publication-197"><span class="linenos">197</span></a>            <span class="s2">&quot;citation_count&quot;</span><span class="p">:</span> <span class="n">citation_count</span><span class="p">,</span>
+</span><span id="ADSLibrarian.convert_publication-198"><a href="#ADSLibrarian.convert_publication-198"><span class="linenos">198</span></a>            <span class="c1"># additional fields</span>
+</span><span id="ADSLibrarian.convert_publication-199"><a href="#ADSLibrarian.convert_publication-199"><span class="linenos">199</span></a>            <span class="s2">&quot;doi&quot;</span><span class="p">:</span> <span class="n">doi</span><span class="p">,</span>
+</span><span id="ADSLibrarian.convert_publication-200"><a href="#ADSLibrarian.convert_publication-200"><span class="linenos">200</span></a>            <span class="s2">&quot;title&quot;</span><span class="p">:</span> <span class="n">article</span><span class="o">.</span><span class="n">title</span><span class="p">,</span>
+</span><span id="ADSLibrarian.convert_publication-201"><a href="#ADSLibrarian.convert_publication-201"><span class="linenos">201</span></a>        <span class="p">}</span>
+</span><span id="ADSLibrarian.convert_publication-202"><a href="#ADSLibrarian.convert_publication-202"><span class="linenos">202</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="p">{</span><span class="n">k</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">data</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span> <span class="n">v</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">}</span>
+</span><span id="ADSLibrarian.convert_publication-203"><a href="#ADSLibrarian.convert_publication-203"><span class="linenos">203</span></a>
+</span><span id="ADSLibrarian.convert_publication-204"><a href="#ADSLibrarian.convert_publication-204"><span class="linenos">204</span></a>        <span class="k">return</span> <span class="n">Publication</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
 </span></pre></div>
 
 
diff --git a/docs/sciterra/librarians/librarian.html b/docs/sciterra/librarians/librarian.html
index c889f26..a519b3c 100644
--- a/docs/sciterra/librarians/librarian.html
+++ b/docs/sciterra/librarians/librarian.html
@@ -138,23 +138,27 @@ <h1 class="modulename">
 </span><span id="L-45"><a href="#L-45"><span class="linenos">45</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="n">Publication</span><span class="p">]:</span>
 </span><span id="L-46"><a href="#L-46"><span class="linenos">46</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Convet a list of API-specific results to sciterra Publications, possibly using multiprocessing.&quot;&quot;&quot;</span>
 </span><span id="L-47"><a href="#L-47"><span class="linenos">47</span></a>
-</span><span id="L-48"><a href="#L-48"><span class="linenos">48</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">multiprocess</span><span class="p">:</span>
-</span><span id="L-49"><a href="#L-49"><span class="linenos">49</span></a>            <span class="k">return</span> <span class="p">[</span>
-</span><span id="L-50"><a href="#L-50"><span class="linenos">50</span></a>                <span class="bp">self</span><span class="o">.</span><span class="n">convert_publication</span><span class="p">(</span>
-</span><span id="L-51"><a href="#L-51"><span class="linenos">51</span></a>                    <span class="n">paper</span><span class="p">,</span>
-</span><span id="L-52"><a href="#L-52"><span class="linenos">52</span></a>                <span class="p">)</span>
-</span><span id="L-53"><a href="#L-53"><span class="linenos">53</span></a>                <span class="k">for</span> <span class="n">paper</span> <span class="ow">in</span> <span class="n">papers</span>
-</span><span id="L-54"><a href="#L-54"><span class="linenos">54</span></a>            <span class="p">]</span>
-</span><span id="L-55"><a href="#L-55"><span class="linenos">55</span></a>
-</span><span id="L-56"><a href="#L-56"><span class="linenos">56</span></a>        <span class="k">with</span> <span class="n">Pool</span><span class="p">(</span><span class="n">processes</span><span class="o">=</span><span class="n">num_processes</span><span class="p">)</span> <span class="k">as</span> <span class="n">p</span><span class="p">:</span>
-</span><span id="L-57"><a href="#L-57"><span class="linenos">57</span></a>            <span class="n">publications</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span>
-</span><span id="L-58"><a href="#L-58"><span class="linenos">58</span></a>                <span class="n">tqdm</span><span class="p">(</span>
-</span><span id="L-59"><a href="#L-59"><span class="linenos">59</span></a>                    <span class="n">p</span><span class="o">.</span><span class="n">imap</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">convert_publication</span><span class="p">,</span> <span class="n">papers</span><span class="p">),</span>
-</span><span id="L-60"><a href="#L-60"><span class="linenos">60</span></a>                    <span class="n">total</span><span class="o">=</span><span class="nb">len</span><span class="p">(</span><span class="n">papers</span><span class="p">),</span>
-</span><span id="L-61"><a href="#L-61"><span class="linenos">61</span></a>                <span class="p">)</span>
-</span><span id="L-62"><a href="#L-62"><span class="linenos">62</span></a>            <span class="p">)</span>
-</span><span id="L-63"><a href="#L-63"><span class="linenos">63</span></a>
-</span><span id="L-64"><a href="#L-64"><span class="linenos">64</span></a>        <span class="k">return</span> <span class="n">publications</span>
+</span><span id="L-48"><a href="#L-48"><span class="linenos">48</span></a>        <span class="c1"># TODO: you need to pass args and kwargs into these</span>
+</span><span id="L-49"><a href="#L-49"><span class="linenos">49</span></a>
+</span><span id="L-50"><a href="#L-50"><span class="linenos">50</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">multiprocess</span><span class="p">:</span>
+</span><span id="L-51"><a href="#L-51"><span class="linenos">51</span></a>            <span class="k">return</span> <span class="p">[</span>
+</span><span id="L-52"><a href="#L-52"><span class="linenos">52</span></a>                <span class="bp">self</span><span class="o">.</span><span class="n">convert_publication</span><span class="p">(</span>
+</span><span id="L-53"><a href="#L-53"><span class="linenos">53</span></a>                    <span class="n">paper</span><span class="p">,</span>
+</span><span id="L-54"><a href="#L-54"><span class="linenos">54</span></a>                    <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+</span><span id="L-55"><a href="#L-55"><span class="linenos">55</span></a>                    <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+</span><span id="L-56"><a href="#L-56"><span class="linenos">56</span></a>                <span class="p">)</span>
+</span><span id="L-57"><a href="#L-57"><span class="linenos">57</span></a>                <span class="k">for</span> <span class="n">paper</span> <span class="ow">in</span> <span class="n">papers</span>
+</span><span id="L-58"><a href="#L-58"><span class="linenos">58</span></a>            <span class="p">]</span>
+</span><span id="L-59"><a href="#L-59"><span class="linenos">59</span></a>
+</span><span id="L-60"><a href="#L-60"><span class="linenos">60</span></a>        <span class="k">with</span> <span class="n">Pool</span><span class="p">(</span><span class="n">processes</span><span class="o">=</span><span class="n">num_processes</span><span class="p">)</span> <span class="k">as</span> <span class="n">p</span><span class="p">:</span>
+</span><span id="L-61"><a href="#L-61"><span class="linenos">61</span></a>            <span class="n">publications</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span>
+</span><span id="L-62"><a href="#L-62"><span class="linenos">62</span></a>                <span class="n">tqdm</span><span class="p">(</span>
+</span><span id="L-63"><a href="#L-63"><span class="linenos">63</span></a>                    <span class="n">p</span><span class="o">.</span><span class="n">imap</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">convert_publication</span><span class="p">,</span> <span class="n">papers</span><span class="p">),</span>
+</span><span id="L-64"><a href="#L-64"><span class="linenos">64</span></a>                    <span class="n">total</span><span class="o">=</span><span class="nb">len</span><span class="p">(</span><span class="n">papers</span><span class="p">),</span>
+</span><span id="L-65"><a href="#L-65"><span class="linenos">65</span></a>                <span class="p">)</span>
+</span><span id="L-66"><a href="#L-66"><span class="linenos">66</span></a>            <span class="p">)</span>
+</span><span id="L-67"><a href="#L-67"><span class="linenos">67</span></a>
+</span><span id="L-68"><a href="#L-68"><span class="linenos">68</span></a>        <span class="k">return</span> <span class="n">publications</span>
 </span></pre></div>
 
 
@@ -210,23 +214,27 @@ <h1 class="modulename">
 </span><span id="Librarian-46"><a href="#Librarian-46"><span class="linenos">46</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="n">Publication</span><span class="p">]:</span>
 </span><span id="Librarian-47"><a href="#Librarian-47"><span class="linenos">47</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Convet a list of API-specific results to sciterra Publications, possibly using multiprocessing.&quot;&quot;&quot;</span>
 </span><span id="Librarian-48"><a href="#Librarian-48"><span class="linenos">48</span></a>
-</span><span id="Librarian-49"><a href="#Librarian-49"><span class="linenos">49</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">multiprocess</span><span class="p">:</span>
-</span><span id="Librarian-50"><a href="#Librarian-50"><span class="linenos">50</span></a>            <span class="k">return</span> <span class="p">[</span>
-</span><span id="Librarian-51"><a href="#Librarian-51"><span class="linenos">51</span></a>                <span class="bp">self</span><span class="o">.</span><span class="n">convert_publication</span><span class="p">(</span>
-</span><span id="Librarian-52"><a href="#Librarian-52"><span class="linenos">52</span></a>                    <span class="n">paper</span><span class="p">,</span>
-</span><span id="Librarian-53"><a href="#Librarian-53"><span class="linenos">53</span></a>                <span class="p">)</span>
-</span><span id="Librarian-54"><a href="#Librarian-54"><span class="linenos">54</span></a>                <span class="k">for</span> <span class="n">paper</span> <span class="ow">in</span> <span class="n">papers</span>
-</span><span id="Librarian-55"><a href="#Librarian-55"><span class="linenos">55</span></a>            <span class="p">]</span>
-</span><span id="Librarian-56"><a href="#Librarian-56"><span class="linenos">56</span></a>
-</span><span id="Librarian-57"><a href="#Librarian-57"><span class="linenos">57</span></a>        <span class="k">with</span> <span class="n">Pool</span><span class="p">(</span><span class="n">processes</span><span class="o">=</span><span class="n">num_processes</span><span class="p">)</span> <span class="k">as</span> <span class="n">p</span><span class="p">:</span>
-</span><span id="Librarian-58"><a href="#Librarian-58"><span class="linenos">58</span></a>            <span class="n">publications</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span>
-</span><span id="Librarian-59"><a href="#Librarian-59"><span class="linenos">59</span></a>                <span class="n">tqdm</span><span class="p">(</span>
-</span><span id="Librarian-60"><a href="#Librarian-60"><span class="linenos">60</span></a>                    <span class="n">p</span><span class="o">.</span><span class="n">imap</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">convert_publication</span><span class="p">,</span> <span class="n">papers</span><span class="p">),</span>
-</span><span id="Librarian-61"><a href="#Librarian-61"><span class="linenos">61</span></a>                    <span class="n">total</span><span class="o">=</span><span class="nb">len</span><span class="p">(</span><span class="n">papers</span><span class="p">),</span>
-</span><span id="Librarian-62"><a href="#Librarian-62"><span class="linenos">62</span></a>                <span class="p">)</span>
-</span><span id="Librarian-63"><a href="#Librarian-63"><span class="linenos">63</span></a>            <span class="p">)</span>
-</span><span id="Librarian-64"><a href="#Librarian-64"><span class="linenos">64</span></a>
-</span><span id="Librarian-65"><a href="#Librarian-65"><span class="linenos">65</span></a>        <span class="k">return</span> <span class="n">publications</span>
+</span><span id="Librarian-49"><a href="#Librarian-49"><span class="linenos">49</span></a>        <span class="c1"># TODO: you need to pass args and kwargs into these</span>
+</span><span id="Librarian-50"><a href="#Librarian-50"><span class="linenos">50</span></a>
+</span><span id="Librarian-51"><a href="#Librarian-51"><span class="linenos">51</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">multiprocess</span><span class="p">:</span>
+</span><span id="Librarian-52"><a href="#Librarian-52"><span class="linenos">52</span></a>            <span class="k">return</span> <span class="p">[</span>
+</span><span id="Librarian-53"><a href="#Librarian-53"><span class="linenos">53</span></a>                <span class="bp">self</span><span class="o">.</span><span class="n">convert_publication</span><span class="p">(</span>
+</span><span id="Librarian-54"><a href="#Librarian-54"><span class="linenos">54</span></a>                    <span class="n">paper</span><span class="p">,</span>
+</span><span id="Librarian-55"><a href="#Librarian-55"><span class="linenos">55</span></a>                    <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+</span><span id="Librarian-56"><a href="#Librarian-56"><span class="linenos">56</span></a>                    <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+</span><span id="Librarian-57"><a href="#Librarian-57"><span class="linenos">57</span></a>                <span class="p">)</span>
+</span><span id="Librarian-58"><a href="#Librarian-58"><span class="linenos">58</span></a>                <span class="k">for</span> <span class="n">paper</span> <span class="ow">in</span> <span class="n">papers</span>
+</span><span id="Librarian-59"><a href="#Librarian-59"><span class="linenos">59</span></a>            <span class="p">]</span>
+</span><span id="Librarian-60"><a href="#Librarian-60"><span class="linenos">60</span></a>
+</span><span id="Librarian-61"><a href="#Librarian-61"><span class="linenos">61</span></a>        <span class="k">with</span> <span class="n">Pool</span><span class="p">(</span><span class="n">processes</span><span class="o">=</span><span class="n">num_processes</span><span class="p">)</span> <span class="k">as</span> <span class="n">p</span><span class="p">:</span>
+</span><span id="Librarian-62"><a href="#Librarian-62"><span class="linenos">62</span></a>            <span class="n">publications</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span>
+</span><span id="Librarian-63"><a href="#Librarian-63"><span class="linenos">63</span></a>                <span class="n">tqdm</span><span class="p">(</span>
+</span><span id="Librarian-64"><a href="#Librarian-64"><span class="linenos">64</span></a>                    <span class="n">p</span><span class="o">.</span><span class="n">imap</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">convert_publication</span><span class="p">,</span> <span class="n">papers</span><span class="p">),</span>
+</span><span id="Librarian-65"><a href="#Librarian-65"><span class="linenos">65</span></a>                    <span class="n">total</span><span class="o">=</span><span class="nb">len</span><span class="p">(</span><span class="n">papers</span><span class="p">),</span>
+</span><span id="Librarian-66"><a href="#Librarian-66"><span class="linenos">66</span></a>                <span class="p">)</span>
+</span><span id="Librarian-67"><a href="#Librarian-67"><span class="linenos">67</span></a>            <span class="p">)</span>
+</span><span id="Librarian-68"><a href="#Librarian-68"><span class="linenos">68</span></a>
+</span><span id="Librarian-69"><a href="#Librarian-69"><span class="linenos">69</span></a>        <span class="k">return</span> <span class="n">publications</span>
 </span></pre></div>
 
 
@@ -340,23 +348,27 @@ <h6 id="arguments">Arguments:</h6>
 </span><span id="Librarian.convert_publications-46"><a href="#Librarian.convert_publications-46"><span class="linenos">46</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="n">Publication</span><span class="p">]:</span>
 </span><span id="Librarian.convert_publications-47"><a href="#Librarian.convert_publications-47"><span class="linenos">47</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Convet a list of API-specific results to sciterra Publications, possibly using multiprocessing.&quot;&quot;&quot;</span>
 </span><span id="Librarian.convert_publications-48"><a href="#Librarian.convert_publications-48"><span class="linenos">48</span></a>
-</span><span id="Librarian.convert_publications-49"><a href="#Librarian.convert_publications-49"><span class="linenos">49</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">multiprocess</span><span class="p">:</span>
-</span><span id="Librarian.convert_publications-50"><a href="#Librarian.convert_publications-50"><span class="linenos">50</span></a>            <span class="k">return</span> <span class="p">[</span>
-</span><span id="Librarian.convert_publications-51"><a href="#Librarian.convert_publications-51"><span class="linenos">51</span></a>                <span class="bp">self</span><span class="o">.</span><span class="n">convert_publication</span><span class="p">(</span>
-</span><span id="Librarian.convert_publications-52"><a href="#Librarian.convert_publications-52"><span class="linenos">52</span></a>                    <span class="n">paper</span><span class="p">,</span>
-</span><span id="Librarian.convert_publications-53"><a href="#Librarian.convert_publications-53"><span class="linenos">53</span></a>                <span class="p">)</span>
-</span><span id="Librarian.convert_publications-54"><a href="#Librarian.convert_publications-54"><span class="linenos">54</span></a>                <span class="k">for</span> <span class="n">paper</span> <span class="ow">in</span> <span class="n">papers</span>
-</span><span id="Librarian.convert_publications-55"><a href="#Librarian.convert_publications-55"><span class="linenos">55</span></a>            <span class="p">]</span>
-</span><span id="Librarian.convert_publications-56"><a href="#Librarian.convert_publications-56"><span class="linenos">56</span></a>
-</span><span id="Librarian.convert_publications-57"><a href="#Librarian.convert_publications-57"><span class="linenos">57</span></a>        <span class="k">with</span> <span class="n">Pool</span><span class="p">(</span><span class="n">processes</span><span class="o">=</span><span class="n">num_processes</span><span class="p">)</span> <span class="k">as</span> <span class="n">p</span><span class="p">:</span>
-</span><span id="Librarian.convert_publications-58"><a href="#Librarian.convert_publications-58"><span class="linenos">58</span></a>            <span class="n">publications</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span>
-</span><span id="Librarian.convert_publications-59"><a href="#Librarian.convert_publications-59"><span class="linenos">59</span></a>                <span class="n">tqdm</span><span class="p">(</span>
-</span><span id="Librarian.convert_publications-60"><a href="#Librarian.convert_publications-60"><span class="linenos">60</span></a>                    <span class="n">p</span><span class="o">.</span><span class="n">imap</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">convert_publication</span><span class="p">,</span> <span class="n">papers</span><span class="p">),</span>
-</span><span id="Librarian.convert_publications-61"><a href="#Librarian.convert_publications-61"><span class="linenos">61</span></a>                    <span class="n">total</span><span class="o">=</span><span class="nb">len</span><span class="p">(</span><span class="n">papers</span><span class="p">),</span>
-</span><span id="Librarian.convert_publications-62"><a href="#Librarian.convert_publications-62"><span class="linenos">62</span></a>                <span class="p">)</span>
-</span><span id="Librarian.convert_publications-63"><a href="#Librarian.convert_publications-63"><span class="linenos">63</span></a>            <span class="p">)</span>
-</span><span id="Librarian.convert_publications-64"><a href="#Librarian.convert_publications-64"><span class="linenos">64</span></a>
-</span><span id="Librarian.convert_publications-65"><a href="#Librarian.convert_publications-65"><span class="linenos">65</span></a>        <span class="k">return</span> <span class="n">publications</span>
+</span><span id="Librarian.convert_publications-49"><a href="#Librarian.convert_publications-49"><span class="linenos">49</span></a>        <span class="c1"># TODO: you need to pass args and kwargs into these</span>
+</span><span id="Librarian.convert_publications-50"><a href="#Librarian.convert_publications-50"><span class="linenos">50</span></a>
+</span><span id="Librarian.convert_publications-51"><a href="#Librarian.convert_publications-51"><span class="linenos">51</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">multiprocess</span><span class="p">:</span>
+</span><span id="Librarian.convert_publications-52"><a href="#Librarian.convert_publications-52"><span class="linenos">52</span></a>            <span class="k">return</span> <span class="p">[</span>
+</span><span id="Librarian.convert_publications-53"><a href="#Librarian.convert_publications-53"><span class="linenos">53</span></a>                <span class="bp">self</span><span class="o">.</span><span class="n">convert_publication</span><span class="p">(</span>
+</span><span id="Librarian.convert_publications-54"><a href="#Librarian.convert_publications-54"><span class="linenos">54</span></a>                    <span class="n">paper</span><span class="p">,</span>
+</span><span id="Librarian.convert_publications-55"><a href="#Librarian.convert_publications-55"><span class="linenos">55</span></a>                    <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+</span><span id="Librarian.convert_publications-56"><a href="#Librarian.convert_publications-56"><span class="linenos">56</span></a>                    <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+</span><span id="Librarian.convert_publications-57"><a href="#Librarian.convert_publications-57"><span class="linenos">57</span></a>                <span class="p">)</span>
+</span><span id="Librarian.convert_publications-58"><a href="#Librarian.convert_publications-58"><span class="linenos">58</span></a>                <span class="k">for</span> <span class="n">paper</span> <span class="ow">in</span> <span class="n">papers</span>
+</span><span id="Librarian.convert_publications-59"><a href="#Librarian.convert_publications-59"><span class="linenos">59</span></a>            <span class="p">]</span>
+</span><span id="Librarian.convert_publications-60"><a href="#Librarian.convert_publications-60"><span class="linenos">60</span></a>
+</span><span id="Librarian.convert_publications-61"><a href="#Librarian.convert_publications-61"><span class="linenos">61</span></a>        <span class="k">with</span> <span class="n">Pool</span><span class="p">(</span><span class="n">processes</span><span class="o">=</span><span class="n">num_processes</span><span class="p">)</span> <span class="k">as</span> <span class="n">p</span><span class="p">:</span>
+</span><span id="Librarian.convert_publications-62"><a href="#Librarian.convert_publications-62"><span class="linenos">62</span></a>            <span class="n">publications</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span>
+</span><span id="Librarian.convert_publications-63"><a href="#Librarian.convert_publications-63"><span class="linenos">63</span></a>                <span class="n">tqdm</span><span class="p">(</span>
+</span><span id="Librarian.convert_publications-64"><a href="#Librarian.convert_publications-64"><span class="linenos">64</span></a>                    <span class="n">p</span><span class="o">.</span><span class="n">imap</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">convert_publication</span><span class="p">,</span> <span class="n">papers</span><span class="p">),</span>
+</span><span id="Librarian.convert_publications-65"><a href="#Librarian.convert_publications-65"><span class="linenos">65</span></a>                    <span class="n">total</span><span class="o">=</span><span class="nb">len</span><span class="p">(</span><span class="n">papers</span><span class="p">),</span>
+</span><span id="Librarian.convert_publications-66"><a href="#Librarian.convert_publications-66"><span class="linenos">66</span></a>                <span class="p">)</span>
+</span><span id="Librarian.convert_publications-67"><a href="#Librarian.convert_publications-67"><span class="linenos">67</span></a>            <span class="p">)</span>
+</span><span id="Librarian.convert_publications-68"><a href="#Librarian.convert_publications-68"><span class="linenos">68</span></a>
+</span><span id="Librarian.convert_publications-69"><a href="#Librarian.convert_publications-69"><span class="linenos">69</span></a>        <span class="k">return</span> <span class="n">publications</span>
 </span></pre></div>
 
 
diff --git a/docs/sciterra/librarians/s2librarian.html b/docs/sciterra/librarians/s2librarian.html
index 9332f49..f535bc6 100644
--- a/docs/sciterra/librarians/s2librarian.html
+++ b/docs/sciterra/librarians/s2librarian.html
@@ -130,13 +130,13 @@ <h1 class="modulename">
 </span><span id="L-10"><a href="#L-10"><span class="linenos"> 10</span></a>
 </span><span id="L-11"><a href="#L-11"><span class="linenos"> 11</span></a><span class="kn">from</span> <span class="nn">..mapping.publication</span> <span class="kn">import</span> <span class="n">Publication</span>
 </span><span id="L-12"><a href="#L-12"><span class="linenos"> 12</span></a><span class="kn">from</span> <span class="nn">.librarian</span> <span class="kn">import</span> <span class="n">Librarian</span>
-</span><span id="L-13"><a href="#L-13"><span class="linenos"> 13</span></a><span class="kn">from</span> <span class="nn">..misc.utils</span> <span class="kn">import</span> <span class="n">chunk_ids</span><span class="p">,</span> <span class="n">keep_trying</span>
+</span><span id="L-13"><a href="#L-13"><span class="linenos"> 13</span></a><span class="kn">from</span> <span class="nn">..misc.utils</span> <span class="kn">import</span> <span class="n">chunk_ids</span><span class="p">,</span> <span class="n">keep_trying</span><span class="p">,</span> <span class="n">get_verbose</span>
 </span><span id="L-14"><a href="#L-14"><span class="linenos"> 14</span></a>
 </span><span id="L-15"><a href="#L-15"><span class="linenos"> 15</span></a><span class="kn">from</span> <span class="nn">semanticscholar</span> <span class="kn">import</span> <span class="n">SemanticScholar</span>
 </span><span id="L-16"><a href="#L-16"><span class="linenos"> 16</span></a><span class="kn">from</span> <span class="nn">semanticscholar.Paper</span> <span class="kn">import</span> <span class="n">Paper</span>
 </span><span id="L-17"><a href="#L-17"><span class="linenos"> 17</span></a>
 </span><span id="L-18"><a href="#L-18"><span class="linenos"> 18</span></a><span class="kn">from</span> <span class="nn">requests.exceptions</span> <span class="kn">import</span> <span class="n">ReadTimeout</span><span class="p">,</span> <span class="ne">ConnectionError</span>
-</span><span id="L-19"><a href="#L-19"><span class="linenos"> 19</span></a><span class="kn">from</span> <span class="nn">semanticscholar.SemanticScholarException</span> <span class="kn">import</span> <span class="n">ObjectNotFoundExeception</span>
+</span><span id="L-19"><a href="#L-19"><span class="linenos"> 19</span></a><span class="kn">from</span> <span class="nn">semanticscholar.SemanticScholarException</span> <span class="kn">import</span> <span class="n">ObjectNotFoundException</span>
 </span><span id="L-20"><a href="#L-20"><span class="linenos"> 20</span></a>
 </span><span id="L-21"><a href="#L-21"><span class="linenos"> 21</span></a><span class="c1">##############################################################################</span>
 </span><span id="L-22"><a href="#L-22"><span class="linenos"> 22</span></a><span class="c1"># Constants</span>
@@ -202,7 +202,7 @@ <h1 class="modulename">
 </span><span id="L-82"><a href="#L-82"><span class="linenos"> 82</span></a>    <span class="ne">Exception</span><span class="p">,</span>  <span class="c1"># &quot;Internal Service Error&quot;</span>
 </span><span id="L-83"><a href="#L-83"><span class="linenos"> 83</span></a>    <span class="n">ReadTimeout</span><span class="p">,</span>
 </span><span id="L-84"><a href="#L-84"><span class="linenos"> 84</span></a>    <span class="ne">ConnectionError</span><span class="p">,</span>
-</span><span id="L-85"><a href="#L-85"><span class="linenos"> 85</span></a>    <span class="n">ObjectNotFoundExeception</span><span class="p">,</span>
+</span><span id="L-85"><a href="#L-85"><span class="linenos"> 85</span></a>    <span class="n">ObjectNotFoundException</span><span class="p">,</span>
 </span><span id="L-86"><a href="#L-86"><span class="linenos"> 86</span></a><span class="p">)</span>
 </span><span id="L-87"><a href="#L-87"><span class="linenos"> 87</span></a><span class="n">CALL_SIZE</span> <span class="o">=</span> <span class="mi">10</span>
 </span><span id="L-88"><a href="#L-88"><span class="linenos"> 88</span></a><span class="n">NUM_ATTEMPTS_PER_QUERY</span> <span class="o">=</span> <span class="mi">50</span>
@@ -242,7 +242,7 @@ <h1 class="modulename">
 </span><span id="L-122"><a href="#L-122"><span class="linenos">122</span></a>
 </span><span id="L-123"><a href="#L-123"><span class="linenos">123</span></a><span class="sd">            n_attempts_per_query: Number of attempts to access the API per query. Useful when experiencing connection issues.</span>
 </span><span id="L-124"><a href="#L-124"><span class="linenos">124</span></a>
-</span><span id="L-125"><a href="#L-125"><span class="linenos">125</span></a><span class="sd">            call_size: maximum number of papers to call API for in one query; if less than `len(paper_ids)`, chunking will be performed.</span>
+</span><span id="L-125"><a href="#L-125"><span class="linenos">125</span></a><span class="sd">            call_size: maximum number of papers to call API for in one query; if less than `len(paper_ids)`, chunking will be performed. Maximum that S2 allows is 500.</span>
 </span><span id="L-126"><a href="#L-126"><span class="linenos">126</span></a>
 </span><span id="L-127"><a href="#L-127"><span class="linenos">127</span></a><span class="sd">            convert: whether to convert each resulting SemanticScholar Paper to sciterra Publications (True by default).</span>
 </span><span id="L-128"><a href="#L-128"><span class="linenos">128</span></a>
@@ -255,144 +255,154 @@ <h1 class="modulename">
 </span><span id="L-135"><a href="#L-135"><span class="linenos">135</span></a>            <span class="k">return</span> <span class="p">[]</span>
 </span><span id="L-136"><a href="#L-136"><span class="linenos">136</span></a>
 </span><span id="L-137"><a href="#L-137"><span class="linenos">137</span></a>        <span class="n">total</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">paper_ids</span><span class="p">)</span>
-</span><span id="L-138"><a href="#L-138"><span class="linenos">138</span></a>        <span class="n">chunked_ids</span> <span class="o">=</span> <span class="n">chunk_ids</span><span class="p">(</span><span class="n">paper_ids</span><span class="p">,</span> <span class="n">call_size</span><span class="o">=</span><span class="n">call_size</span><span class="p">)</span>
-</span><span id="L-139"><a href="#L-139"><span class="linenos">139</span></a>
-</span><span id="L-140"><a href="#L-140"><span class="linenos">140</span></a>        <span class="k">if</span> <span class="kc">None</span> <span class="ow">in</span> <span class="n">paper_ids</span><span class="p">:</span>
-</span><span id="L-141"><a href="#L-141"><span class="linenos">141</span></a>            <span class="c1"># any Nones should have been handled by this point</span>
-</span><span id="L-142"><a href="#L-142"><span class="linenos">142</span></a>            <span class="k">raise</span> <span class="ne">Exception</span><span class="p">(</span><span class="s2">&quot;Passed `paper_ids` contains None.&quot;</span><span class="p">)</span>
-</span><span id="L-143"><a href="#L-143"><span class="linenos">143</span></a>
-</span><span id="L-144"><a href="#L-144"><span class="linenos">144</span></a>        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Querying Semantic Scholar for </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">paper_ids</span><span class="p">)</span><span class="si">}</span><span class="s2"> total papers.&quot;</span><span class="p">)</span>
-</span><span id="L-145"><a href="#L-145"><span class="linenos">145</span></a>        <span class="n">papers</span> <span class="o">=</span> <span class="p">[]</span>
-</span><span id="L-146"><a href="#L-146"><span class="linenos">146</span></a>        <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="p">(</span><span class="n">desc</span><span class="o">=</span><span class="sa">f</span><span class="s2">&quot;progress using call_size=</span><span class="si">{</span><span class="n">call_size</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">,</span> <span class="n">total</span><span class="o">=</span><span class="n">total</span><span class="p">)</span>
-</span><span id="L-147"><a href="#L-147"><span class="linenos">147</span></a>        <span class="k">for</span> <span class="n">ids</span> <span class="ow">in</span> <span class="n">chunked_ids</span><span class="p">:</span>
-</span><span id="L-148"><a href="#L-148"><span class="linenos">148</span></a>
-</span><span id="L-149"><a href="#L-149"><span class="linenos">149</span></a>            <span class="nd">@keep_trying</span><span class="p">(</span>
-</span><span id="L-150"><a href="#L-150"><span class="linenos">150</span></a>                <span class="n">n_attempts</span><span class="o">=</span><span class="n">n_attempts_per_query</span><span class="p">,</span>
-</span><span id="L-151"><a href="#L-151"><span class="linenos">151</span></a>                <span class="n">allowed_exceptions</span><span class="o">=</span><span class="n">ALLOWED_EXCEPTIONS</span><span class="p">,</span>
-</span><span id="L-152"><a href="#L-152"><span class="linenos">152</span></a>                <span class="n">sleep_after_attempt</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span>
-</span><span id="L-153"><a href="#L-153"><span class="linenos">153</span></a>            <span class="p">)</span>
-</span><span id="L-154"><a href="#L-154"><span class="linenos">154</span></a>            <span class="k">def</span> <span class="nf">get_papers</span><span class="p">()</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="n">Paper</span><span class="p">]:</span>
-</span><span id="L-155"><a href="#L-155"><span class="linenos">155</span></a>                <span class="k">if</span> <span class="n">call_size</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">:</span>
-</span><span id="L-156"><a href="#L-156"><span class="linenos">156</span></a>                    <span class="n">result</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">get_papers</span><span class="p">(</span>
-</span><span id="L-157"><a href="#L-157"><span class="linenos">157</span></a>                        <span class="n">paper_ids</span><span class="o">=</span><span class="n">ids</span><span class="p">,</span>
-</span><span id="L-158"><a href="#L-158"><span class="linenos">158</span></a>                        <span class="n">fields</span><span class="o">=</span><span class="n">QUERY_FIELDS</span><span class="p">,</span>
-</span><span id="L-159"><a href="#L-159"><span class="linenos">159</span></a>                    <span class="p">)</span>
-</span><span id="L-160"><a href="#L-160"><span class="linenos">160</span></a>                <span class="k">else</span><span class="p">:</span>
-</span><span id="L-161"><a href="#L-161"><span class="linenos">161</span></a>                    <span class="c1"># typically completes about 100 queries per minute.</span>
-</span><span id="L-162"><a href="#L-162"><span class="linenos">162</span></a>                    <span class="n">result</span> <span class="o">=</span> <span class="p">[</span>
-</span><span id="L-163"><a href="#L-163"><span class="linenos">163</span></a>                        <span class="bp">self</span><span class="o">.</span><span class="n">get_paper</span><span class="p">(</span>
-</span><span id="L-164"><a href="#L-164"><span class="linenos">164</span></a>                            <span class="n">paper_id</span><span class="o">=</span><span class="n">paper_id</span><span class="p">,</span>
-</span><span id="L-165"><a href="#L-165"><span class="linenos">165</span></a>                            <span class="n">fields</span><span class="o">=</span><span class="n">QUERY_FIELDS</span><span class="p">,</span>
-</span><span id="L-166"><a href="#L-166"><span class="linenos">166</span></a>                        <span class="p">)</span>
-</span><span id="L-167"><a href="#L-167"><span class="linenos">167</span></a>                        <span class="k">for</span> <span class="n">paper_id</span> <span class="ow">in</span> <span class="n">ids</span>
-</span><span id="L-168"><a href="#L-168"><span class="linenos">168</span></a>                    <span class="p">]</span>
-</span><span id="L-169"><a href="#L-169"><span class="linenos">169</span></a>                <span class="k">return</span> <span class="n">result</span>
-</span><span id="L-170"><a href="#L-170"><span class="linenos">170</span></a>
-</span><span id="L-171"><a href="#L-171"><span class="linenos">171</span></a>            <span class="n">papers</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">get_papers</span><span class="p">())</span>
-</span><span id="L-172"><a href="#L-172"><span class="linenos">172</span></a>            <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">ids</span><span class="p">))</span>
-</span><span id="L-173"><a href="#L-173"><span class="linenos">173</span></a>        <span class="n">pbar</span><span class="o">.</span><span class="n">close</span><span class="p">()</span>
-</span><span id="L-174"><a href="#L-174"><span class="linenos">174</span></a>
-</span><span id="L-175"><a href="#L-175"><span class="linenos">175</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">convert</span><span class="p">:</span>
-</span><span id="L-176"><a href="#L-176"><span class="linenos">176</span></a>            <span class="k">return</span> <span class="n">papers</span>
-</span><span id="L-177"><a href="#L-177"><span class="linenos">177</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">convert_publications</span><span class="p">(</span>
-</span><span id="L-178"><a href="#L-178"><span class="linenos">178</span></a>            <span class="n">papers</span><span class="p">,</span>
-</span><span id="L-179"><a href="#L-179"><span class="linenos">179</span></a>            <span class="o">*</span><span class="n">args</span><span class="p">,</span>
-</span><span id="L-180"><a href="#L-180"><span class="linenos">180</span></a>            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
-</span><span id="L-181"><a href="#L-181"><span class="linenos">181</span></a>        <span class="p">)</span>
-</span><span id="L-182"><a href="#L-182"><span class="linenos">182</span></a>
-</span><span id="L-183"><a href="#L-183"><span class="linenos">183</span></a>    <span class="k">def</span> <span class="nf">convert_publication</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">paper</span><span class="p">:</span> <span class="n">Paper</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Publication</span><span class="p">:</span>
-</span><span id="L-184"><a href="#L-184"><span class="linenos">184</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Convert a SemanticScholar Paper object to a sciterra.publication.Publication.&quot;&quot;&quot;</span>
-</span><span id="L-185"><a href="#L-185"><span class="linenos">185</span></a>        <span class="k">if</span> <span class="n">paper</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="L-186"><a href="#L-186"><span class="linenos">186</span></a>            <span class="k">return</span>
-</span><span id="L-187"><a href="#L-187"><span class="linenos">187</span></a>
-</span><span id="L-188"><a href="#L-188"><span class="linenos">188</span></a>        <span class="c1"># to be consistent with identifiers (e.g., to avoid storing the same publication twice), we always use the paperId.</span>
-</span><span id="L-189"><a href="#L-189"><span class="linenos">189</span></a>        <span class="n">identifier</span> <span class="o">=</span> <span class="n">paper</span><span class="o">.</span><span class="n">paperId</span>
-</span><span id="L-190"><a href="#L-190"><span class="linenos">190</span></a>
-</span><span id="L-191"><a href="#L-191"><span class="linenos">191</span></a>        <span class="c1"># Parse date from datetime or year</span>
-</span><span id="L-192"><a href="#L-192"><span class="linenos">192</span></a>        <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">paper</span><span class="p">,</span> <span class="s2">&quot;publicationDate&quot;</span><span class="p">):</span>
-</span><span id="L-193"><a href="#L-193"><span class="linenos">193</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="n">paper</span><span class="o">.</span><span class="n">publicationDate</span>
-</span><span id="L-194"><a href="#L-194"><span class="linenos">194</span></a>        <span class="k">elif</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">paper</span><span class="p">,</span> <span class="s2">&quot;year&quot;</span><span class="p">):</span>
-</span><span id="L-195"><a href="#L-195"><span class="linenos">195</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="n">date</span><span class="p">(</span><span class="n">paper</span><span class="o">.</span><span class="n">year</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
-</span><span id="L-196"><a href="#L-196"><span class="linenos">196</span></a>        <span class="k">else</span><span class="p">:</span>
-</span><span id="L-197"><a href="#L-197"><span class="linenos">197</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="kc">None</span>
-</span><span id="L-198"><a href="#L-198"><span class="linenos">198</span></a>
-</span><span id="L-199"><a href="#L-199"><span class="linenos">199</span></a>        <span class="c1"># get doi from externalids</span>
-</span><span id="L-200"><a href="#L-200"><span class="linenos">200</span></a>        <span class="n">doi</span> <span class="o">=</span> <span class="kc">None</span>
-</span><span id="L-201"><a href="#L-201"><span class="linenos">201</span></a>        <span class="k">if</span> <span class="s2">&quot;DOI&quot;</span> <span class="ow">in</span> <span class="n">paper</span><span class="o">.</span><span class="n">externalIds</span><span class="p">:</span>
-</span><span id="L-202"><a href="#L-202"><span class="linenos">202</span></a>            <span class="n">doi</span> <span class="o">=</span> <span class="n">paper</span><span class="o">.</span><span class="n">externalIds</span><span class="p">[</span><span class="s2">&quot;DOI&quot;</span><span class="p">]</span>
-</span><span id="L-203"><a href="#L-203"><span class="linenos">203</span></a>
-</span><span id="L-204"><a href="#L-204"><span class="linenos">204</span></a>        <span class="c1"># convert citations/references from lists of Papers to identifiers</span>
-</span><span id="L-205"><a href="#L-205"><span class="linenos">205</span></a>        <span class="n">citations</span> <span class="o">=</span> <span class="p">[</span>
-</span><span id="L-206"><a href="#L-206"><span class="linenos">206</span></a>            <span class="n">paper</span><span class="o">.</span><span class="n">paperId</span> <span class="k">for</span> <span class="n">paper</span> <span class="ow">in</span> <span class="n">paper</span><span class="o">.</span><span class="n">citations</span> <span class="k">if</span> <span class="n">paper</span><span class="o">.</span><span class="n">paperId</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
-</span><span id="L-207"><a href="#L-207"><span class="linenos">207</span></a>        <span class="p">]</span>  <span class="c1"># no point using recursion assuming identifier=paperId</span>
-</span><span id="L-208"><a href="#L-208"><span class="linenos">208</span></a>        <span class="n">references</span> <span class="o">=</span> <span class="p">[</span>
-</span><span id="L-209"><a href="#L-209"><span class="linenos">209</span></a>            <span class="n">paper</span><span class="o">.</span><span class="n">paperId</span> <span class="k">for</span> <span class="n">paper</span> <span class="ow">in</span> <span class="n">paper</span><span class="o">.</span><span class="n">references</span> <span class="k">if</span> <span class="n">paper</span><span class="o">.</span><span class="n">paperId</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
-</span><span id="L-210"><a href="#L-210"><span class="linenos">210</span></a>        <span class="p">]</span>
-</span><span id="L-211"><a href="#L-211"><span class="linenos">211</span></a>
-</span><span id="L-212"><a href="#L-212"><span class="linenos">212</span></a>        <span class="n">citation_count</span> <span class="o">=</span> <span class="n">paper</span><span class="o">.</span><span class="n">citationCount</span>
-</span><span id="L-213"><a href="#L-213"><span class="linenos">213</span></a>        <span class="k">if</span> <span class="n">citation_count</span> <span class="o">!=</span> <span class="nb">len</span><span class="p">(</span><span class="n">citations</span><span class="p">):</span>
-</span><span id="L-214"><a href="#L-214"><span class="linenos">214</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
-</span><span id="L-215"><a href="#L-215"><span class="linenos">215</span></a>                <span class="sa">f</span><span class="s2">&quot;The length of the citations list (</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">citations</span><span class="p">)</span><span class="si">}</span><span class="s2">) is different from citation_count (</span><span class="si">{</span><span class="n">citation_count</span><span class="si">}</span><span class="s2">)&quot;</span>
-</span><span id="L-216"><a href="#L-216"><span class="linenos">216</span></a>            <span class="p">)</span>
-</span><span id="L-217"><a href="#L-217"><span class="linenos">217</span></a>        <span class="k">if</span> <span class="s2">&quot;infer_citation_count&quot;</span> <span class="ow">in</span> <span class="n">kwargs</span> <span class="ow">and</span> <span class="n">kwargs</span><span class="p">[</span><span class="s2">&quot;infer_citation_count&quot;</span><span class="p">]:</span>
-</span><span id="L-218"><a href="#L-218"><span class="linenos">218</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="s2">&quot;Setting citation_count = {len(citations)}.&quot;</span><span class="p">)</span>
-</span><span id="L-219"><a href="#L-219"><span class="linenos">219</span></a>            <span class="n">citation_count</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">citations</span><span class="p">)</span>
-</span><span id="L-220"><a href="#L-220"><span class="linenos">220</span></a>
-</span><span id="L-221"><a href="#L-221"><span class="linenos">221</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="p">{</span>
-</span><span id="L-222"><a href="#L-222"><span class="linenos">222</span></a>            <span class="c1"># primary fields</span>
-</span><span id="L-223"><a href="#L-223"><span class="linenos">223</span></a>            <span class="s2">&quot;identifier&quot;</span><span class="p">:</span> <span class="n">identifier</span><span class="p">,</span>
-</span><span id="L-224"><a href="#L-224"><span class="linenos">224</span></a>            <span class="s2">&quot;abstract&quot;</span><span class="p">:</span> <span class="n">paper</span><span class="o">.</span><span class="n">abstract</span><span class="p">,</span>
-</span><span id="L-225"><a href="#L-225"><span class="linenos">225</span></a>            <span class="s2">&quot;publication_date&quot;</span><span class="p">:</span> <span class="n">publication_date</span><span class="p">,</span>
-</span><span id="L-226"><a href="#L-226"><span class="linenos">226</span></a>            <span class="s2">&quot;citations&quot;</span><span class="p">:</span> <span class="n">citations</span><span class="p">,</span>
-</span><span id="L-227"><a href="#L-227"><span class="linenos">227</span></a>            <span class="s2">&quot;references&quot;</span><span class="p">:</span> <span class="n">references</span><span class="p">,</span>
-</span><span id="L-228"><a href="#L-228"><span class="linenos">228</span></a>            <span class="s2">&quot;citation_count&quot;</span><span class="p">:</span> <span class="n">citation_count</span><span class="p">,</span>
-</span><span id="L-229"><a href="#L-229"><span class="linenos">229</span></a>            <span class="c1"># additional fields</span>
-</span><span id="L-230"><a href="#L-230"><span class="linenos">230</span></a>            <span class="s2">&quot;doi&quot;</span><span class="p">:</span> <span class="n">doi</span><span class="p">,</span>
-</span><span id="L-231"><a href="#L-231"><span class="linenos">231</span></a>            <span class="s2">&quot;url&quot;</span><span class="p">:</span> <span class="n">paper</span><span class="o">.</span><span class="n">url</span> <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">paper</span><span class="p">,</span> <span class="s2">&quot;url&quot;</span><span class="p">)</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
-</span><span id="L-232"><a href="#L-232"><span class="linenos">232</span></a>            <span class="s2">&quot;title&quot;</span><span class="p">:</span> <span class="n">paper</span><span class="o">.</span><span class="n">title</span> <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">paper</span><span class="p">,</span> <span class="s2">&quot;title&quot;</span><span class="p">)</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
-</span><span id="L-233"><a href="#L-233"><span class="linenos">233</span></a>            <span class="s2">&quot;issn&quot;</span><span class="p">:</span> <span class="n">paper</span><span class="o">.</span><span class="n">issn</span> <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">paper</span><span class="p">,</span> <span class="s2">&quot;issn&quot;</span><span class="p">)</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
-</span><span id="L-234"><a href="#L-234"><span class="linenos">234</span></a>        <span class="p">}</span>
-</span><span id="L-235"><a href="#L-235"><span class="linenos">235</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="p">{</span><span class="n">k</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">data</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span> <span class="n">v</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">}</span>
-</span><span id="L-236"><a href="#L-236"><span class="linenos">236</span></a>
-</span><span id="L-237"><a href="#L-237"><span class="linenos">237</span></a>        <span class="k">return</span> <span class="n">Publication</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
-</span><span id="L-238"><a href="#L-238"><span class="linenos">238</span></a>
-</span><span id="L-239"><a href="#L-239"><span class="linenos">239</span></a>    <span class="c1"># We write this minimally different function from SemanticScholar.get_papers so that others dont need to fork our version of semantic scholar.</span>
-</span><span id="L-240"><a href="#L-240"><span class="linenos">240</span></a>    <span class="k">def</span> <span class="nf">get_papers</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">paper_ids</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="n">fields</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]):</span>
-</span><span id="L-241"><a href="#L-241"><span class="linenos">241</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Custom function for calling the S2 API that doesn&#39;t fail on empty results.&quot;&quot;&quot;</span>
-</span><span id="L-242"><a href="#L-242"><span class="linenos">242</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">fields</span><span class="p">:</span>
-</span><span id="L-243"><a href="#L-243"><span class="linenos">243</span></a>            <span class="n">fields</span> <span class="o">=</span> <span class="n">Paper</span><span class="o">.</span><span class="n">SEARCH_FIELDS</span>
+</span><span id="L-138"><a href="#L-138"><span class="linenos">138</span></a>        <span class="k">if</span> <span class="n">call_size</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="L-139"><a href="#L-139"><span class="linenos">139</span></a>            <span class="n">call_size</span> <span class="o">=</span> <span class="n">CALL_SIZE</span>
+</span><span id="L-140"><a href="#L-140"><span class="linenos">140</span></a>        <span class="n">chunked_ids</span> <span class="o">=</span> <span class="n">chunk_ids</span><span class="p">(</span><span class="n">paper_ids</span><span class="p">,</span> <span class="n">call_size</span><span class="o">=</span><span class="n">call_size</span><span class="p">)</span>
+</span><span id="L-141"><a href="#L-141"><span class="linenos">141</span></a>
+</span><span id="L-142"><a href="#L-142"><span class="linenos">142</span></a>        <span class="k">if</span> <span class="kc">None</span> <span class="ow">in</span> <span class="n">paper_ids</span><span class="p">:</span>
+</span><span id="L-143"><a href="#L-143"><span class="linenos">143</span></a>            <span class="c1"># any Nones should have been handled by this point</span>
+</span><span id="L-144"><a href="#L-144"><span class="linenos">144</span></a>            <span class="k">raise</span> <span class="ne">Exception</span><span class="p">(</span><span class="s2">&quot;Passed `paper_ids` contains None.&quot;</span><span class="p">)</span>
+</span><span id="L-145"><a href="#L-145"><span class="linenos">145</span></a>
+</span><span id="L-146"><a href="#L-146"><span class="linenos">146</span></a>        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Querying Semantic Scholar for </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">paper_ids</span><span class="p">)</span><span class="si">}</span><span class="s2"> total papers.&quot;</span><span class="p">)</span>
+</span><span id="L-147"><a href="#L-147"><span class="linenos">147</span></a>        <span class="n">papers</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="L-148"><a href="#L-148"><span class="linenos">148</span></a>        <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="p">(</span><span class="n">desc</span><span class="o">=</span><span class="sa">f</span><span class="s2">&quot;progress using call_size=</span><span class="si">{</span><span class="n">call_size</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">,</span> <span class="n">total</span><span class="o">=</span><span class="n">total</span><span class="p">)</span>
+</span><span id="L-149"><a href="#L-149"><span class="linenos">149</span></a>        <span class="k">for</span> <span class="n">ids</span> <span class="ow">in</span> <span class="n">chunked_ids</span><span class="p">:</span>
+</span><span id="L-150"><a href="#L-150"><span class="linenos">150</span></a>
+</span><span id="L-151"><a href="#L-151"><span class="linenos">151</span></a>            <span class="nd">@keep_trying</span><span class="p">(</span>
+</span><span id="L-152"><a href="#L-152"><span class="linenos">152</span></a>                <span class="n">n_attempts</span><span class="o">=</span><span class="n">n_attempts_per_query</span><span class="p">,</span>
+</span><span id="L-153"><a href="#L-153"><span class="linenos">153</span></a>                <span class="n">allowed_exceptions</span><span class="o">=</span><span class="n">ALLOWED_EXCEPTIONS</span><span class="p">,</span>
+</span><span id="L-154"><a href="#L-154"><span class="linenos">154</span></a>                <span class="n">sleep_after_attempt</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span>
+</span><span id="L-155"><a href="#L-155"><span class="linenos">155</span></a>            <span class="p">)</span>
+</span><span id="L-156"><a href="#L-156"><span class="linenos">156</span></a>            <span class="k">def</span> <span class="nf">get_papers</span><span class="p">()</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="n">Paper</span><span class="p">]:</span>
+</span><span id="L-157"><a href="#L-157"><span class="linenos">157</span></a>                <span class="k">if</span> <span class="n">call_size</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">:</span>
+</span><span id="L-158"><a href="#L-158"><span class="linenos">158</span></a>                    <span class="n">result</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">get_papers</span><span class="p">(</span>
+</span><span id="L-159"><a href="#L-159"><span class="linenos">159</span></a>                        <span class="n">paper_ids</span><span class="o">=</span><span class="n">ids</span><span class="p">,</span>
+</span><span id="L-160"><a href="#L-160"><span class="linenos">160</span></a>                        <span class="n">fields</span><span class="o">=</span><span class="n">QUERY_FIELDS</span><span class="p">,</span>
+</span><span id="L-161"><a href="#L-161"><span class="linenos">161</span></a>                    <span class="p">)</span>
+</span><span id="L-162"><a href="#L-162"><span class="linenos">162</span></a>                <span class="k">else</span><span class="p">:</span>
+</span><span id="L-163"><a href="#L-163"><span class="linenos">163</span></a>                    <span class="c1"># typically completes about 100 queries per minute.</span>
+</span><span id="L-164"><a href="#L-164"><span class="linenos">164</span></a>                    <span class="n">result</span> <span class="o">=</span> <span class="p">[</span>
+</span><span id="L-165"><a href="#L-165"><span class="linenos">165</span></a>                        <span class="bp">self</span><span class="o">.</span><span class="n">get_paper</span><span class="p">(</span>
+</span><span id="L-166"><a href="#L-166"><span class="linenos">166</span></a>                            <span class="n">paper_id</span><span class="o">=</span><span class="n">paper_id</span><span class="p">,</span>
+</span><span id="L-167"><a href="#L-167"><span class="linenos">167</span></a>                            <span class="n">fields</span><span class="o">=</span><span class="n">QUERY_FIELDS</span><span class="p">,</span>
+</span><span id="L-168"><a href="#L-168"><span class="linenos">168</span></a>                        <span class="p">)</span>
+</span><span id="L-169"><a href="#L-169"><span class="linenos">169</span></a>                        <span class="k">for</span> <span class="n">paper_id</span> <span class="ow">in</span> <span class="n">ids</span>
+</span><span id="L-170"><a href="#L-170"><span class="linenos">170</span></a>                    <span class="p">]</span>
+</span><span id="L-171"><a href="#L-171"><span class="linenos">171</span></a>                <span class="k">return</span> <span class="n">result</span>
+</span><span id="L-172"><a href="#L-172"><span class="linenos">172</span></a>
+</span><span id="L-173"><a href="#L-173"><span class="linenos">173</span></a>            <span class="n">papers</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">get_papers</span><span class="p">())</span>
+</span><span id="L-174"><a href="#L-174"><span class="linenos">174</span></a>            <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">ids</span><span class="p">))</span>
+</span><span id="L-175"><a href="#L-175"><span class="linenos">175</span></a>        <span class="n">pbar</span><span class="o">.</span><span class="n">close</span><span class="p">()</span>
+</span><span id="L-176"><a href="#L-176"><span class="linenos">176</span></a>
+</span><span id="L-177"><a href="#L-177"><span class="linenos">177</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">convert</span><span class="p">:</span>
+</span><span id="L-178"><a href="#L-178"><span class="linenos">178</span></a>            <span class="k">return</span> <span class="n">papers</span>
+</span><span id="L-179"><a href="#L-179"><span class="linenos">179</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">convert_publications</span><span class="p">(</span>  <span class="c1"># may contain Nones!</span>
+</span><span id="L-180"><a href="#L-180"><span class="linenos">180</span></a>            <span class="n">papers</span><span class="p">,</span>
+</span><span id="L-181"><a href="#L-181"><span class="linenos">181</span></a>            <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+</span><span id="L-182"><a href="#L-182"><span class="linenos">182</span></a>            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+</span><span id="L-183"><a href="#L-183"><span class="linenos">183</span></a>        <span class="p">)</span>
+</span><span id="L-184"><a href="#L-184"><span class="linenos">184</span></a>
+</span><span id="L-185"><a href="#L-185"><span class="linenos">185</span></a>    <span class="k">def</span> <span class="nf">convert_publication</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">paper</span><span class="p">:</span> <span class="n">Paper</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Publication</span><span class="p">:</span>
+</span><span id="L-186"><a href="#L-186"><span class="linenos">186</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Convert a SemanticScholar Paper object to a sciterra.publication.Publication.&quot;&quot;&quot;</span>
+</span><span id="L-187"><a href="#L-187"><span class="linenos">187</span></a>        <span class="k">if</span> <span class="n">paper</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="L-188"><a href="#L-188"><span class="linenos">188</span></a>            <span class="k">return</span>
+</span><span id="L-189"><a href="#L-189"><span class="linenos">189</span></a>
+</span><span id="L-190"><a href="#L-190"><span class="linenos">190</span></a>        <span class="n">verbose</span> <span class="o">=</span> <span class="n">get_verbose</span><span class="p">(</span><span class="n">kwargs</span><span class="p">)</span>
+</span><span id="L-191"><a href="#L-191"><span class="linenos">191</span></a>
+</span><span id="L-192"><a href="#L-192"><span class="linenos">192</span></a>        <span class="c1"># to be consistent with identifiers (e.g., to avoid storing the same publication twice), we always use the paperId.</span>
+</span><span id="L-193"><a href="#L-193"><span class="linenos">193</span></a>        <span class="n">identifier</span> <span class="o">=</span> <span class="n">paper</span><span class="o">.</span><span class="n">paperId</span>
+</span><span id="L-194"><a href="#L-194"><span class="linenos">194</span></a>
+</span><span id="L-195"><a href="#L-195"><span class="linenos">195</span></a>        <span class="c1"># Parse date from datetime or year</span>
+</span><span id="L-196"><a href="#L-196"><span class="linenos">196</span></a>        <span class="k">if</span> <span class="n">paper</span><span class="o">.</span><span class="n">publicationDate</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="L-197"><a href="#L-197"><span class="linenos">197</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="n">paper</span><span class="o">.</span><span class="n">publicationDate</span><span class="o">.</span><span class="n">date</span><span class="p">()</span>
+</span><span id="L-198"><a href="#L-198"><span class="linenos">198</span></a>        <span class="k">elif</span> <span class="n">paper</span><span class="o">.</span><span class="n">year</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="L-199"><a href="#L-199"><span class="linenos">199</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="n">date</span><span class="p">(</span><span class="n">paper</span><span class="o">.</span><span class="n">year</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
+</span><span id="L-200"><a href="#L-200"><span class="linenos">200</span></a>        <span class="k">else</span><span class="p">:</span>
+</span><span id="L-201"><a href="#L-201"><span class="linenos">201</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="kc">None</span>
+</span><span id="L-202"><a href="#L-202"><span class="linenos">202</span></a>
+</span><span id="L-203"><a href="#L-203"><span class="linenos">203</span></a>        <span class="c1"># get doi from externalids</span>
+</span><span id="L-204"><a href="#L-204"><span class="linenos">204</span></a>        <span class="n">doi</span> <span class="o">=</span> <span class="kc">None</span>
+</span><span id="L-205"><a href="#L-205"><span class="linenos">205</span></a>        <span class="k">if</span> <span class="s2">&quot;DOI&quot;</span> <span class="ow">in</span> <span class="n">paper</span><span class="o">.</span><span class="n">externalIds</span><span class="p">:</span>
+</span><span id="L-206"><a href="#L-206"><span class="linenos">206</span></a>            <span class="n">doi</span> <span class="o">=</span> <span class="n">paper</span><span class="o">.</span><span class="n">externalIds</span><span class="p">[</span><span class="s2">&quot;DOI&quot;</span><span class="p">]</span>
+</span><span id="L-207"><a href="#L-207"><span class="linenos">207</span></a>
+</span><span id="L-208"><a href="#L-208"><span class="linenos">208</span></a>        <span class="c1"># convert citations/references from lists of Papers to identifiers</span>
+</span><span id="L-209"><a href="#L-209"><span class="linenos">209</span></a>        <span class="n">citations</span> <span class="o">=</span> <span class="p">[</span>
+</span><span id="L-210"><a href="#L-210"><span class="linenos">210</span></a>            <span class="n">paper</span><span class="o">.</span><span class="n">paperId</span> <span class="k">for</span> <span class="n">paper</span> <span class="ow">in</span> <span class="n">paper</span><span class="o">.</span><span class="n">citations</span> <span class="k">if</span> <span class="n">paper</span><span class="o">.</span><span class="n">paperId</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+</span><span id="L-211"><a href="#L-211"><span class="linenos">211</span></a>        <span class="p">]</span>  <span class="c1"># no point using recursion assuming identifier=paperId</span>
+</span><span id="L-212"><a href="#L-212"><span class="linenos">212</span></a>        <span class="n">references</span> <span class="o">=</span> <span class="p">[</span>
+</span><span id="L-213"><a href="#L-213"><span class="linenos">213</span></a>            <span class="n">paper</span><span class="o">.</span><span class="n">paperId</span> <span class="k">for</span> <span class="n">paper</span> <span class="ow">in</span> <span class="n">paper</span><span class="o">.</span><span class="n">references</span> <span class="k">if</span> <span class="n">paper</span><span class="o">.</span><span class="n">paperId</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+</span><span id="L-214"><a href="#L-214"><span class="linenos">214</span></a>        <span class="p">]</span>
+</span><span id="L-215"><a href="#L-215"><span class="linenos">215</span></a>
+</span><span id="L-216"><a href="#L-216"><span class="linenos">216</span></a>        <span class="n">citation_count</span> <span class="o">=</span> <span class="n">paper</span><span class="o">.</span><span class="n">citationCount</span>
+</span><span id="L-217"><a href="#L-217"><span class="linenos">217</span></a>        <span class="k">if</span> <span class="n">citation_count</span> <span class="o">!=</span> <span class="nb">len</span><span class="p">(</span><span class="n">citations</span><span class="p">)</span> <span class="ow">and</span> <span class="n">verbose</span><span class="p">:</span>
+</span><span id="L-218"><a href="#L-218"><span class="linenos">218</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+</span><span id="L-219"><a href="#L-219"><span class="linenos">219</span></a>                <span class="sa">f</span><span class="s2">&quot;The length of the citations list (</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">citations</span><span class="p">)</span><span class="si">}</span><span class="s2">) is different from citation_count (</span><span class="si">{</span><span class="n">citation_count</span><span class="si">}</span><span class="s2">)&quot;</span>
+</span><span id="L-220"><a href="#L-220"><span class="linenos">220</span></a>            <span class="p">)</span>
+</span><span id="L-221"><a href="#L-221"><span class="linenos">221</span></a>        <span class="k">if</span> <span class="p">(</span>
+</span><span id="L-222"><a href="#L-222"><span class="linenos">222</span></a>            <span class="s2">&quot;infer_citation_count&quot;</span> <span class="ow">in</span> <span class="n">kwargs</span>
+</span><span id="L-223"><a href="#L-223"><span class="linenos">223</span></a>            <span class="ow">and</span> <span class="n">kwargs</span><span class="p">[</span><span class="s2">&quot;infer_citation_count&quot;</span><span class="p">]</span>
+</span><span id="L-224"><a href="#L-224"><span class="linenos">224</span></a>            <span class="ow">and</span> <span class="n">verbose</span>
+</span><span id="L-225"><a href="#L-225"><span class="linenos">225</span></a>        <span class="p">):</span>
+</span><span id="L-226"><a href="#L-226"><span class="linenos">226</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="s2">&quot;Setting citation_count = {len(citations)}.&quot;</span><span class="p">)</span>
+</span><span id="L-227"><a href="#L-227"><span class="linenos">227</span></a>            <span class="n">citation_count</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">citations</span><span class="p">)</span>
+</span><span id="L-228"><a href="#L-228"><span class="linenos">228</span></a>
+</span><span id="L-229"><a href="#L-229"><span class="linenos">229</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="p">{</span>
+</span><span id="L-230"><a href="#L-230"><span class="linenos">230</span></a>            <span class="c1"># primary fields</span>
+</span><span id="L-231"><a href="#L-231"><span class="linenos">231</span></a>            <span class="s2">&quot;identifier&quot;</span><span class="p">:</span> <span class="n">identifier</span><span class="p">,</span>
+</span><span id="L-232"><a href="#L-232"><span class="linenos">232</span></a>            <span class="s2">&quot;abstract&quot;</span><span class="p">:</span> <span class="n">paper</span><span class="o">.</span><span class="n">abstract</span><span class="p">,</span>
+</span><span id="L-233"><a href="#L-233"><span class="linenos">233</span></a>            <span class="s2">&quot;publication_date&quot;</span><span class="p">:</span> <span class="n">publication_date</span><span class="p">,</span>
+</span><span id="L-234"><a href="#L-234"><span class="linenos">234</span></a>            <span class="s2">&quot;citations&quot;</span><span class="p">:</span> <span class="n">citations</span><span class="p">,</span>
+</span><span id="L-235"><a href="#L-235"><span class="linenos">235</span></a>            <span class="s2">&quot;references&quot;</span><span class="p">:</span> <span class="n">references</span><span class="p">,</span>
+</span><span id="L-236"><a href="#L-236"><span class="linenos">236</span></a>            <span class="s2">&quot;citation_count&quot;</span><span class="p">:</span> <span class="n">citation_count</span><span class="p">,</span>
+</span><span id="L-237"><a href="#L-237"><span class="linenos">237</span></a>            <span class="c1"># additional fields</span>
+</span><span id="L-238"><a href="#L-238"><span class="linenos">238</span></a>            <span class="s2">&quot;doi&quot;</span><span class="p">:</span> <span class="n">doi</span><span class="p">,</span>
+</span><span id="L-239"><a href="#L-239"><span class="linenos">239</span></a>            <span class="s2">&quot;url&quot;</span><span class="p">:</span> <span class="n">paper</span><span class="o">.</span><span class="n">url</span> <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">paper</span><span class="p">,</span> <span class="s2">&quot;url&quot;</span><span class="p">)</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="L-240"><a href="#L-240"><span class="linenos">240</span></a>            <span class="s2">&quot;title&quot;</span><span class="p">:</span> <span class="n">paper</span><span class="o">.</span><span class="n">title</span> <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">paper</span><span class="p">,</span> <span class="s2">&quot;title&quot;</span><span class="p">)</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="L-241"><a href="#L-241"><span class="linenos">241</span></a>            <span class="s2">&quot;issn&quot;</span><span class="p">:</span> <span class="n">paper</span><span class="o">.</span><span class="n">issn</span> <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">paper</span><span class="p">,</span> <span class="s2">&quot;issn&quot;</span><span class="p">)</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="L-242"><a href="#L-242"><span class="linenos">242</span></a>        <span class="p">}</span>
+</span><span id="L-243"><a href="#L-243"><span class="linenos">243</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="p">{</span><span class="n">k</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">data</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span> <span class="n">v</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">}</span>
 </span><span id="L-244"><a href="#L-244"><span class="linenos">244</span></a>
-</span><span id="L-245"><a href="#L-245"><span class="linenos">245</span></a>        <span class="n">url</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">sch</span><span class="o">.</span><span class="n">api_url</span><span class="si">}</span><span class="s2">/paper/batch&quot;</span>
+</span><span id="L-245"><a href="#L-245"><span class="linenos">245</span></a>        <span class="k">return</span> <span class="n">Publication</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
 </span><span id="L-246"><a href="#L-246"><span class="linenos">246</span></a>
-</span><span id="L-247"><a href="#L-247"><span class="linenos">247</span></a>        <span class="n">fields</span> <span class="o">=</span> <span class="s2">&quot;,&quot;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">fields</span><span class="p">)</span>
-</span><span id="L-248"><a href="#L-248"><span class="linenos">248</span></a>        <span class="n">parameters</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;&amp;fields=</span><span class="si">{</span><span class="n">fields</span><span class="si">}</span><span class="s2">&quot;</span>
-</span><span id="L-249"><a href="#L-249"><span class="linenos">249</span></a>
-</span><span id="L-250"><a href="#L-250"><span class="linenos">250</span></a>        <span class="n">payload</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;ids&quot;</span><span class="p">:</span> <span class="n">paper_ids</span><span class="p">}</span>
-</span><span id="L-251"><a href="#L-251"><span class="linenos">251</span></a>
-</span><span id="L-252"><a href="#L-252"><span class="linenos">252</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sch</span><span class="o">.</span><span class="n">_requester</span><span class="o">.</span><span class="n">get_data</span><span class="p">(</span>
-</span><span id="L-253"><a href="#L-253"><span class="linenos">253</span></a>            <span class="n">url</span><span class="p">,</span> <span class="n">parameters</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">sch</span><span class="o">.</span><span class="n">auth_header</span><span class="p">,</span> <span class="n">payload</span>
-</span><span id="L-254"><a href="#L-254"><span class="linenos">254</span></a>        <span class="p">)</span>
-</span><span id="L-255"><a href="#L-255"><span class="linenos">255</span></a>        <span class="n">papers</span> <span class="o">=</span> <span class="p">[</span>
-</span><span id="L-256"><a href="#L-256"><span class="linenos">256</span></a>            <span class="n">Paper</span><span class="p">(</span><span class="n">item</span><span class="p">)</span> <span class="k">if</span> <span class="n">item</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="kc">None</span> <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">data</span>
-</span><span id="L-257"><a href="#L-257"><span class="linenos">257</span></a>        <span class="p">]</span>  <span class="c1"># added condition</span>
+</span><span id="L-247"><a href="#L-247"><span class="linenos">247</span></a>    <span class="c1"># We write this minimally different function from SemanticScholar.get_papers so that others dont need to fork our version of semantic scholar.</span>
+</span><span id="L-248"><a href="#L-248"><span class="linenos">248</span></a>    <span class="k">def</span> <span class="nf">get_papers</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">paper_ids</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="n">fields</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]):</span>
+</span><span id="L-249"><a href="#L-249"><span class="linenos">249</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Custom function for calling the S2 API that doesn&#39;t fail on empty results.&quot;&quot;&quot;</span>
+</span><span id="L-250"><a href="#L-250"><span class="linenos">250</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">fields</span><span class="p">:</span>
+</span><span id="L-251"><a href="#L-251"><span class="linenos">251</span></a>            <span class="n">fields</span> <span class="o">=</span> <span class="n">Paper</span><span class="o">.</span><span class="n">SEARCH_FIELDS</span>
+</span><span id="L-252"><a href="#L-252"><span class="linenos">252</span></a>
+</span><span id="L-253"><a href="#L-253"><span class="linenos">253</span></a>        <span class="n">base_url</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sch</span><span class="o">.</span><span class="n">api_url</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">sch</span><span class="o">.</span><span class="n">BASE_PATH_GRAPH</span>
+</span><span id="L-254"><a href="#L-254"><span class="linenos">254</span></a>        <span class="n">url</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">base_url</span><span class="si">}</span><span class="s2">/paper/batch&quot;</span>
+</span><span id="L-255"><a href="#L-255"><span class="linenos">255</span></a>
+</span><span id="L-256"><a href="#L-256"><span class="linenos">256</span></a>        <span class="n">fields</span> <span class="o">=</span> <span class="s2">&quot;,&quot;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">fields</span><span class="p">)</span>
+</span><span id="L-257"><a href="#L-257"><span class="linenos">257</span></a>        <span class="n">parameters</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;&amp;fields=</span><span class="si">{</span><span class="n">fields</span><span class="si">}</span><span class="s2">&quot;</span>
 </span><span id="L-258"><a href="#L-258"><span class="linenos">258</span></a>
-</span><span id="L-259"><a href="#L-259"><span class="linenos">259</span></a>        <span class="k">return</span> <span class="n">papers</span>
+</span><span id="L-259"><a href="#L-259"><span class="linenos">259</span></a>        <span class="n">payload</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;ids&quot;</span><span class="p">:</span> <span class="n">paper_ids</span><span class="p">}</span>
 </span><span id="L-260"><a href="#L-260"><span class="linenos">260</span></a>
-</span><span id="L-261"><a href="#L-261"><span class="linenos">261</span></a>    <span class="c1"># &quot;</span>
-</span><span id="L-262"><a href="#L-262"><span class="linenos">262</span></a>    <span class="k">def</span> <span class="nf">get_paper</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">paper_id</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">fields</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]):</span>
-</span><span id="L-263"><a href="#L-263"><span class="linenos">263</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Custom function for calling the S2 API that doesn&#39;t fail on empty results.&quot;&quot;&quot;</span>
-</span><span id="L-264"><a href="#L-264"><span class="linenos">264</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">fields</span><span class="p">:</span>
-</span><span id="L-265"><a href="#L-265"><span class="linenos">265</span></a>            <span class="n">fields</span> <span class="o">=</span> <span class="n">Paper</span><span class="o">.</span><span class="n">FIELDS</span>
-</span><span id="L-266"><a href="#L-266"><span class="linenos">266</span></a>
-</span><span id="L-267"><a href="#L-267"><span class="linenos">267</span></a>        <span class="n">url</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">api_url</span><span class="si">}</span><span class="s2">/paper/</span><span class="si">{</span><span class="n">paper_id</span><span class="si">}</span><span class="s2">&quot;</span>
-</span><span id="L-268"><a href="#L-268"><span class="linenos">268</span></a>
-</span><span id="L-269"><a href="#L-269"><span class="linenos">269</span></a>        <span class="n">fields</span> <span class="o">=</span> <span class="s2">&quot;,&quot;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">fields</span><span class="p">)</span>
-</span><span id="L-270"><a href="#L-270"><span class="linenos">270</span></a>        <span class="n">parameters</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;&amp;fields=</span><span class="si">{</span><span class="n">fields</span><span class="si">}</span><span class="s2">&quot;</span>
-</span><span id="L-271"><a href="#L-271"><span class="linenos">271</span></a>
-</span><span id="L-272"><a href="#L-272"><span class="linenos">272</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sch</span><span class="o">.</span><span class="n">_requester</span><span class="o">.</span><span class="n">get_data</span><span class="p">(</span><span class="n">url</span><span class="p">,</span> <span class="n">parameters</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">auth_header</span><span class="p">)</span>
-</span><span id="L-273"><a href="#L-273"><span class="linenos">273</span></a>        <span class="n">paper</span> <span class="o">=</span> <span class="n">Paper</span><span class="p">(</span><span class="n">data</span><span class="p">)</span> <span class="k">if</span> <span class="n">data</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="kc">None</span>  <span class="c1"># added condition</span>
-</span><span id="L-274"><a href="#L-274"><span class="linenos">274</span></a>
-</span><span id="L-275"><a href="#L-275"><span class="linenos">275</span></a>        <span class="k">return</span> <span class="n">paper</span>
+</span><span id="L-261"><a href="#L-261"><span class="linenos">261</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sch</span><span class="o">.</span><span class="n">_requester</span><span class="o">.</span><span class="n">get_data</span><span class="p">(</span>
+</span><span id="L-262"><a href="#L-262"><span class="linenos">262</span></a>            <span class="n">url</span><span class="p">,</span> <span class="n">parameters</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">sch</span><span class="o">.</span><span class="n">auth_header</span><span class="p">,</span> <span class="n">payload</span>
+</span><span id="L-263"><a href="#L-263"><span class="linenos">263</span></a>        <span class="p">)</span>
+</span><span id="L-264"><a href="#L-264"><span class="linenos">264</span></a>        <span class="n">papers</span> <span class="o">=</span> <span class="p">[</span>
+</span><span id="L-265"><a href="#L-265"><span class="linenos">265</span></a>            <span class="n">Paper</span><span class="p">(</span><span class="n">item</span><span class="p">)</span> <span class="k">if</span> <span class="n">item</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="kc">None</span> <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">data</span>
+</span><span id="L-266"><a href="#L-266"><span class="linenos">266</span></a>        <span class="p">]</span>  <span class="c1"># added condition</span>
+</span><span id="L-267"><a href="#L-267"><span class="linenos">267</span></a>
+</span><span id="L-268"><a href="#L-268"><span class="linenos">268</span></a>        <span class="k">return</span> <span class="n">papers</span>
+</span><span id="L-269"><a href="#L-269"><span class="linenos">269</span></a>
+</span><span id="L-270"><a href="#L-270"><span class="linenos">270</span></a>    <span class="c1"># &quot;</span>
+</span><span id="L-271"><a href="#L-271"><span class="linenos">271</span></a>    <span class="k">def</span> <span class="nf">get_paper</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">paper_id</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">fields</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]):</span>
+</span><span id="L-272"><a href="#L-272"><span class="linenos">272</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Custom function for calling the S2 API that doesn&#39;t fail on empty results.&quot;&quot;&quot;</span>
+</span><span id="L-273"><a href="#L-273"><span class="linenos">273</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">fields</span><span class="p">:</span>
+</span><span id="L-274"><a href="#L-274"><span class="linenos">274</span></a>            <span class="n">fields</span> <span class="o">=</span> <span class="n">Paper</span><span class="o">.</span><span class="n">FIELDS</span>
+</span><span id="L-275"><a href="#L-275"><span class="linenos">275</span></a>
+</span><span id="L-276"><a href="#L-276"><span class="linenos">276</span></a>        <span class="n">base_url</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sch</span><span class="o">.</span><span class="n">api_url</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">sch</span><span class="o">.</span><span class="n">BASE_PATH_GRAPH</span>
+</span><span id="L-277"><a href="#L-277"><span class="linenos">277</span></a>        <span class="n">url</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">base_url</span><span class="si">}</span><span class="s2">/paper/</span><span class="si">{</span><span class="n">paper_id</span><span class="si">}</span><span class="s2">&quot;</span>
+</span><span id="L-278"><a href="#L-278"><span class="linenos">278</span></a>
+</span><span id="L-279"><a href="#L-279"><span class="linenos">279</span></a>        <span class="n">fields</span> <span class="o">=</span> <span class="s2">&quot;,&quot;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">fields</span><span class="p">)</span>
+</span><span id="L-280"><a href="#L-280"><span class="linenos">280</span></a>        <span class="n">parameters</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;&amp;fields=</span><span class="si">{</span><span class="n">fields</span><span class="si">}</span><span class="s2">&quot;</span>
+</span><span id="L-281"><a href="#L-281"><span class="linenos">281</span></a>
+</span><span id="L-282"><a href="#L-282"><span class="linenos">282</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sch</span><span class="o">.</span><span class="n">_requester</span><span class="o">.</span><span class="n">get_data</span><span class="p">(</span><span class="n">url</span><span class="p">,</span> <span class="n">parameters</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">sch</span><span class="o">.</span><span class="n">auth_header</span><span class="p">)</span>
+</span><span id="L-283"><a href="#L-283"><span class="linenos">283</span></a>        <span class="n">paper</span> <span class="o">=</span> <span class="n">Paper</span><span class="p">(</span><span class="n">data</span><span class="p">)</span> <span class="k">if</span> <span class="n">data</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="kc">None</span>  <span class="c1"># added condition</span>
+</span><span id="L-284"><a href="#L-284"><span class="linenos">284</span></a>
+</span><span id="L-285"><a href="#L-285"><span class="linenos">285</span></a>        <span class="k">return</span> <span class="n">paper</span>
 </span></pre></div>
 
 
@@ -451,7 +461,7 @@ <h1 class="modulename">
                     <div class="attr variable">
             <span class="name">ALLOWED_EXCEPTIONS</span>        =
 <input id="ALLOWED_EXCEPTIONS-view-value" class="view-value-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
-            <label class="view-value-button pdoc-button" for="ALLOWED_EXCEPTIONS-view-value"></label><span class="default_value">(&lt;class &#39;Exception&#39;&gt;, &lt;class &#39;requests.exceptions.ReadTimeout&#39;&gt;, &lt;class &#39;requests.exceptions.ConnectionError&#39;&gt;, &lt;class &#39;semanticscholar.SemanticScholarException.ObjectNotFoundExeception&#39;&gt;)</span>
+            <label class="view-value-button pdoc-button" for="ALLOWED_EXCEPTIONS-view-value"></label><span class="default_value">(&lt;class &#39;Exception&#39;&gt;, &lt;class &#39;requests.exceptions.ReadTimeout&#39;&gt;, &lt;class &#39;requests.exceptions.ConnectionError&#39;&gt;, &lt;class &#39;semanticscholar.SemanticScholarException.ObjectNotFoundException&#39;&gt;)</span>
 
         
     </div>
@@ -525,7 +535,7 @@ <h1 class="modulename">
 </span><span id="SemanticScholarLibrarian-123"><a href="#SemanticScholarLibrarian-123"><span class="linenos">123</span></a>
 </span><span id="SemanticScholarLibrarian-124"><a href="#SemanticScholarLibrarian-124"><span class="linenos">124</span></a><span class="sd">            n_attempts_per_query: Number of attempts to access the API per query. Useful when experiencing connection issues.</span>
 </span><span id="SemanticScholarLibrarian-125"><a href="#SemanticScholarLibrarian-125"><span class="linenos">125</span></a>
-</span><span id="SemanticScholarLibrarian-126"><a href="#SemanticScholarLibrarian-126"><span class="linenos">126</span></a><span class="sd">            call_size: maximum number of papers to call API for in one query; if less than `len(paper_ids)`, chunking will be performed.</span>
+</span><span id="SemanticScholarLibrarian-126"><a href="#SemanticScholarLibrarian-126"><span class="linenos">126</span></a><span class="sd">            call_size: maximum number of papers to call API for in one query; if less than `len(paper_ids)`, chunking will be performed. Maximum that S2 allows is 500.</span>
 </span><span id="SemanticScholarLibrarian-127"><a href="#SemanticScholarLibrarian-127"><span class="linenos">127</span></a>
 </span><span id="SemanticScholarLibrarian-128"><a href="#SemanticScholarLibrarian-128"><span class="linenos">128</span></a><span class="sd">            convert: whether to convert each resulting SemanticScholar Paper to sciterra Publications (True by default).</span>
 </span><span id="SemanticScholarLibrarian-129"><a href="#SemanticScholarLibrarian-129"><span class="linenos">129</span></a>
@@ -538,144 +548,154 @@ <h1 class="modulename">
 </span><span id="SemanticScholarLibrarian-136"><a href="#SemanticScholarLibrarian-136"><span class="linenos">136</span></a>            <span class="k">return</span> <span class="p">[]</span>
 </span><span id="SemanticScholarLibrarian-137"><a href="#SemanticScholarLibrarian-137"><span class="linenos">137</span></a>
 </span><span id="SemanticScholarLibrarian-138"><a href="#SemanticScholarLibrarian-138"><span class="linenos">138</span></a>        <span class="n">total</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">paper_ids</span><span class="p">)</span>
-</span><span id="SemanticScholarLibrarian-139"><a href="#SemanticScholarLibrarian-139"><span class="linenos">139</span></a>        <span class="n">chunked_ids</span> <span class="o">=</span> <span class="n">chunk_ids</span><span class="p">(</span><span class="n">paper_ids</span><span class="p">,</span> <span class="n">call_size</span><span class="o">=</span><span class="n">call_size</span><span class="p">)</span>
-</span><span id="SemanticScholarLibrarian-140"><a href="#SemanticScholarLibrarian-140"><span class="linenos">140</span></a>
-</span><span id="SemanticScholarLibrarian-141"><a href="#SemanticScholarLibrarian-141"><span class="linenos">141</span></a>        <span class="k">if</span> <span class="kc">None</span> <span class="ow">in</span> <span class="n">paper_ids</span><span class="p">:</span>
-</span><span id="SemanticScholarLibrarian-142"><a href="#SemanticScholarLibrarian-142"><span class="linenos">142</span></a>            <span class="c1"># any Nones should have been handled by this point</span>
-</span><span id="SemanticScholarLibrarian-143"><a href="#SemanticScholarLibrarian-143"><span class="linenos">143</span></a>            <span class="k">raise</span> <span class="ne">Exception</span><span class="p">(</span><span class="s2">&quot;Passed `paper_ids` contains None.&quot;</span><span class="p">)</span>
-</span><span id="SemanticScholarLibrarian-144"><a href="#SemanticScholarLibrarian-144"><span class="linenos">144</span></a>
-</span><span id="SemanticScholarLibrarian-145"><a href="#SemanticScholarLibrarian-145"><span class="linenos">145</span></a>        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Querying Semantic Scholar for </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">paper_ids</span><span class="p">)</span><span class="si">}</span><span class="s2"> total papers.&quot;</span><span class="p">)</span>
-</span><span id="SemanticScholarLibrarian-146"><a href="#SemanticScholarLibrarian-146"><span class="linenos">146</span></a>        <span class="n">papers</span> <span class="o">=</span> <span class="p">[]</span>
-</span><span id="SemanticScholarLibrarian-147"><a href="#SemanticScholarLibrarian-147"><span class="linenos">147</span></a>        <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="p">(</span><span class="n">desc</span><span class="o">=</span><span class="sa">f</span><span class="s2">&quot;progress using call_size=</span><span class="si">{</span><span class="n">call_size</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">,</span> <span class="n">total</span><span class="o">=</span><span class="n">total</span><span class="p">)</span>
-</span><span id="SemanticScholarLibrarian-148"><a href="#SemanticScholarLibrarian-148"><span class="linenos">148</span></a>        <span class="k">for</span> <span class="n">ids</span> <span class="ow">in</span> <span class="n">chunked_ids</span><span class="p">:</span>
-</span><span id="SemanticScholarLibrarian-149"><a href="#SemanticScholarLibrarian-149"><span class="linenos">149</span></a>
-</span><span id="SemanticScholarLibrarian-150"><a href="#SemanticScholarLibrarian-150"><span class="linenos">150</span></a>            <span class="nd">@keep_trying</span><span class="p">(</span>
-</span><span id="SemanticScholarLibrarian-151"><a href="#SemanticScholarLibrarian-151"><span class="linenos">151</span></a>                <span class="n">n_attempts</span><span class="o">=</span><span class="n">n_attempts_per_query</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian-152"><a href="#SemanticScholarLibrarian-152"><span class="linenos">152</span></a>                <span class="n">allowed_exceptions</span><span class="o">=</span><span class="n">ALLOWED_EXCEPTIONS</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian-153"><a href="#SemanticScholarLibrarian-153"><span class="linenos">153</span></a>                <span class="n">sleep_after_attempt</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian-154"><a href="#SemanticScholarLibrarian-154"><span class="linenos">154</span></a>            <span class="p">)</span>
-</span><span id="SemanticScholarLibrarian-155"><a href="#SemanticScholarLibrarian-155"><span class="linenos">155</span></a>            <span class="k">def</span> <span class="nf">get_papers</span><span class="p">()</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="n">Paper</span><span class="p">]:</span>
-</span><span id="SemanticScholarLibrarian-156"><a href="#SemanticScholarLibrarian-156"><span class="linenos">156</span></a>                <span class="k">if</span> <span class="n">call_size</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">:</span>
-</span><span id="SemanticScholarLibrarian-157"><a href="#SemanticScholarLibrarian-157"><span class="linenos">157</span></a>                    <span class="n">result</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">get_papers</span><span class="p">(</span>
-</span><span id="SemanticScholarLibrarian-158"><a href="#SemanticScholarLibrarian-158"><span class="linenos">158</span></a>                        <span class="n">paper_ids</span><span class="o">=</span><span class="n">ids</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian-159"><a href="#SemanticScholarLibrarian-159"><span class="linenos">159</span></a>                        <span class="n">fields</span><span class="o">=</span><span class="n">QUERY_FIELDS</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian-160"><a href="#SemanticScholarLibrarian-160"><span class="linenos">160</span></a>                    <span class="p">)</span>
-</span><span id="SemanticScholarLibrarian-161"><a href="#SemanticScholarLibrarian-161"><span class="linenos">161</span></a>                <span class="k">else</span><span class="p">:</span>
-</span><span id="SemanticScholarLibrarian-162"><a href="#SemanticScholarLibrarian-162"><span class="linenos">162</span></a>                    <span class="c1"># typically completes about 100 queries per minute.</span>
-</span><span id="SemanticScholarLibrarian-163"><a href="#SemanticScholarLibrarian-163"><span class="linenos">163</span></a>                    <span class="n">result</span> <span class="o">=</span> <span class="p">[</span>
-</span><span id="SemanticScholarLibrarian-164"><a href="#SemanticScholarLibrarian-164"><span class="linenos">164</span></a>                        <span class="bp">self</span><span class="o">.</span><span class="n">get_paper</span><span class="p">(</span>
-</span><span id="SemanticScholarLibrarian-165"><a href="#SemanticScholarLibrarian-165"><span class="linenos">165</span></a>                            <span class="n">paper_id</span><span class="o">=</span><span class="n">paper_id</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian-166"><a href="#SemanticScholarLibrarian-166"><span class="linenos">166</span></a>                            <span class="n">fields</span><span class="o">=</span><span class="n">QUERY_FIELDS</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian-167"><a href="#SemanticScholarLibrarian-167"><span class="linenos">167</span></a>                        <span class="p">)</span>
-</span><span id="SemanticScholarLibrarian-168"><a href="#SemanticScholarLibrarian-168"><span class="linenos">168</span></a>                        <span class="k">for</span> <span class="n">paper_id</span> <span class="ow">in</span> <span class="n">ids</span>
-</span><span id="SemanticScholarLibrarian-169"><a href="#SemanticScholarLibrarian-169"><span class="linenos">169</span></a>                    <span class="p">]</span>
-</span><span id="SemanticScholarLibrarian-170"><a href="#SemanticScholarLibrarian-170"><span class="linenos">170</span></a>                <span class="k">return</span> <span class="n">result</span>
-</span><span id="SemanticScholarLibrarian-171"><a href="#SemanticScholarLibrarian-171"><span class="linenos">171</span></a>
-</span><span id="SemanticScholarLibrarian-172"><a href="#SemanticScholarLibrarian-172"><span class="linenos">172</span></a>            <span class="n">papers</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">get_papers</span><span class="p">())</span>
-</span><span id="SemanticScholarLibrarian-173"><a href="#SemanticScholarLibrarian-173"><span class="linenos">173</span></a>            <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">ids</span><span class="p">))</span>
-</span><span id="SemanticScholarLibrarian-174"><a href="#SemanticScholarLibrarian-174"><span class="linenos">174</span></a>        <span class="n">pbar</span><span class="o">.</span><span class="n">close</span><span class="p">()</span>
-</span><span id="SemanticScholarLibrarian-175"><a href="#SemanticScholarLibrarian-175"><span class="linenos">175</span></a>
-</span><span id="SemanticScholarLibrarian-176"><a href="#SemanticScholarLibrarian-176"><span class="linenos">176</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">convert</span><span class="p">:</span>
-</span><span id="SemanticScholarLibrarian-177"><a href="#SemanticScholarLibrarian-177"><span class="linenos">177</span></a>            <span class="k">return</span> <span class="n">papers</span>
-</span><span id="SemanticScholarLibrarian-178"><a href="#SemanticScholarLibrarian-178"><span class="linenos">178</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">convert_publications</span><span class="p">(</span>
-</span><span id="SemanticScholarLibrarian-179"><a href="#SemanticScholarLibrarian-179"><span class="linenos">179</span></a>            <span class="n">papers</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian-180"><a href="#SemanticScholarLibrarian-180"><span class="linenos">180</span></a>            <span class="o">*</span><span class="n">args</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian-181"><a href="#SemanticScholarLibrarian-181"><span class="linenos">181</span></a>            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian-182"><a href="#SemanticScholarLibrarian-182"><span class="linenos">182</span></a>        <span class="p">)</span>
-</span><span id="SemanticScholarLibrarian-183"><a href="#SemanticScholarLibrarian-183"><span class="linenos">183</span></a>
-</span><span id="SemanticScholarLibrarian-184"><a href="#SemanticScholarLibrarian-184"><span class="linenos">184</span></a>    <span class="k">def</span> <span class="nf">convert_publication</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">paper</span><span class="p">:</span> <span class="n">Paper</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Publication</span><span class="p">:</span>
-</span><span id="SemanticScholarLibrarian-185"><a href="#SemanticScholarLibrarian-185"><span class="linenos">185</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Convert a SemanticScholar Paper object to a sciterra.publication.Publication.&quot;&quot;&quot;</span>
-</span><span id="SemanticScholarLibrarian-186"><a href="#SemanticScholarLibrarian-186"><span class="linenos">186</span></a>        <span class="k">if</span> <span class="n">paper</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="SemanticScholarLibrarian-187"><a href="#SemanticScholarLibrarian-187"><span class="linenos">187</span></a>            <span class="k">return</span>
-</span><span id="SemanticScholarLibrarian-188"><a href="#SemanticScholarLibrarian-188"><span class="linenos">188</span></a>
-</span><span id="SemanticScholarLibrarian-189"><a href="#SemanticScholarLibrarian-189"><span class="linenos">189</span></a>        <span class="c1"># to be consistent with identifiers (e.g., to avoid storing the same publication twice), we always use the paperId.</span>
-</span><span id="SemanticScholarLibrarian-190"><a href="#SemanticScholarLibrarian-190"><span class="linenos">190</span></a>        <span class="n">identifier</span> <span class="o">=</span> <span class="n">paper</span><span class="o">.</span><span class="n">paperId</span>
-</span><span id="SemanticScholarLibrarian-191"><a href="#SemanticScholarLibrarian-191"><span class="linenos">191</span></a>
-</span><span id="SemanticScholarLibrarian-192"><a href="#SemanticScholarLibrarian-192"><span class="linenos">192</span></a>        <span class="c1"># Parse date from datetime or year</span>
-</span><span id="SemanticScholarLibrarian-193"><a href="#SemanticScholarLibrarian-193"><span class="linenos">193</span></a>        <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">paper</span><span class="p">,</span> <span class="s2">&quot;publicationDate&quot;</span><span class="p">):</span>
-</span><span id="SemanticScholarLibrarian-194"><a href="#SemanticScholarLibrarian-194"><span class="linenos">194</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="n">paper</span><span class="o">.</span><span class="n">publicationDate</span>
-</span><span id="SemanticScholarLibrarian-195"><a href="#SemanticScholarLibrarian-195"><span class="linenos">195</span></a>        <span class="k">elif</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">paper</span><span class="p">,</span> <span class="s2">&quot;year&quot;</span><span class="p">):</span>
-</span><span id="SemanticScholarLibrarian-196"><a href="#SemanticScholarLibrarian-196"><span class="linenos">196</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="n">date</span><span class="p">(</span><span class="n">paper</span><span class="o">.</span><span class="n">year</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
-</span><span id="SemanticScholarLibrarian-197"><a href="#SemanticScholarLibrarian-197"><span class="linenos">197</span></a>        <span class="k">else</span><span class="p">:</span>
-</span><span id="SemanticScholarLibrarian-198"><a href="#SemanticScholarLibrarian-198"><span class="linenos">198</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="kc">None</span>
-</span><span id="SemanticScholarLibrarian-199"><a href="#SemanticScholarLibrarian-199"><span class="linenos">199</span></a>
-</span><span id="SemanticScholarLibrarian-200"><a href="#SemanticScholarLibrarian-200"><span class="linenos">200</span></a>        <span class="c1"># get doi from externalids</span>
-</span><span id="SemanticScholarLibrarian-201"><a href="#SemanticScholarLibrarian-201"><span class="linenos">201</span></a>        <span class="n">doi</span> <span class="o">=</span> <span class="kc">None</span>
-</span><span id="SemanticScholarLibrarian-202"><a href="#SemanticScholarLibrarian-202"><span class="linenos">202</span></a>        <span class="k">if</span> <span class="s2">&quot;DOI&quot;</span> <span class="ow">in</span> <span class="n">paper</span><span class="o">.</span><span class="n">externalIds</span><span class="p">:</span>
-</span><span id="SemanticScholarLibrarian-203"><a href="#SemanticScholarLibrarian-203"><span class="linenos">203</span></a>            <span class="n">doi</span> <span class="o">=</span> <span class="n">paper</span><span class="o">.</span><span class="n">externalIds</span><span class="p">[</span><span class="s2">&quot;DOI&quot;</span><span class="p">]</span>
-</span><span id="SemanticScholarLibrarian-204"><a href="#SemanticScholarLibrarian-204"><span class="linenos">204</span></a>
-</span><span id="SemanticScholarLibrarian-205"><a href="#SemanticScholarLibrarian-205"><span class="linenos">205</span></a>        <span class="c1"># convert citations/references from lists of Papers to identifiers</span>
-</span><span id="SemanticScholarLibrarian-206"><a href="#SemanticScholarLibrarian-206"><span class="linenos">206</span></a>        <span class="n">citations</span> <span class="o">=</span> <span class="p">[</span>
-</span><span id="SemanticScholarLibrarian-207"><a href="#SemanticScholarLibrarian-207"><span class="linenos">207</span></a>            <span class="n">paper</span><span class="o">.</span><span class="n">paperId</span> <span class="k">for</span> <span class="n">paper</span> <span class="ow">in</span> <span class="n">paper</span><span class="o">.</span><span class="n">citations</span> <span class="k">if</span> <span class="n">paper</span><span class="o">.</span><span class="n">paperId</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
-</span><span id="SemanticScholarLibrarian-208"><a href="#SemanticScholarLibrarian-208"><span class="linenos">208</span></a>        <span class="p">]</span>  <span class="c1"># no point using recursion assuming identifier=paperId</span>
-</span><span id="SemanticScholarLibrarian-209"><a href="#SemanticScholarLibrarian-209"><span class="linenos">209</span></a>        <span class="n">references</span> <span class="o">=</span> <span class="p">[</span>
-</span><span id="SemanticScholarLibrarian-210"><a href="#SemanticScholarLibrarian-210"><span class="linenos">210</span></a>            <span class="n">paper</span><span class="o">.</span><span class="n">paperId</span> <span class="k">for</span> <span class="n">paper</span> <span class="ow">in</span> <span class="n">paper</span><span class="o">.</span><span class="n">references</span> <span class="k">if</span> <span class="n">paper</span><span class="o">.</span><span class="n">paperId</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
-</span><span id="SemanticScholarLibrarian-211"><a href="#SemanticScholarLibrarian-211"><span class="linenos">211</span></a>        <span class="p">]</span>
-</span><span id="SemanticScholarLibrarian-212"><a href="#SemanticScholarLibrarian-212"><span class="linenos">212</span></a>
-</span><span id="SemanticScholarLibrarian-213"><a href="#SemanticScholarLibrarian-213"><span class="linenos">213</span></a>        <span class="n">citation_count</span> <span class="o">=</span> <span class="n">paper</span><span class="o">.</span><span class="n">citationCount</span>
-</span><span id="SemanticScholarLibrarian-214"><a href="#SemanticScholarLibrarian-214"><span class="linenos">214</span></a>        <span class="k">if</span> <span class="n">citation_count</span> <span class="o">!=</span> <span class="nb">len</span><span class="p">(</span><span class="n">citations</span><span class="p">):</span>
-</span><span id="SemanticScholarLibrarian-215"><a href="#SemanticScholarLibrarian-215"><span class="linenos">215</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
-</span><span id="SemanticScholarLibrarian-216"><a href="#SemanticScholarLibrarian-216"><span class="linenos">216</span></a>                <span class="sa">f</span><span class="s2">&quot;The length of the citations list (</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">citations</span><span class="p">)</span><span class="si">}</span><span class="s2">) is different from citation_count (</span><span class="si">{</span><span class="n">citation_count</span><span class="si">}</span><span class="s2">)&quot;</span>
-</span><span id="SemanticScholarLibrarian-217"><a href="#SemanticScholarLibrarian-217"><span class="linenos">217</span></a>            <span class="p">)</span>
-</span><span id="SemanticScholarLibrarian-218"><a href="#SemanticScholarLibrarian-218"><span class="linenos">218</span></a>        <span class="k">if</span> <span class="s2">&quot;infer_citation_count&quot;</span> <span class="ow">in</span> <span class="n">kwargs</span> <span class="ow">and</span> <span class="n">kwargs</span><span class="p">[</span><span class="s2">&quot;infer_citation_count&quot;</span><span class="p">]:</span>
-</span><span id="SemanticScholarLibrarian-219"><a href="#SemanticScholarLibrarian-219"><span class="linenos">219</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="s2">&quot;Setting citation_count = {len(citations)}.&quot;</span><span class="p">)</span>
-</span><span id="SemanticScholarLibrarian-220"><a href="#SemanticScholarLibrarian-220"><span class="linenos">220</span></a>            <span class="n">citation_count</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">citations</span><span class="p">)</span>
-</span><span id="SemanticScholarLibrarian-221"><a href="#SemanticScholarLibrarian-221"><span class="linenos">221</span></a>
-</span><span id="SemanticScholarLibrarian-222"><a href="#SemanticScholarLibrarian-222"><span class="linenos">222</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="p">{</span>
-</span><span id="SemanticScholarLibrarian-223"><a href="#SemanticScholarLibrarian-223"><span class="linenos">223</span></a>            <span class="c1"># primary fields</span>
-</span><span id="SemanticScholarLibrarian-224"><a href="#SemanticScholarLibrarian-224"><span class="linenos">224</span></a>            <span class="s2">&quot;identifier&quot;</span><span class="p">:</span> <span class="n">identifier</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian-225"><a href="#SemanticScholarLibrarian-225"><span class="linenos">225</span></a>            <span class="s2">&quot;abstract&quot;</span><span class="p">:</span> <span class="n">paper</span><span class="o">.</span><span class="n">abstract</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian-226"><a href="#SemanticScholarLibrarian-226"><span class="linenos">226</span></a>            <span class="s2">&quot;publication_date&quot;</span><span class="p">:</span> <span class="n">publication_date</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian-227"><a href="#SemanticScholarLibrarian-227"><span class="linenos">227</span></a>            <span class="s2">&quot;citations&quot;</span><span class="p">:</span> <span class="n">citations</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian-228"><a href="#SemanticScholarLibrarian-228"><span class="linenos">228</span></a>            <span class="s2">&quot;references&quot;</span><span class="p">:</span> <span class="n">references</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian-229"><a href="#SemanticScholarLibrarian-229"><span class="linenos">229</span></a>            <span class="s2">&quot;citation_count&quot;</span><span class="p">:</span> <span class="n">citation_count</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian-230"><a href="#SemanticScholarLibrarian-230"><span class="linenos">230</span></a>            <span class="c1"># additional fields</span>
-</span><span id="SemanticScholarLibrarian-231"><a href="#SemanticScholarLibrarian-231"><span class="linenos">231</span></a>            <span class="s2">&quot;doi&quot;</span><span class="p">:</span> <span class="n">doi</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian-232"><a href="#SemanticScholarLibrarian-232"><span class="linenos">232</span></a>            <span class="s2">&quot;url&quot;</span><span class="p">:</span> <span class="n">paper</span><span class="o">.</span><span class="n">url</span> <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">paper</span><span class="p">,</span> <span class="s2">&quot;url&quot;</span><span class="p">)</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian-233"><a href="#SemanticScholarLibrarian-233"><span class="linenos">233</span></a>            <span class="s2">&quot;title&quot;</span><span class="p">:</span> <span class="n">paper</span><span class="o">.</span><span class="n">title</span> <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">paper</span><span class="p">,</span> <span class="s2">&quot;title&quot;</span><span class="p">)</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian-234"><a href="#SemanticScholarLibrarian-234"><span class="linenos">234</span></a>            <span class="s2">&quot;issn&quot;</span><span class="p">:</span> <span class="n">paper</span><span class="o">.</span><span class="n">issn</span> <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">paper</span><span class="p">,</span> <span class="s2">&quot;issn&quot;</span><span class="p">)</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian-235"><a href="#SemanticScholarLibrarian-235"><span class="linenos">235</span></a>        <span class="p">}</span>
-</span><span id="SemanticScholarLibrarian-236"><a href="#SemanticScholarLibrarian-236"><span class="linenos">236</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="p">{</span><span class="n">k</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">data</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span> <span class="n">v</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">}</span>
-</span><span id="SemanticScholarLibrarian-237"><a href="#SemanticScholarLibrarian-237"><span class="linenos">237</span></a>
-</span><span id="SemanticScholarLibrarian-238"><a href="#SemanticScholarLibrarian-238"><span class="linenos">238</span></a>        <span class="k">return</span> <span class="n">Publication</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
-</span><span id="SemanticScholarLibrarian-239"><a href="#SemanticScholarLibrarian-239"><span class="linenos">239</span></a>
-</span><span id="SemanticScholarLibrarian-240"><a href="#SemanticScholarLibrarian-240"><span class="linenos">240</span></a>    <span class="c1"># We write this minimally different function from SemanticScholar.get_papers so that others dont need to fork our version of semantic scholar.</span>
-</span><span id="SemanticScholarLibrarian-241"><a href="#SemanticScholarLibrarian-241"><span class="linenos">241</span></a>    <span class="k">def</span> <span class="nf">get_papers</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">paper_ids</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="n">fields</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]):</span>
-</span><span id="SemanticScholarLibrarian-242"><a href="#SemanticScholarLibrarian-242"><span class="linenos">242</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Custom function for calling the S2 API that doesn&#39;t fail on empty results.&quot;&quot;&quot;</span>
-</span><span id="SemanticScholarLibrarian-243"><a href="#SemanticScholarLibrarian-243"><span class="linenos">243</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">fields</span><span class="p">:</span>
-</span><span id="SemanticScholarLibrarian-244"><a href="#SemanticScholarLibrarian-244"><span class="linenos">244</span></a>            <span class="n">fields</span> <span class="o">=</span> <span class="n">Paper</span><span class="o">.</span><span class="n">SEARCH_FIELDS</span>
+</span><span id="SemanticScholarLibrarian-139"><a href="#SemanticScholarLibrarian-139"><span class="linenos">139</span></a>        <span class="k">if</span> <span class="n">call_size</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="SemanticScholarLibrarian-140"><a href="#SemanticScholarLibrarian-140"><span class="linenos">140</span></a>            <span class="n">call_size</span> <span class="o">=</span> <span class="n">CALL_SIZE</span>
+</span><span id="SemanticScholarLibrarian-141"><a href="#SemanticScholarLibrarian-141"><span class="linenos">141</span></a>        <span class="n">chunked_ids</span> <span class="o">=</span> <span class="n">chunk_ids</span><span class="p">(</span><span class="n">paper_ids</span><span class="p">,</span> <span class="n">call_size</span><span class="o">=</span><span class="n">call_size</span><span class="p">)</span>
+</span><span id="SemanticScholarLibrarian-142"><a href="#SemanticScholarLibrarian-142"><span class="linenos">142</span></a>
+</span><span id="SemanticScholarLibrarian-143"><a href="#SemanticScholarLibrarian-143"><span class="linenos">143</span></a>        <span class="k">if</span> <span class="kc">None</span> <span class="ow">in</span> <span class="n">paper_ids</span><span class="p">:</span>
+</span><span id="SemanticScholarLibrarian-144"><a href="#SemanticScholarLibrarian-144"><span class="linenos">144</span></a>            <span class="c1"># any Nones should have been handled by this point</span>
+</span><span id="SemanticScholarLibrarian-145"><a href="#SemanticScholarLibrarian-145"><span class="linenos">145</span></a>            <span class="k">raise</span> <span class="ne">Exception</span><span class="p">(</span><span class="s2">&quot;Passed `paper_ids` contains None.&quot;</span><span class="p">)</span>
+</span><span id="SemanticScholarLibrarian-146"><a href="#SemanticScholarLibrarian-146"><span class="linenos">146</span></a>
+</span><span id="SemanticScholarLibrarian-147"><a href="#SemanticScholarLibrarian-147"><span class="linenos">147</span></a>        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Querying Semantic Scholar for </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">paper_ids</span><span class="p">)</span><span class="si">}</span><span class="s2"> total papers.&quot;</span><span class="p">)</span>
+</span><span id="SemanticScholarLibrarian-148"><a href="#SemanticScholarLibrarian-148"><span class="linenos">148</span></a>        <span class="n">papers</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="SemanticScholarLibrarian-149"><a href="#SemanticScholarLibrarian-149"><span class="linenos">149</span></a>        <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="p">(</span><span class="n">desc</span><span class="o">=</span><span class="sa">f</span><span class="s2">&quot;progress using call_size=</span><span class="si">{</span><span class="n">call_size</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">,</span> <span class="n">total</span><span class="o">=</span><span class="n">total</span><span class="p">)</span>
+</span><span id="SemanticScholarLibrarian-150"><a href="#SemanticScholarLibrarian-150"><span class="linenos">150</span></a>        <span class="k">for</span> <span class="n">ids</span> <span class="ow">in</span> <span class="n">chunked_ids</span><span class="p">:</span>
+</span><span id="SemanticScholarLibrarian-151"><a href="#SemanticScholarLibrarian-151"><span class="linenos">151</span></a>
+</span><span id="SemanticScholarLibrarian-152"><a href="#SemanticScholarLibrarian-152"><span class="linenos">152</span></a>            <span class="nd">@keep_trying</span><span class="p">(</span>
+</span><span id="SemanticScholarLibrarian-153"><a href="#SemanticScholarLibrarian-153"><span class="linenos">153</span></a>                <span class="n">n_attempts</span><span class="o">=</span><span class="n">n_attempts_per_query</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian-154"><a href="#SemanticScholarLibrarian-154"><span class="linenos">154</span></a>                <span class="n">allowed_exceptions</span><span class="o">=</span><span class="n">ALLOWED_EXCEPTIONS</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian-155"><a href="#SemanticScholarLibrarian-155"><span class="linenos">155</span></a>                <span class="n">sleep_after_attempt</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian-156"><a href="#SemanticScholarLibrarian-156"><span class="linenos">156</span></a>            <span class="p">)</span>
+</span><span id="SemanticScholarLibrarian-157"><a href="#SemanticScholarLibrarian-157"><span class="linenos">157</span></a>            <span class="k">def</span> <span class="nf">get_papers</span><span class="p">()</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="n">Paper</span><span class="p">]:</span>
+</span><span id="SemanticScholarLibrarian-158"><a href="#SemanticScholarLibrarian-158"><span class="linenos">158</span></a>                <span class="k">if</span> <span class="n">call_size</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">:</span>
+</span><span id="SemanticScholarLibrarian-159"><a href="#SemanticScholarLibrarian-159"><span class="linenos">159</span></a>                    <span class="n">result</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">get_papers</span><span class="p">(</span>
+</span><span id="SemanticScholarLibrarian-160"><a href="#SemanticScholarLibrarian-160"><span class="linenos">160</span></a>                        <span class="n">paper_ids</span><span class="o">=</span><span class="n">ids</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian-161"><a href="#SemanticScholarLibrarian-161"><span class="linenos">161</span></a>                        <span class="n">fields</span><span class="o">=</span><span class="n">QUERY_FIELDS</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian-162"><a href="#SemanticScholarLibrarian-162"><span class="linenos">162</span></a>                    <span class="p">)</span>
+</span><span id="SemanticScholarLibrarian-163"><a href="#SemanticScholarLibrarian-163"><span class="linenos">163</span></a>                <span class="k">else</span><span class="p">:</span>
+</span><span id="SemanticScholarLibrarian-164"><a href="#SemanticScholarLibrarian-164"><span class="linenos">164</span></a>                    <span class="c1"># typically completes about 100 queries per minute.</span>
+</span><span id="SemanticScholarLibrarian-165"><a href="#SemanticScholarLibrarian-165"><span class="linenos">165</span></a>                    <span class="n">result</span> <span class="o">=</span> <span class="p">[</span>
+</span><span id="SemanticScholarLibrarian-166"><a href="#SemanticScholarLibrarian-166"><span class="linenos">166</span></a>                        <span class="bp">self</span><span class="o">.</span><span class="n">get_paper</span><span class="p">(</span>
+</span><span id="SemanticScholarLibrarian-167"><a href="#SemanticScholarLibrarian-167"><span class="linenos">167</span></a>                            <span class="n">paper_id</span><span class="o">=</span><span class="n">paper_id</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian-168"><a href="#SemanticScholarLibrarian-168"><span class="linenos">168</span></a>                            <span class="n">fields</span><span class="o">=</span><span class="n">QUERY_FIELDS</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian-169"><a href="#SemanticScholarLibrarian-169"><span class="linenos">169</span></a>                        <span class="p">)</span>
+</span><span id="SemanticScholarLibrarian-170"><a href="#SemanticScholarLibrarian-170"><span class="linenos">170</span></a>                        <span class="k">for</span> <span class="n">paper_id</span> <span class="ow">in</span> <span class="n">ids</span>
+</span><span id="SemanticScholarLibrarian-171"><a href="#SemanticScholarLibrarian-171"><span class="linenos">171</span></a>                    <span class="p">]</span>
+</span><span id="SemanticScholarLibrarian-172"><a href="#SemanticScholarLibrarian-172"><span class="linenos">172</span></a>                <span class="k">return</span> <span class="n">result</span>
+</span><span id="SemanticScholarLibrarian-173"><a href="#SemanticScholarLibrarian-173"><span class="linenos">173</span></a>
+</span><span id="SemanticScholarLibrarian-174"><a href="#SemanticScholarLibrarian-174"><span class="linenos">174</span></a>            <span class="n">papers</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">get_papers</span><span class="p">())</span>
+</span><span id="SemanticScholarLibrarian-175"><a href="#SemanticScholarLibrarian-175"><span class="linenos">175</span></a>            <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">ids</span><span class="p">))</span>
+</span><span id="SemanticScholarLibrarian-176"><a href="#SemanticScholarLibrarian-176"><span class="linenos">176</span></a>        <span class="n">pbar</span><span class="o">.</span><span class="n">close</span><span class="p">()</span>
+</span><span id="SemanticScholarLibrarian-177"><a href="#SemanticScholarLibrarian-177"><span class="linenos">177</span></a>
+</span><span id="SemanticScholarLibrarian-178"><a href="#SemanticScholarLibrarian-178"><span class="linenos">178</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">convert</span><span class="p">:</span>
+</span><span id="SemanticScholarLibrarian-179"><a href="#SemanticScholarLibrarian-179"><span class="linenos">179</span></a>            <span class="k">return</span> <span class="n">papers</span>
+</span><span id="SemanticScholarLibrarian-180"><a href="#SemanticScholarLibrarian-180"><span class="linenos">180</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">convert_publications</span><span class="p">(</span>  <span class="c1"># may contain Nones!</span>
+</span><span id="SemanticScholarLibrarian-181"><a href="#SemanticScholarLibrarian-181"><span class="linenos">181</span></a>            <span class="n">papers</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian-182"><a href="#SemanticScholarLibrarian-182"><span class="linenos">182</span></a>            <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian-183"><a href="#SemanticScholarLibrarian-183"><span class="linenos">183</span></a>            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian-184"><a href="#SemanticScholarLibrarian-184"><span class="linenos">184</span></a>        <span class="p">)</span>
+</span><span id="SemanticScholarLibrarian-185"><a href="#SemanticScholarLibrarian-185"><span class="linenos">185</span></a>
+</span><span id="SemanticScholarLibrarian-186"><a href="#SemanticScholarLibrarian-186"><span class="linenos">186</span></a>    <span class="k">def</span> <span class="nf">convert_publication</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">paper</span><span class="p">:</span> <span class="n">Paper</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Publication</span><span class="p">:</span>
+</span><span id="SemanticScholarLibrarian-187"><a href="#SemanticScholarLibrarian-187"><span class="linenos">187</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Convert a SemanticScholar Paper object to a sciterra.publication.Publication.&quot;&quot;&quot;</span>
+</span><span id="SemanticScholarLibrarian-188"><a href="#SemanticScholarLibrarian-188"><span class="linenos">188</span></a>        <span class="k">if</span> <span class="n">paper</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="SemanticScholarLibrarian-189"><a href="#SemanticScholarLibrarian-189"><span class="linenos">189</span></a>            <span class="k">return</span>
+</span><span id="SemanticScholarLibrarian-190"><a href="#SemanticScholarLibrarian-190"><span class="linenos">190</span></a>
+</span><span id="SemanticScholarLibrarian-191"><a href="#SemanticScholarLibrarian-191"><span class="linenos">191</span></a>        <span class="n">verbose</span> <span class="o">=</span> <span class="n">get_verbose</span><span class="p">(</span><span class="n">kwargs</span><span class="p">)</span>
+</span><span id="SemanticScholarLibrarian-192"><a href="#SemanticScholarLibrarian-192"><span class="linenos">192</span></a>
+</span><span id="SemanticScholarLibrarian-193"><a href="#SemanticScholarLibrarian-193"><span class="linenos">193</span></a>        <span class="c1"># to be consistent with identifiers (e.g., to avoid storing the same publication twice), we always use the paperId.</span>
+</span><span id="SemanticScholarLibrarian-194"><a href="#SemanticScholarLibrarian-194"><span class="linenos">194</span></a>        <span class="n">identifier</span> <span class="o">=</span> <span class="n">paper</span><span class="o">.</span><span class="n">paperId</span>
+</span><span id="SemanticScholarLibrarian-195"><a href="#SemanticScholarLibrarian-195"><span class="linenos">195</span></a>
+</span><span id="SemanticScholarLibrarian-196"><a href="#SemanticScholarLibrarian-196"><span class="linenos">196</span></a>        <span class="c1"># Parse date from datetime or year</span>
+</span><span id="SemanticScholarLibrarian-197"><a href="#SemanticScholarLibrarian-197"><span class="linenos">197</span></a>        <span class="k">if</span> <span class="n">paper</span><span class="o">.</span><span class="n">publicationDate</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="SemanticScholarLibrarian-198"><a href="#SemanticScholarLibrarian-198"><span class="linenos">198</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="n">paper</span><span class="o">.</span><span class="n">publicationDate</span><span class="o">.</span><span class="n">date</span><span class="p">()</span>
+</span><span id="SemanticScholarLibrarian-199"><a href="#SemanticScholarLibrarian-199"><span class="linenos">199</span></a>        <span class="k">elif</span> <span class="n">paper</span><span class="o">.</span><span class="n">year</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="SemanticScholarLibrarian-200"><a href="#SemanticScholarLibrarian-200"><span class="linenos">200</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="n">date</span><span class="p">(</span><span class="n">paper</span><span class="o">.</span><span class="n">year</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
+</span><span id="SemanticScholarLibrarian-201"><a href="#SemanticScholarLibrarian-201"><span class="linenos">201</span></a>        <span class="k">else</span><span class="p">:</span>
+</span><span id="SemanticScholarLibrarian-202"><a href="#SemanticScholarLibrarian-202"><span class="linenos">202</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="kc">None</span>
+</span><span id="SemanticScholarLibrarian-203"><a href="#SemanticScholarLibrarian-203"><span class="linenos">203</span></a>
+</span><span id="SemanticScholarLibrarian-204"><a href="#SemanticScholarLibrarian-204"><span class="linenos">204</span></a>        <span class="c1"># get doi from externalids</span>
+</span><span id="SemanticScholarLibrarian-205"><a href="#SemanticScholarLibrarian-205"><span class="linenos">205</span></a>        <span class="n">doi</span> <span class="o">=</span> <span class="kc">None</span>
+</span><span id="SemanticScholarLibrarian-206"><a href="#SemanticScholarLibrarian-206"><span class="linenos">206</span></a>        <span class="k">if</span> <span class="s2">&quot;DOI&quot;</span> <span class="ow">in</span> <span class="n">paper</span><span class="o">.</span><span class="n">externalIds</span><span class="p">:</span>
+</span><span id="SemanticScholarLibrarian-207"><a href="#SemanticScholarLibrarian-207"><span class="linenos">207</span></a>            <span class="n">doi</span> <span class="o">=</span> <span class="n">paper</span><span class="o">.</span><span class="n">externalIds</span><span class="p">[</span><span class="s2">&quot;DOI&quot;</span><span class="p">]</span>
+</span><span id="SemanticScholarLibrarian-208"><a href="#SemanticScholarLibrarian-208"><span class="linenos">208</span></a>
+</span><span id="SemanticScholarLibrarian-209"><a href="#SemanticScholarLibrarian-209"><span class="linenos">209</span></a>        <span class="c1"># convert citations/references from lists of Papers to identifiers</span>
+</span><span id="SemanticScholarLibrarian-210"><a href="#SemanticScholarLibrarian-210"><span class="linenos">210</span></a>        <span class="n">citations</span> <span class="o">=</span> <span class="p">[</span>
+</span><span id="SemanticScholarLibrarian-211"><a href="#SemanticScholarLibrarian-211"><span class="linenos">211</span></a>            <span class="n">paper</span><span class="o">.</span><span class="n">paperId</span> <span class="k">for</span> <span class="n">paper</span> <span class="ow">in</span> <span class="n">paper</span><span class="o">.</span><span class="n">citations</span> <span class="k">if</span> <span class="n">paper</span><span class="o">.</span><span class="n">paperId</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+</span><span id="SemanticScholarLibrarian-212"><a href="#SemanticScholarLibrarian-212"><span class="linenos">212</span></a>        <span class="p">]</span>  <span class="c1"># no point using recursion assuming identifier=paperId</span>
+</span><span id="SemanticScholarLibrarian-213"><a href="#SemanticScholarLibrarian-213"><span class="linenos">213</span></a>        <span class="n">references</span> <span class="o">=</span> <span class="p">[</span>
+</span><span id="SemanticScholarLibrarian-214"><a href="#SemanticScholarLibrarian-214"><span class="linenos">214</span></a>            <span class="n">paper</span><span class="o">.</span><span class="n">paperId</span> <span class="k">for</span> <span class="n">paper</span> <span class="ow">in</span> <span class="n">paper</span><span class="o">.</span><span class="n">references</span> <span class="k">if</span> <span class="n">paper</span><span class="o">.</span><span class="n">paperId</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+</span><span id="SemanticScholarLibrarian-215"><a href="#SemanticScholarLibrarian-215"><span class="linenos">215</span></a>        <span class="p">]</span>
+</span><span id="SemanticScholarLibrarian-216"><a href="#SemanticScholarLibrarian-216"><span class="linenos">216</span></a>
+</span><span id="SemanticScholarLibrarian-217"><a href="#SemanticScholarLibrarian-217"><span class="linenos">217</span></a>        <span class="n">citation_count</span> <span class="o">=</span> <span class="n">paper</span><span class="o">.</span><span class="n">citationCount</span>
+</span><span id="SemanticScholarLibrarian-218"><a href="#SemanticScholarLibrarian-218"><span class="linenos">218</span></a>        <span class="k">if</span> <span class="n">citation_count</span> <span class="o">!=</span> <span class="nb">len</span><span class="p">(</span><span class="n">citations</span><span class="p">)</span> <span class="ow">and</span> <span class="n">verbose</span><span class="p">:</span>
+</span><span id="SemanticScholarLibrarian-219"><a href="#SemanticScholarLibrarian-219"><span class="linenos">219</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+</span><span id="SemanticScholarLibrarian-220"><a href="#SemanticScholarLibrarian-220"><span class="linenos">220</span></a>                <span class="sa">f</span><span class="s2">&quot;The length of the citations list (</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">citations</span><span class="p">)</span><span class="si">}</span><span class="s2">) is different from citation_count (</span><span class="si">{</span><span class="n">citation_count</span><span class="si">}</span><span class="s2">)&quot;</span>
+</span><span id="SemanticScholarLibrarian-221"><a href="#SemanticScholarLibrarian-221"><span class="linenos">221</span></a>            <span class="p">)</span>
+</span><span id="SemanticScholarLibrarian-222"><a href="#SemanticScholarLibrarian-222"><span class="linenos">222</span></a>        <span class="k">if</span> <span class="p">(</span>
+</span><span id="SemanticScholarLibrarian-223"><a href="#SemanticScholarLibrarian-223"><span class="linenos">223</span></a>            <span class="s2">&quot;infer_citation_count&quot;</span> <span class="ow">in</span> <span class="n">kwargs</span>
+</span><span id="SemanticScholarLibrarian-224"><a href="#SemanticScholarLibrarian-224"><span class="linenos">224</span></a>            <span class="ow">and</span> <span class="n">kwargs</span><span class="p">[</span><span class="s2">&quot;infer_citation_count&quot;</span><span class="p">]</span>
+</span><span id="SemanticScholarLibrarian-225"><a href="#SemanticScholarLibrarian-225"><span class="linenos">225</span></a>            <span class="ow">and</span> <span class="n">verbose</span>
+</span><span id="SemanticScholarLibrarian-226"><a href="#SemanticScholarLibrarian-226"><span class="linenos">226</span></a>        <span class="p">):</span>
+</span><span id="SemanticScholarLibrarian-227"><a href="#SemanticScholarLibrarian-227"><span class="linenos">227</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="s2">&quot;Setting citation_count = {len(citations)}.&quot;</span><span class="p">)</span>
+</span><span id="SemanticScholarLibrarian-228"><a href="#SemanticScholarLibrarian-228"><span class="linenos">228</span></a>            <span class="n">citation_count</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">citations</span><span class="p">)</span>
+</span><span id="SemanticScholarLibrarian-229"><a href="#SemanticScholarLibrarian-229"><span class="linenos">229</span></a>
+</span><span id="SemanticScholarLibrarian-230"><a href="#SemanticScholarLibrarian-230"><span class="linenos">230</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="p">{</span>
+</span><span id="SemanticScholarLibrarian-231"><a href="#SemanticScholarLibrarian-231"><span class="linenos">231</span></a>            <span class="c1"># primary fields</span>
+</span><span id="SemanticScholarLibrarian-232"><a href="#SemanticScholarLibrarian-232"><span class="linenos">232</span></a>            <span class="s2">&quot;identifier&quot;</span><span class="p">:</span> <span class="n">identifier</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian-233"><a href="#SemanticScholarLibrarian-233"><span class="linenos">233</span></a>            <span class="s2">&quot;abstract&quot;</span><span class="p">:</span> <span class="n">paper</span><span class="o">.</span><span class="n">abstract</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian-234"><a href="#SemanticScholarLibrarian-234"><span class="linenos">234</span></a>            <span class="s2">&quot;publication_date&quot;</span><span class="p">:</span> <span class="n">publication_date</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian-235"><a href="#SemanticScholarLibrarian-235"><span class="linenos">235</span></a>            <span class="s2">&quot;citations&quot;</span><span class="p">:</span> <span class="n">citations</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian-236"><a href="#SemanticScholarLibrarian-236"><span class="linenos">236</span></a>            <span class="s2">&quot;references&quot;</span><span class="p">:</span> <span class="n">references</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian-237"><a href="#SemanticScholarLibrarian-237"><span class="linenos">237</span></a>            <span class="s2">&quot;citation_count&quot;</span><span class="p">:</span> <span class="n">citation_count</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian-238"><a href="#SemanticScholarLibrarian-238"><span class="linenos">238</span></a>            <span class="c1"># additional fields</span>
+</span><span id="SemanticScholarLibrarian-239"><a href="#SemanticScholarLibrarian-239"><span class="linenos">239</span></a>            <span class="s2">&quot;doi&quot;</span><span class="p">:</span> <span class="n">doi</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian-240"><a href="#SemanticScholarLibrarian-240"><span class="linenos">240</span></a>            <span class="s2">&quot;url&quot;</span><span class="p">:</span> <span class="n">paper</span><span class="o">.</span><span class="n">url</span> <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">paper</span><span class="p">,</span> <span class="s2">&quot;url&quot;</span><span class="p">)</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian-241"><a href="#SemanticScholarLibrarian-241"><span class="linenos">241</span></a>            <span class="s2">&quot;title&quot;</span><span class="p">:</span> <span class="n">paper</span><span class="o">.</span><span class="n">title</span> <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">paper</span><span class="p">,</span> <span class="s2">&quot;title&quot;</span><span class="p">)</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian-242"><a href="#SemanticScholarLibrarian-242"><span class="linenos">242</span></a>            <span class="s2">&quot;issn&quot;</span><span class="p">:</span> <span class="n">paper</span><span class="o">.</span><span class="n">issn</span> <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">paper</span><span class="p">,</span> <span class="s2">&quot;issn&quot;</span><span class="p">)</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian-243"><a href="#SemanticScholarLibrarian-243"><span class="linenos">243</span></a>        <span class="p">}</span>
+</span><span id="SemanticScholarLibrarian-244"><a href="#SemanticScholarLibrarian-244"><span class="linenos">244</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="p">{</span><span class="n">k</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">data</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span> <span class="n">v</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">}</span>
 </span><span id="SemanticScholarLibrarian-245"><a href="#SemanticScholarLibrarian-245"><span class="linenos">245</span></a>
-</span><span id="SemanticScholarLibrarian-246"><a href="#SemanticScholarLibrarian-246"><span class="linenos">246</span></a>        <span class="n">url</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">sch</span><span class="o">.</span><span class="n">api_url</span><span class="si">}</span><span class="s2">/paper/batch&quot;</span>
+</span><span id="SemanticScholarLibrarian-246"><a href="#SemanticScholarLibrarian-246"><span class="linenos">246</span></a>        <span class="k">return</span> <span class="n">Publication</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
 </span><span id="SemanticScholarLibrarian-247"><a href="#SemanticScholarLibrarian-247"><span class="linenos">247</span></a>
-</span><span id="SemanticScholarLibrarian-248"><a href="#SemanticScholarLibrarian-248"><span class="linenos">248</span></a>        <span class="n">fields</span> <span class="o">=</span> <span class="s2">&quot;,&quot;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">fields</span><span class="p">)</span>
-</span><span id="SemanticScholarLibrarian-249"><a href="#SemanticScholarLibrarian-249"><span class="linenos">249</span></a>        <span class="n">parameters</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;&amp;fields=</span><span class="si">{</span><span class="n">fields</span><span class="si">}</span><span class="s2">&quot;</span>
-</span><span id="SemanticScholarLibrarian-250"><a href="#SemanticScholarLibrarian-250"><span class="linenos">250</span></a>
-</span><span id="SemanticScholarLibrarian-251"><a href="#SemanticScholarLibrarian-251"><span class="linenos">251</span></a>        <span class="n">payload</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;ids&quot;</span><span class="p">:</span> <span class="n">paper_ids</span><span class="p">}</span>
-</span><span id="SemanticScholarLibrarian-252"><a href="#SemanticScholarLibrarian-252"><span class="linenos">252</span></a>
-</span><span id="SemanticScholarLibrarian-253"><a href="#SemanticScholarLibrarian-253"><span class="linenos">253</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sch</span><span class="o">.</span><span class="n">_requester</span><span class="o">.</span><span class="n">get_data</span><span class="p">(</span>
-</span><span id="SemanticScholarLibrarian-254"><a href="#SemanticScholarLibrarian-254"><span class="linenos">254</span></a>            <span class="n">url</span><span class="p">,</span> <span class="n">parameters</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">sch</span><span class="o">.</span><span class="n">auth_header</span><span class="p">,</span> <span class="n">payload</span>
-</span><span id="SemanticScholarLibrarian-255"><a href="#SemanticScholarLibrarian-255"><span class="linenos">255</span></a>        <span class="p">)</span>
-</span><span id="SemanticScholarLibrarian-256"><a href="#SemanticScholarLibrarian-256"><span class="linenos">256</span></a>        <span class="n">papers</span> <span class="o">=</span> <span class="p">[</span>
-</span><span id="SemanticScholarLibrarian-257"><a href="#SemanticScholarLibrarian-257"><span class="linenos">257</span></a>            <span class="n">Paper</span><span class="p">(</span><span class="n">item</span><span class="p">)</span> <span class="k">if</span> <span class="n">item</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="kc">None</span> <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">data</span>
-</span><span id="SemanticScholarLibrarian-258"><a href="#SemanticScholarLibrarian-258"><span class="linenos">258</span></a>        <span class="p">]</span>  <span class="c1"># added condition</span>
+</span><span id="SemanticScholarLibrarian-248"><a href="#SemanticScholarLibrarian-248"><span class="linenos">248</span></a>    <span class="c1"># We write this minimally different function from SemanticScholar.get_papers so that others dont need to fork our version of semantic scholar.</span>
+</span><span id="SemanticScholarLibrarian-249"><a href="#SemanticScholarLibrarian-249"><span class="linenos">249</span></a>    <span class="k">def</span> <span class="nf">get_papers</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">paper_ids</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="n">fields</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]):</span>
+</span><span id="SemanticScholarLibrarian-250"><a href="#SemanticScholarLibrarian-250"><span class="linenos">250</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Custom function for calling the S2 API that doesn&#39;t fail on empty results.&quot;&quot;&quot;</span>
+</span><span id="SemanticScholarLibrarian-251"><a href="#SemanticScholarLibrarian-251"><span class="linenos">251</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">fields</span><span class="p">:</span>
+</span><span id="SemanticScholarLibrarian-252"><a href="#SemanticScholarLibrarian-252"><span class="linenos">252</span></a>            <span class="n">fields</span> <span class="o">=</span> <span class="n">Paper</span><span class="o">.</span><span class="n">SEARCH_FIELDS</span>
+</span><span id="SemanticScholarLibrarian-253"><a href="#SemanticScholarLibrarian-253"><span class="linenos">253</span></a>
+</span><span id="SemanticScholarLibrarian-254"><a href="#SemanticScholarLibrarian-254"><span class="linenos">254</span></a>        <span class="n">base_url</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sch</span><span class="o">.</span><span class="n">api_url</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">sch</span><span class="o">.</span><span class="n">BASE_PATH_GRAPH</span>
+</span><span id="SemanticScholarLibrarian-255"><a href="#SemanticScholarLibrarian-255"><span class="linenos">255</span></a>        <span class="n">url</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">base_url</span><span class="si">}</span><span class="s2">/paper/batch&quot;</span>
+</span><span id="SemanticScholarLibrarian-256"><a href="#SemanticScholarLibrarian-256"><span class="linenos">256</span></a>
+</span><span id="SemanticScholarLibrarian-257"><a href="#SemanticScholarLibrarian-257"><span class="linenos">257</span></a>        <span class="n">fields</span> <span class="o">=</span> <span class="s2">&quot;,&quot;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">fields</span><span class="p">)</span>
+</span><span id="SemanticScholarLibrarian-258"><a href="#SemanticScholarLibrarian-258"><span class="linenos">258</span></a>        <span class="n">parameters</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;&amp;fields=</span><span class="si">{</span><span class="n">fields</span><span class="si">}</span><span class="s2">&quot;</span>
 </span><span id="SemanticScholarLibrarian-259"><a href="#SemanticScholarLibrarian-259"><span class="linenos">259</span></a>
-</span><span id="SemanticScholarLibrarian-260"><a href="#SemanticScholarLibrarian-260"><span class="linenos">260</span></a>        <span class="k">return</span> <span class="n">papers</span>
+</span><span id="SemanticScholarLibrarian-260"><a href="#SemanticScholarLibrarian-260"><span class="linenos">260</span></a>        <span class="n">payload</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;ids&quot;</span><span class="p">:</span> <span class="n">paper_ids</span><span class="p">}</span>
 </span><span id="SemanticScholarLibrarian-261"><a href="#SemanticScholarLibrarian-261"><span class="linenos">261</span></a>
-</span><span id="SemanticScholarLibrarian-262"><a href="#SemanticScholarLibrarian-262"><span class="linenos">262</span></a>    <span class="c1"># &quot;</span>
-</span><span id="SemanticScholarLibrarian-263"><a href="#SemanticScholarLibrarian-263"><span class="linenos">263</span></a>    <span class="k">def</span> <span class="nf">get_paper</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">paper_id</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">fields</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]):</span>
-</span><span id="SemanticScholarLibrarian-264"><a href="#SemanticScholarLibrarian-264"><span class="linenos">264</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Custom function for calling the S2 API that doesn&#39;t fail on empty results.&quot;&quot;&quot;</span>
-</span><span id="SemanticScholarLibrarian-265"><a href="#SemanticScholarLibrarian-265"><span class="linenos">265</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">fields</span><span class="p">:</span>
-</span><span id="SemanticScholarLibrarian-266"><a href="#SemanticScholarLibrarian-266"><span class="linenos">266</span></a>            <span class="n">fields</span> <span class="o">=</span> <span class="n">Paper</span><span class="o">.</span><span class="n">FIELDS</span>
-</span><span id="SemanticScholarLibrarian-267"><a href="#SemanticScholarLibrarian-267"><span class="linenos">267</span></a>
-</span><span id="SemanticScholarLibrarian-268"><a href="#SemanticScholarLibrarian-268"><span class="linenos">268</span></a>        <span class="n">url</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">api_url</span><span class="si">}</span><span class="s2">/paper/</span><span class="si">{</span><span class="n">paper_id</span><span class="si">}</span><span class="s2">&quot;</span>
-</span><span id="SemanticScholarLibrarian-269"><a href="#SemanticScholarLibrarian-269"><span class="linenos">269</span></a>
-</span><span id="SemanticScholarLibrarian-270"><a href="#SemanticScholarLibrarian-270"><span class="linenos">270</span></a>        <span class="n">fields</span> <span class="o">=</span> <span class="s2">&quot;,&quot;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">fields</span><span class="p">)</span>
-</span><span id="SemanticScholarLibrarian-271"><a href="#SemanticScholarLibrarian-271"><span class="linenos">271</span></a>        <span class="n">parameters</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;&amp;fields=</span><span class="si">{</span><span class="n">fields</span><span class="si">}</span><span class="s2">&quot;</span>
-</span><span id="SemanticScholarLibrarian-272"><a href="#SemanticScholarLibrarian-272"><span class="linenos">272</span></a>
-</span><span id="SemanticScholarLibrarian-273"><a href="#SemanticScholarLibrarian-273"><span class="linenos">273</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sch</span><span class="o">.</span><span class="n">_requester</span><span class="o">.</span><span class="n">get_data</span><span class="p">(</span><span class="n">url</span><span class="p">,</span> <span class="n">parameters</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">auth_header</span><span class="p">)</span>
-</span><span id="SemanticScholarLibrarian-274"><a href="#SemanticScholarLibrarian-274"><span class="linenos">274</span></a>        <span class="n">paper</span> <span class="o">=</span> <span class="n">Paper</span><span class="p">(</span><span class="n">data</span><span class="p">)</span> <span class="k">if</span> <span class="n">data</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="kc">None</span>  <span class="c1"># added condition</span>
-</span><span id="SemanticScholarLibrarian-275"><a href="#SemanticScholarLibrarian-275"><span class="linenos">275</span></a>
-</span><span id="SemanticScholarLibrarian-276"><a href="#SemanticScholarLibrarian-276"><span class="linenos">276</span></a>        <span class="k">return</span> <span class="n">paper</span>
+</span><span id="SemanticScholarLibrarian-262"><a href="#SemanticScholarLibrarian-262"><span class="linenos">262</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sch</span><span class="o">.</span><span class="n">_requester</span><span class="o">.</span><span class="n">get_data</span><span class="p">(</span>
+</span><span id="SemanticScholarLibrarian-263"><a href="#SemanticScholarLibrarian-263"><span class="linenos">263</span></a>            <span class="n">url</span><span class="p">,</span> <span class="n">parameters</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">sch</span><span class="o">.</span><span class="n">auth_header</span><span class="p">,</span> <span class="n">payload</span>
+</span><span id="SemanticScholarLibrarian-264"><a href="#SemanticScholarLibrarian-264"><span class="linenos">264</span></a>        <span class="p">)</span>
+</span><span id="SemanticScholarLibrarian-265"><a href="#SemanticScholarLibrarian-265"><span class="linenos">265</span></a>        <span class="n">papers</span> <span class="o">=</span> <span class="p">[</span>
+</span><span id="SemanticScholarLibrarian-266"><a href="#SemanticScholarLibrarian-266"><span class="linenos">266</span></a>            <span class="n">Paper</span><span class="p">(</span><span class="n">item</span><span class="p">)</span> <span class="k">if</span> <span class="n">item</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="kc">None</span> <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">data</span>
+</span><span id="SemanticScholarLibrarian-267"><a href="#SemanticScholarLibrarian-267"><span class="linenos">267</span></a>        <span class="p">]</span>  <span class="c1"># added condition</span>
+</span><span id="SemanticScholarLibrarian-268"><a href="#SemanticScholarLibrarian-268"><span class="linenos">268</span></a>
+</span><span id="SemanticScholarLibrarian-269"><a href="#SemanticScholarLibrarian-269"><span class="linenos">269</span></a>        <span class="k">return</span> <span class="n">papers</span>
+</span><span id="SemanticScholarLibrarian-270"><a href="#SemanticScholarLibrarian-270"><span class="linenos">270</span></a>
+</span><span id="SemanticScholarLibrarian-271"><a href="#SemanticScholarLibrarian-271"><span class="linenos">271</span></a>    <span class="c1"># &quot;</span>
+</span><span id="SemanticScholarLibrarian-272"><a href="#SemanticScholarLibrarian-272"><span class="linenos">272</span></a>    <span class="k">def</span> <span class="nf">get_paper</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">paper_id</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">fields</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]):</span>
+</span><span id="SemanticScholarLibrarian-273"><a href="#SemanticScholarLibrarian-273"><span class="linenos">273</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Custom function for calling the S2 API that doesn&#39;t fail on empty results.&quot;&quot;&quot;</span>
+</span><span id="SemanticScholarLibrarian-274"><a href="#SemanticScholarLibrarian-274"><span class="linenos">274</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">fields</span><span class="p">:</span>
+</span><span id="SemanticScholarLibrarian-275"><a href="#SemanticScholarLibrarian-275"><span class="linenos">275</span></a>            <span class="n">fields</span> <span class="o">=</span> <span class="n">Paper</span><span class="o">.</span><span class="n">FIELDS</span>
+</span><span id="SemanticScholarLibrarian-276"><a href="#SemanticScholarLibrarian-276"><span class="linenos">276</span></a>
+</span><span id="SemanticScholarLibrarian-277"><a href="#SemanticScholarLibrarian-277"><span class="linenos">277</span></a>        <span class="n">base_url</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sch</span><span class="o">.</span><span class="n">api_url</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">sch</span><span class="o">.</span><span class="n">BASE_PATH_GRAPH</span>
+</span><span id="SemanticScholarLibrarian-278"><a href="#SemanticScholarLibrarian-278"><span class="linenos">278</span></a>        <span class="n">url</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">base_url</span><span class="si">}</span><span class="s2">/paper/</span><span class="si">{</span><span class="n">paper_id</span><span class="si">}</span><span class="s2">&quot;</span>
+</span><span id="SemanticScholarLibrarian-279"><a href="#SemanticScholarLibrarian-279"><span class="linenos">279</span></a>
+</span><span id="SemanticScholarLibrarian-280"><a href="#SemanticScholarLibrarian-280"><span class="linenos">280</span></a>        <span class="n">fields</span> <span class="o">=</span> <span class="s2">&quot;,&quot;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">fields</span><span class="p">)</span>
+</span><span id="SemanticScholarLibrarian-281"><a href="#SemanticScholarLibrarian-281"><span class="linenos">281</span></a>        <span class="n">parameters</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;&amp;fields=</span><span class="si">{</span><span class="n">fields</span><span class="si">}</span><span class="s2">&quot;</span>
+</span><span id="SemanticScholarLibrarian-282"><a href="#SemanticScholarLibrarian-282"><span class="linenos">282</span></a>
+</span><span id="SemanticScholarLibrarian-283"><a href="#SemanticScholarLibrarian-283"><span class="linenos">283</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sch</span><span class="o">.</span><span class="n">_requester</span><span class="o">.</span><span class="n">get_data</span><span class="p">(</span><span class="n">url</span><span class="p">,</span> <span class="n">parameters</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">sch</span><span class="o">.</span><span class="n">auth_header</span><span class="p">)</span>
+</span><span id="SemanticScholarLibrarian-284"><a href="#SemanticScholarLibrarian-284"><span class="linenos">284</span></a>        <span class="n">paper</span> <span class="o">=</span> <span class="n">Paper</span><span class="p">(</span><span class="n">data</span><span class="p">)</span> <span class="k">if</span> <span class="n">data</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="kc">None</span>  <span class="c1"># added condition</span>
+</span><span id="SemanticScholarLibrarian-285"><a href="#SemanticScholarLibrarian-285"><span class="linenos">285</span></a>
+</span><span id="SemanticScholarLibrarian-286"><a href="#SemanticScholarLibrarian-286"><span class="linenos">286</span></a>        <span class="k">return</span> <span class="n">paper</span>
 </span></pre></div>
 
 
@@ -746,7 +766,7 @@ <h1 class="modulename">
 </span><span id="SemanticScholarLibrarian.get_publications-123"><a href="#SemanticScholarLibrarian.get_publications-123"><span class="linenos">123</span></a>
 </span><span id="SemanticScholarLibrarian.get_publications-124"><a href="#SemanticScholarLibrarian.get_publications-124"><span class="linenos">124</span></a><span class="sd">            n_attempts_per_query: Number of attempts to access the API per query. Useful when experiencing connection issues.</span>
 </span><span id="SemanticScholarLibrarian.get_publications-125"><a href="#SemanticScholarLibrarian.get_publications-125"><span class="linenos">125</span></a>
-</span><span id="SemanticScholarLibrarian.get_publications-126"><a href="#SemanticScholarLibrarian.get_publications-126"><span class="linenos">126</span></a><span class="sd">            call_size: maximum number of papers to call API for in one query; if less than `len(paper_ids)`, chunking will be performed.</span>
+</span><span id="SemanticScholarLibrarian.get_publications-126"><a href="#SemanticScholarLibrarian.get_publications-126"><span class="linenos">126</span></a><span class="sd">            call_size: maximum number of papers to call API for in one query; if less than `len(paper_ids)`, chunking will be performed. Maximum that S2 allows is 500.</span>
 </span><span id="SemanticScholarLibrarian.get_publications-127"><a href="#SemanticScholarLibrarian.get_publications-127"><span class="linenos">127</span></a>
 </span><span id="SemanticScholarLibrarian.get_publications-128"><a href="#SemanticScholarLibrarian.get_publications-128"><span class="linenos">128</span></a><span class="sd">            convert: whether to convert each resulting SemanticScholar Paper to sciterra Publications (True by default).</span>
 </span><span id="SemanticScholarLibrarian.get_publications-129"><a href="#SemanticScholarLibrarian.get_publications-129"><span class="linenos">129</span></a>
@@ -759,50 +779,52 @@ <h1 class="modulename">
 </span><span id="SemanticScholarLibrarian.get_publications-136"><a href="#SemanticScholarLibrarian.get_publications-136"><span class="linenos">136</span></a>            <span class="k">return</span> <span class="p">[]</span>
 </span><span id="SemanticScholarLibrarian.get_publications-137"><a href="#SemanticScholarLibrarian.get_publications-137"><span class="linenos">137</span></a>
 </span><span id="SemanticScholarLibrarian.get_publications-138"><a href="#SemanticScholarLibrarian.get_publications-138"><span class="linenos">138</span></a>        <span class="n">total</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">paper_ids</span><span class="p">)</span>
-</span><span id="SemanticScholarLibrarian.get_publications-139"><a href="#SemanticScholarLibrarian.get_publications-139"><span class="linenos">139</span></a>        <span class="n">chunked_ids</span> <span class="o">=</span> <span class="n">chunk_ids</span><span class="p">(</span><span class="n">paper_ids</span><span class="p">,</span> <span class="n">call_size</span><span class="o">=</span><span class="n">call_size</span><span class="p">)</span>
-</span><span id="SemanticScholarLibrarian.get_publications-140"><a href="#SemanticScholarLibrarian.get_publications-140"><span class="linenos">140</span></a>
-</span><span id="SemanticScholarLibrarian.get_publications-141"><a href="#SemanticScholarLibrarian.get_publications-141"><span class="linenos">141</span></a>        <span class="k">if</span> <span class="kc">None</span> <span class="ow">in</span> <span class="n">paper_ids</span><span class="p">:</span>
-</span><span id="SemanticScholarLibrarian.get_publications-142"><a href="#SemanticScholarLibrarian.get_publications-142"><span class="linenos">142</span></a>            <span class="c1"># any Nones should have been handled by this point</span>
-</span><span id="SemanticScholarLibrarian.get_publications-143"><a href="#SemanticScholarLibrarian.get_publications-143"><span class="linenos">143</span></a>            <span class="k">raise</span> <span class="ne">Exception</span><span class="p">(</span><span class="s2">&quot;Passed `paper_ids` contains None.&quot;</span><span class="p">)</span>
-</span><span id="SemanticScholarLibrarian.get_publications-144"><a href="#SemanticScholarLibrarian.get_publications-144"><span class="linenos">144</span></a>
-</span><span id="SemanticScholarLibrarian.get_publications-145"><a href="#SemanticScholarLibrarian.get_publications-145"><span class="linenos">145</span></a>        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Querying Semantic Scholar for </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">paper_ids</span><span class="p">)</span><span class="si">}</span><span class="s2"> total papers.&quot;</span><span class="p">)</span>
-</span><span id="SemanticScholarLibrarian.get_publications-146"><a href="#SemanticScholarLibrarian.get_publications-146"><span class="linenos">146</span></a>        <span class="n">papers</span> <span class="o">=</span> <span class="p">[]</span>
-</span><span id="SemanticScholarLibrarian.get_publications-147"><a href="#SemanticScholarLibrarian.get_publications-147"><span class="linenos">147</span></a>        <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="p">(</span><span class="n">desc</span><span class="o">=</span><span class="sa">f</span><span class="s2">&quot;progress using call_size=</span><span class="si">{</span><span class="n">call_size</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">,</span> <span class="n">total</span><span class="o">=</span><span class="n">total</span><span class="p">)</span>
-</span><span id="SemanticScholarLibrarian.get_publications-148"><a href="#SemanticScholarLibrarian.get_publications-148"><span class="linenos">148</span></a>        <span class="k">for</span> <span class="n">ids</span> <span class="ow">in</span> <span class="n">chunked_ids</span><span class="p">:</span>
-</span><span id="SemanticScholarLibrarian.get_publications-149"><a href="#SemanticScholarLibrarian.get_publications-149"><span class="linenos">149</span></a>
-</span><span id="SemanticScholarLibrarian.get_publications-150"><a href="#SemanticScholarLibrarian.get_publications-150"><span class="linenos">150</span></a>            <span class="nd">@keep_trying</span><span class="p">(</span>
-</span><span id="SemanticScholarLibrarian.get_publications-151"><a href="#SemanticScholarLibrarian.get_publications-151"><span class="linenos">151</span></a>                <span class="n">n_attempts</span><span class="o">=</span><span class="n">n_attempts_per_query</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian.get_publications-152"><a href="#SemanticScholarLibrarian.get_publications-152"><span class="linenos">152</span></a>                <span class="n">allowed_exceptions</span><span class="o">=</span><span class="n">ALLOWED_EXCEPTIONS</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian.get_publications-153"><a href="#SemanticScholarLibrarian.get_publications-153"><span class="linenos">153</span></a>                <span class="n">sleep_after_attempt</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian.get_publications-154"><a href="#SemanticScholarLibrarian.get_publications-154"><span class="linenos">154</span></a>            <span class="p">)</span>
-</span><span id="SemanticScholarLibrarian.get_publications-155"><a href="#SemanticScholarLibrarian.get_publications-155"><span class="linenos">155</span></a>            <span class="k">def</span> <span class="nf">get_papers</span><span class="p">()</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="n">Paper</span><span class="p">]:</span>
-</span><span id="SemanticScholarLibrarian.get_publications-156"><a href="#SemanticScholarLibrarian.get_publications-156"><span class="linenos">156</span></a>                <span class="k">if</span> <span class="n">call_size</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">:</span>
-</span><span id="SemanticScholarLibrarian.get_publications-157"><a href="#SemanticScholarLibrarian.get_publications-157"><span class="linenos">157</span></a>                    <span class="n">result</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">get_papers</span><span class="p">(</span>
-</span><span id="SemanticScholarLibrarian.get_publications-158"><a href="#SemanticScholarLibrarian.get_publications-158"><span class="linenos">158</span></a>                        <span class="n">paper_ids</span><span class="o">=</span><span class="n">ids</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian.get_publications-159"><a href="#SemanticScholarLibrarian.get_publications-159"><span class="linenos">159</span></a>                        <span class="n">fields</span><span class="o">=</span><span class="n">QUERY_FIELDS</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian.get_publications-160"><a href="#SemanticScholarLibrarian.get_publications-160"><span class="linenos">160</span></a>                    <span class="p">)</span>
-</span><span id="SemanticScholarLibrarian.get_publications-161"><a href="#SemanticScholarLibrarian.get_publications-161"><span class="linenos">161</span></a>                <span class="k">else</span><span class="p">:</span>
-</span><span id="SemanticScholarLibrarian.get_publications-162"><a href="#SemanticScholarLibrarian.get_publications-162"><span class="linenos">162</span></a>                    <span class="c1"># typically completes about 100 queries per minute.</span>
-</span><span id="SemanticScholarLibrarian.get_publications-163"><a href="#SemanticScholarLibrarian.get_publications-163"><span class="linenos">163</span></a>                    <span class="n">result</span> <span class="o">=</span> <span class="p">[</span>
-</span><span id="SemanticScholarLibrarian.get_publications-164"><a href="#SemanticScholarLibrarian.get_publications-164"><span class="linenos">164</span></a>                        <span class="bp">self</span><span class="o">.</span><span class="n">get_paper</span><span class="p">(</span>
-</span><span id="SemanticScholarLibrarian.get_publications-165"><a href="#SemanticScholarLibrarian.get_publications-165"><span class="linenos">165</span></a>                            <span class="n">paper_id</span><span class="o">=</span><span class="n">paper_id</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian.get_publications-166"><a href="#SemanticScholarLibrarian.get_publications-166"><span class="linenos">166</span></a>                            <span class="n">fields</span><span class="o">=</span><span class="n">QUERY_FIELDS</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian.get_publications-167"><a href="#SemanticScholarLibrarian.get_publications-167"><span class="linenos">167</span></a>                        <span class="p">)</span>
-</span><span id="SemanticScholarLibrarian.get_publications-168"><a href="#SemanticScholarLibrarian.get_publications-168"><span class="linenos">168</span></a>                        <span class="k">for</span> <span class="n">paper_id</span> <span class="ow">in</span> <span class="n">ids</span>
-</span><span id="SemanticScholarLibrarian.get_publications-169"><a href="#SemanticScholarLibrarian.get_publications-169"><span class="linenos">169</span></a>                    <span class="p">]</span>
-</span><span id="SemanticScholarLibrarian.get_publications-170"><a href="#SemanticScholarLibrarian.get_publications-170"><span class="linenos">170</span></a>                <span class="k">return</span> <span class="n">result</span>
-</span><span id="SemanticScholarLibrarian.get_publications-171"><a href="#SemanticScholarLibrarian.get_publications-171"><span class="linenos">171</span></a>
-</span><span id="SemanticScholarLibrarian.get_publications-172"><a href="#SemanticScholarLibrarian.get_publications-172"><span class="linenos">172</span></a>            <span class="n">papers</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">get_papers</span><span class="p">())</span>
-</span><span id="SemanticScholarLibrarian.get_publications-173"><a href="#SemanticScholarLibrarian.get_publications-173"><span class="linenos">173</span></a>            <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">ids</span><span class="p">))</span>
-</span><span id="SemanticScholarLibrarian.get_publications-174"><a href="#SemanticScholarLibrarian.get_publications-174"><span class="linenos">174</span></a>        <span class="n">pbar</span><span class="o">.</span><span class="n">close</span><span class="p">()</span>
-</span><span id="SemanticScholarLibrarian.get_publications-175"><a href="#SemanticScholarLibrarian.get_publications-175"><span class="linenos">175</span></a>
-</span><span id="SemanticScholarLibrarian.get_publications-176"><a href="#SemanticScholarLibrarian.get_publications-176"><span class="linenos">176</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">convert</span><span class="p">:</span>
-</span><span id="SemanticScholarLibrarian.get_publications-177"><a href="#SemanticScholarLibrarian.get_publications-177"><span class="linenos">177</span></a>            <span class="k">return</span> <span class="n">papers</span>
-</span><span id="SemanticScholarLibrarian.get_publications-178"><a href="#SemanticScholarLibrarian.get_publications-178"><span class="linenos">178</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">convert_publications</span><span class="p">(</span>
-</span><span id="SemanticScholarLibrarian.get_publications-179"><a href="#SemanticScholarLibrarian.get_publications-179"><span class="linenos">179</span></a>            <span class="n">papers</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian.get_publications-180"><a href="#SemanticScholarLibrarian.get_publications-180"><span class="linenos">180</span></a>            <span class="o">*</span><span class="n">args</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian.get_publications-181"><a href="#SemanticScholarLibrarian.get_publications-181"><span class="linenos">181</span></a>            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian.get_publications-182"><a href="#SemanticScholarLibrarian.get_publications-182"><span class="linenos">182</span></a>        <span class="p">)</span>
+</span><span id="SemanticScholarLibrarian.get_publications-139"><a href="#SemanticScholarLibrarian.get_publications-139"><span class="linenos">139</span></a>        <span class="k">if</span> <span class="n">call_size</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="SemanticScholarLibrarian.get_publications-140"><a href="#SemanticScholarLibrarian.get_publications-140"><span class="linenos">140</span></a>            <span class="n">call_size</span> <span class="o">=</span> <span class="n">CALL_SIZE</span>
+</span><span id="SemanticScholarLibrarian.get_publications-141"><a href="#SemanticScholarLibrarian.get_publications-141"><span class="linenos">141</span></a>        <span class="n">chunked_ids</span> <span class="o">=</span> <span class="n">chunk_ids</span><span class="p">(</span><span class="n">paper_ids</span><span class="p">,</span> <span class="n">call_size</span><span class="o">=</span><span class="n">call_size</span><span class="p">)</span>
+</span><span id="SemanticScholarLibrarian.get_publications-142"><a href="#SemanticScholarLibrarian.get_publications-142"><span class="linenos">142</span></a>
+</span><span id="SemanticScholarLibrarian.get_publications-143"><a href="#SemanticScholarLibrarian.get_publications-143"><span class="linenos">143</span></a>        <span class="k">if</span> <span class="kc">None</span> <span class="ow">in</span> <span class="n">paper_ids</span><span class="p">:</span>
+</span><span id="SemanticScholarLibrarian.get_publications-144"><a href="#SemanticScholarLibrarian.get_publications-144"><span class="linenos">144</span></a>            <span class="c1"># any Nones should have been handled by this point</span>
+</span><span id="SemanticScholarLibrarian.get_publications-145"><a href="#SemanticScholarLibrarian.get_publications-145"><span class="linenos">145</span></a>            <span class="k">raise</span> <span class="ne">Exception</span><span class="p">(</span><span class="s2">&quot;Passed `paper_ids` contains None.&quot;</span><span class="p">)</span>
+</span><span id="SemanticScholarLibrarian.get_publications-146"><a href="#SemanticScholarLibrarian.get_publications-146"><span class="linenos">146</span></a>
+</span><span id="SemanticScholarLibrarian.get_publications-147"><a href="#SemanticScholarLibrarian.get_publications-147"><span class="linenos">147</span></a>        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Querying Semantic Scholar for </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">paper_ids</span><span class="p">)</span><span class="si">}</span><span class="s2"> total papers.&quot;</span><span class="p">)</span>
+</span><span id="SemanticScholarLibrarian.get_publications-148"><a href="#SemanticScholarLibrarian.get_publications-148"><span class="linenos">148</span></a>        <span class="n">papers</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="SemanticScholarLibrarian.get_publications-149"><a href="#SemanticScholarLibrarian.get_publications-149"><span class="linenos">149</span></a>        <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="p">(</span><span class="n">desc</span><span class="o">=</span><span class="sa">f</span><span class="s2">&quot;progress using call_size=</span><span class="si">{</span><span class="n">call_size</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">,</span> <span class="n">total</span><span class="o">=</span><span class="n">total</span><span class="p">)</span>
+</span><span id="SemanticScholarLibrarian.get_publications-150"><a href="#SemanticScholarLibrarian.get_publications-150"><span class="linenos">150</span></a>        <span class="k">for</span> <span class="n">ids</span> <span class="ow">in</span> <span class="n">chunked_ids</span><span class="p">:</span>
+</span><span id="SemanticScholarLibrarian.get_publications-151"><a href="#SemanticScholarLibrarian.get_publications-151"><span class="linenos">151</span></a>
+</span><span id="SemanticScholarLibrarian.get_publications-152"><a href="#SemanticScholarLibrarian.get_publications-152"><span class="linenos">152</span></a>            <span class="nd">@keep_trying</span><span class="p">(</span>
+</span><span id="SemanticScholarLibrarian.get_publications-153"><a href="#SemanticScholarLibrarian.get_publications-153"><span class="linenos">153</span></a>                <span class="n">n_attempts</span><span class="o">=</span><span class="n">n_attempts_per_query</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian.get_publications-154"><a href="#SemanticScholarLibrarian.get_publications-154"><span class="linenos">154</span></a>                <span class="n">allowed_exceptions</span><span class="o">=</span><span class="n">ALLOWED_EXCEPTIONS</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian.get_publications-155"><a href="#SemanticScholarLibrarian.get_publications-155"><span class="linenos">155</span></a>                <span class="n">sleep_after_attempt</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian.get_publications-156"><a href="#SemanticScholarLibrarian.get_publications-156"><span class="linenos">156</span></a>            <span class="p">)</span>
+</span><span id="SemanticScholarLibrarian.get_publications-157"><a href="#SemanticScholarLibrarian.get_publications-157"><span class="linenos">157</span></a>            <span class="k">def</span> <span class="nf">get_papers</span><span class="p">()</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="n">Paper</span><span class="p">]:</span>
+</span><span id="SemanticScholarLibrarian.get_publications-158"><a href="#SemanticScholarLibrarian.get_publications-158"><span class="linenos">158</span></a>                <span class="k">if</span> <span class="n">call_size</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">:</span>
+</span><span id="SemanticScholarLibrarian.get_publications-159"><a href="#SemanticScholarLibrarian.get_publications-159"><span class="linenos">159</span></a>                    <span class="n">result</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">get_papers</span><span class="p">(</span>
+</span><span id="SemanticScholarLibrarian.get_publications-160"><a href="#SemanticScholarLibrarian.get_publications-160"><span class="linenos">160</span></a>                        <span class="n">paper_ids</span><span class="o">=</span><span class="n">ids</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian.get_publications-161"><a href="#SemanticScholarLibrarian.get_publications-161"><span class="linenos">161</span></a>                        <span class="n">fields</span><span class="o">=</span><span class="n">QUERY_FIELDS</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian.get_publications-162"><a href="#SemanticScholarLibrarian.get_publications-162"><span class="linenos">162</span></a>                    <span class="p">)</span>
+</span><span id="SemanticScholarLibrarian.get_publications-163"><a href="#SemanticScholarLibrarian.get_publications-163"><span class="linenos">163</span></a>                <span class="k">else</span><span class="p">:</span>
+</span><span id="SemanticScholarLibrarian.get_publications-164"><a href="#SemanticScholarLibrarian.get_publications-164"><span class="linenos">164</span></a>                    <span class="c1"># typically completes about 100 queries per minute.</span>
+</span><span id="SemanticScholarLibrarian.get_publications-165"><a href="#SemanticScholarLibrarian.get_publications-165"><span class="linenos">165</span></a>                    <span class="n">result</span> <span class="o">=</span> <span class="p">[</span>
+</span><span id="SemanticScholarLibrarian.get_publications-166"><a href="#SemanticScholarLibrarian.get_publications-166"><span class="linenos">166</span></a>                        <span class="bp">self</span><span class="o">.</span><span class="n">get_paper</span><span class="p">(</span>
+</span><span id="SemanticScholarLibrarian.get_publications-167"><a href="#SemanticScholarLibrarian.get_publications-167"><span class="linenos">167</span></a>                            <span class="n">paper_id</span><span class="o">=</span><span class="n">paper_id</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian.get_publications-168"><a href="#SemanticScholarLibrarian.get_publications-168"><span class="linenos">168</span></a>                            <span class="n">fields</span><span class="o">=</span><span class="n">QUERY_FIELDS</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian.get_publications-169"><a href="#SemanticScholarLibrarian.get_publications-169"><span class="linenos">169</span></a>                        <span class="p">)</span>
+</span><span id="SemanticScholarLibrarian.get_publications-170"><a href="#SemanticScholarLibrarian.get_publications-170"><span class="linenos">170</span></a>                        <span class="k">for</span> <span class="n">paper_id</span> <span class="ow">in</span> <span class="n">ids</span>
+</span><span id="SemanticScholarLibrarian.get_publications-171"><a href="#SemanticScholarLibrarian.get_publications-171"><span class="linenos">171</span></a>                    <span class="p">]</span>
+</span><span id="SemanticScholarLibrarian.get_publications-172"><a href="#SemanticScholarLibrarian.get_publications-172"><span class="linenos">172</span></a>                <span class="k">return</span> <span class="n">result</span>
+</span><span id="SemanticScholarLibrarian.get_publications-173"><a href="#SemanticScholarLibrarian.get_publications-173"><span class="linenos">173</span></a>
+</span><span id="SemanticScholarLibrarian.get_publications-174"><a href="#SemanticScholarLibrarian.get_publications-174"><span class="linenos">174</span></a>            <span class="n">papers</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">get_papers</span><span class="p">())</span>
+</span><span id="SemanticScholarLibrarian.get_publications-175"><a href="#SemanticScholarLibrarian.get_publications-175"><span class="linenos">175</span></a>            <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">ids</span><span class="p">))</span>
+</span><span id="SemanticScholarLibrarian.get_publications-176"><a href="#SemanticScholarLibrarian.get_publications-176"><span class="linenos">176</span></a>        <span class="n">pbar</span><span class="o">.</span><span class="n">close</span><span class="p">()</span>
+</span><span id="SemanticScholarLibrarian.get_publications-177"><a href="#SemanticScholarLibrarian.get_publications-177"><span class="linenos">177</span></a>
+</span><span id="SemanticScholarLibrarian.get_publications-178"><a href="#SemanticScholarLibrarian.get_publications-178"><span class="linenos">178</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">convert</span><span class="p">:</span>
+</span><span id="SemanticScholarLibrarian.get_publications-179"><a href="#SemanticScholarLibrarian.get_publications-179"><span class="linenos">179</span></a>            <span class="k">return</span> <span class="n">papers</span>
+</span><span id="SemanticScholarLibrarian.get_publications-180"><a href="#SemanticScholarLibrarian.get_publications-180"><span class="linenos">180</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">convert_publications</span><span class="p">(</span>  <span class="c1"># may contain Nones!</span>
+</span><span id="SemanticScholarLibrarian.get_publications-181"><a href="#SemanticScholarLibrarian.get_publications-181"><span class="linenos">181</span></a>            <span class="n">papers</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian.get_publications-182"><a href="#SemanticScholarLibrarian.get_publications-182"><span class="linenos">182</span></a>            <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian.get_publications-183"><a href="#SemanticScholarLibrarian.get_publications-183"><span class="linenos">183</span></a>            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian.get_publications-184"><a href="#SemanticScholarLibrarian.get_publications-184"><span class="linenos">184</span></a>        <span class="p">)</span>
 </span></pre></div>
 
 
@@ -813,7 +835,7 @@ <h6 id="arguments">Arguments:</h6>
 <ul>
 <li><strong>paper_ids:</strong>  the str ids required for querying. While it is possible to use one of EXTERNAL_IDS to query, if SemanticScholar returns a paper at all, it will return a paperId, so it is preferred to use paperIds.</li>
 <li><strong>n_attempts_per_query:</strong>  Number of attempts to access the API per query. Useful when experiencing connection issues.</li>
-<li><strong>call_size:</strong>  maximum number of papers to call API for in one query; if less than <code>len(paper_ids)</code>, chunking will be performed.</li>
+<li><strong>call_size:</strong>  maximum number of papers to call API for in one query; if less than <code>len(paper_ids)</code>, chunking will be performed. Maximum that S2 allows is 500.</li>
 <li><strong>convert:</strong>  whether to convert each resulting SemanticScholar Paper to sciterra Publications (True by default).</li>
 </ul>
 
@@ -837,61 +859,67 @@ <h6 id="returns">Returns:</h6>
 
     </div>
     <a class="headerlink" href="#SemanticScholarLibrarian.convert_publication"></a>
-            <div class="pdoc-code codehilite"><pre><span></span><span id="SemanticScholarLibrarian.convert_publication-184"><a href="#SemanticScholarLibrarian.convert_publication-184"><span class="linenos">184</span></a>    <span class="k">def</span> <span class="nf">convert_publication</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">paper</span><span class="p">:</span> <span class="n">Paper</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Publication</span><span class="p">:</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-185"><a href="#SemanticScholarLibrarian.convert_publication-185"><span class="linenos">185</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Convert a SemanticScholar Paper object to a sciterra.publication.Publication.&quot;&quot;&quot;</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-186"><a href="#SemanticScholarLibrarian.convert_publication-186"><span class="linenos">186</span></a>        <span class="k">if</span> <span class="n">paper</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-187"><a href="#SemanticScholarLibrarian.convert_publication-187"><span class="linenos">187</span></a>            <span class="k">return</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-188"><a href="#SemanticScholarLibrarian.convert_publication-188"><span class="linenos">188</span></a>
-</span><span id="SemanticScholarLibrarian.convert_publication-189"><a href="#SemanticScholarLibrarian.convert_publication-189"><span class="linenos">189</span></a>        <span class="c1"># to be consistent with identifiers (e.g., to avoid storing the same publication twice), we always use the paperId.</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-190"><a href="#SemanticScholarLibrarian.convert_publication-190"><span class="linenos">190</span></a>        <span class="n">identifier</span> <span class="o">=</span> <span class="n">paper</span><span class="o">.</span><span class="n">paperId</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-191"><a href="#SemanticScholarLibrarian.convert_publication-191"><span class="linenos">191</span></a>
-</span><span id="SemanticScholarLibrarian.convert_publication-192"><a href="#SemanticScholarLibrarian.convert_publication-192"><span class="linenos">192</span></a>        <span class="c1"># Parse date from datetime or year</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-193"><a href="#SemanticScholarLibrarian.convert_publication-193"><span class="linenos">193</span></a>        <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">paper</span><span class="p">,</span> <span class="s2">&quot;publicationDate&quot;</span><span class="p">):</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-194"><a href="#SemanticScholarLibrarian.convert_publication-194"><span class="linenos">194</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="n">paper</span><span class="o">.</span><span class="n">publicationDate</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-195"><a href="#SemanticScholarLibrarian.convert_publication-195"><span class="linenos">195</span></a>        <span class="k">elif</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">paper</span><span class="p">,</span> <span class="s2">&quot;year&quot;</span><span class="p">):</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-196"><a href="#SemanticScholarLibrarian.convert_publication-196"><span class="linenos">196</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="n">date</span><span class="p">(</span><span class="n">paper</span><span class="o">.</span><span class="n">year</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-197"><a href="#SemanticScholarLibrarian.convert_publication-197"><span class="linenos">197</span></a>        <span class="k">else</span><span class="p">:</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-198"><a href="#SemanticScholarLibrarian.convert_publication-198"><span class="linenos">198</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="kc">None</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-199"><a href="#SemanticScholarLibrarian.convert_publication-199"><span class="linenos">199</span></a>
-</span><span id="SemanticScholarLibrarian.convert_publication-200"><a href="#SemanticScholarLibrarian.convert_publication-200"><span class="linenos">200</span></a>        <span class="c1"># get doi from externalids</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-201"><a href="#SemanticScholarLibrarian.convert_publication-201"><span class="linenos">201</span></a>        <span class="n">doi</span> <span class="o">=</span> <span class="kc">None</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-202"><a href="#SemanticScholarLibrarian.convert_publication-202"><span class="linenos">202</span></a>        <span class="k">if</span> <span class="s2">&quot;DOI&quot;</span> <span class="ow">in</span> <span class="n">paper</span><span class="o">.</span><span class="n">externalIds</span><span class="p">:</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-203"><a href="#SemanticScholarLibrarian.convert_publication-203"><span class="linenos">203</span></a>            <span class="n">doi</span> <span class="o">=</span> <span class="n">paper</span><span class="o">.</span><span class="n">externalIds</span><span class="p">[</span><span class="s2">&quot;DOI&quot;</span><span class="p">]</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-204"><a href="#SemanticScholarLibrarian.convert_publication-204"><span class="linenos">204</span></a>
-</span><span id="SemanticScholarLibrarian.convert_publication-205"><a href="#SemanticScholarLibrarian.convert_publication-205"><span class="linenos">205</span></a>        <span class="c1"># convert citations/references from lists of Papers to identifiers</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-206"><a href="#SemanticScholarLibrarian.convert_publication-206"><span class="linenos">206</span></a>        <span class="n">citations</span> <span class="o">=</span> <span class="p">[</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-207"><a href="#SemanticScholarLibrarian.convert_publication-207"><span class="linenos">207</span></a>            <span class="n">paper</span><span class="o">.</span><span class="n">paperId</span> <span class="k">for</span> <span class="n">paper</span> <span class="ow">in</span> <span class="n">paper</span><span class="o">.</span><span class="n">citations</span> <span class="k">if</span> <span class="n">paper</span><span class="o">.</span><span class="n">paperId</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-208"><a href="#SemanticScholarLibrarian.convert_publication-208"><span class="linenos">208</span></a>        <span class="p">]</span>  <span class="c1"># no point using recursion assuming identifier=paperId</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-209"><a href="#SemanticScholarLibrarian.convert_publication-209"><span class="linenos">209</span></a>        <span class="n">references</span> <span class="o">=</span> <span class="p">[</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-210"><a href="#SemanticScholarLibrarian.convert_publication-210"><span class="linenos">210</span></a>            <span class="n">paper</span><span class="o">.</span><span class="n">paperId</span> <span class="k">for</span> <span class="n">paper</span> <span class="ow">in</span> <span class="n">paper</span><span class="o">.</span><span class="n">references</span> <span class="k">if</span> <span class="n">paper</span><span class="o">.</span><span class="n">paperId</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-211"><a href="#SemanticScholarLibrarian.convert_publication-211"><span class="linenos">211</span></a>        <span class="p">]</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-212"><a href="#SemanticScholarLibrarian.convert_publication-212"><span class="linenos">212</span></a>
-</span><span id="SemanticScholarLibrarian.convert_publication-213"><a href="#SemanticScholarLibrarian.convert_publication-213"><span class="linenos">213</span></a>        <span class="n">citation_count</span> <span class="o">=</span> <span class="n">paper</span><span class="o">.</span><span class="n">citationCount</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-214"><a href="#SemanticScholarLibrarian.convert_publication-214"><span class="linenos">214</span></a>        <span class="k">if</span> <span class="n">citation_count</span> <span class="o">!=</span> <span class="nb">len</span><span class="p">(</span><span class="n">citations</span><span class="p">):</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-215"><a href="#SemanticScholarLibrarian.convert_publication-215"><span class="linenos">215</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-216"><a href="#SemanticScholarLibrarian.convert_publication-216"><span class="linenos">216</span></a>                <span class="sa">f</span><span class="s2">&quot;The length of the citations list (</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">citations</span><span class="p">)</span><span class="si">}</span><span class="s2">) is different from citation_count (</span><span class="si">{</span><span class="n">citation_count</span><span class="si">}</span><span class="s2">)&quot;</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-217"><a href="#SemanticScholarLibrarian.convert_publication-217"><span class="linenos">217</span></a>            <span class="p">)</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-218"><a href="#SemanticScholarLibrarian.convert_publication-218"><span class="linenos">218</span></a>        <span class="k">if</span> <span class="s2">&quot;infer_citation_count&quot;</span> <span class="ow">in</span> <span class="n">kwargs</span> <span class="ow">and</span> <span class="n">kwargs</span><span class="p">[</span><span class="s2">&quot;infer_citation_count&quot;</span><span class="p">]:</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-219"><a href="#SemanticScholarLibrarian.convert_publication-219"><span class="linenos">219</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="s2">&quot;Setting citation_count = {len(citations)}.&quot;</span><span class="p">)</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-220"><a href="#SemanticScholarLibrarian.convert_publication-220"><span class="linenos">220</span></a>            <span class="n">citation_count</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">citations</span><span class="p">)</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-221"><a href="#SemanticScholarLibrarian.convert_publication-221"><span class="linenos">221</span></a>
-</span><span id="SemanticScholarLibrarian.convert_publication-222"><a href="#SemanticScholarLibrarian.convert_publication-222"><span class="linenos">222</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="p">{</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-223"><a href="#SemanticScholarLibrarian.convert_publication-223"><span class="linenos">223</span></a>            <span class="c1"># primary fields</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-224"><a href="#SemanticScholarLibrarian.convert_publication-224"><span class="linenos">224</span></a>            <span class="s2">&quot;identifier&quot;</span><span class="p">:</span> <span class="n">identifier</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-225"><a href="#SemanticScholarLibrarian.convert_publication-225"><span class="linenos">225</span></a>            <span class="s2">&quot;abstract&quot;</span><span class="p">:</span> <span class="n">paper</span><span class="o">.</span><span class="n">abstract</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-226"><a href="#SemanticScholarLibrarian.convert_publication-226"><span class="linenos">226</span></a>            <span class="s2">&quot;publication_date&quot;</span><span class="p">:</span> <span class="n">publication_date</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-227"><a href="#SemanticScholarLibrarian.convert_publication-227"><span class="linenos">227</span></a>            <span class="s2">&quot;citations&quot;</span><span class="p">:</span> <span class="n">citations</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-228"><a href="#SemanticScholarLibrarian.convert_publication-228"><span class="linenos">228</span></a>            <span class="s2">&quot;references&quot;</span><span class="p">:</span> <span class="n">references</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-229"><a href="#SemanticScholarLibrarian.convert_publication-229"><span class="linenos">229</span></a>            <span class="s2">&quot;citation_count&quot;</span><span class="p">:</span> <span class="n">citation_count</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-230"><a href="#SemanticScholarLibrarian.convert_publication-230"><span class="linenos">230</span></a>            <span class="c1"># additional fields</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-231"><a href="#SemanticScholarLibrarian.convert_publication-231"><span class="linenos">231</span></a>            <span class="s2">&quot;doi&quot;</span><span class="p">:</span> <span class="n">doi</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-232"><a href="#SemanticScholarLibrarian.convert_publication-232"><span class="linenos">232</span></a>            <span class="s2">&quot;url&quot;</span><span class="p">:</span> <span class="n">paper</span><span class="o">.</span><span class="n">url</span> <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">paper</span><span class="p">,</span> <span class="s2">&quot;url&quot;</span><span class="p">)</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-233"><a href="#SemanticScholarLibrarian.convert_publication-233"><span class="linenos">233</span></a>            <span class="s2">&quot;title&quot;</span><span class="p">:</span> <span class="n">paper</span><span class="o">.</span><span class="n">title</span> <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">paper</span><span class="p">,</span> <span class="s2">&quot;title&quot;</span><span class="p">)</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-234"><a href="#SemanticScholarLibrarian.convert_publication-234"><span class="linenos">234</span></a>            <span class="s2">&quot;issn&quot;</span><span class="p">:</span> <span class="n">paper</span><span class="o">.</span><span class="n">issn</span> <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">paper</span><span class="p">,</span> <span class="s2">&quot;issn&quot;</span><span class="p">)</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-235"><a href="#SemanticScholarLibrarian.convert_publication-235"><span class="linenos">235</span></a>        <span class="p">}</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-236"><a href="#SemanticScholarLibrarian.convert_publication-236"><span class="linenos">236</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="p">{</span><span class="n">k</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">data</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span> <span class="n">v</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">}</span>
-</span><span id="SemanticScholarLibrarian.convert_publication-237"><a href="#SemanticScholarLibrarian.convert_publication-237"><span class="linenos">237</span></a>
-</span><span id="SemanticScholarLibrarian.convert_publication-238"><a href="#SemanticScholarLibrarian.convert_publication-238"><span class="linenos">238</span></a>        <span class="k">return</span> <span class="n">Publication</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="SemanticScholarLibrarian.convert_publication-186"><a href="#SemanticScholarLibrarian.convert_publication-186"><span class="linenos">186</span></a>    <span class="k">def</span> <span class="nf">convert_publication</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">paper</span><span class="p">:</span> <span class="n">Paper</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Publication</span><span class="p">:</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-187"><a href="#SemanticScholarLibrarian.convert_publication-187"><span class="linenos">187</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Convert a SemanticScholar Paper object to a sciterra.publication.Publication.&quot;&quot;&quot;</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-188"><a href="#SemanticScholarLibrarian.convert_publication-188"><span class="linenos">188</span></a>        <span class="k">if</span> <span class="n">paper</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-189"><a href="#SemanticScholarLibrarian.convert_publication-189"><span class="linenos">189</span></a>            <span class="k">return</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-190"><a href="#SemanticScholarLibrarian.convert_publication-190"><span class="linenos">190</span></a>
+</span><span id="SemanticScholarLibrarian.convert_publication-191"><a href="#SemanticScholarLibrarian.convert_publication-191"><span class="linenos">191</span></a>        <span class="n">verbose</span> <span class="o">=</span> <span class="n">get_verbose</span><span class="p">(</span><span class="n">kwargs</span><span class="p">)</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-192"><a href="#SemanticScholarLibrarian.convert_publication-192"><span class="linenos">192</span></a>
+</span><span id="SemanticScholarLibrarian.convert_publication-193"><a href="#SemanticScholarLibrarian.convert_publication-193"><span class="linenos">193</span></a>        <span class="c1"># to be consistent with identifiers (e.g., to avoid storing the same publication twice), we always use the paperId.</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-194"><a href="#SemanticScholarLibrarian.convert_publication-194"><span class="linenos">194</span></a>        <span class="n">identifier</span> <span class="o">=</span> <span class="n">paper</span><span class="o">.</span><span class="n">paperId</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-195"><a href="#SemanticScholarLibrarian.convert_publication-195"><span class="linenos">195</span></a>
+</span><span id="SemanticScholarLibrarian.convert_publication-196"><a href="#SemanticScholarLibrarian.convert_publication-196"><span class="linenos">196</span></a>        <span class="c1"># Parse date from datetime or year</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-197"><a href="#SemanticScholarLibrarian.convert_publication-197"><span class="linenos">197</span></a>        <span class="k">if</span> <span class="n">paper</span><span class="o">.</span><span class="n">publicationDate</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-198"><a href="#SemanticScholarLibrarian.convert_publication-198"><span class="linenos">198</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="n">paper</span><span class="o">.</span><span class="n">publicationDate</span><span class="o">.</span><span class="n">date</span><span class="p">()</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-199"><a href="#SemanticScholarLibrarian.convert_publication-199"><span class="linenos">199</span></a>        <span class="k">elif</span> <span class="n">paper</span><span class="o">.</span><span class="n">year</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-200"><a href="#SemanticScholarLibrarian.convert_publication-200"><span class="linenos">200</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="n">date</span><span class="p">(</span><span class="n">paper</span><span class="o">.</span><span class="n">year</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-201"><a href="#SemanticScholarLibrarian.convert_publication-201"><span class="linenos">201</span></a>        <span class="k">else</span><span class="p">:</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-202"><a href="#SemanticScholarLibrarian.convert_publication-202"><span class="linenos">202</span></a>            <span class="n">publication_date</span> <span class="o">=</span> <span class="kc">None</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-203"><a href="#SemanticScholarLibrarian.convert_publication-203"><span class="linenos">203</span></a>
+</span><span id="SemanticScholarLibrarian.convert_publication-204"><a href="#SemanticScholarLibrarian.convert_publication-204"><span class="linenos">204</span></a>        <span class="c1"># get doi from externalids</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-205"><a href="#SemanticScholarLibrarian.convert_publication-205"><span class="linenos">205</span></a>        <span class="n">doi</span> <span class="o">=</span> <span class="kc">None</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-206"><a href="#SemanticScholarLibrarian.convert_publication-206"><span class="linenos">206</span></a>        <span class="k">if</span> <span class="s2">&quot;DOI&quot;</span> <span class="ow">in</span> <span class="n">paper</span><span class="o">.</span><span class="n">externalIds</span><span class="p">:</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-207"><a href="#SemanticScholarLibrarian.convert_publication-207"><span class="linenos">207</span></a>            <span class="n">doi</span> <span class="o">=</span> <span class="n">paper</span><span class="o">.</span><span class="n">externalIds</span><span class="p">[</span><span class="s2">&quot;DOI&quot;</span><span class="p">]</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-208"><a href="#SemanticScholarLibrarian.convert_publication-208"><span class="linenos">208</span></a>
+</span><span id="SemanticScholarLibrarian.convert_publication-209"><a href="#SemanticScholarLibrarian.convert_publication-209"><span class="linenos">209</span></a>        <span class="c1"># convert citations/references from lists of Papers to identifiers</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-210"><a href="#SemanticScholarLibrarian.convert_publication-210"><span class="linenos">210</span></a>        <span class="n">citations</span> <span class="o">=</span> <span class="p">[</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-211"><a href="#SemanticScholarLibrarian.convert_publication-211"><span class="linenos">211</span></a>            <span class="n">paper</span><span class="o">.</span><span class="n">paperId</span> <span class="k">for</span> <span class="n">paper</span> <span class="ow">in</span> <span class="n">paper</span><span class="o">.</span><span class="n">citations</span> <span class="k">if</span> <span class="n">paper</span><span class="o">.</span><span class="n">paperId</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-212"><a href="#SemanticScholarLibrarian.convert_publication-212"><span class="linenos">212</span></a>        <span class="p">]</span>  <span class="c1"># no point using recursion assuming identifier=paperId</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-213"><a href="#SemanticScholarLibrarian.convert_publication-213"><span class="linenos">213</span></a>        <span class="n">references</span> <span class="o">=</span> <span class="p">[</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-214"><a href="#SemanticScholarLibrarian.convert_publication-214"><span class="linenos">214</span></a>            <span class="n">paper</span><span class="o">.</span><span class="n">paperId</span> <span class="k">for</span> <span class="n">paper</span> <span class="ow">in</span> <span class="n">paper</span><span class="o">.</span><span class="n">references</span> <span class="k">if</span> <span class="n">paper</span><span class="o">.</span><span class="n">paperId</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-215"><a href="#SemanticScholarLibrarian.convert_publication-215"><span class="linenos">215</span></a>        <span class="p">]</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-216"><a href="#SemanticScholarLibrarian.convert_publication-216"><span class="linenos">216</span></a>
+</span><span id="SemanticScholarLibrarian.convert_publication-217"><a href="#SemanticScholarLibrarian.convert_publication-217"><span class="linenos">217</span></a>        <span class="n">citation_count</span> <span class="o">=</span> <span class="n">paper</span><span class="o">.</span><span class="n">citationCount</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-218"><a href="#SemanticScholarLibrarian.convert_publication-218"><span class="linenos">218</span></a>        <span class="k">if</span> <span class="n">citation_count</span> <span class="o">!=</span> <span class="nb">len</span><span class="p">(</span><span class="n">citations</span><span class="p">)</span> <span class="ow">and</span> <span class="n">verbose</span><span class="p">:</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-219"><a href="#SemanticScholarLibrarian.convert_publication-219"><span class="linenos">219</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-220"><a href="#SemanticScholarLibrarian.convert_publication-220"><span class="linenos">220</span></a>                <span class="sa">f</span><span class="s2">&quot;The length of the citations list (</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">citations</span><span class="p">)</span><span class="si">}</span><span class="s2">) is different from citation_count (</span><span class="si">{</span><span class="n">citation_count</span><span class="si">}</span><span class="s2">)&quot;</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-221"><a href="#SemanticScholarLibrarian.convert_publication-221"><span class="linenos">221</span></a>            <span class="p">)</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-222"><a href="#SemanticScholarLibrarian.convert_publication-222"><span class="linenos">222</span></a>        <span class="k">if</span> <span class="p">(</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-223"><a href="#SemanticScholarLibrarian.convert_publication-223"><span class="linenos">223</span></a>            <span class="s2">&quot;infer_citation_count&quot;</span> <span class="ow">in</span> <span class="n">kwargs</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-224"><a href="#SemanticScholarLibrarian.convert_publication-224"><span class="linenos">224</span></a>            <span class="ow">and</span> <span class="n">kwargs</span><span class="p">[</span><span class="s2">&quot;infer_citation_count&quot;</span><span class="p">]</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-225"><a href="#SemanticScholarLibrarian.convert_publication-225"><span class="linenos">225</span></a>            <span class="ow">and</span> <span class="n">verbose</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-226"><a href="#SemanticScholarLibrarian.convert_publication-226"><span class="linenos">226</span></a>        <span class="p">):</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-227"><a href="#SemanticScholarLibrarian.convert_publication-227"><span class="linenos">227</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="s2">&quot;Setting citation_count = {len(citations)}.&quot;</span><span class="p">)</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-228"><a href="#SemanticScholarLibrarian.convert_publication-228"><span class="linenos">228</span></a>            <span class="n">citation_count</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">citations</span><span class="p">)</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-229"><a href="#SemanticScholarLibrarian.convert_publication-229"><span class="linenos">229</span></a>
+</span><span id="SemanticScholarLibrarian.convert_publication-230"><a href="#SemanticScholarLibrarian.convert_publication-230"><span class="linenos">230</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="p">{</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-231"><a href="#SemanticScholarLibrarian.convert_publication-231"><span class="linenos">231</span></a>            <span class="c1"># primary fields</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-232"><a href="#SemanticScholarLibrarian.convert_publication-232"><span class="linenos">232</span></a>            <span class="s2">&quot;identifier&quot;</span><span class="p">:</span> <span class="n">identifier</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-233"><a href="#SemanticScholarLibrarian.convert_publication-233"><span class="linenos">233</span></a>            <span class="s2">&quot;abstract&quot;</span><span class="p">:</span> <span class="n">paper</span><span class="o">.</span><span class="n">abstract</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-234"><a href="#SemanticScholarLibrarian.convert_publication-234"><span class="linenos">234</span></a>            <span class="s2">&quot;publication_date&quot;</span><span class="p">:</span> <span class="n">publication_date</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-235"><a href="#SemanticScholarLibrarian.convert_publication-235"><span class="linenos">235</span></a>            <span class="s2">&quot;citations&quot;</span><span class="p">:</span> <span class="n">citations</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-236"><a href="#SemanticScholarLibrarian.convert_publication-236"><span class="linenos">236</span></a>            <span class="s2">&quot;references&quot;</span><span class="p">:</span> <span class="n">references</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-237"><a href="#SemanticScholarLibrarian.convert_publication-237"><span class="linenos">237</span></a>            <span class="s2">&quot;citation_count&quot;</span><span class="p">:</span> <span class="n">citation_count</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-238"><a href="#SemanticScholarLibrarian.convert_publication-238"><span class="linenos">238</span></a>            <span class="c1"># additional fields</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-239"><a href="#SemanticScholarLibrarian.convert_publication-239"><span class="linenos">239</span></a>            <span class="s2">&quot;doi&quot;</span><span class="p">:</span> <span class="n">doi</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-240"><a href="#SemanticScholarLibrarian.convert_publication-240"><span class="linenos">240</span></a>            <span class="s2">&quot;url&quot;</span><span class="p">:</span> <span class="n">paper</span><span class="o">.</span><span class="n">url</span> <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">paper</span><span class="p">,</span> <span class="s2">&quot;url&quot;</span><span class="p">)</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-241"><a href="#SemanticScholarLibrarian.convert_publication-241"><span class="linenos">241</span></a>            <span class="s2">&quot;title&quot;</span><span class="p">:</span> <span class="n">paper</span><span class="o">.</span><span class="n">title</span> <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">paper</span><span class="p">,</span> <span class="s2">&quot;title&quot;</span><span class="p">)</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-242"><a href="#SemanticScholarLibrarian.convert_publication-242"><span class="linenos">242</span></a>            <span class="s2">&quot;issn&quot;</span><span class="p">:</span> <span class="n">paper</span><span class="o">.</span><span class="n">issn</span> <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">paper</span><span class="p">,</span> <span class="s2">&quot;issn&quot;</span><span class="p">)</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-243"><a href="#SemanticScholarLibrarian.convert_publication-243"><span class="linenos">243</span></a>        <span class="p">}</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-244"><a href="#SemanticScholarLibrarian.convert_publication-244"><span class="linenos">244</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="p">{</span><span class="n">k</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">data</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span> <span class="n">v</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">}</span>
+</span><span id="SemanticScholarLibrarian.convert_publication-245"><a href="#SemanticScholarLibrarian.convert_publication-245"><span class="linenos">245</span></a>
+</span><span id="SemanticScholarLibrarian.convert_publication-246"><a href="#SemanticScholarLibrarian.convert_publication-246"><span class="linenos">246</span></a>        <span class="k">return</span> <span class="n">Publication</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
 </span></pre></div>
 
 
@@ -911,26 +939,27 @@ <h6 id="returns">Returns:</h6>
 
     </div>
     <a class="headerlink" href="#SemanticScholarLibrarian.get_papers"></a>
-            <div class="pdoc-code codehilite"><pre><span></span><span id="SemanticScholarLibrarian.get_papers-241"><a href="#SemanticScholarLibrarian.get_papers-241"><span class="linenos">241</span></a>    <span class="k">def</span> <span class="nf">get_papers</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">paper_ids</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="n">fields</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]):</span>
-</span><span id="SemanticScholarLibrarian.get_papers-242"><a href="#SemanticScholarLibrarian.get_papers-242"><span class="linenos">242</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Custom function for calling the S2 API that doesn&#39;t fail on empty results.&quot;&quot;&quot;</span>
-</span><span id="SemanticScholarLibrarian.get_papers-243"><a href="#SemanticScholarLibrarian.get_papers-243"><span class="linenos">243</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">fields</span><span class="p">:</span>
-</span><span id="SemanticScholarLibrarian.get_papers-244"><a href="#SemanticScholarLibrarian.get_papers-244"><span class="linenos">244</span></a>            <span class="n">fields</span> <span class="o">=</span> <span class="n">Paper</span><span class="o">.</span><span class="n">SEARCH_FIELDS</span>
-</span><span id="SemanticScholarLibrarian.get_papers-245"><a href="#SemanticScholarLibrarian.get_papers-245"><span class="linenos">245</span></a>
-</span><span id="SemanticScholarLibrarian.get_papers-246"><a href="#SemanticScholarLibrarian.get_papers-246"><span class="linenos">246</span></a>        <span class="n">url</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">sch</span><span class="o">.</span><span class="n">api_url</span><span class="si">}</span><span class="s2">/paper/batch&quot;</span>
-</span><span id="SemanticScholarLibrarian.get_papers-247"><a href="#SemanticScholarLibrarian.get_papers-247"><span class="linenos">247</span></a>
-</span><span id="SemanticScholarLibrarian.get_papers-248"><a href="#SemanticScholarLibrarian.get_papers-248"><span class="linenos">248</span></a>        <span class="n">fields</span> <span class="o">=</span> <span class="s2">&quot;,&quot;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">fields</span><span class="p">)</span>
-</span><span id="SemanticScholarLibrarian.get_papers-249"><a href="#SemanticScholarLibrarian.get_papers-249"><span class="linenos">249</span></a>        <span class="n">parameters</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;&amp;fields=</span><span class="si">{</span><span class="n">fields</span><span class="si">}</span><span class="s2">&quot;</span>
-</span><span id="SemanticScholarLibrarian.get_papers-250"><a href="#SemanticScholarLibrarian.get_papers-250"><span class="linenos">250</span></a>
-</span><span id="SemanticScholarLibrarian.get_papers-251"><a href="#SemanticScholarLibrarian.get_papers-251"><span class="linenos">251</span></a>        <span class="n">payload</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;ids&quot;</span><span class="p">:</span> <span class="n">paper_ids</span><span class="p">}</span>
-</span><span id="SemanticScholarLibrarian.get_papers-252"><a href="#SemanticScholarLibrarian.get_papers-252"><span class="linenos">252</span></a>
-</span><span id="SemanticScholarLibrarian.get_papers-253"><a href="#SemanticScholarLibrarian.get_papers-253"><span class="linenos">253</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sch</span><span class="o">.</span><span class="n">_requester</span><span class="o">.</span><span class="n">get_data</span><span class="p">(</span>
-</span><span id="SemanticScholarLibrarian.get_papers-254"><a href="#SemanticScholarLibrarian.get_papers-254"><span class="linenos">254</span></a>            <span class="n">url</span><span class="p">,</span> <span class="n">parameters</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">sch</span><span class="o">.</span><span class="n">auth_header</span><span class="p">,</span> <span class="n">payload</span>
-</span><span id="SemanticScholarLibrarian.get_papers-255"><a href="#SemanticScholarLibrarian.get_papers-255"><span class="linenos">255</span></a>        <span class="p">)</span>
-</span><span id="SemanticScholarLibrarian.get_papers-256"><a href="#SemanticScholarLibrarian.get_papers-256"><span class="linenos">256</span></a>        <span class="n">papers</span> <span class="o">=</span> <span class="p">[</span>
-</span><span id="SemanticScholarLibrarian.get_papers-257"><a href="#SemanticScholarLibrarian.get_papers-257"><span class="linenos">257</span></a>            <span class="n">Paper</span><span class="p">(</span><span class="n">item</span><span class="p">)</span> <span class="k">if</span> <span class="n">item</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="kc">None</span> <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">data</span>
-</span><span id="SemanticScholarLibrarian.get_papers-258"><a href="#SemanticScholarLibrarian.get_papers-258"><span class="linenos">258</span></a>        <span class="p">]</span>  <span class="c1"># added condition</span>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="SemanticScholarLibrarian.get_papers-249"><a href="#SemanticScholarLibrarian.get_papers-249"><span class="linenos">249</span></a>    <span class="k">def</span> <span class="nf">get_papers</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">paper_ids</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="n">fields</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]):</span>
+</span><span id="SemanticScholarLibrarian.get_papers-250"><a href="#SemanticScholarLibrarian.get_papers-250"><span class="linenos">250</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Custom function for calling the S2 API that doesn&#39;t fail on empty results.&quot;&quot;&quot;</span>
+</span><span id="SemanticScholarLibrarian.get_papers-251"><a href="#SemanticScholarLibrarian.get_papers-251"><span class="linenos">251</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">fields</span><span class="p">:</span>
+</span><span id="SemanticScholarLibrarian.get_papers-252"><a href="#SemanticScholarLibrarian.get_papers-252"><span class="linenos">252</span></a>            <span class="n">fields</span> <span class="o">=</span> <span class="n">Paper</span><span class="o">.</span><span class="n">SEARCH_FIELDS</span>
+</span><span id="SemanticScholarLibrarian.get_papers-253"><a href="#SemanticScholarLibrarian.get_papers-253"><span class="linenos">253</span></a>
+</span><span id="SemanticScholarLibrarian.get_papers-254"><a href="#SemanticScholarLibrarian.get_papers-254"><span class="linenos">254</span></a>        <span class="n">base_url</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sch</span><span class="o">.</span><span class="n">api_url</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">sch</span><span class="o">.</span><span class="n">BASE_PATH_GRAPH</span>
+</span><span id="SemanticScholarLibrarian.get_papers-255"><a href="#SemanticScholarLibrarian.get_papers-255"><span class="linenos">255</span></a>        <span class="n">url</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">base_url</span><span class="si">}</span><span class="s2">/paper/batch&quot;</span>
+</span><span id="SemanticScholarLibrarian.get_papers-256"><a href="#SemanticScholarLibrarian.get_papers-256"><span class="linenos">256</span></a>
+</span><span id="SemanticScholarLibrarian.get_papers-257"><a href="#SemanticScholarLibrarian.get_papers-257"><span class="linenos">257</span></a>        <span class="n">fields</span> <span class="o">=</span> <span class="s2">&quot;,&quot;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">fields</span><span class="p">)</span>
+</span><span id="SemanticScholarLibrarian.get_papers-258"><a href="#SemanticScholarLibrarian.get_papers-258"><span class="linenos">258</span></a>        <span class="n">parameters</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;&amp;fields=</span><span class="si">{</span><span class="n">fields</span><span class="si">}</span><span class="s2">&quot;</span>
 </span><span id="SemanticScholarLibrarian.get_papers-259"><a href="#SemanticScholarLibrarian.get_papers-259"><span class="linenos">259</span></a>
-</span><span id="SemanticScholarLibrarian.get_papers-260"><a href="#SemanticScholarLibrarian.get_papers-260"><span class="linenos">260</span></a>        <span class="k">return</span> <span class="n">papers</span>
+</span><span id="SemanticScholarLibrarian.get_papers-260"><a href="#SemanticScholarLibrarian.get_papers-260"><span class="linenos">260</span></a>        <span class="n">payload</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;ids&quot;</span><span class="p">:</span> <span class="n">paper_ids</span><span class="p">}</span>
+</span><span id="SemanticScholarLibrarian.get_papers-261"><a href="#SemanticScholarLibrarian.get_papers-261"><span class="linenos">261</span></a>
+</span><span id="SemanticScholarLibrarian.get_papers-262"><a href="#SemanticScholarLibrarian.get_papers-262"><span class="linenos">262</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sch</span><span class="o">.</span><span class="n">_requester</span><span class="o">.</span><span class="n">get_data</span><span class="p">(</span>
+</span><span id="SemanticScholarLibrarian.get_papers-263"><a href="#SemanticScholarLibrarian.get_papers-263"><span class="linenos">263</span></a>            <span class="n">url</span><span class="p">,</span> <span class="n">parameters</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">sch</span><span class="o">.</span><span class="n">auth_header</span><span class="p">,</span> <span class="n">payload</span>
+</span><span id="SemanticScholarLibrarian.get_papers-264"><a href="#SemanticScholarLibrarian.get_papers-264"><span class="linenos">264</span></a>        <span class="p">)</span>
+</span><span id="SemanticScholarLibrarian.get_papers-265"><a href="#SemanticScholarLibrarian.get_papers-265"><span class="linenos">265</span></a>        <span class="n">papers</span> <span class="o">=</span> <span class="p">[</span>
+</span><span id="SemanticScholarLibrarian.get_papers-266"><a href="#SemanticScholarLibrarian.get_papers-266"><span class="linenos">266</span></a>            <span class="n">Paper</span><span class="p">(</span><span class="n">item</span><span class="p">)</span> <span class="k">if</span> <span class="n">item</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="kc">None</span> <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">data</span>
+</span><span id="SemanticScholarLibrarian.get_papers-267"><a href="#SemanticScholarLibrarian.get_papers-267"><span class="linenos">267</span></a>        <span class="p">]</span>  <span class="c1"># added condition</span>
+</span><span id="SemanticScholarLibrarian.get_papers-268"><a href="#SemanticScholarLibrarian.get_papers-268"><span class="linenos">268</span></a>
+</span><span id="SemanticScholarLibrarian.get_papers-269"><a href="#SemanticScholarLibrarian.get_papers-269"><span class="linenos">269</span></a>        <span class="k">return</span> <span class="n">papers</span>
 </span></pre></div>
 
 
@@ -950,20 +979,21 @@ <h6 id="returns">Returns:</h6>
 
     </div>
     <a class="headerlink" href="#SemanticScholarLibrarian.get_paper"></a>
-            <div class="pdoc-code codehilite"><pre><span></span><span id="SemanticScholarLibrarian.get_paper-263"><a href="#SemanticScholarLibrarian.get_paper-263"><span class="linenos">263</span></a>    <span class="k">def</span> <span class="nf">get_paper</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">paper_id</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">fields</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]):</span>
-</span><span id="SemanticScholarLibrarian.get_paper-264"><a href="#SemanticScholarLibrarian.get_paper-264"><span class="linenos">264</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Custom function for calling the S2 API that doesn&#39;t fail on empty results.&quot;&quot;&quot;</span>
-</span><span id="SemanticScholarLibrarian.get_paper-265"><a href="#SemanticScholarLibrarian.get_paper-265"><span class="linenos">265</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">fields</span><span class="p">:</span>
-</span><span id="SemanticScholarLibrarian.get_paper-266"><a href="#SemanticScholarLibrarian.get_paper-266"><span class="linenos">266</span></a>            <span class="n">fields</span> <span class="o">=</span> <span class="n">Paper</span><span class="o">.</span><span class="n">FIELDS</span>
-</span><span id="SemanticScholarLibrarian.get_paper-267"><a href="#SemanticScholarLibrarian.get_paper-267"><span class="linenos">267</span></a>
-</span><span id="SemanticScholarLibrarian.get_paper-268"><a href="#SemanticScholarLibrarian.get_paper-268"><span class="linenos">268</span></a>        <span class="n">url</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">api_url</span><span class="si">}</span><span class="s2">/paper/</span><span class="si">{</span><span class="n">paper_id</span><span class="si">}</span><span class="s2">&quot;</span>
-</span><span id="SemanticScholarLibrarian.get_paper-269"><a href="#SemanticScholarLibrarian.get_paper-269"><span class="linenos">269</span></a>
-</span><span id="SemanticScholarLibrarian.get_paper-270"><a href="#SemanticScholarLibrarian.get_paper-270"><span class="linenos">270</span></a>        <span class="n">fields</span> <span class="o">=</span> <span class="s2">&quot;,&quot;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">fields</span><span class="p">)</span>
-</span><span id="SemanticScholarLibrarian.get_paper-271"><a href="#SemanticScholarLibrarian.get_paper-271"><span class="linenos">271</span></a>        <span class="n">parameters</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;&amp;fields=</span><span class="si">{</span><span class="n">fields</span><span class="si">}</span><span class="s2">&quot;</span>
-</span><span id="SemanticScholarLibrarian.get_paper-272"><a href="#SemanticScholarLibrarian.get_paper-272"><span class="linenos">272</span></a>
-</span><span id="SemanticScholarLibrarian.get_paper-273"><a href="#SemanticScholarLibrarian.get_paper-273"><span class="linenos">273</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sch</span><span class="o">.</span><span class="n">_requester</span><span class="o">.</span><span class="n">get_data</span><span class="p">(</span><span class="n">url</span><span class="p">,</span> <span class="n">parameters</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">auth_header</span><span class="p">)</span>
-</span><span id="SemanticScholarLibrarian.get_paper-274"><a href="#SemanticScholarLibrarian.get_paper-274"><span class="linenos">274</span></a>        <span class="n">paper</span> <span class="o">=</span> <span class="n">Paper</span><span class="p">(</span><span class="n">data</span><span class="p">)</span> <span class="k">if</span> <span class="n">data</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="kc">None</span>  <span class="c1"># added condition</span>
-</span><span id="SemanticScholarLibrarian.get_paper-275"><a href="#SemanticScholarLibrarian.get_paper-275"><span class="linenos">275</span></a>
-</span><span id="SemanticScholarLibrarian.get_paper-276"><a href="#SemanticScholarLibrarian.get_paper-276"><span class="linenos">276</span></a>        <span class="k">return</span> <span class="n">paper</span>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="SemanticScholarLibrarian.get_paper-272"><a href="#SemanticScholarLibrarian.get_paper-272"><span class="linenos">272</span></a>    <span class="k">def</span> <span class="nf">get_paper</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">paper_id</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">fields</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]):</span>
+</span><span id="SemanticScholarLibrarian.get_paper-273"><a href="#SemanticScholarLibrarian.get_paper-273"><span class="linenos">273</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Custom function for calling the S2 API that doesn&#39;t fail on empty results.&quot;&quot;&quot;</span>
+</span><span id="SemanticScholarLibrarian.get_paper-274"><a href="#SemanticScholarLibrarian.get_paper-274"><span class="linenos">274</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">fields</span><span class="p">:</span>
+</span><span id="SemanticScholarLibrarian.get_paper-275"><a href="#SemanticScholarLibrarian.get_paper-275"><span class="linenos">275</span></a>            <span class="n">fields</span> <span class="o">=</span> <span class="n">Paper</span><span class="o">.</span><span class="n">FIELDS</span>
+</span><span id="SemanticScholarLibrarian.get_paper-276"><a href="#SemanticScholarLibrarian.get_paper-276"><span class="linenos">276</span></a>
+</span><span id="SemanticScholarLibrarian.get_paper-277"><a href="#SemanticScholarLibrarian.get_paper-277"><span class="linenos">277</span></a>        <span class="n">base_url</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sch</span><span class="o">.</span><span class="n">api_url</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">sch</span><span class="o">.</span><span class="n">BASE_PATH_GRAPH</span>
+</span><span id="SemanticScholarLibrarian.get_paper-278"><a href="#SemanticScholarLibrarian.get_paper-278"><span class="linenos">278</span></a>        <span class="n">url</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">base_url</span><span class="si">}</span><span class="s2">/paper/</span><span class="si">{</span><span class="n">paper_id</span><span class="si">}</span><span class="s2">&quot;</span>
+</span><span id="SemanticScholarLibrarian.get_paper-279"><a href="#SemanticScholarLibrarian.get_paper-279"><span class="linenos">279</span></a>
+</span><span id="SemanticScholarLibrarian.get_paper-280"><a href="#SemanticScholarLibrarian.get_paper-280"><span class="linenos">280</span></a>        <span class="n">fields</span> <span class="o">=</span> <span class="s2">&quot;,&quot;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">fields</span><span class="p">)</span>
+</span><span id="SemanticScholarLibrarian.get_paper-281"><a href="#SemanticScholarLibrarian.get_paper-281"><span class="linenos">281</span></a>        <span class="n">parameters</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;&amp;fields=</span><span class="si">{</span><span class="n">fields</span><span class="si">}</span><span class="s2">&quot;</span>
+</span><span id="SemanticScholarLibrarian.get_paper-282"><a href="#SemanticScholarLibrarian.get_paper-282"><span class="linenos">282</span></a>
+</span><span id="SemanticScholarLibrarian.get_paper-283"><a href="#SemanticScholarLibrarian.get_paper-283"><span class="linenos">283</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sch</span><span class="o">.</span><span class="n">_requester</span><span class="o">.</span><span class="n">get_data</span><span class="p">(</span><span class="n">url</span><span class="p">,</span> <span class="n">parameters</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">sch</span><span class="o">.</span><span class="n">auth_header</span><span class="p">)</span>
+</span><span id="SemanticScholarLibrarian.get_paper-284"><a href="#SemanticScholarLibrarian.get_paper-284"><span class="linenos">284</span></a>        <span class="n">paper</span> <span class="o">=</span> <span class="n">Paper</span><span class="p">(</span><span class="n">data</span><span class="p">)</span> <span class="k">if</span> <span class="n">data</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="kc">None</span>  <span class="c1"># added condition</span>
+</span><span id="SemanticScholarLibrarian.get_paper-285"><a href="#SemanticScholarLibrarian.get_paper-285"><span class="linenos">285</span></a>
+</span><span id="SemanticScholarLibrarian.get_paper-286"><a href="#SemanticScholarLibrarian.get_paper-286"><span class="linenos">286</span></a>        <span class="k">return</span> <span class="n">paper</span>
 </span></pre></div>
 
 
diff --git a/docs/sciterra/mapping.html b/docs/sciterra/mapping.html
index 85e53f9..2038905 100644
--- a/docs/sciterra/mapping.html
+++ b/docs/sciterra/mapping.html
@@ -54,6 +54,7 @@ <h2>Submodules</h2>
                     <li><a href="mapping/atlas.html">atlas</a></li>
                     <li><a href="mapping/cartography.html">cartography</a></li>
                     <li><a href="mapping/publication.html">publication</a></li>
+                    <li><a href="mapping/topography.html">topography</a></li>
             </ul>
 
 
diff --git a/docs/sciterra/mapping/atlas.html b/docs/sciterra/mapping/atlas.html
index ea8da3d..9328732 100644
--- a/docs/sciterra/mapping/atlas.html
+++ b/docs/sciterra/mapping/atlas.html
@@ -64,6 +64,15 @@ <h2>API Documentation</h2>
                         <li>
                                 <a class="variable" href="#Atlas.projection">projection</a>
                         </li>
+                        <li>
+                                <a class="variable" href="#Atlas.bad_ids">bad_ids</a>
+                        </li>
+                        <li>
+                                <a class="variable" href="#Atlas.history">history</a>
+                        </li>
+                        <li>
+                                <a class="function" href="#Atlas.ids">ids</a>
+                        </li>
                         <li>
                                 <a class="function" href="#Atlas.save">save</a>
                         </li>
@@ -108,139 +117,149 @@ <h1 class="modulename">
 </span><span id="L-10"><a href="#L-10"><span class="linenos"> 10</span></a>
 </span><span id="L-11"><a href="#L-11"><span class="linenos"> 11</span></a><span class="kn">from</span> <span class="nn">.publication</span> <span class="kn">import</span> <span class="n">Publication</span>
 </span><span id="L-12"><a href="#L-12"><span class="linenos"> 12</span></a><span class="kn">from</span> <span class="nn">..vectorization.projection</span> <span class="kn">import</span> <span class="n">Projection</span>
-</span><span id="L-13"><a href="#L-13"><span class="linenos"> 13</span></a><span class="kn">from</span> <span class="nn">..misc.utils</span> <span class="kn">import</span> <span class="n">read_pickle</span><span class="p">,</span> <span class="n">write_pickle</span>
+</span><span id="L-13"><a href="#L-13"><span class="linenos"> 13</span></a><span class="kn">from</span> <span class="nn">..misc.utils</span> <span class="kn">import</span> <span class="n">read_pickle</span><span class="p">,</span> <span class="n">write_pickle</span><span class="p">,</span> <span class="n">get_verbose</span><span class="p">,</span> <span class="n">custom_formatwarning</span>
 </span><span id="L-14"><a href="#L-14"><span class="linenos"> 14</span></a>
-</span><span id="L-15"><a href="#L-15"><span class="linenos"> 15</span></a>
-</span><span id="L-16"><a href="#L-16"><span class="linenos"> 16</span></a><span class="k">class</span> <span class="nc">Atlas</span><span class="p">:</span>
-</span><span id="L-17"><a href="#L-17"><span class="linenos"> 17</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
-</span><span id="L-18"><a href="#L-18"><span class="linenos"> 18</span></a>        <span class="bp">self</span><span class="p">,</span>
-</span><span id="L-19"><a href="#L-19"><span class="linenos"> 19</span></a>        <span class="n">publications</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="n">Publication</span><span class="p">],</span>
-</span><span id="L-20"><a href="#L-20"><span class="linenos"> 20</span></a>        <span class="n">projection</span><span class="p">:</span> <span class="n">Projection</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-</span><span id="L-21"><a href="#L-21"><span class="linenos"> 21</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="L-22"><a href="#L-22"><span class="linenos"> 22</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">publications</span><span class="p">,</span> <span class="nb">list</span><span class="p">):</span>
-</span><span id="L-23"><a href="#L-23"><span class="linenos"> 23</span></a>            <span class="k">raise</span> <span class="ne">ValueError</span>
-</span><span id="L-24"><a href="#L-24"><span class="linenos"> 24</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">publications</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Publication</span><span class="p">]</span> <span class="o">=</span> <span class="p">{</span>
-</span><span id="L-25"><a href="#L-25"><span class="linenos"> 25</span></a>            <span class="nb">str</span><span class="p">(</span><span class="n">pub</span><span class="p">):</span> <span class="n">pub</span> <span class="k">for</span> <span class="n">pub</span> <span class="ow">in</span> <span class="n">publications</span>
-</span><span id="L-26"><a href="#L-26"><span class="linenos"> 26</span></a>        <span class="p">}</span>
-</span><span id="L-27"><a href="#L-27"><span class="linenos"> 27</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">projection</span><span class="p">:</span> <span class="n">Projection</span> <span class="o">=</span> <span class="n">projection</span>
+</span><span id="L-15"><a href="#L-15"><span class="linenos"> 15</span></a><span class="n">warnings</span><span class="o">.</span><span class="n">formatwarning</span> <span class="o">=</span> <span class="n">custom_formatwarning</span>
+</span><span id="L-16"><a href="#L-16"><span class="linenos"> 16</span></a>
+</span><span id="L-17"><a href="#L-17"><span class="linenos"> 17</span></a>
+</span><span id="L-18"><a href="#L-18"><span class="linenos"> 18</span></a><span class="k">class</span> <span class="nc">Atlas</span><span class="p">:</span>
+</span><span id="L-19"><a href="#L-19"><span class="linenos"> 19</span></a>
+</span><span id="L-20"><a href="#L-20"><span class="linenos"> 20</span></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Data structure for storing publications.</span>
+</span><span id="L-21"><a href="#L-21"><span class="linenos"> 21</span></a>
+</span><span id="L-22"><a href="#L-22"><span class="linenos"> 22</span></a><span class="sd">    `self.projection`: the Projection object containing the embeddings of all publications and their mapping to str identifiers.</span>
+</span><span id="L-23"><a href="#L-23"><span class="linenos"> 23</span></a>
+</span><span id="L-24"><a href="#L-24"><span class="linenos"> 24</span></a><span class="sd">    `self.bad_ids`: a list of identifiers that have failed for some reason or other during an expansion, and will be excluded from subsequent expansions.</span>
+</span><span id="L-25"><a href="#L-25"><span class="linenos"> 25</span></a>
+</span><span id="L-26"><a href="#L-26"><span class="linenos"> 26</span></a><span class="sd">    `self.history`: dict of the form {&#39;pubs_per_update&#39;: list[list[str]], &#39;kernel_size&#39;: np.ndarray of ints of shape `(num_pubs, last_update)` where last_update &lt;= the total number of expansions performed.}</span>
+</span><span id="L-27"><a href="#L-27"><span class="linenos"> 27</span></a><span class="sd">    &quot;&quot;&quot;</span>
 </span><span id="L-28"><a href="#L-28"><span class="linenos"> 28</span></a>
-</span><span id="L-29"><a href="#L-29"><span class="linenos"> 29</span></a>    <span class="c1">######################################################################</span>
-</span><span id="L-30"><a href="#L-30"><span class="linenos"> 30</span></a>    <span class="c1"># Lookup    ######################################################################</span>
-</span><span id="L-31"><a href="#L-31"><span class="linenos"> 31</span></a>
-</span><span id="L-32"><a href="#L-32"><span class="linenos"> 32</span></a>    <span class="k">def</span> <span class="fm">__getitem__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">identifier</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Publication</span><span class="p">:</span>
-</span><span id="L-33"><a href="#L-33"><span class="linenos"> 33</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Get a publication given its identifier.</span>
-</span><span id="L-34"><a href="#L-34"><span class="linenos"> 34</span></a>
-</span><span id="L-35"><a href="#L-35"><span class="linenos"> 35</span></a><span class="sd">        Raises:</span>
-</span><span id="L-36"><a href="#L-36"><span class="linenos"> 36</span></a><span class="sd">            ValueError: the identifier is not in the Atlas.</span>
-</span><span id="L-37"><a href="#L-37"><span class="linenos"> 37</span></a><span class="sd">        &quot;&quot;&quot;</span>
-</span><span id="L-38"><a href="#L-38"><span class="linenos"> 38</span></a>        <span class="k">if</span> <span class="n">identifier</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">publications</span><span class="p">:</span>
-</span><span id="L-39"><a href="#L-39"><span class="linenos"> 39</span></a>            <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">publications</span><span class="p">[</span><span class="n">identifier</span><span class="p">]</span>
-</span><span id="L-40"><a href="#L-40"><span class="linenos"> 40</span></a>        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Identifier </span><span class="si">{</span><span class="n">identifier</span><span class="si">}</span><span class="s2"> not in Atlas.&quot;</span><span class="p">)</span>
-</span><span id="L-41"><a href="#L-41"><span class="linenos"> 41</span></a>
-</span><span id="L-42"><a href="#L-42"><span class="linenos"> 42</span></a>    <span class="c1">######################################################################</span>
-</span><span id="L-43"><a href="#L-43"><span class="linenos"> 43</span></a>    <span class="c1"># File I/O</span>
-</span><span id="L-44"><a href="#L-44"><span class="linenos"> 44</span></a>    <span class="c1">######################################################################</span>
-</span><span id="L-45"><a href="#L-45"><span class="linenos"> 45</span></a>
-</span><span id="L-46"><a href="#L-46"><span class="linenos"> 46</span></a>    <span class="k">def</span> <span class="nf">save</span><span class="p">(</span>
-</span><span id="L-47"><a href="#L-47"><span class="linenos"> 47</span></a>        <span class="bp">self</span><span class="p">,</span>
-</span><span id="L-48"><a href="#L-48"><span class="linenos"> 48</span></a>        <span class="n">atlas_dirpath</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
-</span><span id="L-49"><a href="#L-49"><span class="linenos"> 49</span></a>        <span class="n">publications_fn</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;publications.pkl&quot;</span><span class="p">,</span>
-</span><span id="L-50"><a href="#L-50"><span class="linenos"> 50</span></a>        <span class="n">projection_fn</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;projection.pkl&quot;</span><span class="p">,</span>
-</span><span id="L-51"><a href="#L-51"><span class="linenos"> 51</span></a>        <span class="n">overwrite_publications</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
-</span><span id="L-52"><a href="#L-52"><span class="linenos"> 52</span></a>        <span class="n">overwrite_projection</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
-</span><span id="L-53"><a href="#L-53"><span class="linenos"> 53</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="L-54"><a href="#L-54"><span class="linenos"> 54</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Write the Atlas to a directory containing a CSV file of publications and a .npy file of embeddings.</span>
-</span><span id="L-55"><a href="#L-55"><span class="linenos"> 55</span></a>
-</span><span id="L-56"><a href="#L-56"><span class="linenos"> 56</span></a><span class="sd">        Write the Atlas to a directory containing a .pkl file of publications and a .pkl file of the projection.</span>
-</span><span id="L-57"><a href="#L-57"><span class="linenos"> 57</span></a>
-</span><span id="L-58"><a href="#L-58"><span class="linenos"> 58</span></a><span class="sd">        Args:</span>
-</span><span id="L-59"><a href="#L-59"><span class="linenos"> 59</span></a><span class="sd">            atlas_dirpath: path of directory to save files to.</span>
-</span><span id="L-60"><a href="#L-60"><span class="linenos"> 60</span></a>
-</span><span id="L-61"><a href="#L-61"><span class="linenos"> 61</span></a><span class="sd">            publications_fn: name of file to save publications to.</span>
-</span><span id="L-62"><a href="#L-62"><span class="linenos"> 62</span></a>
-</span><span id="L-63"><a href="#L-63"><span class="linenos"> 63</span></a><span class="sd">            projection_fn: name of file to save projection to.</span>
-</span><span id="L-64"><a href="#L-64"><span class="linenos"> 64</span></a>
-</span><span id="L-65"><a href="#L-65"><span class="linenos"> 65</span></a><span class="sd">            overwrite_publications: whether to overwrite an existing publications file.</span>
-</span><span id="L-66"><a href="#L-66"><span class="linenos"> 66</span></a>
-</span><span id="L-67"><a href="#L-67"><span class="linenos"> 67</span></a><span class="sd">            overwrite_projection: whether to overwrite an existing projection file.</span>
-</span><span id="L-68"><a href="#L-68"><span class="linenos"> 68</span></a>
-</span><span id="L-69"><a href="#L-69"><span class="linenos"> 69</span></a><span class="sd">        &quot;&quot;&quot;</span>
-</span><span id="L-70"><a href="#L-70"><span class="linenos"> 70</span></a>        <span class="c1"># save publications</span>
-</span><span id="L-71"><a href="#L-71"><span class="linenos"> 71</span></a>        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">publications</span> <span class="ow">and</span> <span class="n">overwrite_publications</span><span class="p">:</span>
-</span><span id="L-72"><a href="#L-72"><span class="linenos"> 72</span></a>            <span class="n">fp</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">atlas_dirpath</span><span class="p">,</span> <span class="n">publications_fn</span><span class="p">)</span>
-</span><span id="L-73"><a href="#L-73"><span class="linenos"> 73</span></a>            <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">isfile</span><span class="p">(</span><span class="n">fp</span><span class="p">):</span>
-</span><span id="L-74"><a href="#L-74"><span class="linenos"> 74</span></a>                <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Overwriting existing file at </span><span class="si">{</span><span class="n">fp</span><span class="si">}</span><span class="s2">.&quot;</span><span class="p">)</span>
-</span><span id="L-75"><a href="#L-75"><span class="linenos"> 75</span></a>            <span class="n">write_pickle</span><span class="p">(</span>
-</span><span id="L-76"><a href="#L-76"><span class="linenos"> 76</span></a>                <span class="n">fp</span><span class="p">,</span> <span class="nb">list</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">values</span><span class="p">())</span>
-</span><span id="L-77"><a href="#L-77"><span class="linenos"> 77</span></a>            <span class="p">)</span>  <span class="c1"># write the list version to be consistent with load and constructor</span>
-</span><span id="L-78"><a href="#L-78"><span class="linenos"> 78</span></a>        <span class="k">else</span><span class="p">:</span>
-</span><span id="L-79"><a href="#L-79"><span class="linenos"> 79</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="s2">&quot;No publications to save, skipping.&quot;</span><span class="p">)</span>
-</span><span id="L-80"><a href="#L-80"><span class="linenos"> 80</span></a>
-</span><span id="L-81"><a href="#L-81"><span class="linenos"> 81</span></a>        <span class="c1"># save projection</span>
-</span><span id="L-82"><a href="#L-82"><span class="linenos"> 82</span></a>        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">projection</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">overwrite_projection</span><span class="p">:</span>
-</span><span id="L-83"><a href="#L-83"><span class="linenos"> 83</span></a>            <span class="n">fp</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">atlas_dirpath</span><span class="p">,</span> <span class="n">projection_fn</span><span class="p">)</span>
-</span><span id="L-84"><a href="#L-84"><span class="linenos"> 84</span></a>            <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">isfile</span><span class="p">(</span><span class="n">fp</span><span class="p">):</span>
-</span><span id="L-85"><a href="#L-85"><span class="linenos"> 85</span></a>                <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Overwriting existing file at </span><span class="si">{</span><span class="n">fp</span><span class="si">}</span><span class="s2">.&quot;</span><span class="p">)</span>
-</span><span id="L-86"><a href="#L-86"><span class="linenos"> 86</span></a>            <span class="n">write_pickle</span><span class="p">(</span><span class="n">fp</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">projection</span><span class="p">)</span>
-</span><span id="L-87"><a href="#L-87"><span class="linenos"> 87</span></a>        <span class="k">else</span><span class="p">:</span>
-</span><span id="L-88"><a href="#L-88"><span class="linenos"> 88</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="s2">&quot;No projection to save, skipping.&quot;</span><span class="p">)</span>
-</span><span id="L-89"><a href="#L-89"><span class="linenos"> 89</span></a>
-</span><span id="L-90"><a href="#L-90"><span class="linenos"> 90</span></a>    <span class="nd">@classmethod</span>
-</span><span id="L-91"><a href="#L-91"><span class="linenos"> 91</span></a>    <span class="k">def</span> <span class="nf">load</span><span class="p">(</span>
-</span><span id="L-92"><a href="#L-92"><span class="linenos"> 92</span></a>        <span class="bp">cls</span><span class="p">,</span>
-</span><span id="L-93"><a href="#L-93"><span class="linenos"> 93</span></a>        <span class="n">atlas_dirpath</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
-</span><span id="L-94"><a href="#L-94"><span class="linenos"> 94</span></a>        <span class="n">publications_fn</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;publications.pkl&quot;</span><span class="p">,</span>
-</span><span id="L-95"><a href="#L-95"><span class="linenos"> 95</span></a>        <span class="n">projection_fn</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;projection.pkl&quot;</span><span class="p">,</span>
-</span><span id="L-96"><a href="#L-96"><span class="linenos"> 96</span></a>        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
-</span><span id="L-97"><a href="#L-97"><span class="linenos"> 97</span></a>    <span class="p">):</span>
-</span><span id="L-98"><a href="#L-98"><span class="linenos"> 98</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Load an Atlas object from a directory containing publications and/or their projection.</span>
-</span><span id="L-99"><a href="#L-99"><span class="linenos"> 99</span></a>
-</span><span id="L-100"><a href="#L-100"><span class="linenos">100</span></a><span class="sd">        Args:</span>
-</span><span id="L-101"><a href="#L-101"><span class="linenos">101</span></a><span class="sd">            atlas_dirpath: file with vocab, assumed output from `save_to_file`</span>
-</span><span id="L-102"><a href="#L-102"><span class="linenos">102</span></a>
-</span><span id="L-103"><a href="#L-103"><span class="linenos">103</span></a><span class="sd">            publications_fn: name of file to load publications from.</span>
-</span><span id="L-104"><a href="#L-104"><span class="linenos">104</span></a>
-</span><span id="L-105"><a href="#L-105"><span class="linenos">105</span></a><span class="sd">            projection_fn: name of file to load projection from.</span>
-</span><span id="L-106"><a href="#L-106"><span class="linenos">106</span></a><span class="sd">        &quot;&quot;&quot;</span>
-</span><span id="L-107"><a href="#L-107"><span class="linenos">107</span></a>
-</span><span id="L-108"><a href="#L-108"><span class="linenos">108</span></a>        <span class="c1"># load publications</span>
-</span><span id="L-109"><a href="#L-109"><span class="linenos">109</span></a>        <span class="n">fp</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">atlas_dirpath</span><span class="p">,</span> <span class="n">publications_fn</span><span class="p">)</span>
-</span><span id="L-110"><a href="#L-110"><span class="linenos">110</span></a>        <span class="n">publications</span> <span class="o">=</span> <span class="kc">None</span>
-</span><span id="L-111"><a href="#L-111"><span class="linenos">111</span></a>        <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">isfile</span><span class="p">(</span><span class="n">fp</span><span class="p">):</span>
-</span><span id="L-112"><a href="#L-112"><span class="linenos">112</span></a>            <span class="n">publications</span> <span class="o">=</span> <span class="n">read_pickle</span><span class="p">(</span><span class="n">fp</span><span class="p">)</span>
-</span><span id="L-113"><a href="#L-113"><span class="linenos">113</span></a>        <span class="k">else</span><span class="p">:</span>
-</span><span id="L-114"><a href="#L-114"><span class="linenos">114</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="s2">&quot;No publications to read, skipping.&quot;</span><span class="p">)</span>
+</span><span id="L-29"><a href="#L-29"><span class="linenos"> 29</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+</span><span id="L-30"><a href="#L-30"><span class="linenos"> 30</span></a>        <span class="bp">self</span><span class="p">,</span>
+</span><span id="L-31"><a href="#L-31"><span class="linenos"> 31</span></a>        <span class="n">publications</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="n">Publication</span><span class="p">],</span>
+</span><span id="L-32"><a href="#L-32"><span class="linenos"> 32</span></a>        <span class="n">projection</span><span class="p">:</span> <span class="n">Projection</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="L-33"><a href="#L-33"><span class="linenos"> 33</span></a>        <span class="n">bad_ids</span><span class="p">:</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(),</span>
+</span><span id="L-34"><a href="#L-34"><span class="linenos"> 34</span></a>        <span class="n">history</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">(),</span>
+</span><span id="L-35"><a href="#L-35"><span class="linenos"> 35</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="L-36"><a href="#L-36"><span class="linenos"> 36</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">publications</span><span class="p">,</span> <span class="nb">list</span><span class="p">):</span>
+</span><span id="L-37"><a href="#L-37"><span class="linenos"> 37</span></a>            <span class="k">raise</span> <span class="ne">ValueError</span>
+</span><span id="L-38"><a href="#L-38"><span class="linenos"> 38</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">publications</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Publication</span><span class="p">]</span> <span class="o">=</span> <span class="p">{</span>
+</span><span id="L-39"><a href="#L-39"><span class="linenos"> 39</span></a>            <span class="nb">str</span><span class="p">(</span><span class="n">pub</span><span class="p">):</span> <span class="n">pub</span> <span class="k">for</span> <span class="n">pub</span> <span class="ow">in</span> <span class="n">publications</span>
+</span><span id="L-40"><a href="#L-40"><span class="linenos"> 40</span></a>        <span class="p">}</span>
+</span><span id="L-41"><a href="#L-41"><span class="linenos"> 41</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">projection</span> <span class="o">=</span> <span class="n">projection</span>
+</span><span id="L-42"><a href="#L-42"><span class="linenos"> 42</span></a>
+</span><span id="L-43"><a href="#L-43"><span class="linenos"> 43</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">bad_ids</span> <span class="o">=</span> <span class="n">bad_ids</span>
+</span><span id="L-44"><a href="#L-44"><span class="linenos"> 44</span></a>
+</span><span id="L-45"><a href="#L-45"><span class="linenos"> 45</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">history</span> <span class="o">=</span> <span class="n">history</span>
+</span><span id="L-46"><a href="#L-46"><span class="linenos"> 46</span></a>
+</span><span id="L-47"><a href="#L-47"><span class="linenos"> 47</span></a>    <span class="c1">######################################################################</span>
+</span><span id="L-48"><a href="#L-48"><span class="linenos"> 48</span></a>    <span class="c1"># Lookup    ######################################################################</span>
+</span><span id="L-49"><a href="#L-49"><span class="linenos"> 49</span></a>
+</span><span id="L-50"><a href="#L-50"><span class="linenos"> 50</span></a>    <span class="k">def</span> <span class="fm">__getitem__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">identifier</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Publication</span><span class="p">:</span>
+</span><span id="L-51"><a href="#L-51"><span class="linenos"> 51</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Get a publication given its identifier.</span>
+</span><span id="L-52"><a href="#L-52"><span class="linenos"> 52</span></a>
+</span><span id="L-53"><a href="#L-53"><span class="linenos"> 53</span></a><span class="sd">        Raises:</span>
+</span><span id="L-54"><a href="#L-54"><span class="linenos"> 54</span></a><span class="sd">            ValueError: the identifier is not in the Atlas.</span>
+</span><span id="L-55"><a href="#L-55"><span class="linenos"> 55</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="L-56"><a href="#L-56"><span class="linenos"> 56</span></a>        <span class="k">if</span> <span class="n">identifier</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">publications</span><span class="p">:</span>
+</span><span id="L-57"><a href="#L-57"><span class="linenos"> 57</span></a>            <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">publications</span><span class="p">[</span><span class="n">identifier</span><span class="p">]</span>
+</span><span id="L-58"><a href="#L-58"><span class="linenos"> 58</span></a>        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Identifier </span><span class="si">{</span><span class="n">identifier</span><span class="si">}</span><span class="s2"> not in Atlas.&quot;</span><span class="p">)</span>
+</span><span id="L-59"><a href="#L-59"><span class="linenos"> 59</span></a>
+</span><span id="L-60"><a href="#L-60"><span class="linenos"> 60</span></a>    <span class="k">def</span> <span class="nf">ids</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]:</span>
+</span><span id="L-61"><a href="#L-61"><span class="linenos"> 61</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Get a list of all the publication identifiers in the Atlas.&quot;&quot;&quot;</span>
+</span><span id="L-62"><a href="#L-62"><span class="linenos"> 62</span></a>        <span class="k">return</span> <span class="nb">list</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
+</span><span id="L-63"><a href="#L-63"><span class="linenos"> 63</span></a>
+</span><span id="L-64"><a href="#L-64"><span class="linenos"> 64</span></a>    <span class="c1">######################################################################</span>
+</span><span id="L-65"><a href="#L-65"><span class="linenos"> 65</span></a>    <span class="c1"># File I/O</span>
+</span><span id="L-66"><a href="#L-66"><span class="linenos"> 66</span></a>    <span class="c1">######################################################################</span>
+</span><span id="L-67"><a href="#L-67"><span class="linenos"> 67</span></a>
+</span><span id="L-68"><a href="#L-68"><span class="linenos"> 68</span></a>    <span class="k">def</span> <span class="nf">save</span><span class="p">(</span>
+</span><span id="L-69"><a href="#L-69"><span class="linenos"> 69</span></a>        <span class="bp">self</span><span class="p">,</span>
+</span><span id="L-70"><a href="#L-70"><span class="linenos"> 70</span></a>        <span class="n">atlas_dirpath</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+</span><span id="L-71"><a href="#L-71"><span class="linenos"> 71</span></a>        <span class="n">overwrite</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+</span><span id="L-72"><a href="#L-72"><span class="linenos"> 72</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="L-73"><a href="#L-73"><span class="linenos"> 73</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Write the Atlas to a directory containing a .pkl binary for each attribute.</span>
+</span><span id="L-74"><a href="#L-74"><span class="linenos"> 74</span></a>
+</span><span id="L-75"><a href="#L-75"><span class="linenos"> 75</span></a><span class="sd">        Warnings cannot be silenced.</span>
+</span><span id="L-76"><a href="#L-76"><span class="linenos"> 76</span></a>
+</span><span id="L-77"><a href="#L-77"><span class="linenos"> 77</span></a><span class="sd">        Args:</span>
+</span><span id="L-78"><a href="#L-78"><span class="linenos"> 78</span></a><span class="sd">            atlas_dirpath: path of directory to save files to.</span>
+</span><span id="L-79"><a href="#L-79"><span class="linenos"> 79</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="L-80"><a href="#L-80"><span class="linenos"> 80</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">overwrite</span><span class="p">:</span>
+</span><span id="L-81"><a href="#L-81"><span class="linenos"> 81</span></a>            <span class="k">return</span>
+</span><span id="L-82"><a href="#L-82"><span class="linenos"> 82</span></a>
+</span><span id="L-83"><a href="#L-83"><span class="linenos"> 83</span></a>        <span class="n">attributes</span> <span class="o">=</span> <span class="p">{</span>
+</span><span id="L-84"><a href="#L-84"><span class="linenos"> 84</span></a>            <span class="n">k</span><span class="p">:</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">k</span><span class="p">)</span>
+</span><span id="L-85"><a href="#L-85"><span class="linenos"> 85</span></a>            <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="p">[</span>
+</span><span id="L-86"><a href="#L-86"><span class="linenos"> 86</span></a>                <span class="s2">&quot;publications&quot;</span><span class="p">,</span>
+</span><span id="L-87"><a href="#L-87"><span class="linenos"> 87</span></a>                <span class="s2">&quot;projection&quot;</span><span class="p">,</span>
+</span><span id="L-88"><a href="#L-88"><span class="linenos"> 88</span></a>                <span class="s2">&quot;bad_ids&quot;</span><span class="p">,</span>
+</span><span id="L-89"><a href="#L-89"><span class="linenos"> 89</span></a>                <span class="s2">&quot;history&quot;</span><span class="p">,</span>
+</span><span id="L-90"><a href="#L-90"><span class="linenos"> 90</span></a>            <span class="p">]</span>
+</span><span id="L-91"><a href="#L-91"><span class="linenos"> 91</span></a>        <span class="p">}</span>
+</span><span id="L-92"><a href="#L-92"><span class="linenos"> 92</span></a>
+</span><span id="L-93"><a href="#L-93"><span class="linenos"> 93</span></a>        <span class="k">for</span> <span class="n">attribute</span> <span class="ow">in</span> <span class="n">attributes</span><span class="p">:</span>
+</span><span id="L-94"><a href="#L-94"><span class="linenos"> 94</span></a>            <span class="k">if</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">attribute</span><span class="p">)</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="L-95"><a href="#L-95"><span class="linenos"> 95</span></a>                <span class="c1"># write the list version to be consistent with load and constructor</span>
+</span><span id="L-96"><a href="#L-96"><span class="linenos"> 96</span></a>                <span class="k">if</span> <span class="n">attribute</span> <span class="o">==</span> <span class="s2">&quot;publications&quot;</span><span class="p">:</span>
+</span><span id="L-97"><a href="#L-97"><span class="linenos"> 97</span></a>                    <span class="n">attributes</span><span class="p">[</span><span class="n">attribute</span><span class="p">]</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">values</span><span class="p">())</span>
+</span><span id="L-98"><a href="#L-98"><span class="linenos"> 98</span></a>
+</span><span id="L-99"><a href="#L-99"><span class="linenos"> 99</span></a>                <span class="n">fn</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">attribute</span><span class="si">}</span><span class="s2">.pkl&quot;</span>
+</span><span id="L-100"><a href="#L-100"><span class="linenos">100</span></a>                <span class="n">fp</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">atlas_dirpath</span><span class="p">,</span> <span class="n">fn</span><span class="p">)</span>
+</span><span id="L-101"><a href="#L-101"><span class="linenos">101</span></a>                <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">isfile</span><span class="p">(</span><span class="n">fp</span><span class="p">):</span>
+</span><span id="L-102"><a href="#L-102"><span class="linenos">102</span></a>                    <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Overwriting existing file at </span><span class="si">{</span><span class="n">fp</span><span class="si">}</span><span class="s2">.&quot;</span><span class="p">)</span>
+</span><span id="L-103"><a href="#L-103"><span class="linenos">103</span></a>                <span class="n">write_pickle</span><span class="p">(</span><span class="n">fp</span><span class="p">,</span> <span class="n">attributes</span><span class="p">[</span><span class="n">attribute</span><span class="p">])</span>
+</span><span id="L-104"><a href="#L-104"><span class="linenos">104</span></a>            <span class="k">else</span><span class="p">:</span>
+</span><span id="L-105"><a href="#L-105"><span class="linenos">105</span></a>                <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;No </span><span class="si">{</span><span class="n">attribute</span><span class="si">}</span><span class="s2"> to save, skipping.&quot;</span><span class="p">)</span>
+</span><span id="L-106"><a href="#L-106"><span class="linenos">106</span></a>
+</span><span id="L-107"><a href="#L-107"><span class="linenos">107</span></a>    <span class="nd">@classmethod</span>
+</span><span id="L-108"><a href="#L-108"><span class="linenos">108</span></a>    <span class="k">def</span> <span class="nf">load</span><span class="p">(</span>
+</span><span id="L-109"><a href="#L-109"><span class="linenos">109</span></a>        <span class="bp">cls</span><span class="p">,</span>
+</span><span id="L-110"><a href="#L-110"><span class="linenos">110</span></a>        <span class="n">atlas_dirpath</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+</span><span id="L-111"><a href="#L-111"><span class="linenos">111</span></a>    <span class="p">):</span>
+</span><span id="L-112"><a href="#L-112"><span class="linenos">112</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Load an Atlas object from a directory containing the .pkl binary for each attribute.</span>
+</span><span id="L-113"><a href="#L-113"><span class="linenos">113</span></a>
+</span><span id="L-114"><a href="#L-114"><span class="linenos">114</span></a><span class="sd">        Warnings cannot be silenced.</span>
 </span><span id="L-115"><a href="#L-115"><span class="linenos">115</span></a>
-</span><span id="L-116"><a href="#L-116"><span class="linenos">116</span></a>        <span class="c1"># load projection</span>
-</span><span id="L-117"><a href="#L-117"><span class="linenos">117</span></a>        <span class="n">fp</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">atlas_dirpath</span><span class="p">,</span> <span class="n">projection_fn</span><span class="p">)</span>
-</span><span id="L-118"><a href="#L-118"><span class="linenos">118</span></a>        <span class="n">projection</span> <span class="o">=</span> <span class="kc">None</span>
-</span><span id="L-119"><a href="#L-119"><span class="linenos">119</span></a>        <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">isfile</span><span class="p">(</span><span class="n">fp</span><span class="p">):</span>
-</span><span id="L-120"><a href="#L-120"><span class="linenos">120</span></a>            <span class="n">projection</span> <span class="o">=</span> <span class="n">read_pickle</span><span class="p">(</span><span class="n">fp</span><span class="p">)</span>
-</span><span id="L-121"><a href="#L-121"><span class="linenos">121</span></a>        <span class="k">else</span><span class="p">:</span>
-</span><span id="L-122"><a href="#L-122"><span class="linenos">122</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="s2">&quot;No projection to read, skipping.&quot;</span><span class="p">)</span>
-</span><span id="L-123"><a href="#L-123"><span class="linenos">123</span></a>
-</span><span id="L-124"><a href="#L-124"><span class="linenos">124</span></a>        <span class="k">if</span> <span class="n">publications</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="L-125"><a href="#L-125"><span class="linenos">125</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="s2">&quot;Loading empty atlas.&quot;</span><span class="p">)</span>
-</span><span id="L-126"><a href="#L-126"><span class="linenos">126</span></a>            <span class="n">publications</span> <span class="o">=</span> <span class="nb">list</span><span class="p">()</span>
-</span><span id="L-127"><a href="#L-127"><span class="linenos">127</span></a>
-</span><span id="L-128"><a href="#L-128"><span class="linenos">128</span></a>        <span class="k">return</span> <span class="bp">cls</span><span class="p">(</span>
-</span><span id="L-129"><a href="#L-129"><span class="linenos">129</span></a>            <span class="n">publications</span><span class="p">,</span>
-</span><span id="L-130"><a href="#L-130"><span class="linenos">130</span></a>            <span class="n">projection</span><span class="p">,</span>
-</span><span id="L-131"><a href="#L-131"><span class="linenos">131</span></a>        <span class="p">)</span>
-</span><span id="L-132"><a href="#L-132"><span class="linenos">132</span></a>
-</span><span id="L-133"><a href="#L-133"><span class="linenos">133</span></a>    <span class="c1">######################################################################</span>
-</span><span id="L-134"><a href="#L-134"><span class="linenos">134</span></a>    <span class="c1"># Other</span>
-</span><span id="L-135"><a href="#L-135"><span class="linenos">135</span></a>    <span class="c1">######################################################################</span>
+</span><span id="L-116"><a href="#L-116"><span class="linenos">116</span></a><span class="sd">        Args:</span>
+</span><span id="L-117"><a href="#L-117"><span class="linenos">117</span></a><span class="sd">            atlas_dirpath: directory where .pkl binaries will be read from</span>
+</span><span id="L-118"><a href="#L-118"><span class="linenos">118</span></a>
+</span><span id="L-119"><a href="#L-119"><span class="linenos">119</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="L-120"><a href="#L-120"><span class="linenos">120</span></a>        <span class="n">attributes</span> <span class="o">=</span> <span class="p">{</span>
+</span><span id="L-121"><a href="#L-121"><span class="linenos">121</span></a>            <span class="n">k</span><span class="p">:</span> <span class="kc">None</span>
+</span><span id="L-122"><a href="#L-122"><span class="linenos">122</span></a>            <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="p">[</span>
+</span><span id="L-123"><a href="#L-123"><span class="linenos">123</span></a>                <span class="s2">&quot;publications&quot;</span><span class="p">,</span>
+</span><span id="L-124"><a href="#L-124"><span class="linenos">124</span></a>                <span class="s2">&quot;projection&quot;</span><span class="p">,</span>
+</span><span id="L-125"><a href="#L-125"><span class="linenos">125</span></a>                <span class="s2">&quot;bad_ids&quot;</span><span class="p">,</span>
+</span><span id="L-126"><a href="#L-126"><span class="linenos">126</span></a>                <span class="s2">&quot;history&quot;</span><span class="p">,</span>
+</span><span id="L-127"><a href="#L-127"><span class="linenos">127</span></a>            <span class="p">]</span>
+</span><span id="L-128"><a href="#L-128"><span class="linenos">128</span></a>        <span class="p">}</span>
+</span><span id="L-129"><a href="#L-129"><span class="linenos">129</span></a>        <span class="k">for</span> <span class="n">attribute</span> <span class="ow">in</span> <span class="n">attributes</span><span class="p">:</span>
+</span><span id="L-130"><a href="#L-130"><span class="linenos">130</span></a>            <span class="n">fn</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">attribute</span><span class="si">}</span><span class="s2">.pkl&quot;</span>
+</span><span id="L-131"><a href="#L-131"><span class="linenos">131</span></a>            <span class="n">fp</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">atlas_dirpath</span><span class="p">,</span> <span class="n">fn</span><span class="p">)</span>
+</span><span id="L-132"><a href="#L-132"><span class="linenos">132</span></a>            <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">isfile</span><span class="p">(</span><span class="n">fp</span><span class="p">):</span>
+</span><span id="L-133"><a href="#L-133"><span class="linenos">133</span></a>                <span class="n">attributes</span><span class="p">[</span><span class="n">attribute</span><span class="p">]</span> <span class="o">=</span> <span class="n">read_pickle</span><span class="p">(</span><span class="n">fp</span><span class="p">)</span>
+</span><span id="L-134"><a href="#L-134"><span class="linenos">134</span></a>            <span class="k">else</span><span class="p">:</span>
+</span><span id="L-135"><a href="#L-135"><span class="linenos">135</span></a>                <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;No </span><span class="si">{</span><span class="n">attribute</span><span class="si">}</span><span class="s2"> to read, skipping.&quot;</span><span class="p">)</span>
 </span><span id="L-136"><a href="#L-136"><span class="linenos">136</span></a>
-</span><span id="L-137"><a href="#L-137"><span class="linenos">137</span></a>    <span class="k">def</span> <span class="fm">__len__</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">int</span><span class="p">:</span>
-</span><span id="L-138"><a href="#L-138"><span class="linenos">138</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Get length of the Atlas.&quot;&quot;&quot;</span>
-</span><span id="L-139"><a href="#L-139"><span class="linenos">139</span></a>        <span class="k">return</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">publications</span><span class="p">)</span>
+</span><span id="L-137"><a href="#L-137"><span class="linenos">137</span></a>        <span class="k">if</span> <span class="n">attributes</span><span class="p">[</span><span class="s2">&quot;publications&quot;</span><span class="p">]</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="L-138"><a href="#L-138"><span class="linenos">138</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="s2">&quot;Loading empty atlas.&quot;</span><span class="p">)</span>
+</span><span id="L-139"><a href="#L-139"><span class="linenos">139</span></a>            <span class="n">attributes</span><span class="p">[</span><span class="s2">&quot;publications&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="nb">list</span><span class="p">()</span>
 </span><span id="L-140"><a href="#L-140"><span class="linenos">140</span></a>
-</span><span id="L-141"><a href="#L-141"><span class="linenos">141</span></a>    <span class="k">def</span> <span class="fm">__eq__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">__value</span><span class="p">:</span> <span class="nb">object</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
-</span><span id="L-142"><a href="#L-142"><span class="linenos">142</span></a>        <span class="k">return</span> <span class="p">(</span>
-</span><span id="L-143"><a href="#L-143"><span class="linenos">143</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">publications</span> <span class="o">==</span> <span class="n">__value</span><span class="o">.</span><span class="n">publications</span>
-</span><span id="L-144"><a href="#L-144"><span class="linenos">144</span></a>            <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">projection</span> <span class="o">==</span> <span class="n">__value</span><span class="o">.</span><span class="n">projection</span>
-</span><span id="L-145"><a href="#L-145"><span class="linenos">145</span></a>        <span class="p">)</span>
+</span><span id="L-141"><a href="#L-141"><span class="linenos">141</span></a>        <span class="k">return</span> <span class="bp">cls</span><span class="p">(</span><span class="o">**</span><span class="p">{</span><span class="n">k</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">attributes</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span> <span class="n">v</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">})</span>
+</span><span id="L-142"><a href="#L-142"><span class="linenos">142</span></a>
+</span><span id="L-143"><a href="#L-143"><span class="linenos">143</span></a>    <span class="c1">######################################################################</span>
+</span><span id="L-144"><a href="#L-144"><span class="linenos">144</span></a>    <span class="c1"># Other</span>
+</span><span id="L-145"><a href="#L-145"><span class="linenos">145</span></a>    <span class="c1">######################################################################</span>
+</span><span id="L-146"><a href="#L-146"><span class="linenos">146</span></a>
+</span><span id="L-147"><a href="#L-147"><span class="linenos">147</span></a>    <span class="k">def</span> <span class="fm">__len__</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">int</span><span class="p">:</span>
+</span><span id="L-148"><a href="#L-148"><span class="linenos">148</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Get length of the Atlas.&quot;&quot;&quot;</span>
+</span><span id="L-149"><a href="#L-149"><span class="linenos">149</span></a>        <span class="k">return</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">publications</span><span class="p">)</span>
+</span><span id="L-150"><a href="#L-150"><span class="linenos">150</span></a>
+</span><span id="L-151"><a href="#L-151"><span class="linenos">151</span></a>    <span class="k">def</span> <span class="fm">__eq__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">__value</span><span class="p">:</span> <span class="nb">object</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
+</span><span id="L-152"><a href="#L-152"><span class="linenos">152</span></a>        <span class="k">return</span> <span class="p">(</span>
+</span><span id="L-153"><a href="#L-153"><span class="linenos">153</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">publications</span> <span class="o">==</span> <span class="n">__value</span><span class="o">.</span><span class="n">publications</span>
+</span><span id="L-154"><a href="#L-154"><span class="linenos">154</span></a>            <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">projection</span> <span class="o">==</span> <span class="n">__value</span><span class="o">.</span><span class="n">projection</span>
+</span><span id="L-155"><a href="#L-155"><span class="linenos">155</span></a>        <span class="p">)</span>
 </span></pre></div>
 
 
@@ -256,162 +275,184 @@ <h1 class="modulename">
 
     </div>
     <a class="headerlink" href="#Atlas"></a>
-            <div class="pdoc-code codehilite"><pre><span></span><span id="Atlas-17"><a href="#Atlas-17"><span class="linenos"> 17</span></a><span class="k">class</span> <span class="nc">Atlas</span><span class="p">:</span>
-</span><span id="Atlas-18"><a href="#Atlas-18"><span class="linenos"> 18</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
-</span><span id="Atlas-19"><a href="#Atlas-19"><span class="linenos"> 19</span></a>        <span class="bp">self</span><span class="p">,</span>
-</span><span id="Atlas-20"><a href="#Atlas-20"><span class="linenos"> 20</span></a>        <span class="n">publications</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="n">Publication</span><span class="p">],</span>
-</span><span id="Atlas-21"><a href="#Atlas-21"><span class="linenos"> 21</span></a>        <span class="n">projection</span><span class="p">:</span> <span class="n">Projection</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-</span><span id="Atlas-22"><a href="#Atlas-22"><span class="linenos"> 22</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="Atlas-23"><a href="#Atlas-23"><span class="linenos"> 23</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">publications</span><span class="p">,</span> <span class="nb">list</span><span class="p">):</span>
-</span><span id="Atlas-24"><a href="#Atlas-24"><span class="linenos"> 24</span></a>            <span class="k">raise</span> <span class="ne">ValueError</span>
-</span><span id="Atlas-25"><a href="#Atlas-25"><span class="linenos"> 25</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">publications</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Publication</span><span class="p">]</span> <span class="o">=</span> <span class="p">{</span>
-</span><span id="Atlas-26"><a href="#Atlas-26"><span class="linenos"> 26</span></a>            <span class="nb">str</span><span class="p">(</span><span class="n">pub</span><span class="p">):</span> <span class="n">pub</span> <span class="k">for</span> <span class="n">pub</span> <span class="ow">in</span> <span class="n">publications</span>
-</span><span id="Atlas-27"><a href="#Atlas-27"><span class="linenos"> 27</span></a>        <span class="p">}</span>
-</span><span id="Atlas-28"><a href="#Atlas-28"><span class="linenos"> 28</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">projection</span><span class="p">:</span> <span class="n">Projection</span> <span class="o">=</span> <span class="n">projection</span>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="Atlas-19"><a href="#Atlas-19"><span class="linenos"> 19</span></a><span class="k">class</span> <span class="nc">Atlas</span><span class="p">:</span>
+</span><span id="Atlas-20"><a href="#Atlas-20"><span class="linenos"> 20</span></a>
+</span><span id="Atlas-21"><a href="#Atlas-21"><span class="linenos"> 21</span></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Data structure for storing publications.</span>
+</span><span id="Atlas-22"><a href="#Atlas-22"><span class="linenos"> 22</span></a>
+</span><span id="Atlas-23"><a href="#Atlas-23"><span class="linenos"> 23</span></a><span class="sd">    `self.projection`: the Projection object containing the embeddings of all publications and their mapping to str identifiers.</span>
+</span><span id="Atlas-24"><a href="#Atlas-24"><span class="linenos"> 24</span></a>
+</span><span id="Atlas-25"><a href="#Atlas-25"><span class="linenos"> 25</span></a><span class="sd">    `self.bad_ids`: a list of identifiers that have failed for some reason or other during an expansion, and will be excluded from subsequent expansions.</span>
+</span><span id="Atlas-26"><a href="#Atlas-26"><span class="linenos"> 26</span></a>
+</span><span id="Atlas-27"><a href="#Atlas-27"><span class="linenos"> 27</span></a><span class="sd">    `self.history`: dict of the form {&#39;pubs_per_update&#39;: list[list[str]], &#39;kernel_size&#39;: np.ndarray of ints of shape `(num_pubs, last_update)` where last_update &lt;= the total number of expansions performed.}</span>
+</span><span id="Atlas-28"><a href="#Atlas-28"><span class="linenos"> 28</span></a><span class="sd">    &quot;&quot;&quot;</span>
 </span><span id="Atlas-29"><a href="#Atlas-29"><span class="linenos"> 29</span></a>
-</span><span id="Atlas-30"><a href="#Atlas-30"><span class="linenos"> 30</span></a>    <span class="c1">######################################################################</span>
-</span><span id="Atlas-31"><a href="#Atlas-31"><span class="linenos"> 31</span></a>    <span class="c1"># Lookup    ######################################################################</span>
-</span><span id="Atlas-32"><a href="#Atlas-32"><span class="linenos"> 32</span></a>
-</span><span id="Atlas-33"><a href="#Atlas-33"><span class="linenos"> 33</span></a>    <span class="k">def</span> <span class="fm">__getitem__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">identifier</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Publication</span><span class="p">:</span>
-</span><span id="Atlas-34"><a href="#Atlas-34"><span class="linenos"> 34</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Get a publication given its identifier.</span>
-</span><span id="Atlas-35"><a href="#Atlas-35"><span class="linenos"> 35</span></a>
-</span><span id="Atlas-36"><a href="#Atlas-36"><span class="linenos"> 36</span></a><span class="sd">        Raises:</span>
-</span><span id="Atlas-37"><a href="#Atlas-37"><span class="linenos"> 37</span></a><span class="sd">            ValueError: the identifier is not in the Atlas.</span>
-</span><span id="Atlas-38"><a href="#Atlas-38"><span class="linenos"> 38</span></a><span class="sd">        &quot;&quot;&quot;</span>
-</span><span id="Atlas-39"><a href="#Atlas-39"><span class="linenos"> 39</span></a>        <span class="k">if</span> <span class="n">identifier</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">publications</span><span class="p">:</span>
-</span><span id="Atlas-40"><a href="#Atlas-40"><span class="linenos"> 40</span></a>            <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">publications</span><span class="p">[</span><span class="n">identifier</span><span class="p">]</span>
-</span><span id="Atlas-41"><a href="#Atlas-41"><span class="linenos"> 41</span></a>        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Identifier </span><span class="si">{</span><span class="n">identifier</span><span class="si">}</span><span class="s2"> not in Atlas.&quot;</span><span class="p">)</span>
-</span><span id="Atlas-42"><a href="#Atlas-42"><span class="linenos"> 42</span></a>
-</span><span id="Atlas-43"><a href="#Atlas-43"><span class="linenos"> 43</span></a>    <span class="c1">######################################################################</span>
-</span><span id="Atlas-44"><a href="#Atlas-44"><span class="linenos"> 44</span></a>    <span class="c1"># File I/O</span>
-</span><span id="Atlas-45"><a href="#Atlas-45"><span class="linenos"> 45</span></a>    <span class="c1">######################################################################</span>
-</span><span id="Atlas-46"><a href="#Atlas-46"><span class="linenos"> 46</span></a>
-</span><span id="Atlas-47"><a href="#Atlas-47"><span class="linenos"> 47</span></a>    <span class="k">def</span> <span class="nf">save</span><span class="p">(</span>
-</span><span id="Atlas-48"><a href="#Atlas-48"><span class="linenos"> 48</span></a>        <span class="bp">self</span><span class="p">,</span>
-</span><span id="Atlas-49"><a href="#Atlas-49"><span class="linenos"> 49</span></a>        <span class="n">atlas_dirpath</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
-</span><span id="Atlas-50"><a href="#Atlas-50"><span class="linenos"> 50</span></a>        <span class="n">publications_fn</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;publications.pkl&quot;</span><span class="p">,</span>
-</span><span id="Atlas-51"><a href="#Atlas-51"><span class="linenos"> 51</span></a>        <span class="n">projection_fn</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;projection.pkl&quot;</span><span class="p">,</span>
-</span><span id="Atlas-52"><a href="#Atlas-52"><span class="linenos"> 52</span></a>        <span class="n">overwrite_publications</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
-</span><span id="Atlas-53"><a href="#Atlas-53"><span class="linenos"> 53</span></a>        <span class="n">overwrite_projection</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
-</span><span id="Atlas-54"><a href="#Atlas-54"><span class="linenos"> 54</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="Atlas-55"><a href="#Atlas-55"><span class="linenos"> 55</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Write the Atlas to a directory containing a CSV file of publications and a .npy file of embeddings.</span>
-</span><span id="Atlas-56"><a href="#Atlas-56"><span class="linenos"> 56</span></a>
-</span><span id="Atlas-57"><a href="#Atlas-57"><span class="linenos"> 57</span></a><span class="sd">        Write the Atlas to a directory containing a .pkl file of publications and a .pkl file of the projection.</span>
-</span><span id="Atlas-58"><a href="#Atlas-58"><span class="linenos"> 58</span></a>
-</span><span id="Atlas-59"><a href="#Atlas-59"><span class="linenos"> 59</span></a><span class="sd">        Args:</span>
-</span><span id="Atlas-60"><a href="#Atlas-60"><span class="linenos"> 60</span></a><span class="sd">            atlas_dirpath: path of directory to save files to.</span>
-</span><span id="Atlas-61"><a href="#Atlas-61"><span class="linenos"> 61</span></a>
-</span><span id="Atlas-62"><a href="#Atlas-62"><span class="linenos"> 62</span></a><span class="sd">            publications_fn: name of file to save publications to.</span>
-</span><span id="Atlas-63"><a href="#Atlas-63"><span class="linenos"> 63</span></a>
-</span><span id="Atlas-64"><a href="#Atlas-64"><span class="linenos"> 64</span></a><span class="sd">            projection_fn: name of file to save projection to.</span>
-</span><span id="Atlas-65"><a href="#Atlas-65"><span class="linenos"> 65</span></a>
-</span><span id="Atlas-66"><a href="#Atlas-66"><span class="linenos"> 66</span></a><span class="sd">            overwrite_publications: whether to overwrite an existing publications file.</span>
-</span><span id="Atlas-67"><a href="#Atlas-67"><span class="linenos"> 67</span></a>
-</span><span id="Atlas-68"><a href="#Atlas-68"><span class="linenos"> 68</span></a><span class="sd">            overwrite_projection: whether to overwrite an existing projection file.</span>
-</span><span id="Atlas-69"><a href="#Atlas-69"><span class="linenos"> 69</span></a>
-</span><span id="Atlas-70"><a href="#Atlas-70"><span class="linenos"> 70</span></a><span class="sd">        &quot;&quot;&quot;</span>
-</span><span id="Atlas-71"><a href="#Atlas-71"><span class="linenos"> 71</span></a>        <span class="c1"># save publications</span>
-</span><span id="Atlas-72"><a href="#Atlas-72"><span class="linenos"> 72</span></a>        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">publications</span> <span class="ow">and</span> <span class="n">overwrite_publications</span><span class="p">:</span>
-</span><span id="Atlas-73"><a href="#Atlas-73"><span class="linenos"> 73</span></a>            <span class="n">fp</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">atlas_dirpath</span><span class="p">,</span> <span class="n">publications_fn</span><span class="p">)</span>
-</span><span id="Atlas-74"><a href="#Atlas-74"><span class="linenos"> 74</span></a>            <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">isfile</span><span class="p">(</span><span class="n">fp</span><span class="p">):</span>
-</span><span id="Atlas-75"><a href="#Atlas-75"><span class="linenos"> 75</span></a>                <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Overwriting existing file at </span><span class="si">{</span><span class="n">fp</span><span class="si">}</span><span class="s2">.&quot;</span><span class="p">)</span>
-</span><span id="Atlas-76"><a href="#Atlas-76"><span class="linenos"> 76</span></a>            <span class="n">write_pickle</span><span class="p">(</span>
-</span><span id="Atlas-77"><a href="#Atlas-77"><span class="linenos"> 77</span></a>                <span class="n">fp</span><span class="p">,</span> <span class="nb">list</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">values</span><span class="p">())</span>
-</span><span id="Atlas-78"><a href="#Atlas-78"><span class="linenos"> 78</span></a>            <span class="p">)</span>  <span class="c1"># write the list version to be consistent with load and constructor</span>
-</span><span id="Atlas-79"><a href="#Atlas-79"><span class="linenos"> 79</span></a>        <span class="k">else</span><span class="p">:</span>
-</span><span id="Atlas-80"><a href="#Atlas-80"><span class="linenos"> 80</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="s2">&quot;No publications to save, skipping.&quot;</span><span class="p">)</span>
-</span><span id="Atlas-81"><a href="#Atlas-81"><span class="linenos"> 81</span></a>
-</span><span id="Atlas-82"><a href="#Atlas-82"><span class="linenos"> 82</span></a>        <span class="c1"># save projection</span>
-</span><span id="Atlas-83"><a href="#Atlas-83"><span class="linenos"> 83</span></a>        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">projection</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">overwrite_projection</span><span class="p">:</span>
-</span><span id="Atlas-84"><a href="#Atlas-84"><span class="linenos"> 84</span></a>            <span class="n">fp</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">atlas_dirpath</span><span class="p">,</span> <span class="n">projection_fn</span><span class="p">)</span>
-</span><span id="Atlas-85"><a href="#Atlas-85"><span class="linenos"> 85</span></a>            <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">isfile</span><span class="p">(</span><span class="n">fp</span><span class="p">):</span>
-</span><span id="Atlas-86"><a href="#Atlas-86"><span class="linenos"> 86</span></a>                <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Overwriting existing file at </span><span class="si">{</span><span class="n">fp</span><span class="si">}</span><span class="s2">.&quot;</span><span class="p">)</span>
-</span><span id="Atlas-87"><a href="#Atlas-87"><span class="linenos"> 87</span></a>            <span class="n">write_pickle</span><span class="p">(</span><span class="n">fp</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">projection</span><span class="p">)</span>
-</span><span id="Atlas-88"><a href="#Atlas-88"><span class="linenos"> 88</span></a>        <span class="k">else</span><span class="p">:</span>
-</span><span id="Atlas-89"><a href="#Atlas-89"><span class="linenos"> 89</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="s2">&quot;No projection to save, skipping.&quot;</span><span class="p">)</span>
-</span><span id="Atlas-90"><a href="#Atlas-90"><span class="linenos"> 90</span></a>
-</span><span id="Atlas-91"><a href="#Atlas-91"><span class="linenos"> 91</span></a>    <span class="nd">@classmethod</span>
-</span><span id="Atlas-92"><a href="#Atlas-92"><span class="linenos"> 92</span></a>    <span class="k">def</span> <span class="nf">load</span><span class="p">(</span>
-</span><span id="Atlas-93"><a href="#Atlas-93"><span class="linenos"> 93</span></a>        <span class="bp">cls</span><span class="p">,</span>
-</span><span id="Atlas-94"><a href="#Atlas-94"><span class="linenos"> 94</span></a>        <span class="n">atlas_dirpath</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
-</span><span id="Atlas-95"><a href="#Atlas-95"><span class="linenos"> 95</span></a>        <span class="n">publications_fn</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;publications.pkl&quot;</span><span class="p">,</span>
-</span><span id="Atlas-96"><a href="#Atlas-96"><span class="linenos"> 96</span></a>        <span class="n">projection_fn</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;projection.pkl&quot;</span><span class="p">,</span>
-</span><span id="Atlas-97"><a href="#Atlas-97"><span class="linenos"> 97</span></a>        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
-</span><span id="Atlas-98"><a href="#Atlas-98"><span class="linenos"> 98</span></a>    <span class="p">):</span>
-</span><span id="Atlas-99"><a href="#Atlas-99"><span class="linenos"> 99</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Load an Atlas object from a directory containing publications and/or their projection.</span>
-</span><span id="Atlas-100"><a href="#Atlas-100"><span class="linenos">100</span></a>
-</span><span id="Atlas-101"><a href="#Atlas-101"><span class="linenos">101</span></a><span class="sd">        Args:</span>
-</span><span id="Atlas-102"><a href="#Atlas-102"><span class="linenos">102</span></a><span class="sd">            atlas_dirpath: file with vocab, assumed output from `save_to_file`</span>
-</span><span id="Atlas-103"><a href="#Atlas-103"><span class="linenos">103</span></a>
-</span><span id="Atlas-104"><a href="#Atlas-104"><span class="linenos">104</span></a><span class="sd">            publications_fn: name of file to load publications from.</span>
-</span><span id="Atlas-105"><a href="#Atlas-105"><span class="linenos">105</span></a>
-</span><span id="Atlas-106"><a href="#Atlas-106"><span class="linenos">106</span></a><span class="sd">            projection_fn: name of file to load projection from.</span>
-</span><span id="Atlas-107"><a href="#Atlas-107"><span class="linenos">107</span></a><span class="sd">        &quot;&quot;&quot;</span>
-</span><span id="Atlas-108"><a href="#Atlas-108"><span class="linenos">108</span></a>
-</span><span id="Atlas-109"><a href="#Atlas-109"><span class="linenos">109</span></a>        <span class="c1"># load publications</span>
-</span><span id="Atlas-110"><a href="#Atlas-110"><span class="linenos">110</span></a>        <span class="n">fp</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">atlas_dirpath</span><span class="p">,</span> <span class="n">publications_fn</span><span class="p">)</span>
-</span><span id="Atlas-111"><a href="#Atlas-111"><span class="linenos">111</span></a>        <span class="n">publications</span> <span class="o">=</span> <span class="kc">None</span>
-</span><span id="Atlas-112"><a href="#Atlas-112"><span class="linenos">112</span></a>        <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">isfile</span><span class="p">(</span><span class="n">fp</span><span class="p">):</span>
-</span><span id="Atlas-113"><a href="#Atlas-113"><span class="linenos">113</span></a>            <span class="n">publications</span> <span class="o">=</span> <span class="n">read_pickle</span><span class="p">(</span><span class="n">fp</span><span class="p">)</span>
-</span><span id="Atlas-114"><a href="#Atlas-114"><span class="linenos">114</span></a>        <span class="k">else</span><span class="p">:</span>
-</span><span id="Atlas-115"><a href="#Atlas-115"><span class="linenos">115</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="s2">&quot;No publications to read, skipping.&quot;</span><span class="p">)</span>
+</span><span id="Atlas-30"><a href="#Atlas-30"><span class="linenos"> 30</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+</span><span id="Atlas-31"><a href="#Atlas-31"><span class="linenos"> 31</span></a>        <span class="bp">self</span><span class="p">,</span>
+</span><span id="Atlas-32"><a href="#Atlas-32"><span class="linenos"> 32</span></a>        <span class="n">publications</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="n">Publication</span><span class="p">],</span>
+</span><span id="Atlas-33"><a href="#Atlas-33"><span class="linenos"> 33</span></a>        <span class="n">projection</span><span class="p">:</span> <span class="n">Projection</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="Atlas-34"><a href="#Atlas-34"><span class="linenos"> 34</span></a>        <span class="n">bad_ids</span><span class="p">:</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(),</span>
+</span><span id="Atlas-35"><a href="#Atlas-35"><span class="linenos"> 35</span></a>        <span class="n">history</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">(),</span>
+</span><span id="Atlas-36"><a href="#Atlas-36"><span class="linenos"> 36</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Atlas-37"><a href="#Atlas-37"><span class="linenos"> 37</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">publications</span><span class="p">,</span> <span class="nb">list</span><span class="p">):</span>
+</span><span id="Atlas-38"><a href="#Atlas-38"><span class="linenos"> 38</span></a>            <span class="k">raise</span> <span class="ne">ValueError</span>
+</span><span id="Atlas-39"><a href="#Atlas-39"><span class="linenos"> 39</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">publications</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Publication</span><span class="p">]</span> <span class="o">=</span> <span class="p">{</span>
+</span><span id="Atlas-40"><a href="#Atlas-40"><span class="linenos"> 40</span></a>            <span class="nb">str</span><span class="p">(</span><span class="n">pub</span><span class="p">):</span> <span class="n">pub</span> <span class="k">for</span> <span class="n">pub</span> <span class="ow">in</span> <span class="n">publications</span>
+</span><span id="Atlas-41"><a href="#Atlas-41"><span class="linenos"> 41</span></a>        <span class="p">}</span>
+</span><span id="Atlas-42"><a href="#Atlas-42"><span class="linenos"> 42</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">projection</span> <span class="o">=</span> <span class="n">projection</span>
+</span><span id="Atlas-43"><a href="#Atlas-43"><span class="linenos"> 43</span></a>
+</span><span id="Atlas-44"><a href="#Atlas-44"><span class="linenos"> 44</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">bad_ids</span> <span class="o">=</span> <span class="n">bad_ids</span>
+</span><span id="Atlas-45"><a href="#Atlas-45"><span class="linenos"> 45</span></a>
+</span><span id="Atlas-46"><a href="#Atlas-46"><span class="linenos"> 46</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">history</span> <span class="o">=</span> <span class="n">history</span>
+</span><span id="Atlas-47"><a href="#Atlas-47"><span class="linenos"> 47</span></a>
+</span><span id="Atlas-48"><a href="#Atlas-48"><span class="linenos"> 48</span></a>    <span class="c1">######################################################################</span>
+</span><span id="Atlas-49"><a href="#Atlas-49"><span class="linenos"> 49</span></a>    <span class="c1"># Lookup    ######################################################################</span>
+</span><span id="Atlas-50"><a href="#Atlas-50"><span class="linenos"> 50</span></a>
+</span><span id="Atlas-51"><a href="#Atlas-51"><span class="linenos"> 51</span></a>    <span class="k">def</span> <span class="fm">__getitem__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">identifier</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Publication</span><span class="p">:</span>
+</span><span id="Atlas-52"><a href="#Atlas-52"><span class="linenos"> 52</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Get a publication given its identifier.</span>
+</span><span id="Atlas-53"><a href="#Atlas-53"><span class="linenos"> 53</span></a>
+</span><span id="Atlas-54"><a href="#Atlas-54"><span class="linenos"> 54</span></a><span class="sd">        Raises:</span>
+</span><span id="Atlas-55"><a href="#Atlas-55"><span class="linenos"> 55</span></a><span class="sd">            ValueError: the identifier is not in the Atlas.</span>
+</span><span id="Atlas-56"><a href="#Atlas-56"><span class="linenos"> 56</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="Atlas-57"><a href="#Atlas-57"><span class="linenos"> 57</span></a>        <span class="k">if</span> <span class="n">identifier</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">publications</span><span class="p">:</span>
+</span><span id="Atlas-58"><a href="#Atlas-58"><span class="linenos"> 58</span></a>            <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">publications</span><span class="p">[</span><span class="n">identifier</span><span class="p">]</span>
+</span><span id="Atlas-59"><a href="#Atlas-59"><span class="linenos"> 59</span></a>        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Identifier </span><span class="si">{</span><span class="n">identifier</span><span class="si">}</span><span class="s2"> not in Atlas.&quot;</span><span class="p">)</span>
+</span><span id="Atlas-60"><a href="#Atlas-60"><span class="linenos"> 60</span></a>
+</span><span id="Atlas-61"><a href="#Atlas-61"><span class="linenos"> 61</span></a>    <span class="k">def</span> <span class="nf">ids</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]:</span>
+</span><span id="Atlas-62"><a href="#Atlas-62"><span class="linenos"> 62</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Get a list of all the publication identifiers in the Atlas.&quot;&quot;&quot;</span>
+</span><span id="Atlas-63"><a href="#Atlas-63"><span class="linenos"> 63</span></a>        <span class="k">return</span> <span class="nb">list</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
+</span><span id="Atlas-64"><a href="#Atlas-64"><span class="linenos"> 64</span></a>
+</span><span id="Atlas-65"><a href="#Atlas-65"><span class="linenos"> 65</span></a>    <span class="c1">######################################################################</span>
+</span><span id="Atlas-66"><a href="#Atlas-66"><span class="linenos"> 66</span></a>    <span class="c1"># File I/O</span>
+</span><span id="Atlas-67"><a href="#Atlas-67"><span class="linenos"> 67</span></a>    <span class="c1">######################################################################</span>
+</span><span id="Atlas-68"><a href="#Atlas-68"><span class="linenos"> 68</span></a>
+</span><span id="Atlas-69"><a href="#Atlas-69"><span class="linenos"> 69</span></a>    <span class="k">def</span> <span class="nf">save</span><span class="p">(</span>
+</span><span id="Atlas-70"><a href="#Atlas-70"><span class="linenos"> 70</span></a>        <span class="bp">self</span><span class="p">,</span>
+</span><span id="Atlas-71"><a href="#Atlas-71"><span class="linenos"> 71</span></a>        <span class="n">atlas_dirpath</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+</span><span id="Atlas-72"><a href="#Atlas-72"><span class="linenos"> 72</span></a>        <span class="n">overwrite</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+</span><span id="Atlas-73"><a href="#Atlas-73"><span class="linenos"> 73</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Atlas-74"><a href="#Atlas-74"><span class="linenos"> 74</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Write the Atlas to a directory containing a .pkl binary for each attribute.</span>
+</span><span id="Atlas-75"><a href="#Atlas-75"><span class="linenos"> 75</span></a>
+</span><span id="Atlas-76"><a href="#Atlas-76"><span class="linenos"> 76</span></a><span class="sd">        Warnings cannot be silenced.</span>
+</span><span id="Atlas-77"><a href="#Atlas-77"><span class="linenos"> 77</span></a>
+</span><span id="Atlas-78"><a href="#Atlas-78"><span class="linenos"> 78</span></a><span class="sd">        Args:</span>
+</span><span id="Atlas-79"><a href="#Atlas-79"><span class="linenos"> 79</span></a><span class="sd">            atlas_dirpath: path of directory to save files to.</span>
+</span><span id="Atlas-80"><a href="#Atlas-80"><span class="linenos"> 80</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="Atlas-81"><a href="#Atlas-81"><span class="linenos"> 81</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">overwrite</span><span class="p">:</span>
+</span><span id="Atlas-82"><a href="#Atlas-82"><span class="linenos"> 82</span></a>            <span class="k">return</span>
+</span><span id="Atlas-83"><a href="#Atlas-83"><span class="linenos"> 83</span></a>
+</span><span id="Atlas-84"><a href="#Atlas-84"><span class="linenos"> 84</span></a>        <span class="n">attributes</span> <span class="o">=</span> <span class="p">{</span>
+</span><span id="Atlas-85"><a href="#Atlas-85"><span class="linenos"> 85</span></a>            <span class="n">k</span><span class="p">:</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">k</span><span class="p">)</span>
+</span><span id="Atlas-86"><a href="#Atlas-86"><span class="linenos"> 86</span></a>            <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="p">[</span>
+</span><span id="Atlas-87"><a href="#Atlas-87"><span class="linenos"> 87</span></a>                <span class="s2">&quot;publications&quot;</span><span class="p">,</span>
+</span><span id="Atlas-88"><a href="#Atlas-88"><span class="linenos"> 88</span></a>                <span class="s2">&quot;projection&quot;</span><span class="p">,</span>
+</span><span id="Atlas-89"><a href="#Atlas-89"><span class="linenos"> 89</span></a>                <span class="s2">&quot;bad_ids&quot;</span><span class="p">,</span>
+</span><span id="Atlas-90"><a href="#Atlas-90"><span class="linenos"> 90</span></a>                <span class="s2">&quot;history&quot;</span><span class="p">,</span>
+</span><span id="Atlas-91"><a href="#Atlas-91"><span class="linenos"> 91</span></a>            <span class="p">]</span>
+</span><span id="Atlas-92"><a href="#Atlas-92"><span class="linenos"> 92</span></a>        <span class="p">}</span>
+</span><span id="Atlas-93"><a href="#Atlas-93"><span class="linenos"> 93</span></a>
+</span><span id="Atlas-94"><a href="#Atlas-94"><span class="linenos"> 94</span></a>        <span class="k">for</span> <span class="n">attribute</span> <span class="ow">in</span> <span class="n">attributes</span><span class="p">:</span>
+</span><span id="Atlas-95"><a href="#Atlas-95"><span class="linenos"> 95</span></a>            <span class="k">if</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">attribute</span><span class="p">)</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Atlas-96"><a href="#Atlas-96"><span class="linenos"> 96</span></a>                <span class="c1"># write the list version to be consistent with load and constructor</span>
+</span><span id="Atlas-97"><a href="#Atlas-97"><span class="linenos"> 97</span></a>                <span class="k">if</span> <span class="n">attribute</span> <span class="o">==</span> <span class="s2">&quot;publications&quot;</span><span class="p">:</span>
+</span><span id="Atlas-98"><a href="#Atlas-98"><span class="linenos"> 98</span></a>                    <span class="n">attributes</span><span class="p">[</span><span class="n">attribute</span><span class="p">]</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">values</span><span class="p">())</span>
+</span><span id="Atlas-99"><a href="#Atlas-99"><span class="linenos"> 99</span></a>
+</span><span id="Atlas-100"><a href="#Atlas-100"><span class="linenos">100</span></a>                <span class="n">fn</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">attribute</span><span class="si">}</span><span class="s2">.pkl&quot;</span>
+</span><span id="Atlas-101"><a href="#Atlas-101"><span class="linenos">101</span></a>                <span class="n">fp</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">atlas_dirpath</span><span class="p">,</span> <span class="n">fn</span><span class="p">)</span>
+</span><span id="Atlas-102"><a href="#Atlas-102"><span class="linenos">102</span></a>                <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">isfile</span><span class="p">(</span><span class="n">fp</span><span class="p">):</span>
+</span><span id="Atlas-103"><a href="#Atlas-103"><span class="linenos">103</span></a>                    <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Overwriting existing file at </span><span class="si">{</span><span class="n">fp</span><span class="si">}</span><span class="s2">.&quot;</span><span class="p">)</span>
+</span><span id="Atlas-104"><a href="#Atlas-104"><span class="linenos">104</span></a>                <span class="n">write_pickle</span><span class="p">(</span><span class="n">fp</span><span class="p">,</span> <span class="n">attributes</span><span class="p">[</span><span class="n">attribute</span><span class="p">])</span>
+</span><span id="Atlas-105"><a href="#Atlas-105"><span class="linenos">105</span></a>            <span class="k">else</span><span class="p">:</span>
+</span><span id="Atlas-106"><a href="#Atlas-106"><span class="linenos">106</span></a>                <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;No </span><span class="si">{</span><span class="n">attribute</span><span class="si">}</span><span class="s2"> to save, skipping.&quot;</span><span class="p">)</span>
+</span><span id="Atlas-107"><a href="#Atlas-107"><span class="linenos">107</span></a>
+</span><span id="Atlas-108"><a href="#Atlas-108"><span class="linenos">108</span></a>    <span class="nd">@classmethod</span>
+</span><span id="Atlas-109"><a href="#Atlas-109"><span class="linenos">109</span></a>    <span class="k">def</span> <span class="nf">load</span><span class="p">(</span>
+</span><span id="Atlas-110"><a href="#Atlas-110"><span class="linenos">110</span></a>        <span class="bp">cls</span><span class="p">,</span>
+</span><span id="Atlas-111"><a href="#Atlas-111"><span class="linenos">111</span></a>        <span class="n">atlas_dirpath</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+</span><span id="Atlas-112"><a href="#Atlas-112"><span class="linenos">112</span></a>    <span class="p">):</span>
+</span><span id="Atlas-113"><a href="#Atlas-113"><span class="linenos">113</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Load an Atlas object from a directory containing the .pkl binary for each attribute.</span>
+</span><span id="Atlas-114"><a href="#Atlas-114"><span class="linenos">114</span></a>
+</span><span id="Atlas-115"><a href="#Atlas-115"><span class="linenos">115</span></a><span class="sd">        Warnings cannot be silenced.</span>
 </span><span id="Atlas-116"><a href="#Atlas-116"><span class="linenos">116</span></a>
-</span><span id="Atlas-117"><a href="#Atlas-117"><span class="linenos">117</span></a>        <span class="c1"># load projection</span>
-</span><span id="Atlas-118"><a href="#Atlas-118"><span class="linenos">118</span></a>        <span class="n">fp</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">atlas_dirpath</span><span class="p">,</span> <span class="n">projection_fn</span><span class="p">)</span>
-</span><span id="Atlas-119"><a href="#Atlas-119"><span class="linenos">119</span></a>        <span class="n">projection</span> <span class="o">=</span> <span class="kc">None</span>
-</span><span id="Atlas-120"><a href="#Atlas-120"><span class="linenos">120</span></a>        <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">isfile</span><span class="p">(</span><span class="n">fp</span><span class="p">):</span>
-</span><span id="Atlas-121"><a href="#Atlas-121"><span class="linenos">121</span></a>            <span class="n">projection</span> <span class="o">=</span> <span class="n">read_pickle</span><span class="p">(</span><span class="n">fp</span><span class="p">)</span>
-</span><span id="Atlas-122"><a href="#Atlas-122"><span class="linenos">122</span></a>        <span class="k">else</span><span class="p">:</span>
-</span><span id="Atlas-123"><a href="#Atlas-123"><span class="linenos">123</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="s2">&quot;No projection to read, skipping.&quot;</span><span class="p">)</span>
-</span><span id="Atlas-124"><a href="#Atlas-124"><span class="linenos">124</span></a>
-</span><span id="Atlas-125"><a href="#Atlas-125"><span class="linenos">125</span></a>        <span class="k">if</span> <span class="n">publications</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="Atlas-126"><a href="#Atlas-126"><span class="linenos">126</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="s2">&quot;Loading empty atlas.&quot;</span><span class="p">)</span>
-</span><span id="Atlas-127"><a href="#Atlas-127"><span class="linenos">127</span></a>            <span class="n">publications</span> <span class="o">=</span> <span class="nb">list</span><span class="p">()</span>
-</span><span id="Atlas-128"><a href="#Atlas-128"><span class="linenos">128</span></a>
-</span><span id="Atlas-129"><a href="#Atlas-129"><span class="linenos">129</span></a>        <span class="k">return</span> <span class="bp">cls</span><span class="p">(</span>
-</span><span id="Atlas-130"><a href="#Atlas-130"><span class="linenos">130</span></a>            <span class="n">publications</span><span class="p">,</span>
-</span><span id="Atlas-131"><a href="#Atlas-131"><span class="linenos">131</span></a>            <span class="n">projection</span><span class="p">,</span>
-</span><span id="Atlas-132"><a href="#Atlas-132"><span class="linenos">132</span></a>        <span class="p">)</span>
-</span><span id="Atlas-133"><a href="#Atlas-133"><span class="linenos">133</span></a>
-</span><span id="Atlas-134"><a href="#Atlas-134"><span class="linenos">134</span></a>    <span class="c1">######################################################################</span>
-</span><span id="Atlas-135"><a href="#Atlas-135"><span class="linenos">135</span></a>    <span class="c1"># Other</span>
-</span><span id="Atlas-136"><a href="#Atlas-136"><span class="linenos">136</span></a>    <span class="c1">######################################################################</span>
+</span><span id="Atlas-117"><a href="#Atlas-117"><span class="linenos">117</span></a><span class="sd">        Args:</span>
+</span><span id="Atlas-118"><a href="#Atlas-118"><span class="linenos">118</span></a><span class="sd">            atlas_dirpath: directory where .pkl binaries will be read from</span>
+</span><span id="Atlas-119"><a href="#Atlas-119"><span class="linenos">119</span></a>
+</span><span id="Atlas-120"><a href="#Atlas-120"><span class="linenos">120</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="Atlas-121"><a href="#Atlas-121"><span class="linenos">121</span></a>        <span class="n">attributes</span> <span class="o">=</span> <span class="p">{</span>
+</span><span id="Atlas-122"><a href="#Atlas-122"><span class="linenos">122</span></a>            <span class="n">k</span><span class="p">:</span> <span class="kc">None</span>
+</span><span id="Atlas-123"><a href="#Atlas-123"><span class="linenos">123</span></a>            <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="p">[</span>
+</span><span id="Atlas-124"><a href="#Atlas-124"><span class="linenos">124</span></a>                <span class="s2">&quot;publications&quot;</span><span class="p">,</span>
+</span><span id="Atlas-125"><a href="#Atlas-125"><span class="linenos">125</span></a>                <span class="s2">&quot;projection&quot;</span><span class="p">,</span>
+</span><span id="Atlas-126"><a href="#Atlas-126"><span class="linenos">126</span></a>                <span class="s2">&quot;bad_ids&quot;</span><span class="p">,</span>
+</span><span id="Atlas-127"><a href="#Atlas-127"><span class="linenos">127</span></a>                <span class="s2">&quot;history&quot;</span><span class="p">,</span>
+</span><span id="Atlas-128"><a href="#Atlas-128"><span class="linenos">128</span></a>            <span class="p">]</span>
+</span><span id="Atlas-129"><a href="#Atlas-129"><span class="linenos">129</span></a>        <span class="p">}</span>
+</span><span id="Atlas-130"><a href="#Atlas-130"><span class="linenos">130</span></a>        <span class="k">for</span> <span class="n">attribute</span> <span class="ow">in</span> <span class="n">attributes</span><span class="p">:</span>
+</span><span id="Atlas-131"><a href="#Atlas-131"><span class="linenos">131</span></a>            <span class="n">fn</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">attribute</span><span class="si">}</span><span class="s2">.pkl&quot;</span>
+</span><span id="Atlas-132"><a href="#Atlas-132"><span class="linenos">132</span></a>            <span class="n">fp</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">atlas_dirpath</span><span class="p">,</span> <span class="n">fn</span><span class="p">)</span>
+</span><span id="Atlas-133"><a href="#Atlas-133"><span class="linenos">133</span></a>            <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">isfile</span><span class="p">(</span><span class="n">fp</span><span class="p">):</span>
+</span><span id="Atlas-134"><a href="#Atlas-134"><span class="linenos">134</span></a>                <span class="n">attributes</span><span class="p">[</span><span class="n">attribute</span><span class="p">]</span> <span class="o">=</span> <span class="n">read_pickle</span><span class="p">(</span><span class="n">fp</span><span class="p">)</span>
+</span><span id="Atlas-135"><a href="#Atlas-135"><span class="linenos">135</span></a>            <span class="k">else</span><span class="p">:</span>
+</span><span id="Atlas-136"><a href="#Atlas-136"><span class="linenos">136</span></a>                <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;No </span><span class="si">{</span><span class="n">attribute</span><span class="si">}</span><span class="s2"> to read, skipping.&quot;</span><span class="p">)</span>
 </span><span id="Atlas-137"><a href="#Atlas-137"><span class="linenos">137</span></a>
-</span><span id="Atlas-138"><a href="#Atlas-138"><span class="linenos">138</span></a>    <span class="k">def</span> <span class="fm">__len__</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">int</span><span class="p">:</span>
-</span><span id="Atlas-139"><a href="#Atlas-139"><span class="linenos">139</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Get length of the Atlas.&quot;&quot;&quot;</span>
-</span><span id="Atlas-140"><a href="#Atlas-140"><span class="linenos">140</span></a>        <span class="k">return</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">publications</span><span class="p">)</span>
+</span><span id="Atlas-138"><a href="#Atlas-138"><span class="linenos">138</span></a>        <span class="k">if</span> <span class="n">attributes</span><span class="p">[</span><span class="s2">&quot;publications&quot;</span><span class="p">]</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Atlas-139"><a href="#Atlas-139"><span class="linenos">139</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="s2">&quot;Loading empty atlas.&quot;</span><span class="p">)</span>
+</span><span id="Atlas-140"><a href="#Atlas-140"><span class="linenos">140</span></a>            <span class="n">attributes</span><span class="p">[</span><span class="s2">&quot;publications&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="nb">list</span><span class="p">()</span>
 </span><span id="Atlas-141"><a href="#Atlas-141"><span class="linenos">141</span></a>
-</span><span id="Atlas-142"><a href="#Atlas-142"><span class="linenos">142</span></a>    <span class="k">def</span> <span class="fm">__eq__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">__value</span><span class="p">:</span> <span class="nb">object</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
-</span><span id="Atlas-143"><a href="#Atlas-143"><span class="linenos">143</span></a>        <span class="k">return</span> <span class="p">(</span>
-</span><span id="Atlas-144"><a href="#Atlas-144"><span class="linenos">144</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">publications</span> <span class="o">==</span> <span class="n">__value</span><span class="o">.</span><span class="n">publications</span>
-</span><span id="Atlas-145"><a href="#Atlas-145"><span class="linenos">145</span></a>            <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">projection</span> <span class="o">==</span> <span class="n">__value</span><span class="o">.</span><span class="n">projection</span>
-</span><span id="Atlas-146"><a href="#Atlas-146"><span class="linenos">146</span></a>        <span class="p">)</span>
+</span><span id="Atlas-142"><a href="#Atlas-142"><span class="linenos">142</span></a>        <span class="k">return</span> <span class="bp">cls</span><span class="p">(</span><span class="o">**</span><span class="p">{</span><span class="n">k</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">attributes</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span> <span class="n">v</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">})</span>
+</span><span id="Atlas-143"><a href="#Atlas-143"><span class="linenos">143</span></a>
+</span><span id="Atlas-144"><a href="#Atlas-144"><span class="linenos">144</span></a>    <span class="c1">######################################################################</span>
+</span><span id="Atlas-145"><a href="#Atlas-145"><span class="linenos">145</span></a>    <span class="c1"># Other</span>
+</span><span id="Atlas-146"><a href="#Atlas-146"><span class="linenos">146</span></a>    <span class="c1">######################################################################</span>
+</span><span id="Atlas-147"><a href="#Atlas-147"><span class="linenos">147</span></a>
+</span><span id="Atlas-148"><a href="#Atlas-148"><span class="linenos">148</span></a>    <span class="k">def</span> <span class="fm">__len__</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">int</span><span class="p">:</span>
+</span><span id="Atlas-149"><a href="#Atlas-149"><span class="linenos">149</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Get length of the Atlas.&quot;&quot;&quot;</span>
+</span><span id="Atlas-150"><a href="#Atlas-150"><span class="linenos">150</span></a>        <span class="k">return</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">publications</span><span class="p">)</span>
+</span><span id="Atlas-151"><a href="#Atlas-151"><span class="linenos">151</span></a>
+</span><span id="Atlas-152"><a href="#Atlas-152"><span class="linenos">152</span></a>    <span class="k">def</span> <span class="fm">__eq__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">__value</span><span class="p">:</span> <span class="nb">object</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
+</span><span id="Atlas-153"><a href="#Atlas-153"><span class="linenos">153</span></a>        <span class="k">return</span> <span class="p">(</span>
+</span><span id="Atlas-154"><a href="#Atlas-154"><span class="linenos">154</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">publications</span> <span class="o">==</span> <span class="n">__value</span><span class="o">.</span><span class="n">publications</span>
+</span><span id="Atlas-155"><a href="#Atlas-155"><span class="linenos">155</span></a>            <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">projection</span> <span class="o">==</span> <span class="n">__value</span><span class="o">.</span><span class="n">projection</span>
+</span><span id="Atlas-156"><a href="#Atlas-156"><span class="linenos">156</span></a>        <span class="p">)</span>
 </span></pre></div>
 
 
-    
+            <div class="docstring"><p>Data structure for storing publications.</p>
+
+<p><code>self.projection</code>: the Projection object containing the embeddings of all publications and their mapping to str identifiers.</p>
+
+<p><code>self.bad_ids</code>: a list of identifiers that have failed for some reason or other during an expansion, and will be excluded from subsequent expansions.</p>
+
+<p><code>self.history</code>: dict of the form {'pubs_per_update': list[list[str]], 'kernel_size': np.ndarray of ints of shape <code>(num_pubs, last_update)</code> where last_update &lt;= the total number of expansions performed.}</p>
+</div>
+
 
                             <div id="Atlas.__init__" class="classattr">
                                         <input id="Atlas.__init__-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
 <div class="attr function">
             
-        <span class="name">Atlas</span><span class="signature pdoc-code multiline">(<span class="param">	<span class="n">publications</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="n"><a href="publication.html#Publication">sciterra.mapping.publication.Publication</a></span><span class="p">]</span>,</span><span class="param">	<span class="n">projection</span><span class="p">:</span> <span class="n"><a href="../vectorization/projection.html#Projection">sciterra.vectorization.projection.Projection</a></span> <span class="o">=</span> <span class="kc">None</span></span>)</span>
+        <span class="name">Atlas</span><span class="signature pdoc-code multiline">(<span class="param">	<span class="n">publications</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="n"><a href="publication.html#Publication">sciterra.mapping.publication.Publication</a></span><span class="p">]</span>,</span><span class="param">	<span class="n">projection</span><span class="p">:</span> <span class="n"><a href="../vectorization/projection.html#Projection">sciterra.vectorization.projection.Projection</a></span> <span class="o">=</span> <span class="kc">None</span>,</span><span class="param">	<span class="n">bad_ids</span><span class="p">:</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>,</span><span class="param">	<span class="n">history</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">typing</span><span class="o">.</span><span class="n">Any</span><span class="p">]</span> <span class="o">=</span> <span class="p">{}</span></span>)</span>
 
                 <label class="view-source-button" for="Atlas.__init__-view-source"><span>View Source</span></label>
 
     </div>
     <a class="headerlink" href="#Atlas.__init__"></a>
-            <div class="pdoc-code codehilite"><pre><span></span><span id="Atlas.__init__-18"><a href="#Atlas.__init__-18"><span class="linenos">18</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
-</span><span id="Atlas.__init__-19"><a href="#Atlas.__init__-19"><span class="linenos">19</span></a>        <span class="bp">self</span><span class="p">,</span>
-</span><span id="Atlas.__init__-20"><a href="#Atlas.__init__-20"><span class="linenos">20</span></a>        <span class="n">publications</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="n">Publication</span><span class="p">],</span>
-</span><span id="Atlas.__init__-21"><a href="#Atlas.__init__-21"><span class="linenos">21</span></a>        <span class="n">projection</span><span class="p">:</span> <span class="n">Projection</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-</span><span id="Atlas.__init__-22"><a href="#Atlas.__init__-22"><span class="linenos">22</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="Atlas.__init__-23"><a href="#Atlas.__init__-23"><span class="linenos">23</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">publications</span><span class="p">,</span> <span class="nb">list</span><span class="p">):</span>
-</span><span id="Atlas.__init__-24"><a href="#Atlas.__init__-24"><span class="linenos">24</span></a>            <span class="k">raise</span> <span class="ne">ValueError</span>
-</span><span id="Atlas.__init__-25"><a href="#Atlas.__init__-25"><span class="linenos">25</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">publications</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Publication</span><span class="p">]</span> <span class="o">=</span> <span class="p">{</span>
-</span><span id="Atlas.__init__-26"><a href="#Atlas.__init__-26"><span class="linenos">26</span></a>            <span class="nb">str</span><span class="p">(</span><span class="n">pub</span><span class="p">):</span> <span class="n">pub</span> <span class="k">for</span> <span class="n">pub</span> <span class="ow">in</span> <span class="n">publications</span>
-</span><span id="Atlas.__init__-27"><a href="#Atlas.__init__-27"><span class="linenos">27</span></a>        <span class="p">}</span>
-</span><span id="Atlas.__init__-28"><a href="#Atlas.__init__-28"><span class="linenos">28</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">projection</span><span class="p">:</span> <span class="n">Projection</span> <span class="o">=</span> <span class="n">projection</span>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="Atlas.__init__-30"><a href="#Atlas.__init__-30"><span class="linenos">30</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+</span><span id="Atlas.__init__-31"><a href="#Atlas.__init__-31"><span class="linenos">31</span></a>        <span class="bp">self</span><span class="p">,</span>
+</span><span id="Atlas.__init__-32"><a href="#Atlas.__init__-32"><span class="linenos">32</span></a>        <span class="n">publications</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="n">Publication</span><span class="p">],</span>
+</span><span id="Atlas.__init__-33"><a href="#Atlas.__init__-33"><span class="linenos">33</span></a>        <span class="n">projection</span><span class="p">:</span> <span class="n">Projection</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="Atlas.__init__-34"><a href="#Atlas.__init__-34"><span class="linenos">34</span></a>        <span class="n">bad_ids</span><span class="p">:</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(),</span>
+</span><span id="Atlas.__init__-35"><a href="#Atlas.__init__-35"><span class="linenos">35</span></a>        <span class="n">history</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">(),</span>
+</span><span id="Atlas.__init__-36"><a href="#Atlas.__init__-36"><span class="linenos">36</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Atlas.__init__-37"><a href="#Atlas.__init__-37"><span class="linenos">37</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">publications</span><span class="p">,</span> <span class="nb">list</span><span class="p">):</span>
+</span><span id="Atlas.__init__-38"><a href="#Atlas.__init__-38"><span class="linenos">38</span></a>            <span class="k">raise</span> <span class="ne">ValueError</span>
+</span><span id="Atlas.__init__-39"><a href="#Atlas.__init__-39"><span class="linenos">39</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">publications</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Publication</span><span class="p">]</span> <span class="o">=</span> <span class="p">{</span>
+</span><span id="Atlas.__init__-40"><a href="#Atlas.__init__-40"><span class="linenos">40</span></a>            <span class="nb">str</span><span class="p">(</span><span class="n">pub</span><span class="p">):</span> <span class="n">pub</span> <span class="k">for</span> <span class="n">pub</span> <span class="ow">in</span> <span class="n">publications</span>
+</span><span id="Atlas.__init__-41"><a href="#Atlas.__init__-41"><span class="linenos">41</span></a>        <span class="p">}</span>
+</span><span id="Atlas.__init__-42"><a href="#Atlas.__init__-42"><span class="linenos">42</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">projection</span> <span class="o">=</span> <span class="n">projection</span>
+</span><span id="Atlas.__init__-43"><a href="#Atlas.__init__-43"><span class="linenos">43</span></a>
+</span><span id="Atlas.__init__-44"><a href="#Atlas.__init__-44"><span class="linenos">44</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">bad_ids</span> <span class="o">=</span> <span class="n">bad_ids</span>
+</span><span id="Atlas.__init__-45"><a href="#Atlas.__init__-45"><span class="linenos">45</span></a>
+</span><span id="Atlas.__init__-46"><a href="#Atlas.__init__-46"><span class="linenos">46</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">history</span> <span class="o">=</span> <span class="n">history</span>
 </span></pre></div>
 
 
@@ -431,7 +472,7 @@ <h1 class="modulename">
                             </div>
                             <div id="Atlas.projection" class="classattr">
                                 <div class="attr variable">
-            <span class="name">projection</span><span class="annotation">: <a href="../vectorization/projection.html#Projection">sciterra.vectorization.projection.Projection</a></span>
+            <span class="name">projection</span>
 
         
     </div>
@@ -439,76 +480,111 @@ <h1 class="modulename">
     
     
 
+                            </div>
+                            <div id="Atlas.bad_ids" class="classattr">
+                                <div class="attr variable">
+            <span class="name">bad_ids</span>
+
+        
+    </div>
+    <a class="headerlink" href="#Atlas.bad_ids"></a>
+    
+    
+
+                            </div>
+                            <div id="Atlas.history" class="classattr">
+                                <div class="attr variable">
+            <span class="name">history</span>
+
+        
+    </div>
+    <a class="headerlink" href="#Atlas.history"></a>
+    
+    
+
+                            </div>
+                            <div id="Atlas.ids" class="classattr">
+                                        <input id="Atlas.ids-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
+<div class="attr function">
+            
+        <span class="def">def</span>
+        <span class="name">ids</span><span class="signature pdoc-code condensed">(<span class="param"><span class="bp">self</span></span><span class="return-annotation">) -> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span>:</span></span>
+
+                <label class="view-source-button" for="Atlas.ids-view-source"><span>View Source</span></label>
+
+    </div>
+    <a class="headerlink" href="#Atlas.ids"></a>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="Atlas.ids-61"><a href="#Atlas.ids-61"><span class="linenos">61</span></a>    <span class="k">def</span> <span class="nf">ids</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]:</span>
+</span><span id="Atlas.ids-62"><a href="#Atlas.ids-62"><span class="linenos">62</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Get a list of all the publication identifiers in the Atlas.&quot;&quot;&quot;</span>
+</span><span id="Atlas.ids-63"><a href="#Atlas.ids-63"><span class="linenos">63</span></a>        <span class="k">return</span> <span class="nb">list</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
+</span></pre></div>
+
+
+            <div class="docstring"><p>Get a list of all the publication identifiers in the Atlas.</p>
+</div>
+
+
                             </div>
                             <div id="Atlas.save" class="classattr">
                                         <input id="Atlas.save-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
 <div class="attr function">
             
         <span class="def">def</span>
-        <span class="name">save</span><span class="signature pdoc-code multiline">(<span class="param">	<span class="bp">self</span>,</span><span class="param">	<span class="n">atlas_dirpath</span><span class="p">:</span> <span class="nb">str</span>,</span><span class="param">	<span class="n">publications_fn</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;publications.pkl&#39;</span>,</span><span class="param">	<span class="n">projection_fn</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;projection.pkl&#39;</span>,</span><span class="param">	<span class="n">overwrite_publications</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>,</span><span class="param">	<span class="n">overwrite_projection</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span></span><span class="return-annotation">) -> <span class="kc">None</span>:</span></span>
+        <span class="name">save</span><span class="signature pdoc-code condensed">(<span class="param"><span class="bp">self</span>, </span><span class="param"><span class="n">atlas_dirpath</span><span class="p">:</span> <span class="nb">str</span>, </span><span class="param"><span class="n">overwrite</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span></span><span class="return-annotation">) -> <span class="kc">None</span>:</span></span>
 
                 <label class="view-source-button" for="Atlas.save-view-source"><span>View Source</span></label>
 
     </div>
     <a class="headerlink" href="#Atlas.save"></a>
-            <div class="pdoc-code codehilite"><pre><span></span><span id="Atlas.save-47"><a href="#Atlas.save-47"><span class="linenos">47</span></a>    <span class="k">def</span> <span class="nf">save</span><span class="p">(</span>
-</span><span id="Atlas.save-48"><a href="#Atlas.save-48"><span class="linenos">48</span></a>        <span class="bp">self</span><span class="p">,</span>
-</span><span id="Atlas.save-49"><a href="#Atlas.save-49"><span class="linenos">49</span></a>        <span class="n">atlas_dirpath</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
-</span><span id="Atlas.save-50"><a href="#Atlas.save-50"><span class="linenos">50</span></a>        <span class="n">publications_fn</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;publications.pkl&quot;</span><span class="p">,</span>
-</span><span id="Atlas.save-51"><a href="#Atlas.save-51"><span class="linenos">51</span></a>        <span class="n">projection_fn</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;projection.pkl&quot;</span><span class="p">,</span>
-</span><span id="Atlas.save-52"><a href="#Atlas.save-52"><span class="linenos">52</span></a>        <span class="n">overwrite_publications</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
-</span><span id="Atlas.save-53"><a href="#Atlas.save-53"><span class="linenos">53</span></a>        <span class="n">overwrite_projection</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
-</span><span id="Atlas.save-54"><a href="#Atlas.save-54"><span class="linenos">54</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="Atlas.save-55"><a href="#Atlas.save-55"><span class="linenos">55</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Write the Atlas to a directory containing a CSV file of publications and a .npy file of embeddings.</span>
-</span><span id="Atlas.save-56"><a href="#Atlas.save-56"><span class="linenos">56</span></a>
-</span><span id="Atlas.save-57"><a href="#Atlas.save-57"><span class="linenos">57</span></a><span class="sd">        Write the Atlas to a directory containing a .pkl file of publications and a .pkl file of the projection.</span>
-</span><span id="Atlas.save-58"><a href="#Atlas.save-58"><span class="linenos">58</span></a>
-</span><span id="Atlas.save-59"><a href="#Atlas.save-59"><span class="linenos">59</span></a><span class="sd">        Args:</span>
-</span><span id="Atlas.save-60"><a href="#Atlas.save-60"><span class="linenos">60</span></a><span class="sd">            atlas_dirpath: path of directory to save files to.</span>
-</span><span id="Atlas.save-61"><a href="#Atlas.save-61"><span class="linenos">61</span></a>
-</span><span id="Atlas.save-62"><a href="#Atlas.save-62"><span class="linenos">62</span></a><span class="sd">            publications_fn: name of file to save publications to.</span>
-</span><span id="Atlas.save-63"><a href="#Atlas.save-63"><span class="linenos">63</span></a>
-</span><span id="Atlas.save-64"><a href="#Atlas.save-64"><span class="linenos">64</span></a><span class="sd">            projection_fn: name of file to save projection to.</span>
-</span><span id="Atlas.save-65"><a href="#Atlas.save-65"><span class="linenos">65</span></a>
-</span><span id="Atlas.save-66"><a href="#Atlas.save-66"><span class="linenos">66</span></a><span class="sd">            overwrite_publications: whether to overwrite an existing publications file.</span>
-</span><span id="Atlas.save-67"><a href="#Atlas.save-67"><span class="linenos">67</span></a>
-</span><span id="Atlas.save-68"><a href="#Atlas.save-68"><span class="linenos">68</span></a><span class="sd">            overwrite_projection: whether to overwrite an existing projection file.</span>
-</span><span id="Atlas.save-69"><a href="#Atlas.save-69"><span class="linenos">69</span></a>
-</span><span id="Atlas.save-70"><a href="#Atlas.save-70"><span class="linenos">70</span></a><span class="sd">        &quot;&quot;&quot;</span>
-</span><span id="Atlas.save-71"><a href="#Atlas.save-71"><span class="linenos">71</span></a>        <span class="c1"># save publications</span>
-</span><span id="Atlas.save-72"><a href="#Atlas.save-72"><span class="linenos">72</span></a>        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">publications</span> <span class="ow">and</span> <span class="n">overwrite_publications</span><span class="p">:</span>
-</span><span id="Atlas.save-73"><a href="#Atlas.save-73"><span class="linenos">73</span></a>            <span class="n">fp</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">atlas_dirpath</span><span class="p">,</span> <span class="n">publications_fn</span><span class="p">)</span>
-</span><span id="Atlas.save-74"><a href="#Atlas.save-74"><span class="linenos">74</span></a>            <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">isfile</span><span class="p">(</span><span class="n">fp</span><span class="p">):</span>
-</span><span id="Atlas.save-75"><a href="#Atlas.save-75"><span class="linenos">75</span></a>                <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Overwriting existing file at </span><span class="si">{</span><span class="n">fp</span><span class="si">}</span><span class="s2">.&quot;</span><span class="p">)</span>
-</span><span id="Atlas.save-76"><a href="#Atlas.save-76"><span class="linenos">76</span></a>            <span class="n">write_pickle</span><span class="p">(</span>
-</span><span id="Atlas.save-77"><a href="#Atlas.save-77"><span class="linenos">77</span></a>                <span class="n">fp</span><span class="p">,</span> <span class="nb">list</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">values</span><span class="p">())</span>
-</span><span id="Atlas.save-78"><a href="#Atlas.save-78"><span class="linenos">78</span></a>            <span class="p">)</span>  <span class="c1"># write the list version to be consistent with load and constructor</span>
-</span><span id="Atlas.save-79"><a href="#Atlas.save-79"><span class="linenos">79</span></a>        <span class="k">else</span><span class="p">:</span>
-</span><span id="Atlas.save-80"><a href="#Atlas.save-80"><span class="linenos">80</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="s2">&quot;No publications to save, skipping.&quot;</span><span class="p">)</span>
-</span><span id="Atlas.save-81"><a href="#Atlas.save-81"><span class="linenos">81</span></a>
-</span><span id="Atlas.save-82"><a href="#Atlas.save-82"><span class="linenos">82</span></a>        <span class="c1"># save projection</span>
-</span><span id="Atlas.save-83"><a href="#Atlas.save-83"><span class="linenos">83</span></a>        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">projection</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">overwrite_projection</span><span class="p">:</span>
-</span><span id="Atlas.save-84"><a href="#Atlas.save-84"><span class="linenos">84</span></a>            <span class="n">fp</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">atlas_dirpath</span><span class="p">,</span> <span class="n">projection_fn</span><span class="p">)</span>
-</span><span id="Atlas.save-85"><a href="#Atlas.save-85"><span class="linenos">85</span></a>            <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">isfile</span><span class="p">(</span><span class="n">fp</span><span class="p">):</span>
-</span><span id="Atlas.save-86"><a href="#Atlas.save-86"><span class="linenos">86</span></a>                <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Overwriting existing file at </span><span class="si">{</span><span class="n">fp</span><span class="si">}</span><span class="s2">.&quot;</span><span class="p">)</span>
-</span><span id="Atlas.save-87"><a href="#Atlas.save-87"><span class="linenos">87</span></a>            <span class="n">write_pickle</span><span class="p">(</span><span class="n">fp</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">projection</span><span class="p">)</span>
-</span><span id="Atlas.save-88"><a href="#Atlas.save-88"><span class="linenos">88</span></a>        <span class="k">else</span><span class="p">:</span>
-</span><span id="Atlas.save-89"><a href="#Atlas.save-89"><span class="linenos">89</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="s2">&quot;No projection to save, skipping.&quot;</span><span class="p">)</span>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="Atlas.save-69"><a href="#Atlas.save-69"><span class="linenos"> 69</span></a>    <span class="k">def</span> <span class="nf">save</span><span class="p">(</span>
+</span><span id="Atlas.save-70"><a href="#Atlas.save-70"><span class="linenos"> 70</span></a>        <span class="bp">self</span><span class="p">,</span>
+</span><span id="Atlas.save-71"><a href="#Atlas.save-71"><span class="linenos"> 71</span></a>        <span class="n">atlas_dirpath</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+</span><span id="Atlas.save-72"><a href="#Atlas.save-72"><span class="linenos"> 72</span></a>        <span class="n">overwrite</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+</span><span id="Atlas.save-73"><a href="#Atlas.save-73"><span class="linenos"> 73</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Atlas.save-74"><a href="#Atlas.save-74"><span class="linenos"> 74</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Write the Atlas to a directory containing a .pkl binary for each attribute.</span>
+</span><span id="Atlas.save-75"><a href="#Atlas.save-75"><span class="linenos"> 75</span></a>
+</span><span id="Atlas.save-76"><a href="#Atlas.save-76"><span class="linenos"> 76</span></a><span class="sd">        Warnings cannot be silenced.</span>
+</span><span id="Atlas.save-77"><a href="#Atlas.save-77"><span class="linenos"> 77</span></a>
+</span><span id="Atlas.save-78"><a href="#Atlas.save-78"><span class="linenos"> 78</span></a><span class="sd">        Args:</span>
+</span><span id="Atlas.save-79"><a href="#Atlas.save-79"><span class="linenos"> 79</span></a><span class="sd">            atlas_dirpath: path of directory to save files to.</span>
+</span><span id="Atlas.save-80"><a href="#Atlas.save-80"><span class="linenos"> 80</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="Atlas.save-81"><a href="#Atlas.save-81"><span class="linenos"> 81</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">overwrite</span><span class="p">:</span>
+</span><span id="Atlas.save-82"><a href="#Atlas.save-82"><span class="linenos"> 82</span></a>            <span class="k">return</span>
+</span><span id="Atlas.save-83"><a href="#Atlas.save-83"><span class="linenos"> 83</span></a>
+</span><span id="Atlas.save-84"><a href="#Atlas.save-84"><span class="linenos"> 84</span></a>        <span class="n">attributes</span> <span class="o">=</span> <span class="p">{</span>
+</span><span id="Atlas.save-85"><a href="#Atlas.save-85"><span class="linenos"> 85</span></a>            <span class="n">k</span><span class="p">:</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">k</span><span class="p">)</span>
+</span><span id="Atlas.save-86"><a href="#Atlas.save-86"><span class="linenos"> 86</span></a>            <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="p">[</span>
+</span><span id="Atlas.save-87"><a href="#Atlas.save-87"><span class="linenos"> 87</span></a>                <span class="s2">&quot;publications&quot;</span><span class="p">,</span>
+</span><span id="Atlas.save-88"><a href="#Atlas.save-88"><span class="linenos"> 88</span></a>                <span class="s2">&quot;projection&quot;</span><span class="p">,</span>
+</span><span id="Atlas.save-89"><a href="#Atlas.save-89"><span class="linenos"> 89</span></a>                <span class="s2">&quot;bad_ids&quot;</span><span class="p">,</span>
+</span><span id="Atlas.save-90"><a href="#Atlas.save-90"><span class="linenos"> 90</span></a>                <span class="s2">&quot;history&quot;</span><span class="p">,</span>
+</span><span id="Atlas.save-91"><a href="#Atlas.save-91"><span class="linenos"> 91</span></a>            <span class="p">]</span>
+</span><span id="Atlas.save-92"><a href="#Atlas.save-92"><span class="linenos"> 92</span></a>        <span class="p">}</span>
+</span><span id="Atlas.save-93"><a href="#Atlas.save-93"><span class="linenos"> 93</span></a>
+</span><span id="Atlas.save-94"><a href="#Atlas.save-94"><span class="linenos"> 94</span></a>        <span class="k">for</span> <span class="n">attribute</span> <span class="ow">in</span> <span class="n">attributes</span><span class="p">:</span>
+</span><span id="Atlas.save-95"><a href="#Atlas.save-95"><span class="linenos"> 95</span></a>            <span class="k">if</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">attribute</span><span class="p">)</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Atlas.save-96"><a href="#Atlas.save-96"><span class="linenos"> 96</span></a>                <span class="c1"># write the list version to be consistent with load and constructor</span>
+</span><span id="Atlas.save-97"><a href="#Atlas.save-97"><span class="linenos"> 97</span></a>                <span class="k">if</span> <span class="n">attribute</span> <span class="o">==</span> <span class="s2">&quot;publications&quot;</span><span class="p">:</span>
+</span><span id="Atlas.save-98"><a href="#Atlas.save-98"><span class="linenos"> 98</span></a>                    <span class="n">attributes</span><span class="p">[</span><span class="n">attribute</span><span class="p">]</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">values</span><span class="p">())</span>
+</span><span id="Atlas.save-99"><a href="#Atlas.save-99"><span class="linenos"> 99</span></a>
+</span><span id="Atlas.save-100"><a href="#Atlas.save-100"><span class="linenos">100</span></a>                <span class="n">fn</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">attribute</span><span class="si">}</span><span class="s2">.pkl&quot;</span>
+</span><span id="Atlas.save-101"><a href="#Atlas.save-101"><span class="linenos">101</span></a>                <span class="n">fp</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">atlas_dirpath</span><span class="p">,</span> <span class="n">fn</span><span class="p">)</span>
+</span><span id="Atlas.save-102"><a href="#Atlas.save-102"><span class="linenos">102</span></a>                <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">isfile</span><span class="p">(</span><span class="n">fp</span><span class="p">):</span>
+</span><span id="Atlas.save-103"><a href="#Atlas.save-103"><span class="linenos">103</span></a>                    <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Overwriting existing file at </span><span class="si">{</span><span class="n">fp</span><span class="si">}</span><span class="s2">.&quot;</span><span class="p">)</span>
+</span><span id="Atlas.save-104"><a href="#Atlas.save-104"><span class="linenos">104</span></a>                <span class="n">write_pickle</span><span class="p">(</span><span class="n">fp</span><span class="p">,</span> <span class="n">attributes</span><span class="p">[</span><span class="n">attribute</span><span class="p">])</span>
+</span><span id="Atlas.save-105"><a href="#Atlas.save-105"><span class="linenos">105</span></a>            <span class="k">else</span><span class="p">:</span>
+</span><span id="Atlas.save-106"><a href="#Atlas.save-106"><span class="linenos">106</span></a>                <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;No </span><span class="si">{</span><span class="n">attribute</span><span class="si">}</span><span class="s2"> to save, skipping.&quot;</span><span class="p">)</span>
 </span></pre></div>
 
 
-            <div class="docstring"><p>Write the Atlas to a directory containing a CSV file of publications and a .npy file of embeddings.</p>
+            <div class="docstring"><p>Write the Atlas to a directory containing a .pkl binary for each attribute.</p>
 
-<p>Write the Atlas to a directory containing a .pkl file of publications and a .pkl file of the projection.</p>
+<p>Warnings cannot be silenced.</p>
 
 <h6 id="arguments">Arguments:</h6>
 
 <ul>
 <li><strong>atlas_dirpath:</strong>  path of directory to save files to.</li>
-<li><strong>publications_fn:</strong>  name of file to save publications to.</li>
-<li><strong>projection_fn:</strong>  name of file to save projection to.</li>
-<li><strong>overwrite_publications:</strong>  whether to overwrite an existing publications file.</li>
-<li><strong>overwrite_projection:</strong>  whether to overwrite an existing projection file.</li>
 </ul>
 </div>
 
@@ -520,65 +596,58 @@ <h6 id="arguments">Arguments:</h6>
                     <div class="decorator">@classmethod</div>
 
         <span class="def">def</span>
-        <span class="name">load</span><span class="signature pdoc-code multiline">(<span class="param">	<span class="bp">cls</span>,</span><span class="param">	<span class="n">atlas_dirpath</span><span class="p">:</span> <span class="nb">str</span>,</span><span class="param">	<span class="n">publications_fn</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;publications.pkl&#39;</span>,</span><span class="param">	<span class="n">projection_fn</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;projection.pkl&#39;</span>,</span><span class="param">	<span class="o">**</span><span class="n">kwargs</span></span><span class="return-annotation">):</span></span>
+        <span class="name">load</span><span class="signature pdoc-code condensed">(<span class="param"><span class="bp">cls</span>, </span><span class="param"><span class="n">atlas_dirpath</span><span class="p">:</span> <span class="nb">str</span></span><span class="return-annotation">):</span></span>
 
                 <label class="view-source-button" for="Atlas.load-view-source"><span>View Source</span></label>
 
     </div>
     <a class="headerlink" href="#Atlas.load"></a>
-            <div class="pdoc-code codehilite"><pre><span></span><span id="Atlas.load-91"><a href="#Atlas.load-91"><span class="linenos"> 91</span></a>    <span class="nd">@classmethod</span>
-</span><span id="Atlas.load-92"><a href="#Atlas.load-92"><span class="linenos"> 92</span></a>    <span class="k">def</span> <span class="nf">load</span><span class="p">(</span>
-</span><span id="Atlas.load-93"><a href="#Atlas.load-93"><span class="linenos"> 93</span></a>        <span class="bp">cls</span><span class="p">,</span>
-</span><span id="Atlas.load-94"><a href="#Atlas.load-94"><span class="linenos"> 94</span></a>        <span class="n">atlas_dirpath</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
-</span><span id="Atlas.load-95"><a href="#Atlas.load-95"><span class="linenos"> 95</span></a>        <span class="n">publications_fn</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;publications.pkl&quot;</span><span class="p">,</span>
-</span><span id="Atlas.load-96"><a href="#Atlas.load-96"><span class="linenos"> 96</span></a>        <span class="n">projection_fn</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;projection.pkl&quot;</span><span class="p">,</span>
-</span><span id="Atlas.load-97"><a href="#Atlas.load-97"><span class="linenos"> 97</span></a>        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
-</span><span id="Atlas.load-98"><a href="#Atlas.load-98"><span class="linenos"> 98</span></a>    <span class="p">):</span>
-</span><span id="Atlas.load-99"><a href="#Atlas.load-99"><span class="linenos"> 99</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Load an Atlas object from a directory containing publications and/or their projection.</span>
-</span><span id="Atlas.load-100"><a href="#Atlas.load-100"><span class="linenos">100</span></a>
-</span><span id="Atlas.load-101"><a href="#Atlas.load-101"><span class="linenos">101</span></a><span class="sd">        Args:</span>
-</span><span id="Atlas.load-102"><a href="#Atlas.load-102"><span class="linenos">102</span></a><span class="sd">            atlas_dirpath: file with vocab, assumed output from `save_to_file`</span>
-</span><span id="Atlas.load-103"><a href="#Atlas.load-103"><span class="linenos">103</span></a>
-</span><span id="Atlas.load-104"><a href="#Atlas.load-104"><span class="linenos">104</span></a><span class="sd">            publications_fn: name of file to load publications from.</span>
-</span><span id="Atlas.load-105"><a href="#Atlas.load-105"><span class="linenos">105</span></a>
-</span><span id="Atlas.load-106"><a href="#Atlas.load-106"><span class="linenos">106</span></a><span class="sd">            projection_fn: name of file to load projection from.</span>
-</span><span id="Atlas.load-107"><a href="#Atlas.load-107"><span class="linenos">107</span></a><span class="sd">        &quot;&quot;&quot;</span>
-</span><span id="Atlas.load-108"><a href="#Atlas.load-108"><span class="linenos">108</span></a>
-</span><span id="Atlas.load-109"><a href="#Atlas.load-109"><span class="linenos">109</span></a>        <span class="c1"># load publications</span>
-</span><span id="Atlas.load-110"><a href="#Atlas.load-110"><span class="linenos">110</span></a>        <span class="n">fp</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">atlas_dirpath</span><span class="p">,</span> <span class="n">publications_fn</span><span class="p">)</span>
-</span><span id="Atlas.load-111"><a href="#Atlas.load-111"><span class="linenos">111</span></a>        <span class="n">publications</span> <span class="o">=</span> <span class="kc">None</span>
-</span><span id="Atlas.load-112"><a href="#Atlas.load-112"><span class="linenos">112</span></a>        <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">isfile</span><span class="p">(</span><span class="n">fp</span><span class="p">):</span>
-</span><span id="Atlas.load-113"><a href="#Atlas.load-113"><span class="linenos">113</span></a>            <span class="n">publications</span> <span class="o">=</span> <span class="n">read_pickle</span><span class="p">(</span><span class="n">fp</span><span class="p">)</span>
-</span><span id="Atlas.load-114"><a href="#Atlas.load-114"><span class="linenos">114</span></a>        <span class="k">else</span><span class="p">:</span>
-</span><span id="Atlas.load-115"><a href="#Atlas.load-115"><span class="linenos">115</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="s2">&quot;No publications to read, skipping.&quot;</span><span class="p">)</span>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="Atlas.load-108"><a href="#Atlas.load-108"><span class="linenos">108</span></a>    <span class="nd">@classmethod</span>
+</span><span id="Atlas.load-109"><a href="#Atlas.load-109"><span class="linenos">109</span></a>    <span class="k">def</span> <span class="nf">load</span><span class="p">(</span>
+</span><span id="Atlas.load-110"><a href="#Atlas.load-110"><span class="linenos">110</span></a>        <span class="bp">cls</span><span class="p">,</span>
+</span><span id="Atlas.load-111"><a href="#Atlas.load-111"><span class="linenos">111</span></a>        <span class="n">atlas_dirpath</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+</span><span id="Atlas.load-112"><a href="#Atlas.load-112"><span class="linenos">112</span></a>    <span class="p">):</span>
+</span><span id="Atlas.load-113"><a href="#Atlas.load-113"><span class="linenos">113</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Load an Atlas object from a directory containing the .pkl binary for each attribute.</span>
+</span><span id="Atlas.load-114"><a href="#Atlas.load-114"><span class="linenos">114</span></a>
+</span><span id="Atlas.load-115"><a href="#Atlas.load-115"><span class="linenos">115</span></a><span class="sd">        Warnings cannot be silenced.</span>
 </span><span id="Atlas.load-116"><a href="#Atlas.load-116"><span class="linenos">116</span></a>
-</span><span id="Atlas.load-117"><a href="#Atlas.load-117"><span class="linenos">117</span></a>        <span class="c1"># load projection</span>
-</span><span id="Atlas.load-118"><a href="#Atlas.load-118"><span class="linenos">118</span></a>        <span class="n">fp</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">atlas_dirpath</span><span class="p">,</span> <span class="n">projection_fn</span><span class="p">)</span>
-</span><span id="Atlas.load-119"><a href="#Atlas.load-119"><span class="linenos">119</span></a>        <span class="n">projection</span> <span class="o">=</span> <span class="kc">None</span>
-</span><span id="Atlas.load-120"><a href="#Atlas.load-120"><span class="linenos">120</span></a>        <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">isfile</span><span class="p">(</span><span class="n">fp</span><span class="p">):</span>
-</span><span id="Atlas.load-121"><a href="#Atlas.load-121"><span class="linenos">121</span></a>            <span class="n">projection</span> <span class="o">=</span> <span class="n">read_pickle</span><span class="p">(</span><span class="n">fp</span><span class="p">)</span>
-</span><span id="Atlas.load-122"><a href="#Atlas.load-122"><span class="linenos">122</span></a>        <span class="k">else</span><span class="p">:</span>
-</span><span id="Atlas.load-123"><a href="#Atlas.load-123"><span class="linenos">123</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="s2">&quot;No projection to read, skipping.&quot;</span><span class="p">)</span>
-</span><span id="Atlas.load-124"><a href="#Atlas.load-124"><span class="linenos">124</span></a>
-</span><span id="Atlas.load-125"><a href="#Atlas.load-125"><span class="linenos">125</span></a>        <span class="k">if</span> <span class="n">publications</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="Atlas.load-126"><a href="#Atlas.load-126"><span class="linenos">126</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="s2">&quot;Loading empty atlas.&quot;</span><span class="p">)</span>
-</span><span id="Atlas.load-127"><a href="#Atlas.load-127"><span class="linenos">127</span></a>            <span class="n">publications</span> <span class="o">=</span> <span class="nb">list</span><span class="p">()</span>
-</span><span id="Atlas.load-128"><a href="#Atlas.load-128"><span class="linenos">128</span></a>
-</span><span id="Atlas.load-129"><a href="#Atlas.load-129"><span class="linenos">129</span></a>        <span class="k">return</span> <span class="bp">cls</span><span class="p">(</span>
-</span><span id="Atlas.load-130"><a href="#Atlas.load-130"><span class="linenos">130</span></a>            <span class="n">publications</span><span class="p">,</span>
-</span><span id="Atlas.load-131"><a href="#Atlas.load-131"><span class="linenos">131</span></a>            <span class="n">projection</span><span class="p">,</span>
-</span><span id="Atlas.load-132"><a href="#Atlas.load-132"><span class="linenos">132</span></a>        <span class="p">)</span>
+</span><span id="Atlas.load-117"><a href="#Atlas.load-117"><span class="linenos">117</span></a><span class="sd">        Args:</span>
+</span><span id="Atlas.load-118"><a href="#Atlas.load-118"><span class="linenos">118</span></a><span class="sd">            atlas_dirpath: directory where .pkl binaries will be read from</span>
+</span><span id="Atlas.load-119"><a href="#Atlas.load-119"><span class="linenos">119</span></a>
+</span><span id="Atlas.load-120"><a href="#Atlas.load-120"><span class="linenos">120</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="Atlas.load-121"><a href="#Atlas.load-121"><span class="linenos">121</span></a>        <span class="n">attributes</span> <span class="o">=</span> <span class="p">{</span>
+</span><span id="Atlas.load-122"><a href="#Atlas.load-122"><span class="linenos">122</span></a>            <span class="n">k</span><span class="p">:</span> <span class="kc">None</span>
+</span><span id="Atlas.load-123"><a href="#Atlas.load-123"><span class="linenos">123</span></a>            <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="p">[</span>
+</span><span id="Atlas.load-124"><a href="#Atlas.load-124"><span class="linenos">124</span></a>                <span class="s2">&quot;publications&quot;</span><span class="p">,</span>
+</span><span id="Atlas.load-125"><a href="#Atlas.load-125"><span class="linenos">125</span></a>                <span class="s2">&quot;projection&quot;</span><span class="p">,</span>
+</span><span id="Atlas.load-126"><a href="#Atlas.load-126"><span class="linenos">126</span></a>                <span class="s2">&quot;bad_ids&quot;</span><span class="p">,</span>
+</span><span id="Atlas.load-127"><a href="#Atlas.load-127"><span class="linenos">127</span></a>                <span class="s2">&quot;history&quot;</span><span class="p">,</span>
+</span><span id="Atlas.load-128"><a href="#Atlas.load-128"><span class="linenos">128</span></a>            <span class="p">]</span>
+</span><span id="Atlas.load-129"><a href="#Atlas.load-129"><span class="linenos">129</span></a>        <span class="p">}</span>
+</span><span id="Atlas.load-130"><a href="#Atlas.load-130"><span class="linenos">130</span></a>        <span class="k">for</span> <span class="n">attribute</span> <span class="ow">in</span> <span class="n">attributes</span><span class="p">:</span>
+</span><span id="Atlas.load-131"><a href="#Atlas.load-131"><span class="linenos">131</span></a>            <span class="n">fn</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">attribute</span><span class="si">}</span><span class="s2">.pkl&quot;</span>
+</span><span id="Atlas.load-132"><a href="#Atlas.load-132"><span class="linenos">132</span></a>            <span class="n">fp</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">atlas_dirpath</span><span class="p">,</span> <span class="n">fn</span><span class="p">)</span>
+</span><span id="Atlas.load-133"><a href="#Atlas.load-133"><span class="linenos">133</span></a>            <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">isfile</span><span class="p">(</span><span class="n">fp</span><span class="p">):</span>
+</span><span id="Atlas.load-134"><a href="#Atlas.load-134"><span class="linenos">134</span></a>                <span class="n">attributes</span><span class="p">[</span><span class="n">attribute</span><span class="p">]</span> <span class="o">=</span> <span class="n">read_pickle</span><span class="p">(</span><span class="n">fp</span><span class="p">)</span>
+</span><span id="Atlas.load-135"><a href="#Atlas.load-135"><span class="linenos">135</span></a>            <span class="k">else</span><span class="p">:</span>
+</span><span id="Atlas.load-136"><a href="#Atlas.load-136"><span class="linenos">136</span></a>                <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;No </span><span class="si">{</span><span class="n">attribute</span><span class="si">}</span><span class="s2"> to read, skipping.&quot;</span><span class="p">)</span>
+</span><span id="Atlas.load-137"><a href="#Atlas.load-137"><span class="linenos">137</span></a>
+</span><span id="Atlas.load-138"><a href="#Atlas.load-138"><span class="linenos">138</span></a>        <span class="k">if</span> <span class="n">attributes</span><span class="p">[</span><span class="s2">&quot;publications&quot;</span><span class="p">]</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Atlas.load-139"><a href="#Atlas.load-139"><span class="linenos">139</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="s2">&quot;Loading empty atlas.&quot;</span><span class="p">)</span>
+</span><span id="Atlas.load-140"><a href="#Atlas.load-140"><span class="linenos">140</span></a>            <span class="n">attributes</span><span class="p">[</span><span class="s2">&quot;publications&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="nb">list</span><span class="p">()</span>
+</span><span id="Atlas.load-141"><a href="#Atlas.load-141"><span class="linenos">141</span></a>
+</span><span id="Atlas.load-142"><a href="#Atlas.load-142"><span class="linenos">142</span></a>        <span class="k">return</span> <span class="bp">cls</span><span class="p">(</span><span class="o">**</span><span class="p">{</span><span class="n">k</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">attributes</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span> <span class="n">v</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">})</span>
 </span></pre></div>
 
 
-            <div class="docstring"><p>Load an Atlas object from a directory containing publications and/or their projection.</p>
+            <div class="docstring"><p>Load an Atlas object from a directory containing the .pkl binary for each attribute.</p>
+
+<p>Warnings cannot be silenced.</p>
 
 <h6 id="arguments">Arguments:</h6>
 
 <ul>
-<li><strong>atlas_dirpath:</strong>  file with vocab, assumed output from <code>save_to_file</code></li>
-<li><strong>publications_fn:</strong>  name of file to load publications from.</li>
-<li><strong>projection_fn:</strong>  name of file to load projection from.</li>
+<li><strong>atlas_dirpath:</strong>  directory where .pkl binaries will be read from</li>
 </ul>
 </div>
 
diff --git a/docs/sciterra/mapping/cartography.html b/docs/sciterra/mapping/cartography.html
index 366a970..0d57cc7 100644
--- a/docs/sciterra/mapping/cartography.html
+++ b/docs/sciterra/mapping/cartography.html
@@ -52,6 +52,9 @@
 
             <h2>API Documentation</h2>
                 <ul class="memberlist">
+            <li>
+                    <a class="function" href="#batch_cospsi_matrix">batch_cospsi_matrix</a>
+            </li>
             <li>
                     <a class="class" href="#Cartographer">Cartographer</a>
                             <ul class="memberlist">
@@ -64,6 +67,12 @@ <h2>API Documentation</h2>
                         <li>
                                 <a class="variable" href="#Cartographer.vectorizer">vectorizer</a>
                         </li>
+                        <li>
+                                <a class="variable" href="#Cartographer.pubs_per_update">pubs_per_update</a>
+                        </li>
+                        <li>
+                                <a class="variable" href="#Cartographer.update_history">update_history</a>
+                        </li>
                         <li>
                                 <a class="function" href="#Cartographer.bibtex_to_atlas">bibtex_to_atlas</a>
                         </li>
@@ -74,11 +83,29 @@ <h2>API Documentation</h2>
                                 <a class="function" href="#Cartographer.expand">expand</a>
                         </li>
                         <li>
-                                <a class="function" href="#Cartographer.filter">filter</a>
+                                <a class="function" href="#Cartographer.filter_by_attributes">filter_by_attributes</a>
+                        </li>
+                        <li>
+                                <a class="function" href="#Cartographer.filter_by_ids">filter_by_ids</a>
+                        </li>
+                        <li>
+                                <a class="function" href="#Cartographer.track">track</a>
+                        </li>
+                        <li>
+                                <a class="function" href="#Cartographer.record_update_history">record_update_history</a>
+                        </li>
+                        <li>
+                                <a class="function" href="#Cartographer.converged_kernel_size">converged_kernel_size</a>
+                        </li>
+                        <li>
+                                <a class="function" href="#Cartographer.measure_topography">measure_topography</a>
                         </li>
                 </ul>
 
             </li>
+            <li>
+                    <a class="function" href="#iterate_expand">iterate_expand</a>
+            </li>
     </ul>
 
 
@@ -105,299 +132,817 @@ <h1 class="modulename">
                         <div class="pdoc-code codehilite"><pre><span></span><span id="L-1"><a href="#L-1"><span class="linenos">  1</span></a><span class="sd">&quot;&quot;&quot;Functions for manipulating an atlas based on the document embeddings of the abstracts of its publications.&quot;&quot;&quot;</span>
 </span><span id="L-2"><a href="#L-2"><span class="linenos">  2</span></a>
 </span><span id="L-3"><a href="#L-3"><span class="linenos">  3</span></a><span class="kn">import</span> <span class="nn">bibtexparser</span>
-</span><span id="L-4"><a href="#L-4"><span class="linenos">  4</span></a><span class="kn">import</span> <span class="nn">warnings</span>
-</span><span id="L-5"><a href="#L-5"><span class="linenos">  5</span></a>
-</span><span id="L-6"><a href="#L-6"><span class="linenos">  6</span></a><span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
-</span><span id="L-7"><a href="#L-7"><span class="linenos">  7</span></a>
-</span><span id="L-8"><a href="#L-8"><span class="linenos">  8</span></a><span class="kn">from</span> <span class="nn">.atlas</span> <span class="kn">import</span> <span class="n">Atlas</span>
-</span><span id="L-9"><a href="#L-9"><span class="linenos">  9</span></a><span class="kn">from</span> <span class="nn">..librarians.librarian</span> <span class="kn">import</span> <span class="n">Librarian</span>
-</span><span id="L-10"><a href="#L-10"><span class="linenos"> 10</span></a><span class="kn">from</span> <span class="nn">..vectorization.vectorizer</span> <span class="kn">import</span> <span class="n">Vectorizer</span>
-</span><span id="L-11"><a href="#L-11"><span class="linenos"> 11</span></a><span class="kn">from</span> <span class="nn">..vectorization.projection</span> <span class="kn">import</span> <span class="n">Projection</span><span class="p">,</span> <span class="n">merge</span>
-</span><span id="L-12"><a href="#L-12"><span class="linenos"> 12</span></a>
-</span><span id="L-13"><a href="#L-13"><span class="linenos"> 13</span></a><span class="kn">from</span> <span class="nn">sklearn.metrics.pairwise</span> <span class="kn">import</span> <span class="n">cosine_similarity</span>
-</span><span id="L-14"><a href="#L-14"><span class="linenos"> 14</span></a>
+</span><span id="L-4"><a href="#L-4"><span class="linenos">  4</span></a><span class="kn">import</span> <span class="nn">inspect</span>
+</span><span id="L-5"><a href="#L-5"><span class="linenos">  5</span></a><span class="kn">import</span> <span class="nn">warnings</span>
+</span><span id="L-6"><a href="#L-6"><span class="linenos">  6</span></a>
+</span><span id="L-7"><a href="#L-7"><span class="linenos">  7</span></a><span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
+</span><span id="L-8"><a href="#L-8"><span class="linenos">  8</span></a>
+</span><span id="L-9"><a href="#L-9"><span class="linenos">  9</span></a><span class="kn">from</span> <span class="nn">.</span> <span class="kn">import</span> <span class="n">topography</span>
+</span><span id="L-10"><a href="#L-10"><span class="linenos"> 10</span></a><span class="kn">from</span> <span class="nn">.atlas</span> <span class="kn">import</span> <span class="n">Atlas</span>
+</span><span id="L-11"><a href="#L-11"><span class="linenos"> 11</span></a><span class="kn">from</span> <span class="nn">..librarians.librarian</span> <span class="kn">import</span> <span class="n">Librarian</span>
+</span><span id="L-12"><a href="#L-12"><span class="linenos"> 12</span></a><span class="kn">from</span> <span class="nn">..vectorization.vectorizer</span> <span class="kn">import</span> <span class="n">Vectorizer</span>
+</span><span id="L-13"><a href="#L-13"><span class="linenos"> 13</span></a><span class="kn">from</span> <span class="nn">..vectorization.projection</span> <span class="kn">import</span> <span class="n">Projection</span><span class="p">,</span> <span class="n">merge</span><span class="p">,</span> <span class="n">get_empty_projection</span>
+</span><span id="L-14"><a href="#L-14"><span class="linenos"> 14</span></a><span class="kn">from</span> <span class="nn">..misc.utils</span> <span class="kn">import</span> <span class="n">get_verbose</span><span class="p">,</span> <span class="n">custom_formatwarning</span>
 </span><span id="L-15"><a href="#L-15"><span class="linenos"> 15</span></a>
-</span><span id="L-16"><a href="#L-16"><span class="linenos"> 16</span></a><span class="k">class</span> <span class="nc">Cartographer</span><span class="p">:</span>
-</span><span id="L-17"><a href="#L-17"><span class="linenos"> 17</span></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;A basic wrapper for obtaining and updating atlas projections.&quot;&quot;&quot;</span>
-</span><span id="L-18"><a href="#L-18"><span class="linenos"> 18</span></a>
-</span><span id="L-19"><a href="#L-19"><span class="linenos"> 19</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
-</span><span id="L-20"><a href="#L-20"><span class="linenos"> 20</span></a>        <span class="bp">self</span><span class="p">,</span>
-</span><span id="L-21"><a href="#L-21"><span class="linenos"> 21</span></a>        <span class="n">librarian</span><span class="p">:</span> <span class="n">Librarian</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-</span><span id="L-22"><a href="#L-22"><span class="linenos"> 22</span></a>        <span class="n">vectorizer</span><span class="p">:</span> <span class="n">Vectorizer</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-</span><span id="L-23"><a href="#L-23"><span class="linenos"> 23</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="L-24"><a href="#L-24"><span class="linenos"> 24</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">librarian</span> <span class="o">=</span> <span class="n">librarian</span>
-</span><span id="L-25"><a href="#L-25"><span class="linenos"> 25</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">vectorizer</span> <span class="o">=</span> <span class="n">vectorizer</span>
+</span><span id="L-16"><a href="#L-16"><span class="linenos"> 16</span></a><span class="kn">from</span> <span class="nn">functools</span> <span class="kn">import</span> <span class="n">partial</span>
+</span><span id="L-17"><a href="#L-17"><span class="linenos"> 17</span></a><span class="kn">from</span> <span class="nn">tqdm</span> <span class="kn">import</span> <span class="n">tqdm</span>
+</span><span id="L-18"><a href="#L-18"><span class="linenos"> 18</span></a><span class="kn">from</span> <span class="nn">sklearn.metrics.pairwise</span> <span class="kn">import</span> <span class="n">cosine_similarity</span>
+</span><span id="L-19"><a href="#L-19"><span class="linenos"> 19</span></a>
+</span><span id="L-20"><a href="#L-20"><span class="linenos"> 20</span></a><span class="n">warnings</span><span class="o">.</span><span class="n">formatwarning</span> <span class="o">=</span> <span class="n">custom_formatwarning</span>
+</span><span id="L-21"><a href="#L-21"><span class="linenos"> 21</span></a>
+</span><span id="L-22"><a href="#L-22"><span class="linenos"> 22</span></a><span class="c1">##############################################################################</span>
+</span><span id="L-23"><a href="#L-23"><span class="linenos"> 23</span></a><span class="c1"># Helper function</span>
+</span><span id="L-24"><a href="#L-24"><span class="linenos"> 24</span></a><span class="c1">##############################################################################</span>
+</span><span id="L-25"><a href="#L-25"><span class="linenos"> 25</span></a>
 </span><span id="L-26"><a href="#L-26"><span class="linenos"> 26</span></a>
-</span><span id="L-27"><a href="#L-27"><span class="linenos"> 27</span></a>    <span class="c1">######################################################################</span>
-</span><span id="L-28"><a href="#L-28"><span class="linenos"> 28</span></a>    <span class="c1"># Get an Atlas from bibtex</span>
-</span><span id="L-29"><a href="#L-29"><span class="linenos"> 29</span></a>    <span class="c1">######################################################################</span>
-</span><span id="L-30"><a href="#L-30"><span class="linenos"> 30</span></a>
-</span><span id="L-31"><a href="#L-31"><span class="linenos"> 31</span></a>    <span class="k">def</span> <span class="nf">bibtex_to_atlas</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">bibtex_fp</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Atlas</span><span class="p">:</span>
-</span><span id="L-32"><a href="#L-32"><span class="linenos"> 32</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Convert a bibtex file to an atlas, by parsing each entry for an identifier, and querying an API for publications using `self.librarian`.</span>
-</span><span id="L-33"><a href="#L-33"><span class="linenos"> 33</span></a>
-</span><span id="L-34"><a href="#L-34"><span class="linenos"> 34</span></a><span class="sd">        NOTE: the identifiers in the corresponding atlas will be API-specific ids; there is no relationship between the parsed id used to query papers (e.g. &#39;DOI:XYZ&#39; in the case of SemanticScholar) and the resulting identifier associated with the resulting Publication object, (a paperId, a bibcode, etc.) Therefore, the purpose of using the `bibtex_to_atlas` method is primarily for initializing literature exploration in a human-readable way. If you want to obtain as many publications as identifiers supplied, you need to use `get_publications`.</span>
-</span><span id="L-35"><a href="#L-35"><span class="linenos"> 35</span></a>
-</span><span id="L-36"><a href="#L-36"><span class="linenos"> 36</span></a><span class="sd">        Args:</span>
-</span><span id="L-37"><a href="#L-37"><span class="linenos"> 37</span></a><span class="sd">            bibtex_fp: the filepath where the bibtex file is saved.</span>
-</span><span id="L-38"><a href="#L-38"><span class="linenos"> 38</span></a>
-</span><span id="L-39"><a href="#L-39"><span class="linenos"> 39</span></a><span class="sd">            args and kwargs are passed to `get_publications`.</span>
-</span><span id="L-40"><a href="#L-40"><span class="linenos"> 40</span></a><span class="sd">        &quot;&quot;&quot;</span>
-</span><span id="L-41"><a href="#L-41"><span class="linenos"> 41</span></a>        <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">bibtex_fp</span><span class="p">,</span> <span class="s2">&quot;r&quot;</span><span class="p">)</span> <span class="k">as</span> <span class="n">f</span><span class="p">:</span>
-</span><span id="L-42"><a href="#L-42"><span class="linenos"> 42</span></a>            <span class="n">bib_database</span> <span class="o">=</span> <span class="n">bibtexparser</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">f</span><span class="p">)</span>
-</span><span id="L-43"><a href="#L-43"><span class="linenos"> 43</span></a>
-</span><span id="L-44"><a href="#L-44"><span class="linenos"> 44</span></a>        <span class="c1"># Retrieve the identifier from each bibtex entry</span>
-</span><span id="L-45"><a href="#L-45"><span class="linenos"> 45</span></a>        <span class="n">identifiers</span> <span class="o">=</span> <span class="p">[</span>
-</span><span id="L-46"><a href="#L-46"><span class="linenos"> 46</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">librarian</span><span class="o">.</span><span class="n">bibtex_entry_identifier</span><span class="p">(</span><span class="n">entry</span><span class="p">)</span>
-</span><span id="L-47"><a href="#L-47"><span class="linenos"> 47</span></a>            <span class="k">for</span> <span class="n">entry</span> <span class="ow">in</span> <span class="n">bib_database</span><span class="o">.</span><span class="n">entries</span>
-</span><span id="L-48"><a href="#L-48"><span class="linenos"> 48</span></a>        <span class="p">]</span>
-</span><span id="L-49"><a href="#L-49"><span class="linenos"> 49</span></a>        <span class="n">identifiers</span> <span class="o">=</span> <span class="p">[</span><span class="nb">id</span> <span class="k">for</span> <span class="nb">id</span> <span class="ow">in</span> <span class="n">identifiers</span> <span class="k">if</span> <span class="nb">id</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">]</span>
-</span><span id="L-50"><a href="#L-50"><span class="linenos"> 50</span></a>        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">identifiers</span><span class="p">)</span> <span class="o">&lt;</span> <span class="nb">len</span><span class="p">(</span><span class="n">bib_database</span><span class="o">.</span><span class="n">entries</span><span class="p">):</span>
-</span><span id="L-51"><a href="#L-51"><span class="linenos"> 51</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
-</span><span id="L-52"><a href="#L-52"><span class="linenos"> 52</span></a>                <span class="sa">f</span><span class="s2">&quot;Only obtained </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">identifiers</span><span class="p">)</span><span class="si">}</span><span class="s2"> publications out of </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">bib_database</span><span class="o">.</span><span class="n">entries</span><span class="p">)</span><span class="si">}</span><span class="s2"> total due to missing identifiers.&quot;</span>
-</span><span id="L-53"><a href="#L-53"><span class="linenos"> 53</span></a>            <span class="p">)</span>
-</span><span id="L-54"><a href="#L-54"><span class="linenos"> 54</span></a>
-</span><span id="L-55"><a href="#L-55"><span class="linenos"> 55</span></a>        <span class="c1"># Query</span>
-</span><span id="L-56"><a href="#L-56"><span class="linenos"> 56</span></a>        <span class="n">results</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">librarian</span><span class="o">.</span><span class="n">get_publications</span><span class="p">(</span><span class="n">identifiers</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-</span><span id="L-57"><a href="#L-57"><span class="linenos"> 57</span></a>        <span class="c1"># Validate</span>
-</span><span id="L-58"><a href="#L-58"><span class="linenos"> 58</span></a>        <span class="n">publications</span> <span class="o">=</span> <span class="p">[</span>
-</span><span id="L-59"><a href="#L-59"><span class="linenos"> 59</span></a>            <span class="n">result</span>
-</span><span id="L-60"><a href="#L-60"><span class="linenos"> 60</span></a>            <span class="k">for</span> <span class="n">result</span> <span class="ow">in</span> <span class="n">results</span>
-</span><span id="L-61"><a href="#L-61"><span class="linenos"> 61</span></a>            <span class="k">if</span> <span class="p">(</span>
-</span><span id="L-62"><a href="#L-62"><span class="linenos"> 62</span></a>                <span class="n">result</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
-</span><span id="L-63"><a href="#L-63"><span class="linenos"> 63</span></a>                <span class="ow">and</span> <span class="n">result</span><span class="o">.</span><span class="n">publication_date</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
-</span><span id="L-64"><a href="#L-64"><span class="linenos"> 64</span></a>                <span class="ow">and</span> <span class="n">result</span><span class="o">.</span><span class="n">abstract</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
-</span><span id="L-65"><a href="#L-65"><span class="linenos"> 65</span></a>                <span class="c1"># identifier will never be none</span>
-</span><span id="L-66"><a href="#L-66"><span class="linenos"> 66</span></a>            <span class="p">)</span>
-</span><span id="L-67"><a href="#L-67"><span class="linenos"> 67</span></a>        <span class="p">]</span>
-</span><span id="L-68"><a href="#L-68"><span class="linenos"> 68</span></a>        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">publications</span><span class="p">)</span> <span class="o">&lt;</span> <span class="nb">len</span><span class="p">(</span><span class="n">identifiers</span><span class="p">):</span>
-</span><span id="L-69"><a href="#L-69"><span class="linenos"> 69</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
-</span><span id="L-70"><a href="#L-70"><span class="linenos"> 70</span></a>                <span class="sa">f</span><span class="s2">&quot;Only obtained </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">publications</span><span class="p">)</span><span class="si">}</span><span class="s2"> publications out of </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">identifiers</span><span class="p">)</span><span class="si">}</span><span class="s2"> total due to querying-related errors or missing abstracts.&quot;</span>
-</span><span id="L-71"><a href="#L-71"><span class="linenos"> 71</span></a>            <span class="p">)</span>
-</span><span id="L-72"><a href="#L-72"><span class="linenos"> 72</span></a>
-</span><span id="L-73"><a href="#L-73"><span class="linenos"> 73</span></a>        <span class="c1"># Construct atlas</span>
-</span><span id="L-74"><a href="#L-74"><span class="linenos"> 74</span></a>        <span class="n">atl</span> <span class="o">=</span> <span class="n">Atlas</span><span class="p">(</span><span class="n">publications</span><span class="p">)</span>
-</span><span id="L-75"><a href="#L-75"><span class="linenos"> 75</span></a>        <span class="k">return</span> <span class="n">atl</span>
-</span><span id="L-76"><a href="#L-76"><span class="linenos"> 76</span></a>
-</span><span id="L-77"><a href="#L-77"><span class="linenos"> 77</span></a>    <span class="c1">######################################################################</span>
-</span><span id="L-78"><a href="#L-78"><span class="linenos"> 78</span></a>    <span class="c1"># Project Atlas</span>
-</span><span id="L-79"><a href="#L-79"><span class="linenos"> 79</span></a>    <span class="c1">######################################################################</span>
-</span><span id="L-80"><a href="#L-80"><span class="linenos"> 80</span></a>
-</span><span id="L-81"><a href="#L-81"><span class="linenos"> 81</span></a>    <span class="k">def</span> <span class="nf">project</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">atl</span><span class="p">:</span> <span class="n">Atlas</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Atlas</span><span class="p">:</span>
-</span><span id="L-82"><a href="#L-82"><span class="linenos"> 82</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Update an atlas with its projection, i.e. the document embeddings for all publications using `self.vectorizer`, removing publications with no abstracts.</span>
-</span><span id="L-83"><a href="#L-83"><span class="linenos"> 83</span></a>
-</span><span id="L-84"><a href="#L-84"><span class="linenos"> 84</span></a><span class="sd">        Args:</span>
-</span><span id="L-85"><a href="#L-85"><span class="linenos"> 85</span></a><span class="sd">            atl: the Atlas containing publications to project to document embeddings</span>
-</span><span id="L-86"><a href="#L-86"><span class="linenos"> 86</span></a>
-</span><span id="L-87"><a href="#L-87"><span class="linenos"> 87</span></a><span class="sd">        Returns:</span>
-</span><span id="L-88"><a href="#L-88"><span class="linenos"> 88</span></a><span class="sd">            the updated atlas containing all nonempty-abstract-containing publications and their projection</span>
-</span><span id="L-89"><a href="#L-89"><span class="linenos"> 89</span></a><span class="sd">        &quot;&quot;&quot;</span>
-</span><span id="L-90"><a href="#L-90"><span class="linenos"> 90</span></a>        <span class="c1"># Only project publications that have abstracts</span>
-</span><span id="L-91"><a href="#L-91"><span class="linenos"> 91</span></a>        <span class="n">atl_filtered</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">filter</span><span class="p">(</span><span class="n">atl</span><span class="p">,</span> <span class="n">attributes</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;abstract&quot;</span><span class="p">])</span>
-</span><span id="L-92"><a href="#L-92"><span class="linenos"> 92</span></a>        <span class="n">invalid</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">atl</span><span class="p">)</span> <span class="o">-</span> <span class="nb">len</span><span class="p">(</span><span class="n">atl_filtered</span><span class="p">)</span>
-</span><span id="L-93"><a href="#L-93"><span class="linenos"> 93</span></a>        <span class="k">if</span> <span class="n">invalid</span><span class="p">:</span>
-</span><span id="L-94"><a href="#L-94"><span class="linenos"> 94</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
-</span><span id="L-95"><a href="#L-95"><span class="linenos"> 95</span></a>                <span class="sa">f</span><span class="s2">&quot;Some abstracts were not available. Found </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">atl_filtered</span><span class="p">)</span><span class="si">}</span><span class="s2"> nonempty abstracts out of </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">publications</span><span class="p">)</span><span class="si">}</span><span class="s2"> total publications.&quot;</span>
-</span><span id="L-96"><a href="#L-96"><span class="linenos"> 96</span></a>            <span class="p">)</span>
+</span><span id="L-27"><a href="#L-27"><span class="linenos"> 27</span></a><span class="k">def</span> <span class="nf">batch_cospsi_matrix</span><span class="p">(</span><span class="n">embeddings</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+</span><span id="L-28"><a href="#L-28"><span class="linenos"> 28</span></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Batch-process a pairwise cosine similarity matrix between embeddings.</span>
+</span><span id="L-29"><a href="#L-29"><span class="linenos"> 29</span></a>
+</span><span id="L-30"><a href="#L-30"><span class="linenos"> 30</span></a><span class="sd">    In order to avoid memory errors (e.g. bus error, segfaults) resulting from too large arrays, we batch process the construction of the cospsi_matrix.</span>
+</span><span id="L-31"><a href="#L-31"><span class="linenos"> 31</span></a>
+</span><span id="L-32"><a href="#L-32"><span class="linenos"> 32</span></a><span class="sd">    Args:</span>
+</span><span id="L-33"><a href="#L-33"><span class="linenos"> 33</span></a><span class="sd">        embeddings: a 1D numpy array of embeddings</span>
+</span><span id="L-34"><a href="#L-34"><span class="linenos"> 34</span></a>
+</span><span id="L-35"><a href="#L-35"><span class="linenos"> 35</span></a><span class="sd">    Returns:</span>
+</span><span id="L-36"><a href="#L-36"><span class="linenos"> 36</span></a><span class="sd">        cosine_similarities: a 2D numpy array representing the pairwise cosine similarity between each embedding</span>
+</span><span id="L-37"><a href="#L-37"><span class="linenos"> 37</span></a><span class="sd">    &quot;&quot;&quot;</span>
+</span><span id="L-38"><a href="#L-38"><span class="linenos"> 38</span></a>    <span class="n">batch_size</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="mi">1000</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">embeddings</span><span class="p">))</span>  <span class="c1"># Define a batch size</span>
+</span><span id="L-39"><a href="#L-39"><span class="linenos"> 39</span></a>
+</span><span id="L-40"><a href="#L-40"><span class="linenos"> 40</span></a>    <span class="n">cosine_similarities</span> <span class="o">=</span> <span class="kc">None</span>
+</span><span id="L-41"><a href="#L-41"><span class="linenos"> 41</span></a>    <span class="nb">print</span><span class="p">(</span>
+</span><span id="L-42"><a href="#L-42"><span class="linenos"> 42</span></a>        <span class="sa">f</span><span class="s2">&quot;computing cosine similarity for </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">embeddings</span><span class="p">)</span><span class="si">}</span><span class="s2"> embeddings with batch size </span><span class="si">{</span><span class="n">batch_size</span><span class="si">}</span><span class="s2">.&quot;</span>
+</span><span id="L-43"><a href="#L-43"><span class="linenos"> 43</span></a>    <span class="p">)</span>
+</span><span id="L-44"><a href="#L-44"><span class="linenos"> 44</span></a>    <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="n">tqdm</span><span class="p">(</span><span class="nb">range</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">embeddings</span><span class="p">),</span> <span class="n">batch_size</span><span class="p">)):</span>
+</span><span id="L-45"><a href="#L-45"><span class="linenos"> 45</span></a>        <span class="c1"># Process batches to compute cosine similarity</span>
+</span><span id="L-46"><a href="#L-46"><span class="linenos"> 46</span></a>        <span class="n">batch</span> <span class="o">=</span> <span class="n">embeddings</span><span class="p">[</span><span class="n">i</span> <span class="p">:</span> <span class="n">i</span> <span class="o">+</span> <span class="n">batch_size</span><span class="p">]</span>
+</span><span id="L-47"><a href="#L-47"><span class="linenos"> 47</span></a>        <span class="k">if</span> <span class="n">cosine_similarities</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="L-48"><a href="#L-48"><span class="linenos"> 48</span></a>            <span class="n">cosine_similarities</span> <span class="o">=</span> <span class="n">cosine_similarity</span><span class="p">(</span><span class="n">batch</span><span class="p">,</span> <span class="n">embeddings</span><span class="p">)</span>
+</span><span id="L-49"><a href="#L-49"><span class="linenos"> 49</span></a>        <span class="k">else</span><span class="p">:</span>
+</span><span id="L-50"><a href="#L-50"><span class="linenos"> 50</span></a>            <span class="n">cosine_similarities</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">vstack</span><span class="p">(</span>
+</span><span id="L-51"><a href="#L-51"><span class="linenos"> 51</span></a>                <span class="p">(</span><span class="n">cosine_similarities</span><span class="p">,</span> <span class="n">cosine_similarity</span><span class="p">(</span><span class="n">batch</span><span class="p">,</span> <span class="n">embeddings</span><span class="p">))</span>
+</span><span id="L-52"><a href="#L-52"><span class="linenos"> 52</span></a>            <span class="p">)</span>
+</span><span id="L-53"><a href="#L-53"><span class="linenos"> 53</span></a>
+</span><span id="L-54"><a href="#L-54"><span class="linenos"> 54</span></a>    <span class="k">return</span> <span class="n">cosine_similarities</span>
+</span><span id="L-55"><a href="#L-55"><span class="linenos"> 55</span></a>
+</span><span id="L-56"><a href="#L-56"><span class="linenos"> 56</span></a>
+</span><span id="L-57"><a href="#L-57"><span class="linenos"> 57</span></a><span class="c1">##############################################################################</span>
+</span><span id="L-58"><a href="#L-58"><span class="linenos"> 58</span></a><span class="c1"># Cartographer</span>
+</span><span id="L-59"><a href="#L-59"><span class="linenos"> 59</span></a><span class="c1">##############################################################################</span>
+</span><span id="L-60"><a href="#L-60"><span class="linenos"> 60</span></a>
+</span><span id="L-61"><a href="#L-61"><span class="linenos"> 61</span></a>
+</span><span id="L-62"><a href="#L-62"><span class="linenos"> 62</span></a><span class="k">class</span> <span class="nc">Cartographer</span><span class="p">:</span>
+</span><span id="L-63"><a href="#L-63"><span class="linenos"> 63</span></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;A basic wrapper for obtaining and updating atlas projections.</span>
+</span><span id="L-64"><a href="#L-64"><span class="linenos"> 64</span></a>
+</span><span id="L-65"><a href="#L-65"><span class="linenos"> 65</span></a><span class="sd">    `self.librarian`: the Librarian object used to query a bibliographic database API.</span>
+</span><span id="L-66"><a href="#L-66"><span class="linenos"> 66</span></a><span class="sd">    `self.vectorizer`: the Vectorizer object used to get a document embedding for each abstract</span>
+</span><span id="L-67"><a href="#L-67"><span class="linenos"> 67</span></a><span class="sd">    `self.pubs_per_update`: a list of lists of publication str ids, representing the publications that exist at each time step / expansion update.</span>
+</span><span id="L-68"><a href="#L-68"><span class="linenos"> 68</span></a><span class="sd">    `self.update_history`: an np.array of ints representing when publications were added. A value of -2 indicates no record of being added.</span>
+</span><span id="L-69"><a href="#L-69"><span class="linenos"> 69</span></a><span class="sd">    &quot;&quot;&quot;</span>
+</span><span id="L-70"><a href="#L-70"><span class="linenos"> 70</span></a>
+</span><span id="L-71"><a href="#L-71"><span class="linenos"> 71</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+</span><span id="L-72"><a href="#L-72"><span class="linenos"> 72</span></a>        <span class="bp">self</span><span class="p">,</span>
+</span><span id="L-73"><a href="#L-73"><span class="linenos"> 73</span></a>        <span class="n">librarian</span><span class="p">:</span> <span class="n">Librarian</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="L-74"><a href="#L-74"><span class="linenos"> 74</span></a>        <span class="n">vectorizer</span><span class="p">:</span> <span class="n">Vectorizer</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="L-75"><a href="#L-75"><span class="linenos"> 75</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="L-76"><a href="#L-76"><span class="linenos"> 76</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">librarian</span> <span class="o">=</span> <span class="n">librarian</span>
+</span><span id="L-77"><a href="#L-77"><span class="linenos"> 77</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">vectorizer</span> <span class="o">=</span> <span class="n">vectorizer</span>
+</span><span id="L-78"><a href="#L-78"><span class="linenos"> 78</span></a>
+</span><span id="L-79"><a href="#L-79"><span class="linenos"> 79</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">pubs_per_update</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="L-80"><a href="#L-80"><span class="linenos"> 80</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">update_history</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span> <span class="o">=</span> <span class="kc">None</span>
+</span><span id="L-81"><a href="#L-81"><span class="linenos"> 81</span></a>
+</span><span id="L-82"><a href="#L-82"><span class="linenos"> 82</span></a>    <span class="c1">######################################################################</span>
+</span><span id="L-83"><a href="#L-83"><span class="linenos"> 83</span></a>    <span class="c1"># Get an Atlas from bibtex</span>
+</span><span id="L-84"><a href="#L-84"><span class="linenos"> 84</span></a>    <span class="c1">######################################################################</span>
+</span><span id="L-85"><a href="#L-85"><span class="linenos"> 85</span></a>
+</span><span id="L-86"><a href="#L-86"><span class="linenos"> 86</span></a>    <span class="k">def</span> <span class="nf">bibtex_to_atlas</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">bibtex_fp</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Atlas</span><span class="p">:</span>
+</span><span id="L-87"><a href="#L-87"><span class="linenos"> 87</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Convert a bibtex file to an atlas, by parsing each entry for an identifier, and querying an API for publications using `self.librarian`.</span>
+</span><span id="L-88"><a href="#L-88"><span class="linenos"> 88</span></a>
+</span><span id="L-89"><a href="#L-89"><span class="linenos"> 89</span></a><span class="sd">        NOTE: the identifiers in the corresponding atlas will be API-specific ids; there is no relationship between the parsed id used to query papers (e.g. &#39;DOI:XYZ&#39; in the case of SemanticScholar) and the resulting identifier associated with the resulting Publication object, (a paperId, a bibcode, etc.) Therefore, the purpose of using the `bibtex_to_atlas` method is primarily for initializing literature exploration in a human-readable way. If you want to obtain as many publications as identifiers supplied, you need to use `get_publications`.</span>
+</span><span id="L-90"><a href="#L-90"><span class="linenos"> 90</span></a>
+</span><span id="L-91"><a href="#L-91"><span class="linenos"> 91</span></a><span class="sd">        Args:</span>
+</span><span id="L-92"><a href="#L-92"><span class="linenos"> 92</span></a><span class="sd">            bibtex_fp: the filepath where the bibtex file is saved.</span>
+</span><span id="L-93"><a href="#L-93"><span class="linenos"> 93</span></a>
+</span><span id="L-94"><a href="#L-94"><span class="linenos"> 94</span></a><span class="sd">            args and kwargs are passed to `get_publications`.</span>
+</span><span id="L-95"><a href="#L-95"><span class="linenos"> 95</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="L-96"><a href="#L-96"><span class="linenos"> 96</span></a>        <span class="n">verbose</span> <span class="o">=</span> <span class="n">get_verbose</span><span class="p">(</span><span class="n">kwargs</span><span class="p">)</span>
 </span><span id="L-97"><a href="#L-97"><span class="linenos"> 97</span></a>
-</span><span id="L-98"><a href="#L-98"><span class="linenos"> 98</span></a>        <span class="c1"># Project</span>
-</span><span id="L-99"><a href="#L-99"><span class="linenos"> 99</span></a>        <span class="n">embeddings</span> <span class="o">=</span> <span class="kc">None</span>
-</span><span id="L-100"><a href="#L-100"><span class="linenos">100</span></a>        <span class="c1"># get only embeddings for publications not already projected in atlas</span>
-</span><span id="L-101"><a href="#L-101"><span class="linenos">101</span></a>        <span class="n">previously_embedded_ids</span> <span class="o">=</span> <span class="p">[]</span>
-</span><span id="L-102"><a href="#L-102"><span class="linenos">102</span></a>        <span class="k">if</span> <span class="n">atl_filtered</span><span class="o">.</span><span class="n">projection</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="L-103"><a href="#L-103"><span class="linenos">103</span></a>            <span class="n">previously_embedded_ids</span> <span class="o">=</span> <span class="n">atl_filtered</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">identifier_to_index</span>
-</span><span id="L-104"><a href="#L-104"><span class="linenos">104</span></a>        <span class="n">embed_ids</span> <span class="o">=</span> <span class="p">[</span>
-</span><span id="L-105"><a href="#L-105"><span class="linenos">105</span></a>            <span class="nb">id</span> <span class="k">for</span> <span class="nb">id</span> <span class="ow">in</span> <span class="n">atl_filtered</span><span class="o">.</span><span class="n">publications</span> <span class="k">if</span> <span class="nb">id</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">previously_embedded_ids</span>
-</span><span id="L-106"><a href="#L-106"><span class="linenos">106</span></a>        <span class="p">]</span>
-</span><span id="L-107"><a href="#L-107"><span class="linenos">107</span></a>
-</span><span id="L-108"><a href="#L-108"><span class="linenos">108</span></a>        <span class="c1"># Embed documents</span>
-</span><span id="L-109"><a href="#L-109"><span class="linenos">109</span></a>        <span class="k">if</span> <span class="n">embed_ids</span><span class="p">:</span>
-</span><span id="L-110"><a href="#L-110"><span class="linenos">110</span></a>            <span class="n">embeddings</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">vectorizer</span><span class="o">.</span><span class="n">embed_documents</span><span class="p">(</span>
-</span><span id="L-111"><a href="#L-111"><span class="linenos">111</span></a>                <span class="p">[</span><span class="n">atl_filtered</span><span class="p">[</span><span class="nb">id</span><span class="p">]</span><span class="o">.</span><span class="n">abstract</span> <span class="k">for</span> <span class="nb">id</span> <span class="ow">in</span> <span class="n">embed_ids</span><span class="p">]</span>
-</span><span id="L-112"><a href="#L-112"><span class="linenos">112</span></a>            <span class="p">)</span>
-</span><span id="L-113"><a href="#L-113"><span class="linenos">113</span></a>        <span class="k">if</span> <span class="n">embeddings</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="L-114"><a href="#L-114"><span class="linenos">114</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Obtained no new publication embeddings.&quot;</span><span class="p">)</span>
-</span><span id="L-115"><a href="#L-115"><span class="linenos">115</span></a>
-</span><span id="L-116"><a href="#L-116"><span class="linenos">116</span></a>        <span class="c1"># create new projection</span>
-</span><span id="L-117"><a href="#L-117"><span class="linenos">117</span></a>        <span class="n">projection</span> <span class="o">=</span> <span class="n">Projection</span><span class="p">(</span>
-</span><span id="L-118"><a href="#L-118"><span class="linenos">118</span></a>            <span class="n">identifier_to_index</span><span class="o">=</span><span class="p">{</span>
-</span><span id="L-119"><a href="#L-119"><span class="linenos">119</span></a>                <span class="n">identifier</span><span class="p">:</span> <span class="n">idx</span> <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">identifier</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">embed_ids</span><span class="p">)</span>
-</span><span id="L-120"><a href="#L-120"><span class="linenos">120</span></a>            <span class="p">},</span>
-</span><span id="L-121"><a href="#L-121"><span class="linenos">121</span></a>            <span class="n">index_to_identifier</span><span class="o">=</span><span class="nb">tuple</span><span class="p">(</span><span class="n">embed_ids</span><span class="p">),</span>
-</span><span id="L-122"><a href="#L-122"><span class="linenos">122</span></a>            <span class="n">embeddings</span><span class="o">=</span><span class="n">embeddings</span><span class="p">,</span>
-</span><span id="L-123"><a href="#L-123"><span class="linenos">123</span></a>        <span class="p">)</span>
-</span><span id="L-124"><a href="#L-124"><span class="linenos">124</span></a>        <span class="c1"># merge existing projection with new projection</span>
-</span><span id="L-125"><a href="#L-125"><span class="linenos">125</span></a>        <span class="n">merged_projection</span> <span class="o">=</span> <span class="n">merge</span><span class="p">(</span><span class="n">atl_filtered</span><span class="o">.</span><span class="n">projection</span><span class="p">,</span> <span class="n">projection</span><span class="p">)</span>
-</span><span id="L-126"><a href="#L-126"><span class="linenos">126</span></a>
-</span><span id="L-127"><a href="#L-127"><span class="linenos">127</span></a>        <span class="c1"># prepare to overwrite atlas with publications corresponding to updated (merged) projection</span>
-</span><span id="L-128"><a href="#L-128"><span class="linenos">128</span></a>        <span class="n">embedded_publications</span> <span class="o">=</span> <span class="p">{</span>
-</span><span id="L-129"><a href="#L-129"><span class="linenos">129</span></a>            <span class="nb">id</span><span class="p">:</span> <span class="n">pub</span>
-</span><span id="L-130"><a href="#L-130"><span class="linenos">130</span></a>            <span class="k">for</span> <span class="nb">id</span><span class="p">,</span> <span class="n">pub</span> <span class="ow">in</span> <span class="n">atl_filtered</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">items</span><span class="p">()</span>
-</span><span id="L-131"><a href="#L-131"><span class="linenos">131</span></a>            <span class="k">if</span> <span class="nb">id</span> <span class="ow">in</span> <span class="n">merged_projection</span><span class="o">.</span><span class="n">identifier_to_index</span>
-</span><span id="L-132"><a href="#L-132"><span class="linenos">132</span></a>        <span class="p">}</span>
-</span><span id="L-133"><a href="#L-133"><span class="linenos">133</span></a>        <span class="n">invalid</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">atl_filtered</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span> <span class="o">-</span> <span class="nb">set</span><span class="p">(</span>
-</span><span id="L-134"><a href="#L-134"><span class="linenos">134</span></a>            <span class="n">embedded_publications</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span>
-</span><span id="L-135"><a href="#L-135"><span class="linenos">135</span></a>        <span class="p">)</span>
-</span><span id="L-136"><a href="#L-136"><span class="linenos">136</span></a>        <span class="k">if</span> <span class="n">invalid</span><span class="p">:</span>
-</span><span id="L-137"><a href="#L-137"><span class="linenos">137</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
-</span><span id="L-138"><a href="#L-138"><span class="linenos">138</span></a>                <span class="sa">f</span><span class="s2">&quot;Removing </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">invalid</span><span class="p">)</span><span class="si">}</span><span class="s2"> publications from atlas after projection.&quot;</span>
-</span><span id="L-139"><a href="#L-139"><span class="linenos">139</span></a>            <span class="p">)</span>
+</span><span id="L-98"><a href="#L-98"><span class="linenos"> 98</span></a>        <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">bibtex_fp</span><span class="p">,</span> <span class="s2">&quot;r&quot;</span><span class="p">)</span> <span class="k">as</span> <span class="n">f</span><span class="p">:</span>
+</span><span id="L-99"><a href="#L-99"><span class="linenos"> 99</span></a>            <span class="n">bib_database</span> <span class="o">=</span> <span class="n">bibtexparser</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">f</span><span class="p">)</span>
+</span><span id="L-100"><a href="#L-100"><span class="linenos">100</span></a>
+</span><span id="L-101"><a href="#L-101"><span class="linenos">101</span></a>        <span class="c1"># Retrieve the identifier from each bibtex entry</span>
+</span><span id="L-102"><a href="#L-102"><span class="linenos">102</span></a>        <span class="n">identifiers</span> <span class="o">=</span> <span class="p">[</span>
+</span><span id="L-103"><a href="#L-103"><span class="linenos">103</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">librarian</span><span class="o">.</span><span class="n">bibtex_entry_identifier</span><span class="p">(</span><span class="n">entry</span><span class="p">)</span>
+</span><span id="L-104"><a href="#L-104"><span class="linenos">104</span></a>            <span class="k">for</span> <span class="n">entry</span> <span class="ow">in</span> <span class="n">bib_database</span><span class="o">.</span><span class="n">entries</span>
+</span><span id="L-105"><a href="#L-105"><span class="linenos">105</span></a>        <span class="p">]</span>
+</span><span id="L-106"><a href="#L-106"><span class="linenos">106</span></a>        <span class="n">identifiers</span> <span class="o">=</span> <span class="p">[</span><span class="nb">id</span> <span class="k">for</span> <span class="nb">id</span> <span class="ow">in</span> <span class="n">identifiers</span> <span class="k">if</span> <span class="nb">id</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">]</span>
+</span><span id="L-107"><a href="#L-107"><span class="linenos">107</span></a>        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">identifiers</span><span class="p">)</span> <span class="o">&lt;</span> <span class="nb">len</span><span class="p">(</span><span class="n">bib_database</span><span class="o">.</span><span class="n">entries</span><span class="p">)</span> <span class="ow">and</span> <span class="n">verbose</span><span class="p">:</span>
+</span><span id="L-108"><a href="#L-108"><span class="linenos">108</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+</span><span id="L-109"><a href="#L-109"><span class="linenos">109</span></a>                <span class="sa">f</span><span class="s2">&quot;Only obtained </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">identifiers</span><span class="p">)</span><span class="si">}</span><span class="s2"> publications out of </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">bib_database</span><span class="o">.</span><span class="n">entries</span><span class="p">)</span><span class="si">}</span><span class="s2"> total due to missing identifiers.&quot;</span>
+</span><span id="L-110"><a href="#L-110"><span class="linenos">110</span></a>            <span class="p">)</span>
+</span><span id="L-111"><a href="#L-111"><span class="linenos">111</span></a>
+</span><span id="L-112"><a href="#L-112"><span class="linenos">112</span></a>        <span class="c1"># Query</span>
+</span><span id="L-113"><a href="#L-113"><span class="linenos">113</span></a>        <span class="n">results</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">librarian</span><span class="o">.</span><span class="n">get_publications</span><span class="p">(</span><span class="n">identifiers</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+</span><span id="L-114"><a href="#L-114"><span class="linenos">114</span></a>        <span class="c1"># Validate</span>
+</span><span id="L-115"><a href="#L-115"><span class="linenos">115</span></a>        <span class="n">publications</span> <span class="o">=</span> <span class="p">[</span>
+</span><span id="L-116"><a href="#L-116"><span class="linenos">116</span></a>            <span class="n">result</span>
+</span><span id="L-117"><a href="#L-117"><span class="linenos">117</span></a>            <span class="k">for</span> <span class="n">result</span> <span class="ow">in</span> <span class="n">results</span>
+</span><span id="L-118"><a href="#L-118"><span class="linenos">118</span></a>            <span class="k">if</span> <span class="p">(</span>
+</span><span id="L-119"><a href="#L-119"><span class="linenos">119</span></a>                <span class="n">result</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+</span><span id="L-120"><a href="#L-120"><span class="linenos">120</span></a>                <span class="ow">and</span> <span class="n">result</span><span class="o">.</span><span class="n">publication_date</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+</span><span id="L-121"><a href="#L-121"><span class="linenos">121</span></a>                <span class="ow">and</span> <span class="n">result</span><span class="o">.</span><span class="n">abstract</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+</span><span id="L-122"><a href="#L-122"><span class="linenos">122</span></a>                <span class="c1"># identifier will never be none</span>
+</span><span id="L-123"><a href="#L-123"><span class="linenos">123</span></a>            <span class="p">)</span>
+</span><span id="L-124"><a href="#L-124"><span class="linenos">124</span></a>        <span class="p">]</span>
+</span><span id="L-125"><a href="#L-125"><span class="linenos">125</span></a>        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">publications</span><span class="p">)</span> <span class="o">&lt;</span> <span class="nb">len</span><span class="p">(</span><span class="n">identifiers</span><span class="p">)</span> <span class="ow">and</span> <span class="n">verbose</span><span class="p">:</span>
+</span><span id="L-126"><a href="#L-126"><span class="linenos">126</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+</span><span id="L-127"><a href="#L-127"><span class="linenos">127</span></a>                <span class="sa">f</span><span class="s2">&quot;Only obtained </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">publications</span><span class="p">)</span><span class="si">}</span><span class="s2"> publications out of </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">identifiers</span><span class="p">)</span><span class="si">}</span><span class="s2"> total due to querying-related errors or missing abstracts.&quot;</span>
+</span><span id="L-128"><a href="#L-128"><span class="linenos">128</span></a>            <span class="p">)</span>
+</span><span id="L-129"><a href="#L-129"><span class="linenos">129</span></a>
+</span><span id="L-130"><a href="#L-130"><span class="linenos">130</span></a>        <span class="c1"># Construct atlas</span>
+</span><span id="L-131"><a href="#L-131"><span class="linenos">131</span></a>        <span class="n">atl</span> <span class="o">=</span> <span class="n">Atlas</span><span class="p">(</span><span class="n">publications</span><span class="p">)</span>
+</span><span id="L-132"><a href="#L-132"><span class="linenos">132</span></a>        <span class="k">return</span> <span class="n">atl</span>
+</span><span id="L-133"><a href="#L-133"><span class="linenos">133</span></a>
+</span><span id="L-134"><a href="#L-134"><span class="linenos">134</span></a>    <span class="c1">######################################################################</span>
+</span><span id="L-135"><a href="#L-135"><span class="linenos">135</span></a>    <span class="c1"># Project Atlas</span>
+</span><span id="L-136"><a href="#L-136"><span class="linenos">136</span></a>    <span class="c1">######################################################################</span>
+</span><span id="L-137"><a href="#L-137"><span class="linenos">137</span></a>
+</span><span id="L-138"><a href="#L-138"><span class="linenos">138</span></a>    <span class="k">def</span> <span class="nf">project</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">atl</span><span class="p">:</span> <span class="n">Atlas</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Atlas</span><span class="p">:</span>
+</span><span id="L-139"><a href="#L-139"><span class="linenos">139</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Update an atlas with its projection, i.e. the document embeddings for all publications using `self.vectorizer`, removing publications with no abstracts.</span>
 </span><span id="L-140"><a href="#L-140"><span class="linenos">140</span></a>
-</span><span id="L-141"><a href="#L-141"><span class="linenos">141</span></a>        <span class="c1"># Overwrite atlas data</span>
-</span><span id="L-142"><a href="#L-142"><span class="linenos">142</span></a>        <span class="n">atl_filtered</span><span class="o">.</span><span class="n">publications</span> <span class="o">=</span> <span class="n">embedded_publications</span>
-</span><span id="L-143"><a href="#L-143"><span class="linenos">143</span></a>        <span class="n">atl_filtered</span><span class="o">.</span><span class="n">projection</span> <span class="o">=</span> <span class="n">merged_projection</span>
-</span><span id="L-144"><a href="#L-144"><span class="linenos">144</span></a>        <span class="k">return</span> <span class="n">atl_filtered</span>
-</span><span id="L-145"><a href="#L-145"><span class="linenos">145</span></a>
-</span><span id="L-146"><a href="#L-146"><span class="linenos">146</span></a>    <span class="c1">######################################################################</span>
-</span><span id="L-147"><a href="#L-147"><span class="linenos">147</span></a>    <span class="c1"># Expand Atlas</span>
-</span><span id="L-148"><a href="#L-148"><span class="linenos">148</span></a>    <span class="c1">######################################################################</span>
-</span><span id="L-149"><a href="#L-149"><span class="linenos">149</span></a>
-</span><span id="L-150"><a href="#L-150"><span class="linenos">150</span></a>    <span class="k">def</span> <span class="nf">expand</span><span class="p">(</span>
-</span><span id="L-151"><a href="#L-151"><span class="linenos">151</span></a>        <span class="bp">self</span><span class="p">,</span>
-</span><span id="L-152"><a href="#L-152"><span class="linenos">152</span></a>        <span class="n">atl</span><span class="p">:</span> <span class="n">Atlas</span><span class="p">,</span>
-</span><span id="L-153"><a href="#L-153"><span class="linenos">153</span></a>        <span class="n">center</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-</span><span id="L-154"><a href="#L-154"><span class="linenos">154</span></a>        <span class="n">n_pubs_max</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">4000</span><span class="p">,</span>
-</span><span id="L-155"><a href="#L-155"><span class="linenos">155</span></a>        <span class="n">n_sources_max</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-</span><span id="L-156"><a href="#L-156"><span class="linenos">156</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Atlas</span><span class="p">:</span>
-</span><span id="L-157"><a href="#L-157"><span class="linenos">157</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Expand an atlas by retrieving a list of publications resulting from traversal of the citation network.</span>
-</span><span id="L-158"><a href="#L-158"><span class="linenos">158</span></a>
-</span><span id="L-159"><a href="#L-159"><span class="linenos">159</span></a><span class="sd">        Args:</span>
-</span><span id="L-160"><a href="#L-160"><span class="linenos">160</span></a><span class="sd">            atl: the atlas containing the region to expand</span>
-</span><span id="L-161"><a href="#L-161"><span class="linenos">161</span></a>
-</span><span id="L-162"><a href="#L-162"><span class="linenos">162</span></a><span class="sd">            center: (if given) center the search on this publication, preferentially searching related publications.</span>
-</span><span id="L-163"><a href="#L-163"><span class="linenos">163</span></a>
-</span><span id="L-164"><a href="#L-164"><span class="linenos">164</span></a><span class="sd">            n_pubs_max: maximum number of publications allowed in the expansion.</span>
-</span><span id="L-165"><a href="#L-165"><span class="linenos">165</span></a>
-</span><span id="L-166"><a href="#L-166"><span class="linenos">166</span></a><span class="sd">            n_sources_max: maximum number of publications (already in the atlas) to draw references and citations from.</span>
-</span><span id="L-167"><a href="#L-167"><span class="linenos">167</span></a>
-</span><span id="L-168"><a href="#L-168"><span class="linenos">168</span></a><span class="sd">        Returns:</span>
-</span><span id="L-169"><a href="#L-169"><span class="linenos">169</span></a><span class="sd">            atl_expanded: the expanded atlas</span>
-</span><span id="L-170"><a href="#L-170"><span class="linenos">170</span></a><span class="sd">        &quot;&quot;&quot;</span>
-</span><span id="L-171"><a href="#L-171"><span class="linenos">171</span></a>        <span class="n">existing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
-</span><span id="L-172"><a href="#L-172"><span class="linenos">172</span></a>        <span class="n">expand_keys</span> <span class="o">=</span> <span class="n">existing_keys</span>
-</span><span id="L-173"><a href="#L-173"><span class="linenos">173</span></a>        <span class="k">if</span> <span class="n">center</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="L-174"><a href="#L-174"><span class="linenos">174</span></a>            <span class="k">if</span> <span class="n">atl</span><span class="o">.</span><span class="n">projection</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="L-175"><a href="#L-175"><span class="linenos">175</span></a>                <span class="n">atl</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">project</span><span class="p">(</span><span class="n">atl</span><span class="p">)</span>
-</span><span id="L-176"><a href="#L-176"><span class="linenos">176</span></a>
-</span><span id="L-177"><a href="#L-177"><span class="linenos">177</span></a>            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="p">):</span>
-</span><span id="L-178"><a href="#L-178"><span class="linenos">178</span></a>                <span class="c1"># cosine similarity matrix</span>
-</span><span id="L-179"><a href="#L-179"><span class="linenos">179</span></a>                <span class="n">cospsi_matrix</span> <span class="o">=</span> <span class="n">cosine_similarity</span><span class="p">(</span>
-</span><span id="L-180"><a href="#L-180"><span class="linenos">180</span></a>                    <span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">identifiers_to_embeddings</span><span class="p">([</span><span class="n">center</span><span class="p">]),</span>
-</span><span id="L-181"><a href="#L-181"><span class="linenos">181</span></a>                    <span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">embeddings</span><span class="p">,</span>
-</span><span id="L-182"><a href="#L-182"><span class="linenos">182</span></a>                <span class="p">)</span>
-</span><span id="L-183"><a href="#L-183"><span class="linenos">183</span></a>                <span class="n">sort_inds</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">argsort</span><span class="p">(</span><span class="n">cospsi_matrix</span><span class="p">)[</span><span class="mi">1</span><span class="p">:]</span>  <span class="c1"># exclude the center</span>
-</span><span id="L-184"><a href="#L-184"><span class="linenos">184</span></a>                <span class="n">expand_keys</span> <span class="o">=</span> <span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">indices_to_identifiers</span><span class="p">(</span><span class="n">sort_inds</span><span class="p">)</span>
+</span><span id="L-141"><a href="#L-141"><span class="linenos">141</span></a><span class="sd">        Args:</span>
+</span><span id="L-142"><a href="#L-142"><span class="linenos">142</span></a><span class="sd">            atl: the Atlas containing publications to project to document embeddings</span>
+</span><span id="L-143"><a href="#L-143"><span class="linenos">143</span></a>
+</span><span id="L-144"><a href="#L-144"><span class="linenos">144</span></a><span class="sd">        Returns:</span>
+</span><span id="L-145"><a href="#L-145"><span class="linenos">145</span></a><span class="sd">            the updated atlas containing all nonempty-abstract-containing publications and their projection</span>
+</span><span id="L-146"><a href="#L-146"><span class="linenos">146</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="L-147"><a href="#L-147"><span class="linenos">147</span></a>        <span class="n">verbose</span> <span class="o">=</span> <span class="n">get_verbose</span><span class="p">(</span><span class="n">kwargs</span><span class="p">)</span>
+</span><span id="L-148"><a href="#L-148"><span class="linenos">148</span></a>
+</span><span id="L-149"><a href="#L-149"><span class="linenos">149</span></a>        <span class="c1"># Only project publications that have abstracts and publication dates</span>
+</span><span id="L-150"><a href="#L-150"><span class="linenos">150</span></a>        <span class="n">atl_filtered</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">filter_by_attributes</span><span class="p">(</span><span class="n">atl</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+</span><span id="L-151"><a href="#L-151"><span class="linenos">151</span></a>        <span class="n">num_empty</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">atl</span><span class="p">)</span> <span class="o">-</span> <span class="nb">len</span><span class="p">(</span><span class="n">atl_filtered</span><span class="p">)</span>
+</span><span id="L-152"><a href="#L-152"><span class="linenos">152</span></a>        <span class="k">if</span> <span class="n">num_empty</span> <span class="ow">and</span> <span class="n">verbose</span><span class="p">:</span>
+</span><span id="L-153"><a href="#L-153"><span class="linenos">153</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+</span><span id="L-154"><a href="#L-154"><span class="linenos">154</span></a>                <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">num_empty</span><span class="si">}</span><span class="s2"> publications were filtered due to missing crucial data. There are now </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">atl_filtered</span><span class="o">.</span><span class="n">bad_ids</span><span class="p">)</span><span class="si">}</span><span class="s2"> total ids that will be excluded in the future.&quot;</span>
+</span><span id="L-155"><a href="#L-155"><span class="linenos">155</span></a>            <span class="p">)</span>
+</span><span id="L-156"><a href="#L-156"><span class="linenos">156</span></a>
+</span><span id="L-157"><a href="#L-157"><span class="linenos">157</span></a>        <span class="c1"># Project</span>
+</span><span id="L-158"><a href="#L-158"><span class="linenos">158</span></a>        <span class="n">embeddings</span> <span class="o">=</span> <span class="kc">None</span>
+</span><span id="L-159"><a href="#L-159"><span class="linenos">159</span></a>        <span class="c1"># get only embeddings for publications not already projected in atlas</span>
+</span><span id="L-160"><a href="#L-160"><span class="linenos">160</span></a>        <span class="n">previously_embedded_ids</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="L-161"><a href="#L-161"><span class="linenos">161</span></a>        <span class="k">if</span> <span class="n">atl_filtered</span><span class="o">.</span><span class="n">projection</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="L-162"><a href="#L-162"><span class="linenos">162</span></a>            <span class="n">previously_embedded_ids</span> <span class="o">=</span> <span class="n">atl_filtered</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">identifier_to_index</span>
+</span><span id="L-163"><a href="#L-163"><span class="linenos">163</span></a>        <span class="n">embed_ids</span> <span class="o">=</span> <span class="p">[</span>
+</span><span id="L-164"><a href="#L-164"><span class="linenos">164</span></a>            <span class="nb">id</span> <span class="k">for</span> <span class="nb">id</span> <span class="ow">in</span> <span class="n">atl_filtered</span><span class="o">.</span><span class="n">publications</span> <span class="k">if</span> <span class="nb">id</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">previously_embedded_ids</span>
+</span><span id="L-165"><a href="#L-165"><span class="linenos">165</span></a>        <span class="p">]</span>
+</span><span id="L-166"><a href="#L-166"><span class="linenos">166</span></a>
+</span><span id="L-167"><a href="#L-167"><span class="linenos">167</span></a>        <span class="k">if</span> <span class="n">embed_ids</span><span class="p">:</span>
+</span><span id="L-168"><a href="#L-168"><span class="linenos">168</span></a>            <span class="k">if</span> <span class="n">verbose</span><span class="p">:</span>
+</span><span id="L-169"><a href="#L-169"><span class="linenos">169</span></a>                <span class="k">if</span> <span class="n">atl_filtered</span><span class="o">.</span><span class="n">projection</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="L-170"><a href="#L-170"><span class="linenos">170</span></a>                    <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+</span><span id="L-171"><a href="#L-171"><span class="linenos">171</span></a>                        <span class="sa">f</span><span class="s2">&quot;Found </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">atl_filtered</span><span class="o">.</span><span class="n">publications</span><span class="p">)</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="nb">len</span><span class="p">(</span><span class="n">atl_filtered</span><span class="o">.</span><span class="n">projection</span><span class="p">)</span><span class="si">}</span><span class="s2"> publications not contained in Atlas projection.&quot;</span>
+</span><span id="L-172"><a href="#L-172"><span class="linenos">172</span></a>                    <span class="p">)</span>
+</span><span id="L-173"><a href="#L-173"><span class="linenos">173</span></a>                <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Embedding </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">embed_ids</span><span class="p">)</span><span class="si">}</span><span class="s2"> total documents.&quot;</span><span class="p">)</span>
+</span><span id="L-174"><a href="#L-174"><span class="linenos">174</span></a>            <span class="c1"># Embed documents</span>
+</span><span id="L-175"><a href="#L-175"><span class="linenos">175</span></a>            <span class="n">result</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">vectorizer</span><span class="o">.</span><span class="n">embed_documents</span><span class="p">(</span>
+</span><span id="L-176"><a href="#L-176"><span class="linenos">176</span></a>                <span class="p">[</span><span class="n">atl_filtered</span><span class="p">[</span><span class="nb">id</span><span class="p">]</span><span class="o">.</span><span class="n">abstract</span> <span class="k">for</span> <span class="nb">id</span> <span class="ow">in</span> <span class="n">embed_ids</span><span class="p">]</span>
+</span><span id="L-177"><a href="#L-177"><span class="linenos">177</span></a>            <span class="p">)</span>
+</span><span id="L-178"><a href="#L-178"><span class="linenos">178</span></a>            <span class="n">embeddings</span> <span class="o">=</span> <span class="n">result</span><span class="p">[</span><span class="s2">&quot;embeddings&quot;</span><span class="p">]</span>
+</span><span id="L-179"><a href="#L-179"><span class="linenos">179</span></a>            <span class="n">successful_indices</span> <span class="o">=</span> <span class="n">result</span><span class="p">[</span><span class="s2">&quot;indices&quot;</span><span class="p">]</span>
+</span><span id="L-180"><a href="#L-180"><span class="linenos">180</span></a>
+</span><span id="L-181"><a href="#L-181"><span class="linenos">181</span></a>            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">successful_indices</span><span class="p">)</span> <span class="o">&lt;</span> <span class="nb">len</span><span class="p">(</span><span class="n">embed_ids</span><span class="p">)</span> <span class="ow">and</span> <span class="n">verbose</span><span class="p">:</span>
+</span><span id="L-182"><a href="#L-182"><span class="linenos">182</span></a>                <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Failed to get embeddings for all </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">embed_ids</span><span class="p">)</span><span class="si">}</span><span class="s2"> publications; only </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">embeddings</span><span class="p">)</span><span class="si">}</span><span class="s2"> will be added to the Atlas.&quot;</span><span class="p">)</span>
+</span><span id="L-183"><a href="#L-183"><span class="linenos">183</span></a>
+</span><span id="L-184"><a href="#L-184"><span class="linenos">184</span></a>            <span class="n">successful_ids</span> <span class="o">=</span> <span class="p">[</span><span class="nb">id</span> <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="nb">id</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">embed_ids</span><span class="p">)</span> <span class="k">if</span> <span class="n">i</span> <span class="ow">in</span> <span class="n">successful_indices</span><span class="p">]</span>
 </span><span id="L-185"><a href="#L-185"><span class="linenos">185</span></a>
-</span><span id="L-186"><a href="#L-186"><span class="linenos">186</span></a>                <span class="c1"># fill expand keys to allowed capacity</span>
-</span><span id="L-187"><a href="#L-187"><span class="linenos">187</span></a>                <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">expand_keys</span><span class="p">)</span> <span class="o">&lt;</span> <span class="nb">len</span><span class="p">(</span><span class="n">existing_keys</span><span class="p">):</span>
-</span><span id="L-188"><a href="#L-188"><span class="linenos">188</span></a>                    <span class="c1"># only consider non-empty abstracts</span>
-</span><span id="L-189"><a href="#L-189"><span class="linenos">189</span></a>                    <span class="n">expand_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">expand_keys</span><span class="p">)</span><span class="o">.</span><span class="n">union</span><span class="p">(</span><span class="n">existing_keys</span><span class="p">)</span>
-</span><span id="L-190"><a href="#L-190"><span class="linenos">190</span></a>
-</span><span id="L-191"><a href="#L-191"><span class="linenos">191</span></a>        <span class="k">if</span> <span class="n">n_sources_max</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="L-192"><a href="#L-192"><span class="linenos">192</span></a>            <span class="n">expand_keys</span> <span class="o">=</span> <span class="n">expand_keys</span><span class="p">[:</span><span class="n">n_sources_max</span><span class="p">]</span>
-</span><span id="L-193"><a href="#L-193"><span class="linenos">193</span></a>
-</span><span id="L-194"><a href="#L-194"><span class="linenos">194</span></a>        <span class="c1"># Get identifiers for the expansion</span>
-</span><span id="L-195"><a href="#L-195"><span class="linenos">195</span></a>        <span class="c1"># For each publication corresponding to an id in `expand_keys`, collect the ids corresponding to the publication&#39;s references and citations.</span>
-</span><span id="L-196"><a href="#L-196"><span class="linenos">196</span></a>        <span class="n">ids</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
-</span><span id="L-197"><a href="#L-197"><span class="linenos">197</span></a>        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">expand_keys</span><span class="p">:</span>
-</span><span id="L-198"><a href="#L-198"><span class="linenos">198</span></a>            <span class="k">try</span><span class="p">:</span>
-</span><span id="L-199"><a href="#L-199"><span class="linenos">199</span></a>                <span class="n">ids_i</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">atl</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">references</span> <span class="o">+</span> <span class="n">atl</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">citations</span><span class="p">)</span>
-</span><span id="L-200"><a href="#L-200"><span class="linenos">200</span></a>            <span class="k">except</span> <span class="ne">ValueError</span> <span class="k">as</span> <span class="n">e</span><span class="p">:</span>
-</span><span id="L-201"><a href="#L-201"><span class="linenos">201</span></a>                <span class="nb">breakpoint</span><span class="p">()</span>
-</span><span id="L-202"><a href="#L-202"><span class="linenos">202</span></a>            <span class="c1"># Prune for obvious overlap</span>
-</span><span id="L-203"><a href="#L-203"><span class="linenos">203</span></a>            <span class="n">ids</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">ids_i</span> <span class="o">-</span> <span class="n">existing_keys</span><span class="p">)</span>
-</span><span id="L-204"><a href="#L-204"><span class="linenos">204</span></a>            <span class="c1"># Break when the search is centered and we&#39;re maxed out</span>
-</span><span id="L-205"><a href="#L-205"><span class="linenos">205</span></a>            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span> <span class="o">&gt;</span> <span class="n">n_pubs_max</span> <span class="ow">and</span> <span class="n">center</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="L-206"><a href="#L-206"><span class="linenos">206</span></a>                <span class="k">break</span>
-</span><span id="L-207"><a href="#L-207"><span class="linenos">207</span></a>        <span class="n">ids</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span>
-</span><span id="L-208"><a href="#L-208"><span class="linenos">208</span></a>
-</span><span id="L-209"><a href="#L-209"><span class="linenos">209</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">ids</span><span class="p">:</span>
-</span><span id="L-210"><a href="#L-210"><span class="linenos">210</span></a>            <span class="nb">print</span><span class="p">(</span><span class="s2">&quot;Overly-restrictive search, no ids to retrive.&quot;</span><span class="p">)</span>
-</span><span id="L-211"><a href="#L-211"><span class="linenos">211</span></a>
-</span><span id="L-212"><a href="#L-212"><span class="linenos">212</span></a>        <span class="c1"># Sample to account for max number of publications we want to retrieve</span>
-</span><span id="L-213"><a href="#L-213"><span class="linenos">213</span></a>        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span> <span class="o">&gt;</span> <span class="n">n_pubs_max</span><span class="p">:</span>
-</span><span id="L-214"><a href="#L-214"><span class="linenos">214</span></a>            <span class="n">ids</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">choice</span><span class="p">(</span><span class="n">ids</span><span class="p">,</span> <span class="n">n_pubs_max</span><span class="p">,</span> <span class="n">replace</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
-</span><span id="L-215"><a href="#L-215"><span class="linenos">215</span></a>
-</span><span id="L-216"><a href="#L-216"><span class="linenos">216</span></a>        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Expansion will include </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span><span class="si">}</span><span class="s2"> new publications.&quot;</span><span class="p">)</span>
-</span><span id="L-217"><a href="#L-217"><span class="linenos">217</span></a>
-</span><span id="L-218"><a href="#L-218"><span class="linenos">218</span></a>        <span class="c1"># Retrieve publications from ids using a librarian</span>
-</span><span id="L-219"><a href="#L-219"><span class="linenos">219</span></a>        <span class="n">new_publications</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">librarian</span><span class="o">.</span><span class="n">get_publications</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span>
-</span><span id="L-220"><a href="#L-220"><span class="linenos">220</span></a>
-</span><span id="L-221"><a href="#L-221"><span class="linenos">221</span></a>        <span class="c1"># New atlas</span>
-</span><span id="L-222"><a href="#L-222"><span class="linenos">222</span></a>        <span class="n">atl_exp</span> <span class="o">=</span> <span class="n">Atlas</span><span class="p">(</span><span class="n">new_publications</span><span class="p">)</span>
-</span><span id="L-223"><a href="#L-223"><span class="linenos">223</span></a>
-</span><span id="L-224"><a href="#L-224"><span class="linenos">224</span></a>        <span class="c1"># Update the new atlas</span>
-</span><span id="L-225"><a href="#L-225"><span class="linenos">225</span></a>        <span class="n">atl_exp</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">publications</span><span class="p">)</span>
-</span><span id="L-226"><a href="#L-226"><span class="linenos">226</span></a>
-</span><span id="L-227"><a href="#L-227"><span class="linenos">227</span></a>        <span class="k">return</span> <span class="n">atl_exp</span>
-</span><span id="L-228"><a href="#L-228"><span class="linenos">228</span></a>
-</span><span id="L-229"><a href="#L-229"><span class="linenos">229</span></a>    <span class="c1">######################################################################</span>
-</span><span id="L-230"><a href="#L-230"><span class="linenos">230</span></a>    <span class="c1"># Filter Atlas</span>
-</span><span id="L-231"><a href="#L-231"><span class="linenos">231</span></a>    <span class="c1">######################################################################</span>
-</span><span id="L-232"><a href="#L-232"><span class="linenos">232</span></a>
-</span><span id="L-233"><a href="#L-233"><span class="linenos">233</span></a>    <span class="k">def</span> <span class="nf">filter</span><span class="p">(</span>
-</span><span id="L-234"><a href="#L-234"><span class="linenos">234</span></a>        <span class="bp">self</span><span class="p">,</span>
-</span><span id="L-235"><a href="#L-235"><span class="linenos">235</span></a>        <span class="n">atl</span><span class="p">:</span> <span class="n">Atlas</span><span class="p">,</span>
-</span><span id="L-236"><a href="#L-236"><span class="linenos">236</span></a>        <span class="n">attributes</span><span class="p">:</span> <span class="nb">list</span> <span class="o">=</span> <span class="p">[</span>
-</span><span id="L-237"><a href="#L-237"><span class="linenos">237</span></a>            <span class="s2">&quot;abstract&quot;</span><span class="p">,</span>
-</span><span id="L-238"><a href="#L-238"><span class="linenos">238</span></a>            <span class="s2">&quot;publication_date&quot;</span><span class="p">,</span>
-</span><span id="L-239"><a href="#L-239"><span class="linenos">239</span></a>        <span class="p">],</span>
-</span><span id="L-240"><a href="#L-240"><span class="linenos">240</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Atlas</span><span class="p">:</span>
-</span><span id="L-241"><a href="#L-241"><span class="linenos">241</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Update an atlas by dropping publications (and corresponding data in projection) when certain fields are empty.</span>
-</span><span id="L-242"><a href="#L-242"><span class="linenos">242</span></a>
-</span><span id="L-243"><a href="#L-243"><span class="linenos">243</span></a><span class="sd">        Args:</span>
-</span><span id="L-244"><a href="#L-244"><span class="linenos">244</span></a><span class="sd">            atl: the Atlas containing publications to filter</span>
-</span><span id="L-245"><a href="#L-245"><span class="linenos">245</span></a>
-</span><span id="L-246"><a href="#L-246"><span class="linenos">246</span></a><span class="sd">            attributes: the list of attributes to filter publications from the atlas if any of items are None for a publication. For example, if attributes = [&quot;abstract&quot;], then all publications `pub` such that `pub.abstract is None` is True will be removed from the atlas, along with the corresponding data in the projection.</span>
-</span><span id="L-247"><a href="#L-247"><span class="linenos">247</span></a>
-</span><span id="L-248"><a href="#L-248"><span class="linenos">248</span></a><span class="sd">        Returns:</span>
-</span><span id="L-249"><a href="#L-249"><span class="linenos">249</span></a><span class="sd">            the filtered atlas</span>
-</span><span id="L-250"><a href="#L-250"><span class="linenos">250</span></a><span class="sd">        &quot;&quot;&quot;</span>
-</span><span id="L-251"><a href="#L-251"><span class="linenos">251</span></a>        <span class="c1"># Filter publications</span>
-</span><span id="L-252"><a href="#L-252"><span class="linenos">252</span></a>        <span class="n">invalid_pubs</span> <span class="o">=</span> <span class="p">{</span>
-</span><span id="L-253"><a href="#L-253"><span class="linenos">253</span></a>            <span class="nb">id</span><span class="p">:</span> <span class="n">pub</span>
-</span><span id="L-254"><a href="#L-254"><span class="linenos">254</span></a>            <span class="k">for</span> <span class="nb">id</span><span class="p">,</span> <span class="n">pub</span> <span class="ow">in</span> <span class="n">atl</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">items</span><span class="p">()</span>
-</span><span id="L-255"><a href="#L-255"><span class="linenos">255</span></a>            <span class="k">if</span> <span class="nb">all</span><span class="p">([</span><span class="nb">getattr</span><span class="p">(</span><span class="n">pub</span><span class="p">,</span> <span class="n">attr</span><span class="p">)</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">for</span> <span class="n">attr</span> <span class="ow">in</span> <span class="n">attributes</span><span class="p">])</span>
-</span><span id="L-256"><a href="#L-256"><span class="linenos">256</span></a>        <span class="p">}</span>
-</span><span id="L-257"><a href="#L-257"><span class="linenos">257</span></a>        <span class="c1"># Do not update if unnecessary</span>
-</span><span id="L-258"><a href="#L-258"><span class="linenos">258</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="nb">len</span><span class="p">(</span><span class="n">invalid_pubs</span><span class="p">):</span>
-</span><span id="L-259"><a href="#L-259"><span class="linenos">259</span></a>            <span class="k">return</span> <span class="n">atl</span>
-</span><span id="L-260"><a href="#L-260"><span class="linenos">260</span></a>
-</span><span id="L-261"><a href="#L-261"><span class="linenos">261</span></a>        <span class="n">filter_ids</span> <span class="o">=</span> <span class="n">invalid_pubs</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span>
-</span><span id="L-262"><a href="#L-262"><span class="linenos">262</span></a>        <span class="c1"># Remove embeddings, ids from projection</span>
-</span><span id="L-263"><a href="#L-263"><span class="linenos">263</span></a>        <span class="k">if</span> <span class="n">atl</span><span class="o">.</span><span class="n">projection</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="nb">len</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="p">):</span>
-</span><span id="L-264"><a href="#L-264"><span class="linenos">264</span></a>            <span class="n">filter_indices</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
-</span><span id="L-265"><a href="#L-265"><span class="linenos">265</span></a>            <span class="n">idx_to_id_new</span> <span class="o">=</span> <span class="p">[]</span>
-</span><span id="L-266"><a href="#L-266"><span class="linenos">266</span></a>            <span class="c1"># From indexing</span>
-</span><span id="L-267"><a href="#L-267"><span class="linenos">267</span></a>            <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="nb">id</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">index_to_identifier</span><span class="p">):</span>
-</span><span id="L-268"><a href="#L-268"><span class="linenos">268</span></a>                <span class="k">if</span> <span class="nb">id</span> <span class="ow">in</span> <span class="n">filter_ids</span><span class="p">:</span>
-</span><span id="L-269"><a href="#L-269"><span class="linenos">269</span></a>                    <span class="n">filter_indices</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">idx</span><span class="p">)</span>
-</span><span id="L-270"><a href="#L-270"><span class="linenos">270</span></a>                <span class="k">else</span><span class="p">:</span>
-</span><span id="L-271"><a href="#L-271"><span class="linenos">271</span></a>                    <span class="n">idx_to_id_new</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="nb">id</span><span class="p">)</span>
-</span><span id="L-272"><a href="#L-272"><span class="linenos">272</span></a>            <span class="c1"># From embeddings</span>
-</span><span id="L-273"><a href="#L-273"><span class="linenos">273</span></a>            <span class="n">embeddings</span> <span class="o">=</span> <span class="p">[</span>
-</span><span id="L-274"><a href="#L-274"><span class="linenos">274</span></a>                <span class="n">embedding</span>
-</span><span id="L-275"><a href="#L-275"><span class="linenos">275</span></a>                <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">embedding</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">embeddings</span><span class="p">)</span>
-</span><span id="L-276"><a href="#L-276"><span class="linenos">276</span></a>                <span class="k">if</span> <span class="n">idx</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">filter_indices</span>
-</span><span id="L-277"><a href="#L-277"><span class="linenos">277</span></a>            <span class="p">]</span>
-</span><span id="L-278"><a href="#L-278"><span class="linenos">278</span></a>            <span class="c1"># From identifier to index map</span>
-</span><span id="L-279"><a href="#L-279"><span class="linenos">279</span></a>            <span class="n">id_to_idx_new</span> <span class="o">=</span> <span class="p">{</span><span class="nb">id</span><span class="p">:</span> <span class="n">idx</span> <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="nb">id</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">idx_to_id_new</span><span class="p">)}</span>
-</span><span id="L-280"><a href="#L-280"><span class="linenos">280</span></a>            <span class="c1"># Overwrite Projection</span>
-</span><span id="L-281"><a href="#L-281"><span class="linenos">281</span></a>            <span class="n">atl</span><span class="o">.</span><span class="n">projection</span> <span class="o">=</span> <span class="n">Projection</span><span class="p">(</span>
-</span><span id="L-282"><a href="#L-282"><span class="linenos">282</span></a>                <span class="n">identifier_to_index</span><span class="o">=</span><span class="n">id_to_idx_new</span><span class="p">,</span>
-</span><span id="L-283"><a href="#L-283"><span class="linenos">283</span></a>                <span class="n">index_to_identifier</span><span class="o">=</span><span class="n">idx_to_id_new</span><span class="p">,</span>
-</span><span id="L-284"><a href="#L-284"><span class="linenos">284</span></a>                <span class="n">embeddings</span><span class="o">=</span><span class="n">embeddings</span><span class="p">,</span>
-</span><span id="L-285"><a href="#L-285"><span class="linenos">285</span></a>            <span class="p">)</span>
-</span><span id="L-286"><a href="#L-286"><span class="linenos">286</span></a>
-</span><span id="L-287"><a href="#L-287"><span class="linenos">287</span></a>        <span class="c1"># Remove publications</span>
-</span><span id="L-288"><a href="#L-288"><span class="linenos">288</span></a>        <span class="n">atl</span><span class="o">.</span><span class="n">publications</span> <span class="o">=</span> <span class="p">{</span>
-</span><span id="L-289"><a href="#L-289"><span class="linenos">289</span></a>            <span class="nb">id</span><span class="p">:</span> <span class="n">pub</span> <span class="k">for</span> <span class="nb">id</span><span class="p">,</span> <span class="n">pub</span> <span class="ow">in</span> <span class="n">atl</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span> <span class="nb">id</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">filter_ids</span>
-</span><span id="L-290"><a href="#L-290"><span class="linenos">290</span></a>        <span class="p">}</span>
-</span><span id="L-291"><a href="#L-291"><span class="linenos">291</span></a>
-</span><span id="L-292"><a href="#L-292"><span class="linenos">292</span></a>        <span class="k">return</span> <span class="n">atl</span>
+</span><span id="L-186"><a href="#L-186"><span class="linenos">186</span></a>            <span class="c1"># create new projection</span>
+</span><span id="L-187"><a href="#L-187"><span class="linenos">187</span></a>            <span class="n">projection</span> <span class="o">=</span> <span class="n">Projection</span><span class="p">(</span>
+</span><span id="L-188"><a href="#L-188"><span class="linenos">188</span></a>                <span class="n">identifier_to_index</span><span class="o">=</span><span class="p">{</span>
+</span><span id="L-189"><a href="#L-189"><span class="linenos">189</span></a>                    <span class="n">identifier</span><span class="p">:</span> <span class="n">idx</span> <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">identifier</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">successful_ids</span><span class="p">)</span>
+</span><span id="L-190"><a href="#L-190"><span class="linenos">190</span></a>                <span class="p">},</span>
+</span><span id="L-191"><a href="#L-191"><span class="linenos">191</span></a>                <span class="n">index_to_identifier</span><span class="o">=</span><span class="nb">tuple</span><span class="p">(</span><span class="n">successful_ids</span><span class="p">),</span>
+</span><span id="L-192"><a href="#L-192"><span class="linenos">192</span></a>                <span class="n">embeddings</span><span class="o">=</span><span class="n">embeddings</span><span class="p">,</span>
+</span><span id="L-193"><a href="#L-193"><span class="linenos">193</span></a>            <span class="p">)</span>
+</span><span id="L-194"><a href="#L-194"><span class="linenos">194</span></a>
+</span><span id="L-195"><a href="#L-195"><span class="linenos">195</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">embed_ids</span> <span class="ow">or</span> <span class="n">embed_ids</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">verbose</span><span class="p">:</span>
+</span><span id="L-196"><a href="#L-196"><span class="linenos">196</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Obtained no new publication embeddings.&quot;</span><span class="p">)</span>
+</span><span id="L-197"><a href="#L-197"><span class="linenos">197</span></a>            <span class="n">projection</span> <span class="o">=</span> <span class="n">get_empty_projection</span><span class="p">()</span>
+</span><span id="L-198"><a href="#L-198"><span class="linenos">198</span></a>
+</span><span id="L-199"><a href="#L-199"><span class="linenos">199</span></a>        <span class="c1"># merge existing projection with new projection</span>
+</span><span id="L-200"><a href="#L-200"><span class="linenos">200</span></a>        <span class="n">merged_projection</span> <span class="o">=</span> <span class="n">merge</span><span class="p">(</span><span class="n">atl_filtered</span><span class="o">.</span><span class="n">projection</span><span class="p">,</span> <span class="n">projection</span><span class="p">)</span>
+</span><span id="L-201"><a href="#L-201"><span class="linenos">201</span></a>
+</span><span id="L-202"><a href="#L-202"><span class="linenos">202</span></a>        <span class="c1"># prepare to overwrite atlas with publications corresponding to updated (merged) projection</span>
+</span><span id="L-203"><a href="#L-203"><span class="linenos">203</span></a>        <span class="n">embedded_publications</span> <span class="o">=</span> <span class="p">{</span>
+</span><span id="L-204"><a href="#L-204"><span class="linenos">204</span></a>            <span class="nb">id</span><span class="p">:</span> <span class="n">pub</span>
+</span><span id="L-205"><a href="#L-205"><span class="linenos">205</span></a>            <span class="k">for</span> <span class="nb">id</span><span class="p">,</span> <span class="n">pub</span> <span class="ow">in</span> <span class="n">atl_filtered</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">items</span><span class="p">()</span>
+</span><span id="L-206"><a href="#L-206"><span class="linenos">206</span></a>            <span class="k">if</span> <span class="nb">id</span> <span class="ow">in</span> <span class="n">merged_projection</span><span class="o">.</span><span class="n">identifier_to_index</span>
+</span><span id="L-207"><a href="#L-207"><span class="linenos">207</span></a>        <span class="p">}</span>
+</span><span id="L-208"><a href="#L-208"><span class="linenos">208</span></a>        <span class="k">assert</span> <span class="ow">not</span> <span class="nb">set</span><span class="p">(</span><span class="n">atl_filtered</span><span class="o">.</span><span class="n">ids</span><span class="p">())</span> <span class="o">-</span> <span class="nb">set</span><span class="p">(</span><span class="n">embedded_publications</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
+</span><span id="L-209"><a href="#L-209"><span class="linenos">209</span></a>
+</span><span id="L-210"><a href="#L-210"><span class="linenos">210</span></a>        <span class="c1"># Overwrite atlas data</span>
+</span><span id="L-211"><a href="#L-211"><span class="linenos">211</span></a>        <span class="n">atl_filtered</span><span class="o">.</span><span class="n">publications</span> <span class="o">=</span> <span class="n">embedded_publications</span>
+</span><span id="L-212"><a href="#L-212"><span class="linenos">212</span></a>        <span class="n">atl_filtered</span><span class="o">.</span><span class="n">projection</span> <span class="o">=</span> <span class="n">merged_projection</span>
+</span><span id="L-213"><a href="#L-213"><span class="linenos">213</span></a>        <span class="k">return</span> <span class="n">atl_filtered</span>
+</span><span id="L-214"><a href="#L-214"><span class="linenos">214</span></a>
+</span><span id="L-215"><a href="#L-215"><span class="linenos">215</span></a>    <span class="c1">######################################################################</span>
+</span><span id="L-216"><a href="#L-216"><span class="linenos">216</span></a>    <span class="c1"># Expand Atlas</span>
+</span><span id="L-217"><a href="#L-217"><span class="linenos">217</span></a>    <span class="c1">######################################################################</span>
+</span><span id="L-218"><a href="#L-218"><span class="linenos">218</span></a>
+</span><span id="L-219"><a href="#L-219"><span class="linenos">219</span></a>    <span class="k">def</span> <span class="nf">expand</span><span class="p">(</span>
+</span><span id="L-220"><a href="#L-220"><span class="linenos">220</span></a>        <span class="bp">self</span><span class="p">,</span>
+</span><span id="L-221"><a href="#L-221"><span class="linenos">221</span></a>        <span class="n">atl</span><span class="p">:</span> <span class="n">Atlas</span><span class="p">,</span>
+</span><span id="L-222"><a href="#L-222"><span class="linenos">222</span></a>        <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+</span><span id="L-223"><a href="#L-223"><span class="linenos">223</span></a>        <span class="n">center</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="L-224"><a href="#L-224"><span class="linenos">224</span></a>        <span class="n">n_pubs_max</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">4000</span><span class="p">,</span>
+</span><span id="L-225"><a href="#L-225"><span class="linenos">225</span></a>        <span class="n">n_sources_max</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="L-226"><a href="#L-226"><span class="linenos">226</span></a>        <span class="n">record_pubs_per_update</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+</span><span id="L-227"><a href="#L-227"><span class="linenos">227</span></a>        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+</span><span id="L-228"><a href="#L-228"><span class="linenos">228</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Atlas</span><span class="p">:</span>
+</span><span id="L-229"><a href="#L-229"><span class="linenos">229</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Expand an atlas by retrieving a list of publications resulting from traversal of the citation network.</span>
+</span><span id="L-230"><a href="#L-230"><span class="linenos">230</span></a>
+</span><span id="L-231"><a href="#L-231"><span class="linenos">231</span></a><span class="sd">        Args:</span>
+</span><span id="L-232"><a href="#L-232"><span class="linenos">232</span></a><span class="sd">            atl: the atlas containing the region to expand</span>
+</span><span id="L-233"><a href="#L-233"><span class="linenos">233</span></a>
+</span><span id="L-234"><a href="#L-234"><span class="linenos">234</span></a><span class="sd">            center: (if given) center the search on this publication, preferentially searching related publications.</span>
+</span><span id="L-235"><a href="#L-235"><span class="linenos">235</span></a>
+</span><span id="L-236"><a href="#L-236"><span class="linenos">236</span></a><span class="sd">            n_pubs_max: maximum number of publications allowed in the expansion.</span>
+</span><span id="L-237"><a href="#L-237"><span class="linenos">237</span></a>
+</span><span id="L-238"><a href="#L-238"><span class="linenos">238</span></a><span class="sd">            n_sources_max: maximum number of publications (already in the atlas) to draw references and citations from.</span>
+</span><span id="L-239"><a href="#L-239"><span class="linenos">239</span></a>
+</span><span id="L-240"><a href="#L-240"><span class="linenos">240</span></a><span class="sd">            record_pubs_per_update: whether to track all the publications that exist in the resulting atlas to `self.pubs_per_update`. This should only be set to `True` when you need to later filter by degree of convergence of the atlas.</span>
+</span><span id="L-241"><a href="#L-241"><span class="linenos">241</span></a>
+</span><span id="L-242"><a href="#L-242"><span class="linenos">242</span></a><span class="sd">        Returns:</span>
+</span><span id="L-243"><a href="#L-243"><span class="linenos">243</span></a><span class="sd">            atl_expanded: the expanded atlas</span>
+</span><span id="L-244"><a href="#L-244"><span class="linenos">244</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="L-245"><a href="#L-245"><span class="linenos">245</span></a>        <span class="n">existing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">ids</span><span class="p">())</span>
+</span><span id="L-246"><a href="#L-246"><span class="linenos">246</span></a>        <span class="n">expand_keys</span> <span class="o">=</span> <span class="n">existing_keys</span>
+</span><span id="L-247"><a href="#L-247"><span class="linenos">247</span></a>        <span class="k">if</span> <span class="n">center</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="L-248"><a href="#L-248"><span class="linenos">248</span></a>            <span class="c1"># If atlas is initial</span>
+</span><span id="L-249"><a href="#L-249"><span class="linenos">249</span></a>            <span class="k">if</span> <span class="n">atl</span><span class="o">.</span><span class="n">projection</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="L-250"><a href="#L-250"><span class="linenos">250</span></a>                <span class="n">atl</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">project</span><span class="p">(</span><span class="n">atl</span><span class="p">)</span>
+</span><span id="L-251"><a href="#L-251"><span class="linenos">251</span></a>
+</span><span id="L-252"><a href="#L-252"><span class="linenos">252</span></a>            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="p">):</span>
+</span><span id="L-253"><a href="#L-253"><span class="linenos">253</span></a>                <span class="c1"># build cosine similarity matrix, of shape (1, num_pubs)</span>
+</span><span id="L-254"><a href="#L-254"><span class="linenos">254</span></a>                <span class="n">cospsi_matrix</span> <span class="o">=</span> <span class="n">cosine_similarity</span><span class="p">(</span>
+</span><span id="L-255"><a href="#L-255"><span class="linenos">255</span></a>                    <span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">identifiers_to_embeddings</span><span class="p">([</span><span class="n">center</span><span class="p">]),</span>
+</span><span id="L-256"><a href="#L-256"><span class="linenos">256</span></a>                    <span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">embeddings</span><span class="p">,</span>
+</span><span id="L-257"><a href="#L-257"><span class="linenos">257</span></a>                <span class="p">)</span>
+</span><span id="L-258"><a href="#L-258"><span class="linenos">258</span></a>                <span class="c1"># get most similar keys from center, including center itself</span>
+</span><span id="L-259"><a href="#L-259"><span class="linenos">259</span></a>                <span class="n">sort_inds</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">argsort</span><span class="p">(</span><span class="n">cospsi_matrix</span><span class="p">)[::</span><span class="o">-</span><span class="mi">1</span><span class="p">][</span>
+</span><span id="L-260"><a href="#L-260"><span class="linenos">260</span></a>                    <span class="mi">0</span>
+</span><span id="L-261"><a href="#L-261"><span class="linenos">261</span></a>                <span class="p">]</span>  <span class="c1"># argsort orders from least to greatest similarity, so reverse</span>
+</span><span id="L-262"><a href="#L-262"><span class="linenos">262</span></a>                <span class="n">expand_keys</span> <span class="o">=</span> <span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">indices_to_identifiers</span><span class="p">(</span><span class="n">sort_inds</span><span class="p">)</span>
+</span><span id="L-263"><a href="#L-263"><span class="linenos">263</span></a>
+</span><span id="L-264"><a href="#L-264"><span class="linenos">264</span></a>        <span class="k">if</span> <span class="n">n_sources_max</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="L-265"><a href="#L-265"><span class="linenos">265</span></a>            <span class="n">expand_keys</span> <span class="o">=</span> <span class="n">expand_keys</span><span class="p">[:</span><span class="n">n_sources_max</span><span class="p">]</span>
+</span><span id="L-266"><a href="#L-266"><span class="linenos">266</span></a>
+</span><span id="L-267"><a href="#L-267"><span class="linenos">267</span></a>        <span class="c1"># Get identifiers for the expansion</span>
+</span><span id="L-268"><a href="#L-268"><span class="linenos">268</span></a>        <span class="c1"># For each publication corresponding to an id in `expand_keys`, collect the ids corresponding to the publication&#39;s references and citations.</span>
+</span><span id="L-269"><a href="#L-269"><span class="linenos">269</span></a>        <span class="n">ids</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+</span><span id="L-270"><a href="#L-270"><span class="linenos">270</span></a>        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">expand_keys</span><span class="p">:</span>
+</span><span id="L-271"><a href="#L-271"><span class="linenos">271</span></a>            <span class="n">ids_i</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">atl</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">references</span> <span class="o">+</span> <span class="n">atl</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">citations</span><span class="p">)</span>
+</span><span id="L-272"><a href="#L-272"><span class="linenos">272</span></a>            <span class="c1"># Prune for obvious overlap, and for ids that have previously failed</span>
+</span><span id="L-273"><a href="#L-273"><span class="linenos">273</span></a>            <span class="n">ids</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">ids_i</span> <span class="o">-</span> <span class="n">existing_keys</span> <span class="o">-</span> <span class="n">atl</span><span class="o">.</span><span class="n">bad_ids</span><span class="p">)</span>
+</span><span id="L-274"><a href="#L-274"><span class="linenos">274</span></a>            <span class="c1"># Break when the search is centered and we&#39;re maxed out</span>
+</span><span id="L-275"><a href="#L-275"><span class="linenos">275</span></a>            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span> <span class="o">&gt;</span> <span class="n">n_pubs_max</span> <span class="ow">and</span> <span class="n">center</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="L-276"><a href="#L-276"><span class="linenos">276</span></a>                <span class="k">break</span>
+</span><span id="L-277"><a href="#L-277"><span class="linenos">277</span></a>        <span class="n">ids</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span>
+</span><span id="L-278"><a href="#L-278"><span class="linenos">278</span></a>
+</span><span id="L-279"><a href="#L-279"><span class="linenos">279</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">ids</span><span class="p">:</span>
+</span><span id="L-280"><a href="#L-280"><span class="linenos">280</span></a>            <span class="nb">print</span><span class="p">(</span><span class="s2">&quot;Overly-restrictive search, no ids to retrive.&quot;</span><span class="p">)</span>
+</span><span id="L-281"><a href="#L-281"><span class="linenos">281</span></a>
+</span><span id="L-282"><a href="#L-282"><span class="linenos">282</span></a>        <span class="c1"># Sample to account for max number of publications we want to retrieve</span>
+</span><span id="L-283"><a href="#L-283"><span class="linenos">283</span></a>        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span> <span class="o">&gt;</span> <span class="n">n_pubs_max</span><span class="p">:</span>
+</span><span id="L-284"><a href="#L-284"><span class="linenos">284</span></a>            <span class="n">ids</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">choice</span><span class="p">(</span><span class="n">ids</span><span class="p">,</span> <span class="n">n_pubs_max</span><span class="p">,</span> <span class="n">replace</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+</span><span id="L-285"><a href="#L-285"><span class="linenos">285</span></a>
+</span><span id="L-286"><a href="#L-286"><span class="linenos">286</span></a>        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Expansion will include </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span><span class="si">}</span><span class="s2"> new publications.&quot;</span><span class="p">)</span>
+</span><span id="L-287"><a href="#L-287"><span class="linenos">287</span></a>
+</span><span id="L-288"><a href="#L-288"><span class="linenos">288</span></a>        <span class="c1"># Retrieve publications from ids using a librarian</span>
+</span><span id="L-289"><a href="#L-289"><span class="linenos">289</span></a>        <span class="n">new_publications</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">librarian</span><span class="o">.</span><span class="n">get_publications</span><span class="p">(</span><span class="n">ids</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+</span><span id="L-290"><a href="#L-290"><span class="linenos">290</span></a>
+</span><span id="L-291"><a href="#L-291"><span class="linenos">291</span></a>        <span class="c1"># New atlas</span>
+</span><span id="L-292"><a href="#L-292"><span class="linenos">292</span></a>        <span class="n">atl_exp</span> <span class="o">=</span> <span class="n">Atlas</span><span class="p">(</span><span class="n">new_publications</span><span class="p">)</span>
+</span><span id="L-293"><a href="#L-293"><span class="linenos">293</span></a>
+</span><span id="L-294"><a href="#L-294"><span class="linenos">294</span></a>        <span class="c1"># Update the new atlas</span>
+</span><span id="L-295"><a href="#L-295"><span class="linenos">295</span></a>        <span class="n">atl_exp</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">publications</span><span class="p">)</span>
+</span><span id="L-296"><a href="#L-296"><span class="linenos">296</span></a>        <span class="n">atl_exp</span><span class="o">.</span><span class="n">bad_ids</span> <span class="o">=</span> <span class="n">atl</span><span class="o">.</span><span class="n">bad_ids</span>
+</span><span id="L-297"><a href="#L-297"><span class="linenos">297</span></a>        <span class="n">atl_exp</span><span class="o">.</span><span class="n">projection</span> <span class="o">=</span> <span class="p">(</span>
+</span><span id="L-298"><a href="#L-298"><span class="linenos">298</span></a>            <span class="n">atl</span><span class="o">.</span><span class="n">projection</span>
+</span><span id="L-299"><a href="#L-299"><span class="linenos">299</span></a>        <span class="p">)</span>  <span class="c1"># new projection will be updated in `project`</span>
+</span><span id="L-300"><a href="#L-300"><span class="linenos">300</span></a>
+</span><span id="L-301"><a href="#L-301"><span class="linenos">301</span></a>        <span class="c1"># Record the new list of publications</span>
+</span><span id="L-302"><a href="#L-302"><span class="linenos">302</span></a>        <span class="k">if</span> <span class="n">record_pubs_per_update</span><span class="p">:</span>
+</span><span id="L-303"><a href="#L-303"><span class="linenos">303</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">pubs_per_update</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="nb">list</span><span class="p">(</span><span class="n">atl_exp</span><span class="o">.</span><span class="n">ids</span><span class="p">()))</span>
+</span><span id="L-304"><a href="#L-304"><span class="linenos">304</span></a>
+</span><span id="L-305"><a href="#L-305"><span class="linenos">305</span></a>        <span class="k">return</span> <span class="n">atl_exp</span>
+</span><span id="L-306"><a href="#L-306"><span class="linenos">306</span></a>
+</span><span id="L-307"><a href="#L-307"><span class="linenos">307</span></a>    <span class="c1">######################################################################</span>
+</span><span id="L-308"><a href="#L-308"><span class="linenos">308</span></a>    <span class="c1"># Filter Atlas</span>
+</span><span id="L-309"><a href="#L-309"><span class="linenos">309</span></a>    <span class="c1">######################################################################</span>
+</span><span id="L-310"><a href="#L-310"><span class="linenos">310</span></a>
+</span><span id="L-311"><a href="#L-311"><span class="linenos">311</span></a>    <span class="k">def</span> <span class="nf">filter_by_attributes</span><span class="p">(</span>
+</span><span id="L-312"><a href="#L-312"><span class="linenos">312</span></a>        <span class="bp">self</span><span class="p">,</span>
+</span><span id="L-313"><a href="#L-313"><span class="linenos">313</span></a>        <span class="n">atl</span><span class="p">:</span> <span class="n">Atlas</span><span class="p">,</span>
+</span><span id="L-314"><a href="#L-314"><span class="linenos">314</span></a>        <span class="n">attributes</span><span class="p">:</span> <span class="nb">list</span> <span class="o">=</span> <span class="p">[</span>
+</span><span id="L-315"><a href="#L-315"><span class="linenos">315</span></a>            <span class="s2">&quot;abstract&quot;</span><span class="p">,</span>
+</span><span id="L-316"><a href="#L-316"><span class="linenos">316</span></a>            <span class="s2">&quot;publication_date&quot;</span><span class="p">,</span>
+</span><span id="L-317"><a href="#L-317"><span class="linenos">317</span></a>        <span class="p">],</span>
+</span><span id="L-318"><a href="#L-318"><span class="linenos">318</span></a>        <span class="n">record_pubs_per_update</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+</span><span id="L-319"><a href="#L-319"><span class="linenos">319</span></a>        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+</span><span id="L-320"><a href="#L-320"><span class="linenos">320</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Atlas</span><span class="p">:</span>
+</span><span id="L-321"><a href="#L-321"><span class="linenos">321</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Update an atlas by dropping publications (and corresponding data in projection) when certain fields are empty.</span>
+</span><span id="L-322"><a href="#L-322"><span class="linenos">322</span></a>
+</span><span id="L-323"><a href="#L-323"><span class="linenos">323</span></a><span class="sd">        Args:</span>
+</span><span id="L-324"><a href="#L-324"><span class="linenos">324</span></a><span class="sd">            atl: the Atlas containing publications to filter</span>
+</span><span id="L-325"><a href="#L-325"><span class="linenos">325</span></a>
+</span><span id="L-326"><a href="#L-326"><span class="linenos">326</span></a><span class="sd">            attributes: the list of attributes to filter publications from the atlas IF any of items are None for a publication. For example, if attributes = [&quot;abstract&quot;], then all publications `pub` such that `pub.abstract is None` is True will be removed from the atlas, along with the corresponding data in the projection.</span>
+</span><span id="L-327"><a href="#L-327"><span class="linenos">327</span></a>
+</span><span id="L-328"><a href="#L-328"><span class="linenos">328</span></a><span class="sd">            record_pubs_per_update: whether to track all the publications that exist in the resulting atlas to `self.pubs_per_update`. This should only be set to `True` when you need to later filter by degree of convergence of the atlas. This is an important parameter because `self.filter` is called in `self.project`, which typically is called after `self.expand`, where we pass in the same parameter.</span>
+</span><span id="L-329"><a href="#L-329"><span class="linenos">329</span></a>
+</span><span id="L-330"><a href="#L-330"><span class="linenos">330</span></a><span class="sd">        Returns:</span>
+</span><span id="L-331"><a href="#L-331"><span class="linenos">331</span></a><span class="sd">            the filtered atlas</span>
+</span><span id="L-332"><a href="#L-332"><span class="linenos">332</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="L-333"><a href="#L-333"><span class="linenos">333</span></a>        <span class="c1"># Filter publications</span>
+</span><span id="L-334"><a href="#L-334"><span class="linenos">334</span></a>        <span class="n">invalid_pubs</span> <span class="o">=</span> <span class="p">{</span>
+</span><span id="L-335"><a href="#L-335"><span class="linenos">335</span></a>            <span class="nb">id</span><span class="p">:</span> <span class="n">pub</span>
+</span><span id="L-336"><a href="#L-336"><span class="linenos">336</span></a>            <span class="k">for</span> <span class="nb">id</span><span class="p">,</span> <span class="n">pub</span> <span class="ow">in</span> <span class="n">atl</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">items</span><span class="p">()</span>
+</span><span id="L-337"><a href="#L-337"><span class="linenos">337</span></a>            <span class="k">if</span> <span class="p">(</span><span class="n">pub</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="nb">any</span><span class="p">([</span><span class="nb">getattr</span><span class="p">(</span><span class="n">pub</span><span class="p">,</span> <span class="n">attr</span><span class="p">)</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">for</span> <span class="n">attr</span> <span class="ow">in</span> <span class="n">attributes</span><span class="p">]))</span>
+</span><span id="L-338"><a href="#L-338"><span class="linenos">338</span></a>        <span class="p">}</span>
+</span><span id="L-339"><a href="#L-339"><span class="linenos">339</span></a>        <span class="c1"># Do not update if unnecessary</span>
+</span><span id="L-340"><a href="#L-340"><span class="linenos">340</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="nb">len</span><span class="p">(</span><span class="n">invalid_pubs</span><span class="p">):</span>
+</span><span id="L-341"><a href="#L-341"><span class="linenos">341</span></a>            <span class="k">return</span> <span class="n">atl</span>
+</span><span id="L-342"><a href="#L-342"><span class="linenos">342</span></a>
+</span><span id="L-343"><a href="#L-343"><span class="linenos">343</span></a>        <span class="n">atl_filtered</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">filter_by_ids</span><span class="p">(</span><span class="n">atl</span><span class="p">,</span> <span class="n">drop_ids</span><span class="o">=</span><span class="n">invalid_pubs</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
+</span><span id="L-344"><a href="#L-344"><span class="linenos">344</span></a>
+</span><span id="L-345"><a href="#L-345"><span class="linenos">345</span></a>        <span class="c1"># Record only the publications in the history that weren&#39;t filtered out</span>
+</span><span id="L-346"><a href="#L-346"><span class="linenos">346</span></a>        <span class="k">if</span> <span class="n">record_pubs_per_update</span><span class="p">:</span>
+</span><span id="L-347"><a href="#L-347"><span class="linenos">347</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">pubs_per_update</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">=</span> <span class="n">atl_filtered</span><span class="o">.</span><span class="n">ids</span><span class="p">()</span>
+</span><span id="L-348"><a href="#L-348"><span class="linenos">348</span></a>
+</span><span id="L-349"><a href="#L-349"><span class="linenos">349</span></a>        <span class="k">return</span> <span class="n">atl_filtered</span>
+</span><span id="L-350"><a href="#L-350"><span class="linenos">350</span></a>
+</span><span id="L-351"><a href="#L-351"><span class="linenos">351</span></a>    <span class="k">def</span> <span class="nf">filter_by_ids</span><span class="p">(</span>
+</span><span id="L-352"><a href="#L-352"><span class="linenos">352</span></a>        <span class="bp">self</span><span class="p">,</span>
+</span><span id="L-353"><a href="#L-353"><span class="linenos">353</span></a>        <span class="n">atl</span><span class="p">:</span> <span class="n">Atlas</span><span class="p">,</span>
+</span><span id="L-354"><a href="#L-354"><span class="linenos">354</span></a>        <span class="n">keep_ids</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="L-355"><a href="#L-355"><span class="linenos">355</span></a>        <span class="n">drop_ids</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="L-356"><a href="#L-356"><span class="linenos">356</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Atlas</span><span class="p">:</span>
+</span><span id="L-357"><a href="#L-357"><span class="linenos">357</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Update an atlas by dropping publications (and corresponding data in projection).</span>
+</span><span id="L-358"><a href="#L-358"><span class="linenos">358</span></a>
+</span><span id="L-359"><a href="#L-359"><span class="linenos">359</span></a><span class="sd">        Args:</span>
+</span><span id="L-360"><a href="#L-360"><span class="linenos">360</span></a><span class="sd">            atl: the Atlas containing publications to filter</span>
+</span><span id="L-361"><a href="#L-361"><span class="linenos">361</span></a>
+</span><span id="L-362"><a href="#L-362"><span class="linenos">362</span></a><span class="sd">            keep_ids: the list of publication ids to NOT filter; all other publications in `atl` not matching one of these ids will be removed.</span>
+</span><span id="L-363"><a href="#L-363"><span class="linenos">363</span></a>
+</span><span id="L-364"><a href="#L-364"><span class="linenos">364</span></a><span class="sd">            drop_ids: the list of publications to filter; all publications in `atl` matching one of these ids will be removed.</span>
+</span><span id="L-365"><a href="#L-365"><span class="linenos">365</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="L-366"><a href="#L-366"><span class="linenos">366</span></a>
+</span><span id="L-367"><a href="#L-367"><span class="linenos">367</span></a>        <span class="k">if</span> <span class="nb">all</span><span class="p">(</span><span class="n">x</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="p">[</span><span class="n">keep_ids</span><span class="p">,</span> <span class="n">drop_ids</span><span class="p">]):</span>
+</span><span id="L-368"><a href="#L-368"><span class="linenos">368</span></a>            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+</span><span id="L-369"><a href="#L-369"><span class="linenos">369</span></a>                <span class="s2">&quot;You must pass exactly one of `keep_ids` or `drop_ids`, but both had a value that was not `None`.&quot;</span>
+</span><span id="L-370"><a href="#L-370"><span class="linenos">370</span></a>            <span class="p">)</span>
+</span><span id="L-371"><a href="#L-371"><span class="linenos">371</span></a>        <span class="k">if</span> <span class="n">keep_ids</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="L-372"><a href="#L-372"><span class="linenos">372</span></a>            <span class="n">filter_ids</span> <span class="o">=</span> <span class="nb">set</span><span class="p">([</span><span class="nb">id</span> <span class="k">for</span> <span class="nb">id</span> <span class="ow">in</span> <span class="n">atl</span><span class="o">.</span><span class="n">ids</span><span class="p">()</span> <span class="k">if</span> <span class="nb">id</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">keep_ids</span><span class="p">])</span>
+</span><span id="L-373"><a href="#L-373"><span class="linenos">373</span></a>        <span class="k">elif</span> <span class="n">drop_ids</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="L-374"><a href="#L-374"><span class="linenos">374</span></a>            <span class="n">filter_ids</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">drop_ids</span><span class="p">)</span>
+</span><span id="L-375"><a href="#L-375"><span class="linenos">375</span></a>        <span class="k">else</span><span class="p">:</span>
+</span><span id="L-376"><a href="#L-376"><span class="linenos">376</span></a>            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+</span><span id="L-377"><a href="#L-377"><span class="linenos">377</span></a>                <span class="s2">&quot;You must pass exactly one of `keep_ids` or `drop_ids`, but both had value `None`.&quot;</span>
+</span><span id="L-378"><a href="#L-378"><span class="linenos">378</span></a>            <span class="p">)</span>
+</span><span id="L-379"><a href="#L-379"><span class="linenos">379</span></a>
+</span><span id="L-380"><a href="#L-380"><span class="linenos">380</span></a>        <span class="c1"># Keep track of the bad identifiers to skip them in future expansions</span>
+</span><span id="L-381"><a href="#L-381"><span class="linenos">381</span></a>        <span class="n">new_bad_ids</span> <span class="o">=</span> <span class="n">atl</span><span class="o">.</span><span class="n">bad_ids</span><span class="o">.</span><span class="n">union</span><span class="p">(</span><span class="n">filter_ids</span><span class="p">)</span>
+</span><span id="L-382"><a href="#L-382"><span class="linenos">382</span></a>
+</span><span id="L-383"><a href="#L-383"><span class="linenos">383</span></a>        <span class="c1"># Filter embeddings, ids from projection</span>
+</span><span id="L-384"><a href="#L-384"><span class="linenos">384</span></a>        <span class="k">if</span> <span class="n">atl</span><span class="o">.</span><span class="n">projection</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="L-385"><a href="#L-385"><span class="linenos">385</span></a>            <span class="n">new_projection</span> <span class="o">=</span> <span class="kc">None</span>
+</span><span id="L-386"><a href="#L-386"><span class="linenos">386</span></a>        <span class="k">else</span><span class="p">:</span>
+</span><span id="L-387"><a href="#L-387"><span class="linenos">387</span></a>            <span class="n">filter_indices</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+</span><span id="L-388"><a href="#L-388"><span class="linenos">388</span></a>            <span class="n">idx_to_id_new</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="L-389"><a href="#L-389"><span class="linenos">389</span></a>            <span class="c1"># From indexing</span>
+</span><span id="L-390"><a href="#L-390"><span class="linenos">390</span></a>            <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="nb">id</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">index_to_identifier</span><span class="p">):</span>
+</span><span id="L-391"><a href="#L-391"><span class="linenos">391</span></a>                <span class="k">if</span> <span class="nb">id</span> <span class="ow">in</span> <span class="n">filter_ids</span><span class="p">:</span>
+</span><span id="L-392"><a href="#L-392"><span class="linenos">392</span></a>                    <span class="n">filter_indices</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">idx</span><span class="p">)</span>
+</span><span id="L-393"><a href="#L-393"><span class="linenos">393</span></a>                <span class="k">else</span><span class="p">:</span>
+</span><span id="L-394"><a href="#L-394"><span class="linenos">394</span></a>                    <span class="n">idx_to_id_new</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="nb">id</span><span class="p">)</span>
+</span><span id="L-395"><a href="#L-395"><span class="linenos">395</span></a>            <span class="c1"># From embeddings</span>
+</span><span id="L-396"><a href="#L-396"><span class="linenos">396</span></a>            <span class="n">embeddings</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+</span><span id="L-397"><a href="#L-397"><span class="linenos">397</span></a>                <span class="p">[</span>
+</span><span id="L-398"><a href="#L-398"><span class="linenos">398</span></a>                    <span class="n">embedding</span>
+</span><span id="L-399"><a href="#L-399"><span class="linenos">399</span></a>                    <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">embedding</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">embeddings</span><span class="p">)</span>
+</span><span id="L-400"><a href="#L-400"><span class="linenos">400</span></a>                    <span class="k">if</span> <span class="n">idx</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">filter_indices</span>
+</span><span id="L-401"><a href="#L-401"><span class="linenos">401</span></a>                <span class="p">]</span>
+</span><span id="L-402"><a href="#L-402"><span class="linenos">402</span></a>            <span class="p">)</span>
+</span><span id="L-403"><a href="#L-403"><span class="linenos">403</span></a>            <span class="c1"># From identifier to index map</span>
+</span><span id="L-404"><a href="#L-404"><span class="linenos">404</span></a>            <span class="n">id_to_idx_new</span> <span class="o">=</span> <span class="p">{</span><span class="nb">id</span><span class="p">:</span> <span class="n">idx</span> <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="nb">id</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">idx_to_id_new</span><span class="p">)}</span>
+</span><span id="L-405"><a href="#L-405"><span class="linenos">405</span></a>            <span class="c1"># Construct new, filtered projection</span>
+</span><span id="L-406"><a href="#L-406"><span class="linenos">406</span></a>            <span class="n">new_projection</span> <span class="o">=</span> <span class="n">Projection</span><span class="p">(</span>
+</span><span id="L-407"><a href="#L-407"><span class="linenos">407</span></a>                <span class="n">identifier_to_index</span><span class="o">=</span><span class="n">id_to_idx_new</span><span class="p">,</span>
+</span><span id="L-408"><a href="#L-408"><span class="linenos">408</span></a>                <span class="n">index_to_identifier</span><span class="o">=</span><span class="n">idx_to_id_new</span><span class="p">,</span>
+</span><span id="L-409"><a href="#L-409"><span class="linenos">409</span></a>                <span class="n">embeddings</span><span class="o">=</span><span class="n">embeddings</span><span class="p">,</span>
+</span><span id="L-410"><a href="#L-410"><span class="linenos">410</span></a>            <span class="p">)</span>
+</span><span id="L-411"><a href="#L-411"><span class="linenos">411</span></a>
+</span><span id="L-412"><a href="#L-412"><span class="linenos">412</span></a>        <span class="c1"># Keep only filtered publications</span>
+</span><span id="L-413"><a href="#L-413"><span class="linenos">413</span></a>        <span class="n">new_publications</span> <span class="o">=</span> <span class="p">[</span>
+</span><span id="L-414"><a href="#L-414"><span class="linenos">414</span></a>            <span class="n">pub</span> <span class="k">for</span> <span class="nb">id</span><span class="p">,</span> <span class="n">pub</span> <span class="ow">in</span> <span class="n">atl</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span> <span class="nb">id</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">filter_ids</span>
+</span><span id="L-415"><a href="#L-415"><span class="linenos">415</span></a>        <span class="p">]</span>
+</span><span id="L-416"><a href="#L-416"><span class="linenos">416</span></a>
+</span><span id="L-417"><a href="#L-417"><span class="linenos">417</span></a>        <span class="c1"># Construct new atlas</span>
+</span><span id="L-418"><a href="#L-418"><span class="linenos">418</span></a>        <span class="n">atl_filtered</span> <span class="o">=</span> <span class="n">Atlas</span><span class="p">(</span><span class="n">new_publications</span><span class="p">,</span> <span class="n">new_projection</span><span class="p">)</span>
+</span><span id="L-419"><a href="#L-419"><span class="linenos">419</span></a>        <span class="n">atl_filtered</span><span class="o">.</span><span class="n">bad_ids</span> <span class="o">=</span> <span class="n">new_bad_ids</span>
+</span><span id="L-420"><a href="#L-420"><span class="linenos">420</span></a>
+</span><span id="L-421"><a href="#L-421"><span class="linenos">421</span></a>        <span class="k">return</span> <span class="n">atl_filtered</span>
+</span><span id="L-422"><a href="#L-422"><span class="linenos">422</span></a>
+</span><span id="L-423"><a href="#L-423"><span class="linenos">423</span></a>    <span class="c1">########################################################################</span>
+</span><span id="L-424"><a href="#L-424"><span class="linenos">424</span></a>    <span class="c1"># Record Atlas history</span>
+</span><span id="L-425"><a href="#L-425"><span class="linenos">425</span></a>    <span class="c1">########################################################################</span>
+</span><span id="L-426"><a href="#L-426"><span class="linenos">426</span></a>
+</span><span id="L-427"><a href="#L-427"><span class="linenos">427</span></a>    <span class="k">def</span> <span class="nf">track</span><span class="p">(</span>
+</span><span id="L-428"><a href="#L-428"><span class="linenos">428</span></a>        <span class="bp">self</span><span class="p">,</span>
+</span><span id="L-429"><a href="#L-429"><span class="linenos">429</span></a>        <span class="n">atl</span><span class="p">:</span> <span class="n">Atlas</span><span class="p">,</span>
+</span><span id="L-430"><a href="#L-430"><span class="linenos">430</span></a>        <span class="n">pubs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="L-431"><a href="#L-431"><span class="linenos">431</span></a>        <span class="n">pubs_per_update</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="L-432"><a href="#L-432"><span class="linenos">432</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Atlas</span><span class="p">:</span>
+</span><span id="L-433"><a href="#L-433"><span class="linenos">433</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Overwrite the data associated with tracking degree of convergence of publications in an atlas over multiple expansions. N.B.: the atlas must be fully projected, or else `converged_kernel_size` will raise a KeyError.</span>
+</span><span id="L-434"><a href="#L-434"><span class="linenos">434</span></a>
+</span><span id="L-435"><a href="#L-435"><span class="linenos">435</span></a><span class="sd">        Args:</span>
+</span><span id="L-436"><a href="#L-436"><span class="linenos">436</span></a><span class="sd">            atl: the Atlas that will be updated by overwriting `Atlas.history`</span>
+</span><span id="L-437"><a href="#L-437"><span class="linenos">437</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="L-438"><a href="#L-438"><span class="linenos">438</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">record_update_history</span><span class="p">(</span><span class="n">pubs</span><span class="p">,</span> <span class="n">pubs_per_update</span><span class="p">)</span>
+</span><span id="L-439"><a href="#L-439"><span class="linenos">439</span></a>        <span class="n">kernel_size</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">converged_kernel_size</span><span class="p">(</span><span class="n">atl</span><span class="p">)</span>
+</span><span id="L-440"><a href="#L-440"><span class="linenos">440</span></a>        <span class="n">atl</span><span class="o">.</span><span class="n">history</span> <span class="o">=</span> <span class="p">{</span>
+</span><span id="L-441"><a href="#L-441"><span class="linenos">441</span></a>            <span class="s2">&quot;pubs_per_update&quot;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">pubs_per_update</span>
+</span><span id="L-442"><a href="#L-442"><span class="linenos">442</span></a>            <span class="k">if</span> <span class="n">pubs_per_update</span> <span class="ow">is</span> <span class="kc">None</span>
+</span><span id="L-443"><a href="#L-443"><span class="linenos">443</span></a>            <span class="k">else</span> <span class="n">pubs_per_update</span><span class="p">,</span>
+</span><span id="L-444"><a href="#L-444"><span class="linenos">444</span></a>            <span class="s2">&quot;kernel_size&quot;</span><span class="p">:</span> <span class="n">kernel_size</span><span class="p">,</span>
+</span><span id="L-445"><a href="#L-445"><span class="linenos">445</span></a>        <span class="p">}</span>
+</span><span id="L-446"><a href="#L-446"><span class="linenos">446</span></a>        <span class="k">return</span> <span class="n">atl</span>
+</span><span id="L-447"><a href="#L-447"><span class="linenos">447</span></a>
+</span><span id="L-448"><a href="#L-448"><span class="linenos">448</span></a>    <span class="c1">########################################################################</span>
+</span><span id="L-449"><a href="#L-449"><span class="linenos">449</span></a>    <span class="c1"># Record Atlas history</span>
+</span><span id="L-450"><a href="#L-450"><span class="linenos">450</span></a>    <span class="c1">########################################################################</span>
+</span><span id="L-451"><a href="#L-451"><span class="linenos">451</span></a>
+</span><span id="L-452"><a href="#L-452"><span class="linenos">452</span></a>    <span class="k">def</span> <span class="nf">record_update_history</span><span class="p">(</span>
+</span><span id="L-453"><a href="#L-453"><span class="linenos">453</span></a>        <span class="bp">self</span><span class="p">,</span>
+</span><span id="L-454"><a href="#L-454"><span class="linenos">454</span></a>        <span class="n">pubs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="L-455"><a href="#L-455"><span class="linenos">455</span></a>        <span class="n">pubs_per_update</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="L-456"><a href="#L-456"><span class="linenos">456</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="L-457"><a href="#L-457"><span class="linenos">457</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Record when publications were added, by updating atl.update_history.</span>
+</span><span id="L-458"><a href="#L-458"><span class="linenos">458</span></a>
+</span><span id="L-459"><a href="#L-459"><span class="linenos">459</span></a><span class="sd">        atl.update_history is a np.array of ints representing when publications were added. A value of -2 indicates no record of being added.</span>
+</span><span id="L-460"><a href="#L-460"><span class="linenos">460</span></a>
+</span><span id="L-461"><a href="#L-461"><span class="linenos">461</span></a><span class="sd">        Args:</span>
+</span><span id="L-462"><a href="#L-462"><span class="linenos">462</span></a><span class="sd">            pubs: a list of str ids corresponding to publications at the final update in the update history. By default `None`, and `self.pubs_per_update[-1]` will be used.</span>
+</span><span id="L-463"><a href="#L-463"><span class="linenos">463</span></a>
+</span><span id="L-464"><a href="#L-464"><span class="linenos">464</span></a><span class="sd">            pubs_per_update: a list of which publications existed at which iteration, with the index of the overall list corresponding to the iteration the publication was added. By default `None`, and `self.pubs_per_update` will be used.</span>
+</span><span id="L-465"><a href="#L-465"><span class="linenos">465</span></a>
+</span><span id="L-466"><a href="#L-466"><span class="linenos">466</span></a><span class="sd">        Updates:</span>
+</span><span id="L-467"><a href="#L-467"><span class="linenos">467</span></a><span class="sd">            `self.update_history`: an np.array of ints representing when publications were added. A value of -2 indicates no record of being added.</span>
+</span><span id="L-468"><a href="#L-468"><span class="linenos">468</span></a>
+</span><span id="L-469"><a href="#L-469"><span class="linenos">469</span></a><span class="sd">        Returns:</span>
+</span><span id="L-470"><a href="#L-470"><span class="linenos">470</span></a><span class="sd">            `None`</span>
+</span><span id="L-471"><a href="#L-471"><span class="linenos">471</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="L-472"><a href="#L-472"><span class="linenos">472</span></a>        <span class="k">if</span> <span class="n">pubs</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="L-473"><a href="#L-473"><span class="linenos">473</span></a>            <span class="n">pubs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">pubs_per_update</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span>
+</span><span id="L-474"><a href="#L-474"><span class="linenos">474</span></a>
+</span><span id="L-475"><a href="#L-475"><span class="linenos">475</span></a>        <span class="k">if</span> <span class="n">pubs_per_update</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="L-476"><a href="#L-476"><span class="linenos">476</span></a>            <span class="n">pubs_per_update</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">pubs_per_update</span>
+</span><span id="L-477"><a href="#L-477"><span class="linenos">477</span></a>
+</span><span id="L-478"><a href="#L-478"><span class="linenos">478</span></a>        <span class="c1"># Loop backwards</span>
+</span><span id="L-479"><a href="#L-479"><span class="linenos">479</span></a>        <span class="n">i_max</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">pubs_per_update</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span>
+</span><span id="L-480"><a href="#L-480"><span class="linenos">480</span></a>        <span class="n">update_history</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">pubs</span><span class="p">),</span> <span class="o">-</span><span class="mi">2</span><span class="p">)</span>
+</span><span id="L-481"><a href="#L-481"><span class="linenos">481</span></a>        <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">pubs_i</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">pubs_per_update</span><span class="p">[::</span><span class="o">-</span><span class="mi">1</span><span class="p">]):</span>
+</span><span id="L-482"><a href="#L-482"><span class="linenos">482</span></a>            <span class="n">is_in</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">isin</span><span class="p">(</span><span class="n">pubs</span><span class="p">,</span> <span class="n">pubs_i</span><span class="p">)</span>
+</span><span id="L-483"><a href="#L-483"><span class="linenos">483</span></a>            <span class="n">update_history</span><span class="p">[</span><span class="n">is_in</span><span class="p">]</span> <span class="o">=</span> <span class="n">i_max</span> <span class="o">-</span> <span class="n">i</span>
+</span><span id="L-484"><a href="#L-484"><span class="linenos">484</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">update_history</span> <span class="o">=</span> <span class="n">update_history</span>
+</span><span id="L-485"><a href="#L-485"><span class="linenos">485</span></a>
+</span><span id="L-486"><a href="#L-486"><span class="linenos">486</span></a>    <span class="c1">########################################################################</span>
+</span><span id="L-487"><a href="#L-487"><span class="linenos">487</span></a>    <span class="c1"># Calculate Atlas convergence</span>
+</span><span id="L-488"><a href="#L-488"><span class="linenos">488</span></a>    <span class="c1">########################################################################</span>
+</span><span id="L-489"><a href="#L-489"><span class="linenos">489</span></a>
+</span><span id="L-490"><a href="#L-490"><span class="linenos">490</span></a>    <span class="k">def</span> <span class="nf">converged_kernel_size</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">atl</span><span class="p">:</span> <span class="n">Atlas</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+</span><span id="L-491"><a href="#L-491"><span class="linenos">491</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Calculate the largest size of the kernel that&#39;s converged (at differing levels of convergence) for each publication in a sample at each update.</span>
+</span><span id="L-492"><a href="#L-492"><span class="linenos">492</span></a>
+</span><span id="L-493"><a href="#L-493"><span class="linenos">493</span></a><span class="sd">        Args:</span>
+</span><span id="L-494"><a href="#L-494"><span class="linenos">494</span></a><span class="sd">            atl: Atlas containing publications; for each publication we compute the largest converged kernel size at each update</span>
+</span><span id="L-495"><a href="#L-495"><span class="linenos">495</span></a>
+</span><span id="L-496"><a href="#L-496"><span class="linenos">496</span></a><span class="sd">        Returns:</span>
+</span><span id="L-497"><a href="#L-497"><span class="linenos">497</span></a><span class="sd">            kernel_size: an array of ints of shape `(num_pubs, max_update)` representing the kernel size for converged kernels.</span>
+</span><span id="L-498"><a href="#L-498"><span class="linenos">498</span></a><span class="sd">                - The first column indicates the largest kernel size that hasn&#39;t changed since the beginning,</span>
+</span><span id="L-499"><a href="#L-499"><span class="linenos">499</span></a><span class="sd">                - The second column indicates the largest kernel size that hasn&#39;t changed since the first update,</span>
+</span><span id="L-500"><a href="#L-500"><span class="linenos">500</span></a><span class="sd">                - etc. for the nth column.</span>
+</span><span id="L-501"><a href="#L-501"><span class="linenos">501</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="L-502"><a href="#L-502"><span class="linenos">502</span></a>
+</span><span id="L-503"><a href="#L-503"><span class="linenos">503</span></a>        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">update_history</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="L-504"><a href="#L-504"><span class="linenos">504</span></a>            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+</span><span id="L-505"><a href="#L-505"><span class="linenos">505</span></a>                <span class="s2">&quot;update_history is None; make sure you have called record_update_history()!&quot;</span>
+</span><span id="L-506"><a href="#L-506"><span class="linenos">506</span></a>            <span class="p">)</span>
+</span><span id="L-507"><a href="#L-507"><span class="linenos">507</span></a>
+</span><span id="L-508"><a href="#L-508"><span class="linenos">508</span></a>        <span class="k">if</span> <span class="o">-</span><span class="mi">2</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">update_history</span><span class="p">:</span>
+</span><span id="L-509"><a href="#L-509"><span class="linenos">509</span></a>            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+</span><span id="L-510"><a href="#L-510"><span class="linenos">510</span></a>                <span class="s2">&quot;Incomplete update history as indicated by entries with values of -2.&quot;</span>
+</span><span id="L-511"><a href="#L-511"><span class="linenos">511</span></a>            <span class="p">)</span>
+</span><span id="L-512"><a href="#L-512"><span class="linenos">512</span></a>
+</span><span id="L-513"><a href="#L-513"><span class="linenos">513</span></a>        <span class="n">publications</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">ids</span><span class="p">())</span>
+</span><span id="L-514"><a href="#L-514"><span class="linenos">514</span></a>
+</span><span id="L-515"><a href="#L-515"><span class="linenos">515</span></a>        <span class="c1"># 1. Loop over each publication</span>
+</span><span id="L-516"><a href="#L-516"><span class="linenos">516</span></a>        <span class="n">cospsi_kernel</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="L-517"><a href="#L-517"><span class="linenos">517</span></a>        <span class="k">for</span> <span class="n">pub</span> <span class="ow">in</span> <span class="n">tqdm</span><span class="p">(</span><span class="n">publications</span><span class="p">):</span>
+</span><span id="L-518"><a href="#L-518"><span class="linenos">518</span></a>            <span class="c1"># 2. Identify the similarity with the other publications relative to this publication, and sort accordingly.</span>
+</span><span id="L-519"><a href="#L-519"><span class="linenos">519</span></a>            <span class="n">cospsi</span> <span class="o">=</span> <span class="n">cosine_similarity</span><span class="p">(</span>
+</span><span id="L-520"><a href="#L-520"><span class="linenos">520</span></a>                <span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">identifiers_to_embeddings</span><span class="p">([</span><span class="n">pub</span><span class="p">]),</span>
+</span><span id="L-521"><a href="#L-521"><span class="linenos">521</span></a>                <span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">embeddings</span><span class="p">,</span>
+</span><span id="L-522"><a href="#L-522"><span class="linenos">522</span></a>            <span class="p">)</span><span class="o">.</span><span class="n">flatten</span><span class="p">()</span>  <span class="c1"># shape `(num_pubs,)`</span>
+</span><span id="L-523"><a href="#L-523"><span class="linenos">523</span></a>            <span class="n">sort_inds</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">argsort</span><span class="p">(</span><span class="n">cospsi</span><span class="p">)[::</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span>  <span class="c1"># shape `(num_pubs,)`</span>
+</span><span id="L-524"><a href="#L-524"><span class="linenos">524</span></a>
+</span><span id="L-525"><a href="#L-525"><span class="linenos">525</span></a>            <span class="c1"># 3. Identify the expansion iteration at which those publications were added to the atlas (`sorted_history`).</span>
+</span><span id="L-526"><a href="#L-526"><span class="linenos">526</span></a>            <span class="n">sorted_history</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">update_history</span><span class="p">[</span><span class="n">sort_inds</span><span class="p">]</span>  <span class="c1"># shape `(num_pubs,)`</span>
+</span><span id="L-527"><a href="#L-527"><span class="linenos">527</span></a>
+</span><span id="L-528"><a href="#L-528"><span class="linenos">528</span></a>            <span class="c1"># 4. Identify the latest iteration at which any publication was added to the atlas; this can be less than the total iterations.</span>
+</span><span id="L-529"><a href="#L-529"><span class="linenos">529</span></a>            <span class="n">last_update</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">update_history</span><span class="o">.</span><span class="n">max</span><span class="p">()</span>
+</span><span id="L-530"><a href="#L-530"><span class="linenos">530</span></a>
+</span><span id="L-531"><a href="#L-531"><span class="linenos">531</span></a>            <span class="c1"># 5. Loop through each iteration until `last_update`, and identify which publications were added at or before that iteration.</span>
+</span><span id="L-532"><a href="#L-532"><span class="linenos">532</span></a>            <span class="n">result_2</span> <span class="o">=</span> <span class="p">[</span>
+</span><span id="L-533"><a href="#L-533"><span class="linenos">533</span></a>                <span class="c1"># 6. Compute how many publications out we can go and still only contain publications added at or before that iteration.</span>
+</span><span id="L-534"><a href="#L-534"><span class="linenos">534</span></a>                <span class="c1"># Use `argmin` to get the first instance of False</span>
+</span><span id="L-535"><a href="#L-535"><span class="linenos">535</span></a>                <span class="c1"># Finally, subtract 1: we want the first index before False.</span>
+</span><span id="L-536"><a href="#L-536"><span class="linenos">536</span></a>                <span class="n">np</span><span class="o">.</span><span class="n">argmin</span><span class="p">(</span><span class="n">sorted_history</span> <span class="o">&lt;=</span> <span class="n">update</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span>
+</span><span id="L-537"><a href="#L-537"><span class="linenos">537</span></a>                <span class="k">for</span> <span class="n">update</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">last_update</span><span class="p">)</span>
+</span><span id="L-538"><a href="#L-538"><span class="linenos">538</span></a>            <span class="p">]</span>  <span class="c1"># shape `(num_pubs, last_update)`</span>
+</span><span id="L-539"><a href="#L-539"><span class="linenos">539</span></a>
+</span><span id="L-540"><a href="#L-540"><span class="linenos">540</span></a>            <span class="n">cospsi_kernel</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">result_2</span><span class="p">)</span>
+</span><span id="L-541"><a href="#L-541"><span class="linenos">541</span></a>
+</span><span id="L-542"><a href="#L-542"><span class="linenos">542</span></a>        <span class="k">return</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">cospsi_kernel</span><span class="p">)</span>
+</span><span id="L-543"><a href="#L-543"><span class="linenos">543</span></a>
+</span><span id="L-544"><a href="#L-544"><span class="linenos">544</span></a>    <span class="c1">########################################################################</span>
+</span><span id="L-545"><a href="#L-545"><span class="linenos">545</span></a>    <span class="c1"># Measure Atlas topography</span>
+</span><span id="L-546"><a href="#L-546"><span class="linenos">546</span></a>    <span class="c1">########################################################################</span>
+</span><span id="L-547"><a href="#L-547"><span class="linenos">547</span></a>
+</span><span id="L-548"><a href="#L-548"><span class="linenos">548</span></a>    <span class="k">def</span> <span class="nf">measure_topography</span><span class="p">(</span>
+</span><span id="L-549"><a href="#L-549"><span class="linenos">549</span></a>        <span class="bp">self</span><span class="p">,</span>
+</span><span id="L-550"><a href="#L-550"><span class="linenos">550</span></a>        <span class="n">atl</span><span class="p">:</span> <span class="n">Atlas</span><span class="p">,</span>
+</span><span id="L-551"><a href="#L-551"><span class="linenos">551</span></a>        <span class="n">ids</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="L-552"><a href="#L-552"><span class="linenos">552</span></a>        <span class="n">metrics</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;density&quot;</span><span class="p">],</span>
+</span><span id="L-553"><a href="#L-553"><span class="linenos">553</span></a>        <span class="n">min_prior_pubs</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">2</span><span class="p">,</span>
+</span><span id="L-554"><a href="#L-554"><span class="linenos">554</span></a>        <span class="n">kernel_size</span><span class="o">=</span><span class="mi">16</span><span class="p">,</span>
+</span><span id="L-555"><a href="#L-555"><span class="linenos">555</span></a>        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+</span><span id="L-556"><a href="#L-556"><span class="linenos">556</span></a>    <span class="p">):</span>
+</span><span id="L-557"><a href="#L-557"><span class="linenos">557</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Measure topographic properties of all publications relative to prior</span>
+</span><span id="L-558"><a href="#L-558"><span class="linenos">558</span></a><span class="sd">        publications.</span>
+</span><span id="L-559"><a href="#L-559"><span class="linenos">559</span></a>
+</span><span id="L-560"><a href="#L-560"><span class="linenos">560</span></a><span class="sd">        Args:</span>
+</span><span id="L-561"><a href="#L-561"><span class="linenos">561</span></a>
+</span><span id="L-562"><a href="#L-562"><span class="linenos">562</span></a><span class="sd">            atl: the Atlas to measure</span>
+</span><span id="L-563"><a href="#L-563"><span class="linenos">563</span></a>
+</span><span id="L-564"><a href="#L-564"><span class="linenos">564</span></a><span class="sd">            publication_indices: an np.ndarray of ints representing the indices of publications in the Atlas projection to measure</span>
+</span><span id="L-565"><a href="#L-565"><span class="linenos">565</span></a>
+</span><span id="L-566"><a href="#L-566"><span class="linenos">566</span></a><span class="sd">            metrics: A list of strings representing the metrics to use. Options are...</span>
+</span><span id="L-567"><a href="#L-567"><span class="linenos">567</span></a><span class="sd">                constant_asymmetry: The asymmetry of a publication $p_i$ w.r.t the entire atlas $\\{ p_j \\forall j \\in \\{1, ..., k\\} \\} where $k$ is the length of the atlas</span>
+</span><span id="L-568"><a href="#L-568"><span class="linenos">568</span></a>
+</span><span id="L-569"><a href="#L-569"><span class="linenos">569</span></a><span class="sd">                    $| \\sum_{j}^{k-1}( p_i - p_j ) |$</span>
+</span><span id="L-570"><a href="#L-570"><span class="linenos">570</span></a>
+</span><span id="L-571"><a href="#L-571"><span class="linenos">571</span></a><span class="sd">                kernel_constant_asymmetry: The asymmetry of a publication w.r.t. its kernel, { p_j for all j in {1, ..., k} } where k is `kernel_size`, i.e. the k nearest neighbors.</span>
+</span><span id="L-572"><a href="#L-572"><span class="linenos">572</span></a>
+</span><span id="L-573"><a href="#L-573"><span class="linenos">573</span></a><span class="sd">                density: the density of a publication&#39;s surrounding area, estimated by a heuristic inspired by mass / volume = k publications divided by the minimum arc length enclosing the furthest publication.</span>
+</span><span id="L-574"><a href="#L-574"><span class="linenos">574</span></a>
+</span><span id="L-575"><a href="#L-575"><span class="linenos">575</span></a><span class="sd">                    $\\frac{ k }{ smoothing\\_length(k) }$</span>
+</span><span id="L-576"><a href="#L-576"><span class="linenos">576</span></a>
+</span><span id="L-577"><a href="#L-577"><span class="linenos">577</span></a><span class="sd">                smoothing_length: The distance (in radians) to the farthest publication in the kernel, i.e. the kth nearest neighbor.</span>
+</span><span id="L-578"><a href="#L-578"><span class="linenos">578</span></a>
+</span><span id="L-579"><a href="#L-579"><span class="linenos">579</span></a><span class="sd">            min_prior_pubs: The minimum number of publications prior to the target publication for which to calculate the metric.</span>
+</span><span id="L-580"><a href="#L-580"><span class="linenos">580</span></a>
+</span><span id="L-581"><a href="#L-581"><span class="linenos">581</span></a><span class="sd">            kernel_size: the number of publications surrounding the publication for which to compute the topography metric, i.e. k nearest neighbors for k=kernel_size.</span>
+</span><span id="L-582"><a href="#L-582"><span class="linenos">582</span></a>
+</span><span id="L-583"><a href="#L-583"><span class="linenos">583</span></a><span class="sd">        Returns:</span>
+</span><span id="L-584"><a href="#L-584"><span class="linenos">584</span></a><span class="sd">            estimates: an np.ndarray of shape `(len(publication_indices), len(metrics))` representing the estimated topography metric values for each publication.</span>
+</span><span id="L-585"><a href="#L-585"><span class="linenos">585</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="L-586"><a href="#L-586"><span class="linenos">586</span></a>        <span class="n">verbose</span> <span class="o">=</span> <span class="n">get_verbose</span><span class="p">(</span><span class="n">kwargs</span><span class="p">)</span>
+</span><span id="L-587"><a href="#L-587"><span class="linenos">587</span></a>
+</span><span id="L-588"><a href="#L-588"><span class="linenos">588</span></a>        <span class="c1"># By default calculate for all publications</span>
+</span><span id="L-589"><a href="#L-589"><span class="linenos">589</span></a>        <span class="k">if</span> <span class="n">ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="L-590"><a href="#L-590"><span class="linenos">590</span></a>            <span class="n">ids</span> <span class="o">=</span> <span class="n">atl</span><span class="o">.</span><span class="n">ids</span><span class="p">()</span>
+</span><span id="L-591"><a href="#L-591"><span class="linenos">591</span></a>        <span class="k">else</span><span class="p">:</span>
+</span><span id="L-592"><a href="#L-592"><span class="linenos">592</span></a>            <span class="n">ids</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span>
+</span><span id="L-593"><a href="#L-593"><span class="linenos">593</span></a>
+</span><span id="L-594"><a href="#L-594"><span class="linenos">594</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">ids</span><span class="p">:</span>
+</span><span id="L-595"><a href="#L-595"><span class="linenos">595</span></a>            <span class="k">raise</span> <span class="ne">Exception</span><span class="p">(</span><span class="s2">&quot;No publications to measure topography of.&quot;</span><span class="p">)</span>
+</span><span id="L-596"><a href="#L-596"><span class="linenos">596</span></a>
+</span><span id="L-597"><a href="#L-597"><span class="linenos">597</span></a>        <span class="c1"># Get publication dates, for filtering</span>
+</span><span id="L-598"><a href="#L-598"><span class="linenos">598</span></a>        <span class="n">dates</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([</span><span class="n">atl</span><span class="p">[</span><span class="n">identifier</span><span class="p">]</span><span class="o">.</span><span class="n">publication_date</span> <span class="k">for</span> <span class="n">identifier</span> <span class="ow">in</span> <span class="n">ids</span><span class="p">])</span>
+</span><span id="L-599"><a href="#L-599"><span class="linenos">599</span></a>
+</span><span id="L-600"><a href="#L-600"><span class="linenos">600</span></a>        <span class="c1"># Get pairwise cosine similarities for ids</span>
+</span><span id="L-601"><a href="#L-601"><span class="linenos">601</span></a>        <span class="n">embeddings</span> <span class="o">=</span> <span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">identifiers_to_embeddings</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span>
+</span><span id="L-602"><a href="#L-602"><span class="linenos">602</span></a>        <span class="n">cospsi_matrix</span> <span class="o">=</span> <span class="n">batch_cospsi_matrix</span><span class="p">(</span><span class="n">embeddings</span><span class="p">)</span>
+</span><span id="L-603"><a href="#L-603"><span class="linenos">603</span></a>
+</span><span id="L-604"><a href="#L-604"><span class="linenos">604</span></a>        <span class="c1"># From here on, use embedding indices instead of identifiers</span>
+</span><span id="L-605"><a href="#L-605"><span class="linenos">605</span></a>        <span class="c1"># our embeddings are already in the correct order, so just use them</span>
+</span><span id="L-606"><a href="#L-606"><span class="linenos">606</span></a>        <span class="n">publication_indices</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">embeddings</span><span class="p">))</span>
+</span><span id="L-607"><a href="#L-607"><span class="linenos">607</span></a>        <span class="c1"># publication_indices = atl.projection.identifiers_to_indices(ids)</span>
+</span><span id="L-608"><a href="#L-608"><span class="linenos">608</span></a>
+</span><span id="L-609"><a href="#L-609"><span class="linenos">609</span></a>        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Computing </span><span class="si">{</span><span class="n">metrics</span><span class="si">}</span><span class="s2"> for </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span><span class="si">}</span><span class="s2"> publications.&quot;</span><span class="p">)</span>
+</span><span id="L-610"><a href="#L-610"><span class="linenos">610</span></a>        <span class="n">estimates</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="L-611"><a href="#L-611"><span class="linenos">611</span></a>        <span class="c1"># for idx in tqdm(publication_indices):</span>
+</span><span id="L-612"><a href="#L-612"><span class="linenos">612</span></a>        <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">identifier</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">ids</span><span class="p">):</span>
+</span><span id="L-613"><a href="#L-613"><span class="linenos">613</span></a>            <span class="c1"># Get the date of publication</span>
+</span><span id="L-614"><a href="#L-614"><span class="linenos">614</span></a>            <span class="c1"># identifier = atl.projection.index_to_identifier[idx]</span>
+</span><span id="L-615"><a href="#L-615"><span class="linenos">615</span></a>            <span class="n">date</span> <span class="o">=</span> <span class="n">atl</span><span class="p">[</span><span class="n">identifier</span><span class="p">]</span><span class="o">.</span><span class="n">publication_date</span>
+</span><span id="L-616"><a href="#L-616"><span class="linenos">616</span></a>
+</span><span id="L-617"><a href="#L-617"><span class="linenos">617</span></a>            <span class="c1"># Identify prior publications</span>
+</span><span id="L-618"><a href="#L-618"><span class="linenos">618</span></a>            <span class="n">is_prior</span> <span class="o">=</span> <span class="n">dates</span> <span class="o">&lt;</span> <span class="n">date</span>
+</span><span id="L-619"><a href="#L-619"><span class="linenos">619</span></a>            <span class="k">if</span> <span class="n">is_prior</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span> <span class="o">&lt;</span> <span class="n">min_prior_pubs</span><span class="p">:</span>
+</span><span id="L-620"><a href="#L-620"><span class="linenos">620</span></a>                <span class="n">estimates</span><span class="o">.</span><span class="n">append</span><span class="p">([</span><span class="n">np</span><span class="o">.</span><span class="n">nan</span> <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="n">metrics</span><span class="p">])</span>
+</span><span id="L-621"><a href="#L-621"><span class="linenos">621</span></a>                <span class="k">continue</span>
+</span><span id="L-622"><a href="#L-622"><span class="linenos">622</span></a>
+</span><span id="L-623"><a href="#L-623"><span class="linenos">623</span></a>            <span class="c1"># Choose valid publications</span>
+</span><span id="L-624"><a href="#L-624"><span class="linenos">624</span></a>            <span class="n">is_other</span> <span class="o">=</span> <span class="n">publication_indices</span> <span class="o">!=</span> <span class="n">idx</span>
+</span><span id="L-625"><a href="#L-625"><span class="linenos">625</span></a>            <span class="n">is_valid</span> <span class="o">=</span> <span class="n">is_prior</span> <span class="o">&amp;</span> <span class="n">is_other</span>
+</span><span id="L-626"><a href="#L-626"><span class="linenos">626</span></a>            <span class="n">valid_indices</span> <span class="o">=</span> <span class="n">publication_indices</span><span class="p">[</span><span class="n">is_valid</span><span class="p">]</span>
+</span><span id="L-627"><a href="#L-627"><span class="linenos">627</span></a>
+</span><span id="L-628"><a href="#L-628"><span class="linenos">628</span></a>            <span class="n">kwargs</span> <span class="o">=</span> <span class="p">{</span>
+</span><span id="L-629"><a href="#L-629"><span class="linenos">629</span></a>                <span class="s2">&quot;idx&quot;</span><span class="p">:</span> <span class="n">idx</span><span class="p">,</span>
+</span><span id="L-630"><a href="#L-630"><span class="linenos">630</span></a>                <span class="s2">&quot;cospsi_matrix&quot;</span><span class="p">:</span> <span class="n">cospsi_matrix</span><span class="p">,</span>
+</span><span id="L-631"><a href="#L-631"><span class="linenos">631</span></a>                <span class="s2">&quot;valid_indices&quot;</span><span class="p">:</span> <span class="n">valid_indices</span><span class="p">,</span>
+</span><span id="L-632"><a href="#L-632"><span class="linenos">632</span></a>                <span class="s2">&quot;publication_indices&quot;</span><span class="p">:</span> <span class="n">publication_indices</span><span class="p">,</span>
+</span><span id="L-633"><a href="#L-633"><span class="linenos">633</span></a>                <span class="s2">&quot;embeddings&quot;</span><span class="p">:</span> <span class="n">embeddings</span><span class="p">,</span>
+</span><span id="L-634"><a href="#L-634"><span class="linenos">634</span></a>                <span class="s2">&quot;kernel_size&quot;</span><span class="p">:</span> <span class="n">kernel_size</span><span class="p">,</span>
+</span><span id="L-635"><a href="#L-635"><span class="linenos">635</span></a>            <span class="p">}</span>
+</span><span id="L-636"><a href="#L-636"><span class="linenos">636</span></a>
+</span><span id="L-637"><a href="#L-637"><span class="linenos">637</span></a>            <span class="k">def</span> <span class="nf">call_metric</span><span class="p">(</span>
+</span><span id="L-638"><a href="#L-638"><span class="linenos">638</span></a>                <span class="n">metric</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+</span><span id="L-639"><a href="#L-639"><span class="linenos">639</span></a>                <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+</span><span id="L-640"><a href="#L-640"><span class="linenos">640</span></a>            <span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">float</span><span class="p">:</span>
+</span><span id="L-641"><a href="#L-641"><span class="linenos">641</span></a><span class="w">                </span><span class="sd">&quot;&quot;&quot;Wrapper function to simplify topography metric api.&quot;&quot;&quot;</span>
+</span><span id="L-642"><a href="#L-642"><span class="linenos">642</span></a>                <span class="c1"># Get the metric</span>
+</span><span id="L-643"><a href="#L-643"><span class="linenos">643</span></a>                <span class="n">fn</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="n">topography</span><span class="p">,</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">metric</span><span class="si">}</span><span class="s2">_metric&quot;</span><span class="p">)</span>
+</span><span id="L-644"><a href="#L-644"><span class="linenos">644</span></a>
+</span><span id="L-645"><a href="#L-645"><span class="linenos">645</span></a>                <span class="c1"># Identify arguments to pass</span>
+</span><span id="L-646"><a href="#L-646"><span class="linenos">646</span></a>                <span class="n">fn_args</span> <span class="o">=</span> <span class="n">inspect</span><span class="o">.</span><span class="n">getfullargspec</span><span class="p">(</span><span class="n">fn</span><span class="p">)</span>
+</span><span id="L-647"><a href="#L-647"><span class="linenos">647</span></a>                <span class="n">used_kwargs</span> <span class="o">=</span> <span class="p">{}</span>
+</span><span id="L-648"><a href="#L-648"><span class="linenos">648</span></a>                <span class="k">for</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="ow">in</span> <span class="n">kwargs</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+</span><span id="L-649"><a href="#L-649"><span class="linenos">649</span></a>                    <span class="k">if</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">fn_args</span><span class="o">.</span><span class="n">args</span><span class="p">:</span>
+</span><span id="L-650"><a href="#L-650"><span class="linenos">650</span></a>                        <span class="n">used_kwargs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
+</span><span id="L-651"><a href="#L-651"><span class="linenos">651</span></a>                <span class="c1"># Call</span>
+</span><span id="L-652"><a href="#L-652"><span class="linenos">652</span></a>                <span class="n">estimate</span> <span class="o">=</span> <span class="n">fn</span><span class="p">(</span><span class="o">**</span><span class="n">used_kwargs</span><span class="p">)</span>
+</span><span id="L-653"><a href="#L-653"><span class="linenos">653</span></a>                <span class="k">return</span> <span class="n">estimate</span>
+</span><span id="L-654"><a href="#L-654"><span class="linenos">654</span></a>
+</span><span id="L-655"><a href="#L-655"><span class="linenos">655</span></a>            <span class="n">estimates</span><span class="o">.</span><span class="n">append</span><span class="p">([</span><span class="n">call_metric</span><span class="p">(</span><span class="n">metric</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="k">for</span> <span class="n">metric</span> <span class="ow">in</span> <span class="n">metrics</span><span class="p">])</span>
+</span><span id="L-656"><a href="#L-656"><span class="linenos">656</span></a>        <span class="n">estimates</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">estimates</span><span class="p">)</span>
+</span><span id="L-657"><a href="#L-657"><span class="linenos">657</span></a>
+</span><span id="L-658"><a href="#L-658"><span class="linenos">658</span></a>        <span class="k">return</span> <span class="n">estimates</span>
+</span><span id="L-659"><a href="#L-659"><span class="linenos">659</span></a>
+</span><span id="L-660"><a href="#L-660"><span class="linenos">660</span></a>
+</span><span id="L-661"><a href="#L-661"><span class="linenos">661</span></a><span class="c1">##############################################################################</span>
+</span><span id="L-662"><a href="#L-662"><span class="linenos">662</span></a><span class="c1"># Iterative expansion helper function</span>
+</span><span id="L-663"><a href="#L-663"><span class="linenos">663</span></a><span class="c1">##############################################################################</span>
+</span><span id="L-664"><a href="#L-664"><span class="linenos">664</span></a>
+</span><span id="L-665"><a href="#L-665"><span class="linenos">665</span></a>
+</span><span id="L-666"><a href="#L-666"><span class="linenos">666</span></a><span class="k">def</span> <span class="nf">iterate_expand</span><span class="p">(</span>
+</span><span id="L-667"><a href="#L-667"><span class="linenos">667</span></a>    <span class="n">atl</span><span class="p">:</span> <span class="n">Atlas</span><span class="p">,</span>
+</span><span id="L-668"><a href="#L-668"><span class="linenos">668</span></a>    <span class="n">crt</span><span class="p">:</span> <span class="n">Cartographer</span><span class="p">,</span>
+</span><span id="L-669"><a href="#L-669"><span class="linenos">669</span></a>    <span class="n">atlas_dir</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+</span><span id="L-670"><a href="#L-670"><span class="linenos">670</span></a>    <span class="n">target_size</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+</span><span id="L-671"><a href="#L-671"><span class="linenos">671</span></a>    <span class="n">max_failed_expansions</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">2</span><span class="p">,</span>
+</span><span id="L-672"><a href="#L-672"><span class="linenos">672</span></a>    <span class="n">center</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="L-673"><a href="#L-673"><span class="linenos">673</span></a>    <span class="n">n_pubs_max</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="L-674"><a href="#L-674"><span class="linenos">674</span></a>    <span class="n">call_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="L-675"><a href="#L-675"><span class="linenos">675</span></a>    <span class="n">n_sources_max</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="L-676"><a href="#L-676"><span class="linenos">676</span></a>    <span class="n">record_pubs_per_update</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+</span><span id="L-677"><a href="#L-677"><span class="linenos">677</span></a><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Atlas</span><span class="p">:</span>
+</span><span id="L-678"><a href="#L-678"><span class="linenos">678</span></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Build out an Atlas of publications, i.e. search for similar publications. This is done by iterating a sequence of [expand, save, project, save, track, save].</span>
+</span><span id="L-679"><a href="#L-679"><span class="linenos">679</span></a>
+</span><span id="L-680"><a href="#L-680"><span class="linenos">680</span></a><span class="sd">    Args:</span>
+</span><span id="L-681"><a href="#L-681"><span class="linenos">681</span></a><span class="sd">        atl: the Atlas to expand</span>
+</span><span id="L-682"><a href="#L-682"><span class="linenos">682</span></a>
+</span><span id="L-683"><a href="#L-683"><span class="linenos">683</span></a><span class="sd">        crt: the Cartographer to use</span>
+</span><span id="L-684"><a href="#L-684"><span class="linenos">684</span></a>
+</span><span id="L-685"><a href="#L-685"><span class="linenos">685</span></a><span class="sd">        atlas_dir: the directory where Atlas binaries will be saved/loaded from</span>
+</span><span id="L-686"><a href="#L-686"><span class="linenos">686</span></a>
+</span><span id="L-687"><a href="#L-687"><span class="linenos">687</span></a><span class="sd">        target_size: stop iterating when we reach this number of publications in the Atlas</span>
+</span><span id="L-688"><a href="#L-688"><span class="linenos">688</span></a>
+</span><span id="L-689"><a href="#L-689"><span class="linenos">689</span></a><span class="sd">        max_failed_expansions: stop iterating when we fail to add new publications after this many successive iterations. Default is 2.</span>
+</span><span id="L-690"><a href="#L-690"><span class="linenos">690</span></a>
+</span><span id="L-691"><a href="#L-691"><span class="linenos">691</span></a><span class="sd">        center: (if given) center the search on this publication, preferentially searching related publications.</span>
+</span><span id="L-692"><a href="#L-692"><span class="linenos">692</span></a>
+</span><span id="L-693"><a href="#L-693"><span class="linenos">693</span></a><span class="sd">        n_pubs_max: maximum number of publications allowed in the expansion.</span>
+</span><span id="L-694"><a href="#L-694"><span class="linenos">694</span></a>
+</span><span id="L-695"><a href="#L-695"><span class="linenos">695</span></a><span class="sd">        call_size: maximum number of papers to call API for in one query; if less than `len(paper_ids)`, chunking will be performed.</span>
+</span><span id="L-696"><a href="#L-696"><span class="linenos">696</span></a>
+</span><span id="L-697"><a href="#L-697"><span class="linenos">697</span></a><span class="sd">        n_sources_max: maximum number of publications (already in the atlas) to draw references and citations from.</span>
+</span><span id="L-698"><a href="#L-698"><span class="linenos">698</span></a>
+</span><span id="L-699"><a href="#L-699"><span class="linenos">699</span></a><span class="sd">        record_pubs_per_update: whether to track all the publications that exist in the resulting atlas to `self.pubs_per_update`. This should only be set to `True` when you need to later filter by degree of convergence of the atlas.</span>
+</span><span id="L-700"><a href="#L-700"><span class="linenos">700</span></a>
+</span><span id="L-701"><a href="#L-701"><span class="linenos">701</span></a><span class="sd">    Returns:</span>
+</span><span id="L-702"><a href="#L-702"><span class="linenos">702</span></a><span class="sd">        atl: the expanded Atlas</span>
+</span><span id="L-703"><a href="#L-703"><span class="linenos">703</span></a><span class="sd">    &quot;&quot;&quot;</span>
+</span><span id="L-704"><a href="#L-704"><span class="linenos">704</span></a>    <span class="n">converged</span> <span class="o">=</span> <span class="kc">False</span>
+</span><span id="L-705"><a href="#L-705"><span class="linenos">705</span></a>    <span class="n">print_progress</span> <span class="o">=</span> <span class="k">lambda</span> <span class="n">atl</span><span class="p">:</span> <span class="nb">print</span><span class="p">(</span>  <span class="c1"># view incremental progress</span>
+</span><span id="L-706"><a href="#L-706"><span class="linenos">706</span></a>        <span class="sa">f</span><span class="s2">&quot;Atlas has </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">atl</span><span class="p">)</span><span class="si">}</span><span class="s2"> publications and </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="p">)</span><span class="w"> </span><span class="k">if</span><span class="w"> </span><span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="w"> </span><span class="ow">is</span><span class="w"> </span><span class="ow">not</span><span class="w"> </span><span class="kc">None</span><span class="w"> </span><span class="k">else</span><span class="w"> </span><span class="s1">&#39;None&#39;</span><span class="si">}</span><span class="s2"> embeddings.&quot;</span>
+</span><span id="L-707"><a href="#L-707"><span class="linenos">707</span></a>    <span class="p">)</span>
+</span><span id="L-708"><a href="#L-708"><span class="linenos">708</span></a>
+</span><span id="L-709"><a href="#L-709"><span class="linenos">709</span></a>    <span class="c1"># Expansion loop</span>
+</span><span id="L-710"><a href="#L-710"><span class="linenos">710</span></a>    <span class="n">failures</span> <span class="o">=</span> <span class="mi">0</span>
+</span><span id="L-711"><a href="#L-711"><span class="linenos">711</span></a>    <span class="n">its</span> <span class="o">=</span> <span class="mi">0</span>
+</span><span id="L-712"><a href="#L-712"><span class="linenos">712</span></a>    <span class="k">while</span> <span class="ow">not</span> <span class="n">converged</span><span class="p">:</span>
+</span><span id="L-713"><a href="#L-713"><span class="linenos">713</span></a>        <span class="n">its</span> <span class="o">+=</span> <span class="mi">1</span>
+</span><span id="L-714"><a href="#L-714"><span class="linenos">714</span></a>        <span class="n">len_prev</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">atl</span><span class="p">)</span>
+</span><span id="L-715"><a href="#L-715"><span class="linenos">715</span></a>
+</span><span id="L-716"><a href="#L-716"><span class="linenos">716</span></a>        <span class="c1"># Retrieve up to n_pubs_max citations and references.</span>
+</span><span id="L-717"><a href="#L-717"><span class="linenos">717</span></a>        <span class="n">atl</span> <span class="o">=</span> <span class="n">crt</span><span class="o">.</span><span class="n">expand</span><span class="p">(</span>
+</span><span id="L-718"><a href="#L-718"><span class="linenos">718</span></a>            <span class="n">atl</span><span class="p">,</span>
+</span><span id="L-719"><a href="#L-719"><span class="linenos">719</span></a>            <span class="n">center</span><span class="o">=</span><span class="n">center</span><span class="p">,</span>
+</span><span id="L-720"><a href="#L-720"><span class="linenos">720</span></a>            <span class="n">n_pubs_max</span><span class="o">=</span><span class="n">n_pubs_max</span><span class="p">,</span>
+</span><span id="L-721"><a href="#L-721"><span class="linenos">721</span></a>            <span class="n">call_size</span><span class="o">=</span><span class="n">call_size</span><span class="p">,</span>
+</span><span id="L-722"><a href="#L-722"><span class="linenos">722</span></a>            <span class="n">n_sources_max</span><span class="o">=</span><span class="n">n_sources_max</span><span class="p">,</span>
+</span><span id="L-723"><a href="#L-723"><span class="linenos">723</span></a>            <span class="n">record_pubs_per_update</span><span class="o">=</span><span class="n">record_pubs_per_update</span><span class="p">,</span>
+</span><span id="L-724"><a href="#L-724"><span class="linenos">724</span></a>        <span class="p">)</span>
+</span><span id="L-725"><a href="#L-725"><span class="linenos">725</span></a>        <span class="n">print_progress</span><span class="p">(</span><span class="n">atl</span><span class="p">)</span>
+</span><span id="L-726"><a href="#L-726"><span class="linenos">726</span></a>        <span class="n">atl</span><span class="o">.</span><span class="n">save</span><span class="p">(</span><span class="n">atlas_dir</span><span class="p">)</span>
+</span><span id="L-727"><a href="#L-727"><span class="linenos">727</span></a>
+</span><span id="L-728"><a href="#L-728"><span class="linenos">728</span></a>        <span class="c1"># Obtain document embeddings for all new abstracts.</span>
+</span><span id="L-729"><a href="#L-729"><span class="linenos">729</span></a>        <span class="n">atl</span> <span class="o">=</span> <span class="n">crt</span><span class="o">.</span><span class="n">project</span><span class="p">(</span>
+</span><span id="L-730"><a href="#L-730"><span class="linenos">730</span></a>            <span class="n">atl</span><span class="p">,</span>
+</span><span id="L-731"><a href="#L-731"><span class="linenos">731</span></a>            <span class="n">verbose</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+</span><span id="L-732"><a href="#L-732"><span class="linenos">732</span></a>            <span class="n">record_pubs_per_update</span><span class="o">=</span><span class="n">record_pubs_per_update</span><span class="p">,</span>
+</span><span id="L-733"><a href="#L-733"><span class="linenos">733</span></a>        <span class="p">)</span>
+</span><span id="L-734"><a href="#L-734"><span class="linenos">734</span></a>        <span class="n">print_progress</span><span class="p">(</span><span class="n">atl</span><span class="p">)</span>
+</span><span id="L-735"><a href="#L-735"><span class="linenos">735</span></a>        <span class="n">atl</span><span class="o">.</span><span class="n">save</span><span class="p">(</span><span class="n">atlas_dir</span><span class="p">)</span>
+</span><span id="L-736"><a href="#L-736"><span class="linenos">736</span></a>
+</span><span id="L-737"><a href="#L-737"><span class="linenos">737</span></a>        <span class="n">atl</span> <span class="o">=</span> <span class="n">crt</span><span class="o">.</span><span class="n">track</span><span class="p">(</span><span class="n">atl</span><span class="p">)</span>
+</span><span id="L-738"><a href="#L-738"><span class="linenos">738</span></a>        <span class="n">atl</span><span class="o">.</span><span class="n">save</span><span class="p">(</span><span class="n">atlas_dir</span><span class="p">)</span>
+</span><span id="L-739"><a href="#L-739"><span class="linenos">739</span></a>
+</span><span id="L-740"><a href="#L-740"><span class="linenos">740</span></a>        <span class="k">if</span> <span class="n">len_prev</span> <span class="o">==</span> <span class="nb">len</span><span class="p">(</span><span class="n">atl</span><span class="p">):</span>
+</span><span id="L-741"><a href="#L-741"><span class="linenos">741</span></a>            <span class="n">failures</span> <span class="o">+=</span> <span class="mi">0</span>
+</span><span id="L-742"><a href="#L-742"><span class="linenos">742</span></a>        <span class="k">else</span><span class="p">:</span>
+</span><span id="L-743"><a href="#L-743"><span class="linenos">743</span></a>            <span class="n">failures</span> <span class="o">=</span> <span class="mi">0</span>
+</span><span id="L-744"><a href="#L-744"><span class="linenos">744</span></a>
+</span><span id="L-745"><a href="#L-745"><span class="linenos">745</span></a>        <span class="n">converged</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">atl</span><span class="p">)</span> <span class="o">&gt;=</span> <span class="n">target_size</span> <span class="ow">or</span> <span class="n">failures</span> <span class="o">&gt;=</span> <span class="n">max_failed_expansions</span>
+</span><span id="L-746"><a href="#L-746"><span class="linenos">746</span></a>        <span class="nb">print</span><span class="p">()</span>
+</span><span id="L-747"><a href="#L-747"><span class="linenos">747</span></a>
+</span><span id="L-748"><a href="#L-748"><span class="linenos">748</span></a>    <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Expansion loop exited with atlas size </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">atl</span><span class="p">)</span><span class="si">}</span><span class="s2"> after </span><span class="si">{</span><span class="n">its</span><span class="si">}</span><span class="s2"> iterations.&quot;</span><span class="p">)</span>
+</span><span id="L-749"><a href="#L-749"><span class="linenos">749</span></a>    <span class="k">return</span> <span class="n">atl</span>
 </span></pre></div>
 
 
             </section>
+                <section id="batch_cospsi_matrix">
+                            <input id="batch_cospsi_matrix-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
+<div class="attr function">
+            
+        <span class="def">def</span>
+        <span class="name">batch_cospsi_matrix</span><span class="signature pdoc-code condensed">(<span class="param"><span class="n">embeddings</span><span class="p">:</span> <span class="n">numpy</span><span class="o">.</span><span class="n">ndarray</span></span><span class="return-annotation">) -> <span class="n">numpy</span><span class="o">.</span><span class="n">ndarray</span>:</span></span>
+
+                <label class="view-source-button" for="batch_cospsi_matrix-view-source"><span>View Source</span></label>
+
+    </div>
+    <a class="headerlink" href="#batch_cospsi_matrix"></a>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="batch_cospsi_matrix-28"><a href="#batch_cospsi_matrix-28"><span class="linenos">28</span></a><span class="k">def</span> <span class="nf">batch_cospsi_matrix</span><span class="p">(</span><span class="n">embeddings</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+</span><span id="batch_cospsi_matrix-29"><a href="#batch_cospsi_matrix-29"><span class="linenos">29</span></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Batch-process a pairwise cosine similarity matrix between embeddings.</span>
+</span><span id="batch_cospsi_matrix-30"><a href="#batch_cospsi_matrix-30"><span class="linenos">30</span></a>
+</span><span id="batch_cospsi_matrix-31"><a href="#batch_cospsi_matrix-31"><span class="linenos">31</span></a><span class="sd">    In order to avoid memory errors (e.g. bus error, segfaults) resulting from too large arrays, we batch process the construction of the cospsi_matrix.</span>
+</span><span id="batch_cospsi_matrix-32"><a href="#batch_cospsi_matrix-32"><span class="linenos">32</span></a>
+</span><span id="batch_cospsi_matrix-33"><a href="#batch_cospsi_matrix-33"><span class="linenos">33</span></a><span class="sd">    Args:</span>
+</span><span id="batch_cospsi_matrix-34"><a href="#batch_cospsi_matrix-34"><span class="linenos">34</span></a><span class="sd">        embeddings: a 1D numpy array of embeddings</span>
+</span><span id="batch_cospsi_matrix-35"><a href="#batch_cospsi_matrix-35"><span class="linenos">35</span></a>
+</span><span id="batch_cospsi_matrix-36"><a href="#batch_cospsi_matrix-36"><span class="linenos">36</span></a><span class="sd">    Returns:</span>
+</span><span id="batch_cospsi_matrix-37"><a href="#batch_cospsi_matrix-37"><span class="linenos">37</span></a><span class="sd">        cosine_similarities: a 2D numpy array representing the pairwise cosine similarity between each embedding</span>
+</span><span id="batch_cospsi_matrix-38"><a href="#batch_cospsi_matrix-38"><span class="linenos">38</span></a><span class="sd">    &quot;&quot;&quot;</span>
+</span><span id="batch_cospsi_matrix-39"><a href="#batch_cospsi_matrix-39"><span class="linenos">39</span></a>    <span class="n">batch_size</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="mi">1000</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">embeddings</span><span class="p">))</span>  <span class="c1"># Define a batch size</span>
+</span><span id="batch_cospsi_matrix-40"><a href="#batch_cospsi_matrix-40"><span class="linenos">40</span></a>
+</span><span id="batch_cospsi_matrix-41"><a href="#batch_cospsi_matrix-41"><span class="linenos">41</span></a>    <span class="n">cosine_similarities</span> <span class="o">=</span> <span class="kc">None</span>
+</span><span id="batch_cospsi_matrix-42"><a href="#batch_cospsi_matrix-42"><span class="linenos">42</span></a>    <span class="nb">print</span><span class="p">(</span>
+</span><span id="batch_cospsi_matrix-43"><a href="#batch_cospsi_matrix-43"><span class="linenos">43</span></a>        <span class="sa">f</span><span class="s2">&quot;computing cosine similarity for </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">embeddings</span><span class="p">)</span><span class="si">}</span><span class="s2"> embeddings with batch size </span><span class="si">{</span><span class="n">batch_size</span><span class="si">}</span><span class="s2">.&quot;</span>
+</span><span id="batch_cospsi_matrix-44"><a href="#batch_cospsi_matrix-44"><span class="linenos">44</span></a>    <span class="p">)</span>
+</span><span id="batch_cospsi_matrix-45"><a href="#batch_cospsi_matrix-45"><span class="linenos">45</span></a>    <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="n">tqdm</span><span class="p">(</span><span class="nb">range</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">embeddings</span><span class="p">),</span> <span class="n">batch_size</span><span class="p">)):</span>
+</span><span id="batch_cospsi_matrix-46"><a href="#batch_cospsi_matrix-46"><span class="linenos">46</span></a>        <span class="c1"># Process batches to compute cosine similarity</span>
+</span><span id="batch_cospsi_matrix-47"><a href="#batch_cospsi_matrix-47"><span class="linenos">47</span></a>        <span class="n">batch</span> <span class="o">=</span> <span class="n">embeddings</span><span class="p">[</span><span class="n">i</span> <span class="p">:</span> <span class="n">i</span> <span class="o">+</span> <span class="n">batch_size</span><span class="p">]</span>
+</span><span id="batch_cospsi_matrix-48"><a href="#batch_cospsi_matrix-48"><span class="linenos">48</span></a>        <span class="k">if</span> <span class="n">cosine_similarities</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="batch_cospsi_matrix-49"><a href="#batch_cospsi_matrix-49"><span class="linenos">49</span></a>            <span class="n">cosine_similarities</span> <span class="o">=</span> <span class="n">cosine_similarity</span><span class="p">(</span><span class="n">batch</span><span class="p">,</span> <span class="n">embeddings</span><span class="p">)</span>
+</span><span id="batch_cospsi_matrix-50"><a href="#batch_cospsi_matrix-50"><span class="linenos">50</span></a>        <span class="k">else</span><span class="p">:</span>
+</span><span id="batch_cospsi_matrix-51"><a href="#batch_cospsi_matrix-51"><span class="linenos">51</span></a>            <span class="n">cosine_similarities</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">vstack</span><span class="p">(</span>
+</span><span id="batch_cospsi_matrix-52"><a href="#batch_cospsi_matrix-52"><span class="linenos">52</span></a>                <span class="p">(</span><span class="n">cosine_similarities</span><span class="p">,</span> <span class="n">cosine_similarity</span><span class="p">(</span><span class="n">batch</span><span class="p">,</span> <span class="n">embeddings</span><span class="p">))</span>
+</span><span id="batch_cospsi_matrix-53"><a href="#batch_cospsi_matrix-53"><span class="linenos">53</span></a>            <span class="p">)</span>
+</span><span id="batch_cospsi_matrix-54"><a href="#batch_cospsi_matrix-54"><span class="linenos">54</span></a>
+</span><span id="batch_cospsi_matrix-55"><a href="#batch_cospsi_matrix-55"><span class="linenos">55</span></a>    <span class="k">return</span> <span class="n">cosine_similarities</span>
+</span></pre></div>
+
+
+            <div class="docstring"><p>Batch-process a pairwise cosine similarity matrix between embeddings.</p>
+
+<p>In order to avoid memory errors (e.g. bus error, segfaults) resulting from too large arrays, we batch process the construction of the cospsi_matrix.</p>
+
+<h6 id="arguments">Arguments:</h6>
+
+<ul>
+<li><strong>embeddings:</strong>  a 1D numpy array of embeddings</li>
+</ul>
+
+<h6 id="returns">Returns:</h6>
+
+<blockquote>
+  <p>cosine_similarities: a 2D numpy array representing the pairwise cosine similarity between each embedding</p>
+</blockquote>
+</div>
+
+
+                </section>
                 <section id="Cartographer">
                             <input id="Cartographer-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
 <div class="attr class">
@@ -409,287 +954,612 @@ <h1 class="modulename">
 
     </div>
     <a class="headerlink" href="#Cartographer"></a>
-            <div class="pdoc-code codehilite"><pre><span></span><span id="Cartographer-17"><a href="#Cartographer-17"><span class="linenos"> 17</span></a><span class="k">class</span> <span class="nc">Cartographer</span><span class="p">:</span>
-</span><span id="Cartographer-18"><a href="#Cartographer-18"><span class="linenos"> 18</span></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;A basic wrapper for obtaining and updating atlas projections.&quot;&quot;&quot;</span>
-</span><span id="Cartographer-19"><a href="#Cartographer-19"><span class="linenos"> 19</span></a>
-</span><span id="Cartographer-20"><a href="#Cartographer-20"><span class="linenos"> 20</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
-</span><span id="Cartographer-21"><a href="#Cartographer-21"><span class="linenos"> 21</span></a>        <span class="bp">self</span><span class="p">,</span>
-</span><span id="Cartographer-22"><a href="#Cartographer-22"><span class="linenos"> 22</span></a>        <span class="n">librarian</span><span class="p">:</span> <span class="n">Librarian</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-</span><span id="Cartographer-23"><a href="#Cartographer-23"><span class="linenos"> 23</span></a>        <span class="n">vectorizer</span><span class="p">:</span> <span class="n">Vectorizer</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-</span><span id="Cartographer-24"><a href="#Cartographer-24"><span class="linenos"> 24</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="Cartographer-25"><a href="#Cartographer-25"><span class="linenos"> 25</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">librarian</span> <span class="o">=</span> <span class="n">librarian</span>
-</span><span id="Cartographer-26"><a href="#Cartographer-26"><span class="linenos"> 26</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">vectorizer</span> <span class="o">=</span> <span class="n">vectorizer</span>
-</span><span id="Cartographer-27"><a href="#Cartographer-27"><span class="linenos"> 27</span></a>
-</span><span id="Cartographer-28"><a href="#Cartographer-28"><span class="linenos"> 28</span></a>    <span class="c1">######################################################################</span>
-</span><span id="Cartographer-29"><a href="#Cartographer-29"><span class="linenos"> 29</span></a>    <span class="c1"># Get an Atlas from bibtex</span>
-</span><span id="Cartographer-30"><a href="#Cartographer-30"><span class="linenos"> 30</span></a>    <span class="c1">######################################################################</span>
-</span><span id="Cartographer-31"><a href="#Cartographer-31"><span class="linenos"> 31</span></a>
-</span><span id="Cartographer-32"><a href="#Cartographer-32"><span class="linenos"> 32</span></a>    <span class="k">def</span> <span class="nf">bibtex_to_atlas</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">bibtex_fp</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Atlas</span><span class="p">:</span>
-</span><span id="Cartographer-33"><a href="#Cartographer-33"><span class="linenos"> 33</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Convert a bibtex file to an atlas, by parsing each entry for an identifier, and querying an API for publications using `self.librarian`.</span>
-</span><span id="Cartographer-34"><a href="#Cartographer-34"><span class="linenos"> 34</span></a>
-</span><span id="Cartographer-35"><a href="#Cartographer-35"><span class="linenos"> 35</span></a><span class="sd">        NOTE: the identifiers in the corresponding atlas will be API-specific ids; there is no relationship between the parsed id used to query papers (e.g. &#39;DOI:XYZ&#39; in the case of SemanticScholar) and the resulting identifier associated with the resulting Publication object, (a paperId, a bibcode, etc.) Therefore, the purpose of using the `bibtex_to_atlas` method is primarily for initializing literature exploration in a human-readable way. If you want to obtain as many publications as identifiers supplied, you need to use `get_publications`.</span>
-</span><span id="Cartographer-36"><a href="#Cartographer-36"><span class="linenos"> 36</span></a>
-</span><span id="Cartographer-37"><a href="#Cartographer-37"><span class="linenos"> 37</span></a><span class="sd">        Args:</span>
-</span><span id="Cartographer-38"><a href="#Cartographer-38"><span class="linenos"> 38</span></a><span class="sd">            bibtex_fp: the filepath where the bibtex file is saved.</span>
-</span><span id="Cartographer-39"><a href="#Cartographer-39"><span class="linenos"> 39</span></a>
-</span><span id="Cartographer-40"><a href="#Cartographer-40"><span class="linenos"> 40</span></a><span class="sd">            args and kwargs are passed to `get_publications`.</span>
-</span><span id="Cartographer-41"><a href="#Cartographer-41"><span class="linenos"> 41</span></a><span class="sd">        &quot;&quot;&quot;</span>
-</span><span id="Cartographer-42"><a href="#Cartographer-42"><span class="linenos"> 42</span></a>        <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">bibtex_fp</span><span class="p">,</span> <span class="s2">&quot;r&quot;</span><span class="p">)</span> <span class="k">as</span> <span class="n">f</span><span class="p">:</span>
-</span><span id="Cartographer-43"><a href="#Cartographer-43"><span class="linenos"> 43</span></a>            <span class="n">bib_database</span> <span class="o">=</span> <span class="n">bibtexparser</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">f</span><span class="p">)</span>
-</span><span id="Cartographer-44"><a href="#Cartographer-44"><span class="linenos"> 44</span></a>
-</span><span id="Cartographer-45"><a href="#Cartographer-45"><span class="linenos"> 45</span></a>        <span class="c1"># Retrieve the identifier from each bibtex entry</span>
-</span><span id="Cartographer-46"><a href="#Cartographer-46"><span class="linenos"> 46</span></a>        <span class="n">identifiers</span> <span class="o">=</span> <span class="p">[</span>
-</span><span id="Cartographer-47"><a href="#Cartographer-47"><span class="linenos"> 47</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">librarian</span><span class="o">.</span><span class="n">bibtex_entry_identifier</span><span class="p">(</span><span class="n">entry</span><span class="p">)</span>
-</span><span id="Cartographer-48"><a href="#Cartographer-48"><span class="linenos"> 48</span></a>            <span class="k">for</span> <span class="n">entry</span> <span class="ow">in</span> <span class="n">bib_database</span><span class="o">.</span><span class="n">entries</span>
-</span><span id="Cartographer-49"><a href="#Cartographer-49"><span class="linenos"> 49</span></a>        <span class="p">]</span>
-</span><span id="Cartographer-50"><a href="#Cartographer-50"><span class="linenos"> 50</span></a>        <span class="n">identifiers</span> <span class="o">=</span> <span class="p">[</span><span class="nb">id</span> <span class="k">for</span> <span class="nb">id</span> <span class="ow">in</span> <span class="n">identifiers</span> <span class="k">if</span> <span class="nb">id</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">]</span>
-</span><span id="Cartographer-51"><a href="#Cartographer-51"><span class="linenos"> 51</span></a>        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">identifiers</span><span class="p">)</span> <span class="o">&lt;</span> <span class="nb">len</span><span class="p">(</span><span class="n">bib_database</span><span class="o">.</span><span class="n">entries</span><span class="p">):</span>
-</span><span id="Cartographer-52"><a href="#Cartographer-52"><span class="linenos"> 52</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
-</span><span id="Cartographer-53"><a href="#Cartographer-53"><span class="linenos"> 53</span></a>                <span class="sa">f</span><span class="s2">&quot;Only obtained </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">identifiers</span><span class="p">)</span><span class="si">}</span><span class="s2"> publications out of </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">bib_database</span><span class="o">.</span><span class="n">entries</span><span class="p">)</span><span class="si">}</span><span class="s2"> total due to missing identifiers.&quot;</span>
-</span><span id="Cartographer-54"><a href="#Cartographer-54"><span class="linenos"> 54</span></a>            <span class="p">)</span>
-</span><span id="Cartographer-55"><a href="#Cartographer-55"><span class="linenos"> 55</span></a>
-</span><span id="Cartographer-56"><a href="#Cartographer-56"><span class="linenos"> 56</span></a>        <span class="c1"># Query</span>
-</span><span id="Cartographer-57"><a href="#Cartographer-57"><span class="linenos"> 57</span></a>        <span class="n">results</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">librarian</span><span class="o">.</span><span class="n">get_publications</span><span class="p">(</span><span class="n">identifiers</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-</span><span id="Cartographer-58"><a href="#Cartographer-58"><span class="linenos"> 58</span></a>        <span class="c1"># Validate</span>
-</span><span id="Cartographer-59"><a href="#Cartographer-59"><span class="linenos"> 59</span></a>        <span class="n">publications</span> <span class="o">=</span> <span class="p">[</span>
-</span><span id="Cartographer-60"><a href="#Cartographer-60"><span class="linenos"> 60</span></a>            <span class="n">result</span>
-</span><span id="Cartographer-61"><a href="#Cartographer-61"><span class="linenos"> 61</span></a>            <span class="k">for</span> <span class="n">result</span> <span class="ow">in</span> <span class="n">results</span>
-</span><span id="Cartographer-62"><a href="#Cartographer-62"><span class="linenos"> 62</span></a>            <span class="k">if</span> <span class="p">(</span>
-</span><span id="Cartographer-63"><a href="#Cartographer-63"><span class="linenos"> 63</span></a>                <span class="n">result</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
-</span><span id="Cartographer-64"><a href="#Cartographer-64"><span class="linenos"> 64</span></a>                <span class="ow">and</span> <span class="n">result</span><span class="o">.</span><span class="n">publication_date</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
-</span><span id="Cartographer-65"><a href="#Cartographer-65"><span class="linenos"> 65</span></a>                <span class="ow">and</span> <span class="n">result</span><span class="o">.</span><span class="n">abstract</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
-</span><span id="Cartographer-66"><a href="#Cartographer-66"><span class="linenos"> 66</span></a>                <span class="c1"># identifier will never be none</span>
-</span><span id="Cartographer-67"><a href="#Cartographer-67"><span class="linenos"> 67</span></a>            <span class="p">)</span>
-</span><span id="Cartographer-68"><a href="#Cartographer-68"><span class="linenos"> 68</span></a>        <span class="p">]</span>
-</span><span id="Cartographer-69"><a href="#Cartographer-69"><span class="linenos"> 69</span></a>        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">publications</span><span class="p">)</span> <span class="o">&lt;</span> <span class="nb">len</span><span class="p">(</span><span class="n">identifiers</span><span class="p">):</span>
-</span><span id="Cartographer-70"><a href="#Cartographer-70"><span class="linenos"> 70</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
-</span><span id="Cartographer-71"><a href="#Cartographer-71"><span class="linenos"> 71</span></a>                <span class="sa">f</span><span class="s2">&quot;Only obtained </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">publications</span><span class="p">)</span><span class="si">}</span><span class="s2"> publications out of </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">identifiers</span><span class="p">)</span><span class="si">}</span><span class="s2"> total due to querying-related errors or missing abstracts.&quot;</span>
-</span><span id="Cartographer-72"><a href="#Cartographer-72"><span class="linenos"> 72</span></a>            <span class="p">)</span>
-</span><span id="Cartographer-73"><a href="#Cartographer-73"><span class="linenos"> 73</span></a>
-</span><span id="Cartographer-74"><a href="#Cartographer-74"><span class="linenos"> 74</span></a>        <span class="c1"># Construct atlas</span>
-</span><span id="Cartographer-75"><a href="#Cartographer-75"><span class="linenos"> 75</span></a>        <span class="n">atl</span> <span class="o">=</span> <span class="n">Atlas</span><span class="p">(</span><span class="n">publications</span><span class="p">)</span>
-</span><span id="Cartographer-76"><a href="#Cartographer-76"><span class="linenos"> 76</span></a>        <span class="k">return</span> <span class="n">atl</span>
-</span><span id="Cartographer-77"><a href="#Cartographer-77"><span class="linenos"> 77</span></a>
-</span><span id="Cartographer-78"><a href="#Cartographer-78"><span class="linenos"> 78</span></a>    <span class="c1">######################################################################</span>
-</span><span id="Cartographer-79"><a href="#Cartographer-79"><span class="linenos"> 79</span></a>    <span class="c1"># Project Atlas</span>
-</span><span id="Cartographer-80"><a href="#Cartographer-80"><span class="linenos"> 80</span></a>    <span class="c1">######################################################################</span>
-</span><span id="Cartographer-81"><a href="#Cartographer-81"><span class="linenos"> 81</span></a>
-</span><span id="Cartographer-82"><a href="#Cartographer-82"><span class="linenos"> 82</span></a>    <span class="k">def</span> <span class="nf">project</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">atl</span><span class="p">:</span> <span class="n">Atlas</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Atlas</span><span class="p">:</span>
-</span><span id="Cartographer-83"><a href="#Cartographer-83"><span class="linenos"> 83</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Update an atlas with its projection, i.e. the document embeddings for all publications using `self.vectorizer`, removing publications with no abstracts.</span>
-</span><span id="Cartographer-84"><a href="#Cartographer-84"><span class="linenos"> 84</span></a>
-</span><span id="Cartographer-85"><a href="#Cartographer-85"><span class="linenos"> 85</span></a><span class="sd">        Args:</span>
-</span><span id="Cartographer-86"><a href="#Cartographer-86"><span class="linenos"> 86</span></a><span class="sd">            atl: the Atlas containing publications to project to document embeddings</span>
-</span><span id="Cartographer-87"><a href="#Cartographer-87"><span class="linenos"> 87</span></a>
-</span><span id="Cartographer-88"><a href="#Cartographer-88"><span class="linenos"> 88</span></a><span class="sd">        Returns:</span>
-</span><span id="Cartographer-89"><a href="#Cartographer-89"><span class="linenos"> 89</span></a><span class="sd">            the updated atlas containing all nonempty-abstract-containing publications and their projection</span>
-</span><span id="Cartographer-90"><a href="#Cartographer-90"><span class="linenos"> 90</span></a><span class="sd">        &quot;&quot;&quot;</span>
-</span><span id="Cartographer-91"><a href="#Cartographer-91"><span class="linenos"> 91</span></a>        <span class="c1"># Only project publications that have abstracts</span>
-</span><span id="Cartographer-92"><a href="#Cartographer-92"><span class="linenos"> 92</span></a>        <span class="n">atl_filtered</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">filter</span><span class="p">(</span><span class="n">atl</span><span class="p">,</span> <span class="n">attributes</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;abstract&quot;</span><span class="p">])</span>
-</span><span id="Cartographer-93"><a href="#Cartographer-93"><span class="linenos"> 93</span></a>        <span class="n">invalid</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">atl</span><span class="p">)</span> <span class="o">-</span> <span class="nb">len</span><span class="p">(</span><span class="n">atl_filtered</span><span class="p">)</span>
-</span><span id="Cartographer-94"><a href="#Cartographer-94"><span class="linenos"> 94</span></a>        <span class="k">if</span> <span class="n">invalid</span><span class="p">:</span>
-</span><span id="Cartographer-95"><a href="#Cartographer-95"><span class="linenos"> 95</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
-</span><span id="Cartographer-96"><a href="#Cartographer-96"><span class="linenos"> 96</span></a>                <span class="sa">f</span><span class="s2">&quot;Some abstracts were not available. Found </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">atl_filtered</span><span class="p">)</span><span class="si">}</span><span class="s2"> nonempty abstracts out of </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">publications</span><span class="p">)</span><span class="si">}</span><span class="s2"> total publications.&quot;</span>
-</span><span id="Cartographer-97"><a href="#Cartographer-97"><span class="linenos"> 97</span></a>            <span class="p">)</span>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="Cartographer-63"><a href="#Cartographer-63"><span class="linenos"> 63</span></a><span class="k">class</span> <span class="nc">Cartographer</span><span class="p">:</span>
+</span><span id="Cartographer-64"><a href="#Cartographer-64"><span class="linenos"> 64</span></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;A basic wrapper for obtaining and updating atlas projections.</span>
+</span><span id="Cartographer-65"><a href="#Cartographer-65"><span class="linenos"> 65</span></a>
+</span><span id="Cartographer-66"><a href="#Cartographer-66"><span class="linenos"> 66</span></a><span class="sd">    `self.librarian`: the Librarian object used to query a bibliographic database API.</span>
+</span><span id="Cartographer-67"><a href="#Cartographer-67"><span class="linenos"> 67</span></a><span class="sd">    `self.vectorizer`: the Vectorizer object used to get a document embedding for each abstract</span>
+</span><span id="Cartographer-68"><a href="#Cartographer-68"><span class="linenos"> 68</span></a><span class="sd">    `self.pubs_per_update`: a list of lists of publication str ids, representing the publications that exist at each time step / expansion update.</span>
+</span><span id="Cartographer-69"><a href="#Cartographer-69"><span class="linenos"> 69</span></a><span class="sd">    `self.update_history`: an np.array of ints representing when publications were added. A value of -2 indicates no record of being added.</span>
+</span><span id="Cartographer-70"><a href="#Cartographer-70"><span class="linenos"> 70</span></a><span class="sd">    &quot;&quot;&quot;</span>
+</span><span id="Cartographer-71"><a href="#Cartographer-71"><span class="linenos"> 71</span></a>
+</span><span id="Cartographer-72"><a href="#Cartographer-72"><span class="linenos"> 72</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+</span><span id="Cartographer-73"><a href="#Cartographer-73"><span class="linenos"> 73</span></a>        <span class="bp">self</span><span class="p">,</span>
+</span><span id="Cartographer-74"><a href="#Cartographer-74"><span class="linenos"> 74</span></a>        <span class="n">librarian</span><span class="p">:</span> <span class="n">Librarian</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="Cartographer-75"><a href="#Cartographer-75"><span class="linenos"> 75</span></a>        <span class="n">vectorizer</span><span class="p">:</span> <span class="n">Vectorizer</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="Cartographer-76"><a href="#Cartographer-76"><span class="linenos"> 76</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Cartographer-77"><a href="#Cartographer-77"><span class="linenos"> 77</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">librarian</span> <span class="o">=</span> <span class="n">librarian</span>
+</span><span id="Cartographer-78"><a href="#Cartographer-78"><span class="linenos"> 78</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">vectorizer</span> <span class="o">=</span> <span class="n">vectorizer</span>
+</span><span id="Cartographer-79"><a href="#Cartographer-79"><span class="linenos"> 79</span></a>
+</span><span id="Cartographer-80"><a href="#Cartographer-80"><span class="linenos"> 80</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">pubs_per_update</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="Cartographer-81"><a href="#Cartographer-81"><span class="linenos"> 81</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">update_history</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span> <span class="o">=</span> <span class="kc">None</span>
+</span><span id="Cartographer-82"><a href="#Cartographer-82"><span class="linenos"> 82</span></a>
+</span><span id="Cartographer-83"><a href="#Cartographer-83"><span class="linenos"> 83</span></a>    <span class="c1">######################################################################</span>
+</span><span id="Cartographer-84"><a href="#Cartographer-84"><span class="linenos"> 84</span></a>    <span class="c1"># Get an Atlas from bibtex</span>
+</span><span id="Cartographer-85"><a href="#Cartographer-85"><span class="linenos"> 85</span></a>    <span class="c1">######################################################################</span>
+</span><span id="Cartographer-86"><a href="#Cartographer-86"><span class="linenos"> 86</span></a>
+</span><span id="Cartographer-87"><a href="#Cartographer-87"><span class="linenos"> 87</span></a>    <span class="k">def</span> <span class="nf">bibtex_to_atlas</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">bibtex_fp</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Atlas</span><span class="p">:</span>
+</span><span id="Cartographer-88"><a href="#Cartographer-88"><span class="linenos"> 88</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Convert a bibtex file to an atlas, by parsing each entry for an identifier, and querying an API for publications using `self.librarian`.</span>
+</span><span id="Cartographer-89"><a href="#Cartographer-89"><span class="linenos"> 89</span></a>
+</span><span id="Cartographer-90"><a href="#Cartographer-90"><span class="linenos"> 90</span></a><span class="sd">        NOTE: the identifiers in the corresponding atlas will be API-specific ids; there is no relationship between the parsed id used to query papers (e.g. &#39;DOI:XYZ&#39; in the case of SemanticScholar) and the resulting identifier associated with the resulting Publication object, (a paperId, a bibcode, etc.) Therefore, the purpose of using the `bibtex_to_atlas` method is primarily for initializing literature exploration in a human-readable way. If you want to obtain as many publications as identifiers supplied, you need to use `get_publications`.</span>
+</span><span id="Cartographer-91"><a href="#Cartographer-91"><span class="linenos"> 91</span></a>
+</span><span id="Cartographer-92"><a href="#Cartographer-92"><span class="linenos"> 92</span></a><span class="sd">        Args:</span>
+</span><span id="Cartographer-93"><a href="#Cartographer-93"><span class="linenos"> 93</span></a><span class="sd">            bibtex_fp: the filepath where the bibtex file is saved.</span>
+</span><span id="Cartographer-94"><a href="#Cartographer-94"><span class="linenos"> 94</span></a>
+</span><span id="Cartographer-95"><a href="#Cartographer-95"><span class="linenos"> 95</span></a><span class="sd">            args and kwargs are passed to `get_publications`.</span>
+</span><span id="Cartographer-96"><a href="#Cartographer-96"><span class="linenos"> 96</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="Cartographer-97"><a href="#Cartographer-97"><span class="linenos"> 97</span></a>        <span class="n">verbose</span> <span class="o">=</span> <span class="n">get_verbose</span><span class="p">(</span><span class="n">kwargs</span><span class="p">)</span>
 </span><span id="Cartographer-98"><a href="#Cartographer-98"><span class="linenos"> 98</span></a>
-</span><span id="Cartographer-99"><a href="#Cartographer-99"><span class="linenos"> 99</span></a>        <span class="c1"># Project</span>
-</span><span id="Cartographer-100"><a href="#Cartographer-100"><span class="linenos">100</span></a>        <span class="n">embeddings</span> <span class="o">=</span> <span class="kc">None</span>
-</span><span id="Cartographer-101"><a href="#Cartographer-101"><span class="linenos">101</span></a>        <span class="c1"># get only embeddings for publications not already projected in atlas</span>
-</span><span id="Cartographer-102"><a href="#Cartographer-102"><span class="linenos">102</span></a>        <span class="n">previously_embedded_ids</span> <span class="o">=</span> <span class="p">[]</span>
-</span><span id="Cartographer-103"><a href="#Cartographer-103"><span class="linenos">103</span></a>        <span class="k">if</span> <span class="n">atl_filtered</span><span class="o">.</span><span class="n">projection</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="Cartographer-104"><a href="#Cartographer-104"><span class="linenos">104</span></a>            <span class="n">previously_embedded_ids</span> <span class="o">=</span> <span class="n">atl_filtered</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">identifier_to_index</span>
-</span><span id="Cartographer-105"><a href="#Cartographer-105"><span class="linenos">105</span></a>        <span class="n">embed_ids</span> <span class="o">=</span> <span class="p">[</span>
-</span><span id="Cartographer-106"><a href="#Cartographer-106"><span class="linenos">106</span></a>            <span class="nb">id</span> <span class="k">for</span> <span class="nb">id</span> <span class="ow">in</span> <span class="n">atl_filtered</span><span class="o">.</span><span class="n">publications</span> <span class="k">if</span> <span class="nb">id</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">previously_embedded_ids</span>
-</span><span id="Cartographer-107"><a href="#Cartographer-107"><span class="linenos">107</span></a>        <span class="p">]</span>
-</span><span id="Cartographer-108"><a href="#Cartographer-108"><span class="linenos">108</span></a>
-</span><span id="Cartographer-109"><a href="#Cartographer-109"><span class="linenos">109</span></a>        <span class="c1"># Embed documents</span>
-</span><span id="Cartographer-110"><a href="#Cartographer-110"><span class="linenos">110</span></a>        <span class="k">if</span> <span class="n">embed_ids</span><span class="p">:</span>
-</span><span id="Cartographer-111"><a href="#Cartographer-111"><span class="linenos">111</span></a>            <span class="n">embeddings</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">vectorizer</span><span class="o">.</span><span class="n">embed_documents</span><span class="p">(</span>
-</span><span id="Cartographer-112"><a href="#Cartographer-112"><span class="linenos">112</span></a>                <span class="p">[</span><span class="n">atl_filtered</span><span class="p">[</span><span class="nb">id</span><span class="p">]</span><span class="o">.</span><span class="n">abstract</span> <span class="k">for</span> <span class="nb">id</span> <span class="ow">in</span> <span class="n">embed_ids</span><span class="p">]</span>
-</span><span id="Cartographer-113"><a href="#Cartographer-113"><span class="linenos">113</span></a>            <span class="p">)</span>
-</span><span id="Cartographer-114"><a href="#Cartographer-114"><span class="linenos">114</span></a>        <span class="k">if</span> <span class="n">embeddings</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="Cartographer-115"><a href="#Cartographer-115"><span class="linenos">115</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Obtained no new publication embeddings.&quot;</span><span class="p">)</span>
-</span><span id="Cartographer-116"><a href="#Cartographer-116"><span class="linenos">116</span></a>
-</span><span id="Cartographer-117"><a href="#Cartographer-117"><span class="linenos">117</span></a>        <span class="c1"># create new projection</span>
-</span><span id="Cartographer-118"><a href="#Cartographer-118"><span class="linenos">118</span></a>        <span class="n">projection</span> <span class="o">=</span> <span class="n">Projection</span><span class="p">(</span>
-</span><span id="Cartographer-119"><a href="#Cartographer-119"><span class="linenos">119</span></a>            <span class="n">identifier_to_index</span><span class="o">=</span><span class="p">{</span>
-</span><span id="Cartographer-120"><a href="#Cartographer-120"><span class="linenos">120</span></a>                <span class="n">identifier</span><span class="p">:</span> <span class="n">idx</span> <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">identifier</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">embed_ids</span><span class="p">)</span>
-</span><span id="Cartographer-121"><a href="#Cartographer-121"><span class="linenos">121</span></a>            <span class="p">},</span>
-</span><span id="Cartographer-122"><a href="#Cartographer-122"><span class="linenos">122</span></a>            <span class="n">index_to_identifier</span><span class="o">=</span><span class="nb">tuple</span><span class="p">(</span><span class="n">embed_ids</span><span class="p">),</span>
-</span><span id="Cartographer-123"><a href="#Cartographer-123"><span class="linenos">123</span></a>            <span class="n">embeddings</span><span class="o">=</span><span class="n">embeddings</span><span class="p">,</span>
-</span><span id="Cartographer-124"><a href="#Cartographer-124"><span class="linenos">124</span></a>        <span class="p">)</span>
-</span><span id="Cartographer-125"><a href="#Cartographer-125"><span class="linenos">125</span></a>        <span class="c1"># merge existing projection with new projection</span>
-</span><span id="Cartographer-126"><a href="#Cartographer-126"><span class="linenos">126</span></a>        <span class="n">merged_projection</span> <span class="o">=</span> <span class="n">merge</span><span class="p">(</span><span class="n">atl_filtered</span><span class="o">.</span><span class="n">projection</span><span class="p">,</span> <span class="n">projection</span><span class="p">)</span>
-</span><span id="Cartographer-127"><a href="#Cartographer-127"><span class="linenos">127</span></a>
-</span><span id="Cartographer-128"><a href="#Cartographer-128"><span class="linenos">128</span></a>        <span class="c1"># prepare to overwrite atlas with publications corresponding to updated (merged) projection</span>
-</span><span id="Cartographer-129"><a href="#Cartographer-129"><span class="linenos">129</span></a>        <span class="n">embedded_publications</span> <span class="o">=</span> <span class="p">{</span>
-</span><span id="Cartographer-130"><a href="#Cartographer-130"><span class="linenos">130</span></a>            <span class="nb">id</span><span class="p">:</span> <span class="n">pub</span>
-</span><span id="Cartographer-131"><a href="#Cartographer-131"><span class="linenos">131</span></a>            <span class="k">for</span> <span class="nb">id</span><span class="p">,</span> <span class="n">pub</span> <span class="ow">in</span> <span class="n">atl_filtered</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">items</span><span class="p">()</span>
-</span><span id="Cartographer-132"><a href="#Cartographer-132"><span class="linenos">132</span></a>            <span class="k">if</span> <span class="nb">id</span> <span class="ow">in</span> <span class="n">merged_projection</span><span class="o">.</span><span class="n">identifier_to_index</span>
-</span><span id="Cartographer-133"><a href="#Cartographer-133"><span class="linenos">133</span></a>        <span class="p">}</span>
-</span><span id="Cartographer-134"><a href="#Cartographer-134"><span class="linenos">134</span></a>        <span class="n">invalid</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">atl_filtered</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span> <span class="o">-</span> <span class="nb">set</span><span class="p">(</span>
-</span><span id="Cartographer-135"><a href="#Cartographer-135"><span class="linenos">135</span></a>            <span class="n">embedded_publications</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span>
-</span><span id="Cartographer-136"><a href="#Cartographer-136"><span class="linenos">136</span></a>        <span class="p">)</span>
-</span><span id="Cartographer-137"><a href="#Cartographer-137"><span class="linenos">137</span></a>        <span class="k">if</span> <span class="n">invalid</span><span class="p">:</span>
-</span><span id="Cartographer-138"><a href="#Cartographer-138"><span class="linenos">138</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
-</span><span id="Cartographer-139"><a href="#Cartographer-139"><span class="linenos">139</span></a>                <span class="sa">f</span><span class="s2">&quot;Removing </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">invalid</span><span class="p">)</span><span class="si">}</span><span class="s2"> publications from atlas after projection.&quot;</span>
-</span><span id="Cartographer-140"><a href="#Cartographer-140"><span class="linenos">140</span></a>            <span class="p">)</span>
+</span><span id="Cartographer-99"><a href="#Cartographer-99"><span class="linenos"> 99</span></a>        <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">bibtex_fp</span><span class="p">,</span> <span class="s2">&quot;r&quot;</span><span class="p">)</span> <span class="k">as</span> <span class="n">f</span><span class="p">:</span>
+</span><span id="Cartographer-100"><a href="#Cartographer-100"><span class="linenos">100</span></a>            <span class="n">bib_database</span> <span class="o">=</span> <span class="n">bibtexparser</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">f</span><span class="p">)</span>
+</span><span id="Cartographer-101"><a href="#Cartographer-101"><span class="linenos">101</span></a>
+</span><span id="Cartographer-102"><a href="#Cartographer-102"><span class="linenos">102</span></a>        <span class="c1"># Retrieve the identifier from each bibtex entry</span>
+</span><span id="Cartographer-103"><a href="#Cartographer-103"><span class="linenos">103</span></a>        <span class="n">identifiers</span> <span class="o">=</span> <span class="p">[</span>
+</span><span id="Cartographer-104"><a href="#Cartographer-104"><span class="linenos">104</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">librarian</span><span class="o">.</span><span class="n">bibtex_entry_identifier</span><span class="p">(</span><span class="n">entry</span><span class="p">)</span>
+</span><span id="Cartographer-105"><a href="#Cartographer-105"><span class="linenos">105</span></a>            <span class="k">for</span> <span class="n">entry</span> <span class="ow">in</span> <span class="n">bib_database</span><span class="o">.</span><span class="n">entries</span>
+</span><span id="Cartographer-106"><a href="#Cartographer-106"><span class="linenos">106</span></a>        <span class="p">]</span>
+</span><span id="Cartographer-107"><a href="#Cartographer-107"><span class="linenos">107</span></a>        <span class="n">identifiers</span> <span class="o">=</span> <span class="p">[</span><span class="nb">id</span> <span class="k">for</span> <span class="nb">id</span> <span class="ow">in</span> <span class="n">identifiers</span> <span class="k">if</span> <span class="nb">id</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">]</span>
+</span><span id="Cartographer-108"><a href="#Cartographer-108"><span class="linenos">108</span></a>        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">identifiers</span><span class="p">)</span> <span class="o">&lt;</span> <span class="nb">len</span><span class="p">(</span><span class="n">bib_database</span><span class="o">.</span><span class="n">entries</span><span class="p">)</span> <span class="ow">and</span> <span class="n">verbose</span><span class="p">:</span>
+</span><span id="Cartographer-109"><a href="#Cartographer-109"><span class="linenos">109</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+</span><span id="Cartographer-110"><a href="#Cartographer-110"><span class="linenos">110</span></a>                <span class="sa">f</span><span class="s2">&quot;Only obtained </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">identifiers</span><span class="p">)</span><span class="si">}</span><span class="s2"> publications out of </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">bib_database</span><span class="o">.</span><span class="n">entries</span><span class="p">)</span><span class="si">}</span><span class="s2"> total due to missing identifiers.&quot;</span>
+</span><span id="Cartographer-111"><a href="#Cartographer-111"><span class="linenos">111</span></a>            <span class="p">)</span>
+</span><span id="Cartographer-112"><a href="#Cartographer-112"><span class="linenos">112</span></a>
+</span><span id="Cartographer-113"><a href="#Cartographer-113"><span class="linenos">113</span></a>        <span class="c1"># Query</span>
+</span><span id="Cartographer-114"><a href="#Cartographer-114"><span class="linenos">114</span></a>        <span class="n">results</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">librarian</span><span class="o">.</span><span class="n">get_publications</span><span class="p">(</span><span class="n">identifiers</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+</span><span id="Cartographer-115"><a href="#Cartographer-115"><span class="linenos">115</span></a>        <span class="c1"># Validate</span>
+</span><span id="Cartographer-116"><a href="#Cartographer-116"><span class="linenos">116</span></a>        <span class="n">publications</span> <span class="o">=</span> <span class="p">[</span>
+</span><span id="Cartographer-117"><a href="#Cartographer-117"><span class="linenos">117</span></a>            <span class="n">result</span>
+</span><span id="Cartographer-118"><a href="#Cartographer-118"><span class="linenos">118</span></a>            <span class="k">for</span> <span class="n">result</span> <span class="ow">in</span> <span class="n">results</span>
+</span><span id="Cartographer-119"><a href="#Cartographer-119"><span class="linenos">119</span></a>            <span class="k">if</span> <span class="p">(</span>
+</span><span id="Cartographer-120"><a href="#Cartographer-120"><span class="linenos">120</span></a>                <span class="n">result</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+</span><span id="Cartographer-121"><a href="#Cartographer-121"><span class="linenos">121</span></a>                <span class="ow">and</span> <span class="n">result</span><span class="o">.</span><span class="n">publication_date</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+</span><span id="Cartographer-122"><a href="#Cartographer-122"><span class="linenos">122</span></a>                <span class="ow">and</span> <span class="n">result</span><span class="o">.</span><span class="n">abstract</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+</span><span id="Cartographer-123"><a href="#Cartographer-123"><span class="linenos">123</span></a>                <span class="c1"># identifier will never be none</span>
+</span><span id="Cartographer-124"><a href="#Cartographer-124"><span class="linenos">124</span></a>            <span class="p">)</span>
+</span><span id="Cartographer-125"><a href="#Cartographer-125"><span class="linenos">125</span></a>        <span class="p">]</span>
+</span><span id="Cartographer-126"><a href="#Cartographer-126"><span class="linenos">126</span></a>        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">publications</span><span class="p">)</span> <span class="o">&lt;</span> <span class="nb">len</span><span class="p">(</span><span class="n">identifiers</span><span class="p">)</span> <span class="ow">and</span> <span class="n">verbose</span><span class="p">:</span>
+</span><span id="Cartographer-127"><a href="#Cartographer-127"><span class="linenos">127</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+</span><span id="Cartographer-128"><a href="#Cartographer-128"><span class="linenos">128</span></a>                <span class="sa">f</span><span class="s2">&quot;Only obtained </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">publications</span><span class="p">)</span><span class="si">}</span><span class="s2"> publications out of </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">identifiers</span><span class="p">)</span><span class="si">}</span><span class="s2"> total due to querying-related errors or missing abstracts.&quot;</span>
+</span><span id="Cartographer-129"><a href="#Cartographer-129"><span class="linenos">129</span></a>            <span class="p">)</span>
+</span><span id="Cartographer-130"><a href="#Cartographer-130"><span class="linenos">130</span></a>
+</span><span id="Cartographer-131"><a href="#Cartographer-131"><span class="linenos">131</span></a>        <span class="c1"># Construct atlas</span>
+</span><span id="Cartographer-132"><a href="#Cartographer-132"><span class="linenos">132</span></a>        <span class="n">atl</span> <span class="o">=</span> <span class="n">Atlas</span><span class="p">(</span><span class="n">publications</span><span class="p">)</span>
+</span><span id="Cartographer-133"><a href="#Cartographer-133"><span class="linenos">133</span></a>        <span class="k">return</span> <span class="n">atl</span>
+</span><span id="Cartographer-134"><a href="#Cartographer-134"><span class="linenos">134</span></a>
+</span><span id="Cartographer-135"><a href="#Cartographer-135"><span class="linenos">135</span></a>    <span class="c1">######################################################################</span>
+</span><span id="Cartographer-136"><a href="#Cartographer-136"><span class="linenos">136</span></a>    <span class="c1"># Project Atlas</span>
+</span><span id="Cartographer-137"><a href="#Cartographer-137"><span class="linenos">137</span></a>    <span class="c1">######################################################################</span>
+</span><span id="Cartographer-138"><a href="#Cartographer-138"><span class="linenos">138</span></a>
+</span><span id="Cartographer-139"><a href="#Cartographer-139"><span class="linenos">139</span></a>    <span class="k">def</span> <span class="nf">project</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">atl</span><span class="p">:</span> <span class="n">Atlas</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Atlas</span><span class="p">:</span>
+</span><span id="Cartographer-140"><a href="#Cartographer-140"><span class="linenos">140</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Update an atlas with its projection, i.e. the document embeddings for all publications using `self.vectorizer`, removing publications with no abstracts.</span>
 </span><span id="Cartographer-141"><a href="#Cartographer-141"><span class="linenos">141</span></a>
-</span><span id="Cartographer-142"><a href="#Cartographer-142"><span class="linenos">142</span></a>        <span class="c1"># Overwrite atlas data</span>
-</span><span id="Cartographer-143"><a href="#Cartographer-143"><span class="linenos">143</span></a>        <span class="n">atl_filtered</span><span class="o">.</span><span class="n">publications</span> <span class="o">=</span> <span class="n">embedded_publications</span>
-</span><span id="Cartographer-144"><a href="#Cartographer-144"><span class="linenos">144</span></a>        <span class="n">atl_filtered</span><span class="o">.</span><span class="n">projection</span> <span class="o">=</span> <span class="n">merged_projection</span>
-</span><span id="Cartographer-145"><a href="#Cartographer-145"><span class="linenos">145</span></a>        <span class="k">return</span> <span class="n">atl_filtered</span>
-</span><span id="Cartographer-146"><a href="#Cartographer-146"><span class="linenos">146</span></a>
-</span><span id="Cartographer-147"><a href="#Cartographer-147"><span class="linenos">147</span></a>    <span class="c1">######################################################################</span>
-</span><span id="Cartographer-148"><a href="#Cartographer-148"><span class="linenos">148</span></a>    <span class="c1"># Expand Atlas</span>
-</span><span id="Cartographer-149"><a href="#Cartographer-149"><span class="linenos">149</span></a>    <span class="c1">######################################################################</span>
-</span><span id="Cartographer-150"><a href="#Cartographer-150"><span class="linenos">150</span></a>
-</span><span id="Cartographer-151"><a href="#Cartographer-151"><span class="linenos">151</span></a>    <span class="k">def</span> <span class="nf">expand</span><span class="p">(</span>
-</span><span id="Cartographer-152"><a href="#Cartographer-152"><span class="linenos">152</span></a>        <span class="bp">self</span><span class="p">,</span>
-</span><span id="Cartographer-153"><a href="#Cartographer-153"><span class="linenos">153</span></a>        <span class="n">atl</span><span class="p">:</span> <span class="n">Atlas</span><span class="p">,</span>
-</span><span id="Cartographer-154"><a href="#Cartographer-154"><span class="linenos">154</span></a>        <span class="n">center</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-</span><span id="Cartographer-155"><a href="#Cartographer-155"><span class="linenos">155</span></a>        <span class="n">n_pubs_max</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">4000</span><span class="p">,</span>
-</span><span id="Cartographer-156"><a href="#Cartographer-156"><span class="linenos">156</span></a>        <span class="n">n_sources_max</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-</span><span id="Cartographer-157"><a href="#Cartographer-157"><span class="linenos">157</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Atlas</span><span class="p">:</span>
-</span><span id="Cartographer-158"><a href="#Cartographer-158"><span class="linenos">158</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Expand an atlas by retrieving a list of publications resulting from traversal of the citation network.</span>
-</span><span id="Cartographer-159"><a href="#Cartographer-159"><span class="linenos">159</span></a>
-</span><span id="Cartographer-160"><a href="#Cartographer-160"><span class="linenos">160</span></a><span class="sd">        Args:</span>
-</span><span id="Cartographer-161"><a href="#Cartographer-161"><span class="linenos">161</span></a><span class="sd">            atl: the atlas containing the region to expand</span>
-</span><span id="Cartographer-162"><a href="#Cartographer-162"><span class="linenos">162</span></a>
-</span><span id="Cartographer-163"><a href="#Cartographer-163"><span class="linenos">163</span></a><span class="sd">            center: (if given) center the search on this publication, preferentially searching related publications.</span>
-</span><span id="Cartographer-164"><a href="#Cartographer-164"><span class="linenos">164</span></a>
-</span><span id="Cartographer-165"><a href="#Cartographer-165"><span class="linenos">165</span></a><span class="sd">            n_pubs_max: maximum number of publications allowed in the expansion.</span>
-</span><span id="Cartographer-166"><a href="#Cartographer-166"><span class="linenos">166</span></a>
-</span><span id="Cartographer-167"><a href="#Cartographer-167"><span class="linenos">167</span></a><span class="sd">            n_sources_max: maximum number of publications (already in the atlas) to draw references and citations from.</span>
-</span><span id="Cartographer-168"><a href="#Cartographer-168"><span class="linenos">168</span></a>
-</span><span id="Cartographer-169"><a href="#Cartographer-169"><span class="linenos">169</span></a><span class="sd">        Returns:</span>
-</span><span id="Cartographer-170"><a href="#Cartographer-170"><span class="linenos">170</span></a><span class="sd">            atl_expanded: the expanded atlas</span>
-</span><span id="Cartographer-171"><a href="#Cartographer-171"><span class="linenos">171</span></a><span class="sd">        &quot;&quot;&quot;</span>
-</span><span id="Cartographer-172"><a href="#Cartographer-172"><span class="linenos">172</span></a>        <span class="n">existing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
-</span><span id="Cartographer-173"><a href="#Cartographer-173"><span class="linenos">173</span></a>        <span class="n">expand_keys</span> <span class="o">=</span> <span class="n">existing_keys</span>
-</span><span id="Cartographer-174"><a href="#Cartographer-174"><span class="linenos">174</span></a>        <span class="k">if</span> <span class="n">center</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="Cartographer-175"><a href="#Cartographer-175"><span class="linenos">175</span></a>            <span class="k">if</span> <span class="n">atl</span><span class="o">.</span><span class="n">projection</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="Cartographer-176"><a href="#Cartographer-176"><span class="linenos">176</span></a>                <span class="n">atl</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">project</span><span class="p">(</span><span class="n">atl</span><span class="p">)</span>
-</span><span id="Cartographer-177"><a href="#Cartographer-177"><span class="linenos">177</span></a>
-</span><span id="Cartographer-178"><a href="#Cartographer-178"><span class="linenos">178</span></a>            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="p">):</span>
-</span><span id="Cartographer-179"><a href="#Cartographer-179"><span class="linenos">179</span></a>                <span class="c1"># cosine similarity matrix</span>
-</span><span id="Cartographer-180"><a href="#Cartographer-180"><span class="linenos">180</span></a>                <span class="n">cospsi_matrix</span> <span class="o">=</span> <span class="n">cosine_similarity</span><span class="p">(</span>
-</span><span id="Cartographer-181"><a href="#Cartographer-181"><span class="linenos">181</span></a>                    <span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">identifiers_to_embeddings</span><span class="p">([</span><span class="n">center</span><span class="p">]),</span>
-</span><span id="Cartographer-182"><a href="#Cartographer-182"><span class="linenos">182</span></a>                    <span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">embeddings</span><span class="p">,</span>
-</span><span id="Cartographer-183"><a href="#Cartographer-183"><span class="linenos">183</span></a>                <span class="p">)</span>
-</span><span id="Cartographer-184"><a href="#Cartographer-184"><span class="linenos">184</span></a>                <span class="n">sort_inds</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">argsort</span><span class="p">(</span><span class="n">cospsi_matrix</span><span class="p">)[</span><span class="mi">1</span><span class="p">:]</span>  <span class="c1"># exclude the center</span>
-</span><span id="Cartographer-185"><a href="#Cartographer-185"><span class="linenos">185</span></a>                <span class="n">expand_keys</span> <span class="o">=</span> <span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">indices_to_identifiers</span><span class="p">(</span><span class="n">sort_inds</span><span class="p">)</span>
+</span><span id="Cartographer-142"><a href="#Cartographer-142"><span class="linenos">142</span></a><span class="sd">        Args:</span>
+</span><span id="Cartographer-143"><a href="#Cartographer-143"><span class="linenos">143</span></a><span class="sd">            atl: the Atlas containing publications to project to document embeddings</span>
+</span><span id="Cartographer-144"><a href="#Cartographer-144"><span class="linenos">144</span></a>
+</span><span id="Cartographer-145"><a href="#Cartographer-145"><span class="linenos">145</span></a><span class="sd">        Returns:</span>
+</span><span id="Cartographer-146"><a href="#Cartographer-146"><span class="linenos">146</span></a><span class="sd">            the updated atlas containing all nonempty-abstract-containing publications and their projection</span>
+</span><span id="Cartographer-147"><a href="#Cartographer-147"><span class="linenos">147</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="Cartographer-148"><a href="#Cartographer-148"><span class="linenos">148</span></a>        <span class="n">verbose</span> <span class="o">=</span> <span class="n">get_verbose</span><span class="p">(</span><span class="n">kwargs</span><span class="p">)</span>
+</span><span id="Cartographer-149"><a href="#Cartographer-149"><span class="linenos">149</span></a>
+</span><span id="Cartographer-150"><a href="#Cartographer-150"><span class="linenos">150</span></a>        <span class="c1"># Only project publications that have abstracts and publication dates</span>
+</span><span id="Cartographer-151"><a href="#Cartographer-151"><span class="linenos">151</span></a>        <span class="n">atl_filtered</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">filter_by_attributes</span><span class="p">(</span><span class="n">atl</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+</span><span id="Cartographer-152"><a href="#Cartographer-152"><span class="linenos">152</span></a>        <span class="n">num_empty</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">atl</span><span class="p">)</span> <span class="o">-</span> <span class="nb">len</span><span class="p">(</span><span class="n">atl_filtered</span><span class="p">)</span>
+</span><span id="Cartographer-153"><a href="#Cartographer-153"><span class="linenos">153</span></a>        <span class="k">if</span> <span class="n">num_empty</span> <span class="ow">and</span> <span class="n">verbose</span><span class="p">:</span>
+</span><span id="Cartographer-154"><a href="#Cartographer-154"><span class="linenos">154</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+</span><span id="Cartographer-155"><a href="#Cartographer-155"><span class="linenos">155</span></a>                <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">num_empty</span><span class="si">}</span><span class="s2"> publications were filtered due to missing crucial data. There are now </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">atl_filtered</span><span class="o">.</span><span class="n">bad_ids</span><span class="p">)</span><span class="si">}</span><span class="s2"> total ids that will be excluded in the future.&quot;</span>
+</span><span id="Cartographer-156"><a href="#Cartographer-156"><span class="linenos">156</span></a>            <span class="p">)</span>
+</span><span id="Cartographer-157"><a href="#Cartographer-157"><span class="linenos">157</span></a>
+</span><span id="Cartographer-158"><a href="#Cartographer-158"><span class="linenos">158</span></a>        <span class="c1"># Project</span>
+</span><span id="Cartographer-159"><a href="#Cartographer-159"><span class="linenos">159</span></a>        <span class="n">embeddings</span> <span class="o">=</span> <span class="kc">None</span>
+</span><span id="Cartographer-160"><a href="#Cartographer-160"><span class="linenos">160</span></a>        <span class="c1"># get only embeddings for publications not already projected in atlas</span>
+</span><span id="Cartographer-161"><a href="#Cartographer-161"><span class="linenos">161</span></a>        <span class="n">previously_embedded_ids</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="Cartographer-162"><a href="#Cartographer-162"><span class="linenos">162</span></a>        <span class="k">if</span> <span class="n">atl_filtered</span><span class="o">.</span><span class="n">projection</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Cartographer-163"><a href="#Cartographer-163"><span class="linenos">163</span></a>            <span class="n">previously_embedded_ids</span> <span class="o">=</span> <span class="n">atl_filtered</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">identifier_to_index</span>
+</span><span id="Cartographer-164"><a href="#Cartographer-164"><span class="linenos">164</span></a>        <span class="n">embed_ids</span> <span class="o">=</span> <span class="p">[</span>
+</span><span id="Cartographer-165"><a href="#Cartographer-165"><span class="linenos">165</span></a>            <span class="nb">id</span> <span class="k">for</span> <span class="nb">id</span> <span class="ow">in</span> <span class="n">atl_filtered</span><span class="o">.</span><span class="n">publications</span> <span class="k">if</span> <span class="nb">id</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">previously_embedded_ids</span>
+</span><span id="Cartographer-166"><a href="#Cartographer-166"><span class="linenos">166</span></a>        <span class="p">]</span>
+</span><span id="Cartographer-167"><a href="#Cartographer-167"><span class="linenos">167</span></a>
+</span><span id="Cartographer-168"><a href="#Cartographer-168"><span class="linenos">168</span></a>        <span class="k">if</span> <span class="n">embed_ids</span><span class="p">:</span>
+</span><span id="Cartographer-169"><a href="#Cartographer-169"><span class="linenos">169</span></a>            <span class="k">if</span> <span class="n">verbose</span><span class="p">:</span>
+</span><span id="Cartographer-170"><a href="#Cartographer-170"><span class="linenos">170</span></a>                <span class="k">if</span> <span class="n">atl_filtered</span><span class="o">.</span><span class="n">projection</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Cartographer-171"><a href="#Cartographer-171"><span class="linenos">171</span></a>                    <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+</span><span id="Cartographer-172"><a href="#Cartographer-172"><span class="linenos">172</span></a>                        <span class="sa">f</span><span class="s2">&quot;Found </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">atl_filtered</span><span class="o">.</span><span class="n">publications</span><span class="p">)</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="nb">len</span><span class="p">(</span><span class="n">atl_filtered</span><span class="o">.</span><span class="n">projection</span><span class="p">)</span><span class="si">}</span><span class="s2"> publications not contained in Atlas projection.&quot;</span>
+</span><span id="Cartographer-173"><a href="#Cartographer-173"><span class="linenos">173</span></a>                    <span class="p">)</span>
+</span><span id="Cartographer-174"><a href="#Cartographer-174"><span class="linenos">174</span></a>                <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Embedding </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">embed_ids</span><span class="p">)</span><span class="si">}</span><span class="s2"> total documents.&quot;</span><span class="p">)</span>
+</span><span id="Cartographer-175"><a href="#Cartographer-175"><span class="linenos">175</span></a>            <span class="c1"># Embed documents</span>
+</span><span id="Cartographer-176"><a href="#Cartographer-176"><span class="linenos">176</span></a>            <span class="n">result</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">vectorizer</span><span class="o">.</span><span class="n">embed_documents</span><span class="p">(</span>
+</span><span id="Cartographer-177"><a href="#Cartographer-177"><span class="linenos">177</span></a>                <span class="p">[</span><span class="n">atl_filtered</span><span class="p">[</span><span class="nb">id</span><span class="p">]</span><span class="o">.</span><span class="n">abstract</span> <span class="k">for</span> <span class="nb">id</span> <span class="ow">in</span> <span class="n">embed_ids</span><span class="p">]</span>
+</span><span id="Cartographer-178"><a href="#Cartographer-178"><span class="linenos">178</span></a>            <span class="p">)</span>
+</span><span id="Cartographer-179"><a href="#Cartographer-179"><span class="linenos">179</span></a>            <span class="n">embeddings</span> <span class="o">=</span> <span class="n">result</span><span class="p">[</span><span class="s2">&quot;embeddings&quot;</span><span class="p">]</span>
+</span><span id="Cartographer-180"><a href="#Cartographer-180"><span class="linenos">180</span></a>            <span class="n">successful_indices</span> <span class="o">=</span> <span class="n">result</span><span class="p">[</span><span class="s2">&quot;indices&quot;</span><span class="p">]</span>
+</span><span id="Cartographer-181"><a href="#Cartographer-181"><span class="linenos">181</span></a>
+</span><span id="Cartographer-182"><a href="#Cartographer-182"><span class="linenos">182</span></a>            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">successful_indices</span><span class="p">)</span> <span class="o">&lt;</span> <span class="nb">len</span><span class="p">(</span><span class="n">embed_ids</span><span class="p">)</span> <span class="ow">and</span> <span class="n">verbose</span><span class="p">:</span>
+</span><span id="Cartographer-183"><a href="#Cartographer-183"><span class="linenos">183</span></a>                <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Failed to get embeddings for all </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">embed_ids</span><span class="p">)</span><span class="si">}</span><span class="s2"> publications; only </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">embeddings</span><span class="p">)</span><span class="si">}</span><span class="s2"> will be added to the Atlas.&quot;</span><span class="p">)</span>
+</span><span id="Cartographer-184"><a href="#Cartographer-184"><span class="linenos">184</span></a>
+</span><span id="Cartographer-185"><a href="#Cartographer-185"><span class="linenos">185</span></a>            <span class="n">successful_ids</span> <span class="o">=</span> <span class="p">[</span><span class="nb">id</span> <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="nb">id</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">embed_ids</span><span class="p">)</span> <span class="k">if</span> <span class="n">i</span> <span class="ow">in</span> <span class="n">successful_indices</span><span class="p">]</span>
 </span><span id="Cartographer-186"><a href="#Cartographer-186"><span class="linenos">186</span></a>
-</span><span id="Cartographer-187"><a href="#Cartographer-187"><span class="linenos">187</span></a>                <span class="c1"># fill expand keys to allowed capacity</span>
-</span><span id="Cartographer-188"><a href="#Cartographer-188"><span class="linenos">188</span></a>                <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">expand_keys</span><span class="p">)</span> <span class="o">&lt;</span> <span class="nb">len</span><span class="p">(</span><span class="n">existing_keys</span><span class="p">):</span>
-</span><span id="Cartographer-189"><a href="#Cartographer-189"><span class="linenos">189</span></a>                    <span class="c1"># only consider non-empty abstracts</span>
-</span><span id="Cartographer-190"><a href="#Cartographer-190"><span class="linenos">190</span></a>                    <span class="n">expand_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">expand_keys</span><span class="p">)</span><span class="o">.</span><span class="n">union</span><span class="p">(</span><span class="n">existing_keys</span><span class="p">)</span>
-</span><span id="Cartographer-191"><a href="#Cartographer-191"><span class="linenos">191</span></a>
-</span><span id="Cartographer-192"><a href="#Cartographer-192"><span class="linenos">192</span></a>        <span class="k">if</span> <span class="n">n_sources_max</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="Cartographer-193"><a href="#Cartographer-193"><span class="linenos">193</span></a>            <span class="n">expand_keys</span> <span class="o">=</span> <span class="n">expand_keys</span><span class="p">[:</span><span class="n">n_sources_max</span><span class="p">]</span>
-</span><span id="Cartographer-194"><a href="#Cartographer-194"><span class="linenos">194</span></a>
-</span><span id="Cartographer-195"><a href="#Cartographer-195"><span class="linenos">195</span></a>        <span class="c1"># Get identifiers for the expansion</span>
-</span><span id="Cartographer-196"><a href="#Cartographer-196"><span class="linenos">196</span></a>        <span class="c1"># For each publication corresponding to an id in `expand_keys`, collect the ids corresponding to the publication&#39;s references and citations.</span>
-</span><span id="Cartographer-197"><a href="#Cartographer-197"><span class="linenos">197</span></a>        <span class="n">ids</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
-</span><span id="Cartographer-198"><a href="#Cartographer-198"><span class="linenos">198</span></a>        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">expand_keys</span><span class="p">:</span>
-</span><span id="Cartographer-199"><a href="#Cartographer-199"><span class="linenos">199</span></a>            <span class="k">try</span><span class="p">:</span>
-</span><span id="Cartographer-200"><a href="#Cartographer-200"><span class="linenos">200</span></a>                <span class="n">ids_i</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">atl</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">references</span> <span class="o">+</span> <span class="n">atl</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">citations</span><span class="p">)</span>
-</span><span id="Cartographer-201"><a href="#Cartographer-201"><span class="linenos">201</span></a>            <span class="k">except</span> <span class="ne">ValueError</span> <span class="k">as</span> <span class="n">e</span><span class="p">:</span>
-</span><span id="Cartographer-202"><a href="#Cartographer-202"><span class="linenos">202</span></a>                <span class="nb">breakpoint</span><span class="p">()</span>
-</span><span id="Cartographer-203"><a href="#Cartographer-203"><span class="linenos">203</span></a>            <span class="c1"># Prune for obvious overlap</span>
-</span><span id="Cartographer-204"><a href="#Cartographer-204"><span class="linenos">204</span></a>            <span class="n">ids</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">ids_i</span> <span class="o">-</span> <span class="n">existing_keys</span><span class="p">)</span>
-</span><span id="Cartographer-205"><a href="#Cartographer-205"><span class="linenos">205</span></a>            <span class="c1"># Break when the search is centered and we&#39;re maxed out</span>
-</span><span id="Cartographer-206"><a href="#Cartographer-206"><span class="linenos">206</span></a>            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span> <span class="o">&gt;</span> <span class="n">n_pubs_max</span> <span class="ow">and</span> <span class="n">center</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="Cartographer-207"><a href="#Cartographer-207"><span class="linenos">207</span></a>                <span class="k">break</span>
-</span><span id="Cartographer-208"><a href="#Cartographer-208"><span class="linenos">208</span></a>        <span class="n">ids</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span>
-</span><span id="Cartographer-209"><a href="#Cartographer-209"><span class="linenos">209</span></a>
-</span><span id="Cartographer-210"><a href="#Cartographer-210"><span class="linenos">210</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">ids</span><span class="p">:</span>
-</span><span id="Cartographer-211"><a href="#Cartographer-211"><span class="linenos">211</span></a>            <span class="nb">print</span><span class="p">(</span><span class="s2">&quot;Overly-restrictive search, no ids to retrive.&quot;</span><span class="p">)</span>
-</span><span id="Cartographer-212"><a href="#Cartographer-212"><span class="linenos">212</span></a>
-</span><span id="Cartographer-213"><a href="#Cartographer-213"><span class="linenos">213</span></a>        <span class="c1"># Sample to account for max number of publications we want to retrieve</span>
-</span><span id="Cartographer-214"><a href="#Cartographer-214"><span class="linenos">214</span></a>        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span> <span class="o">&gt;</span> <span class="n">n_pubs_max</span><span class="p">:</span>
-</span><span id="Cartographer-215"><a href="#Cartographer-215"><span class="linenos">215</span></a>            <span class="n">ids</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">choice</span><span class="p">(</span><span class="n">ids</span><span class="p">,</span> <span class="n">n_pubs_max</span><span class="p">,</span> <span class="n">replace</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
-</span><span id="Cartographer-216"><a href="#Cartographer-216"><span class="linenos">216</span></a>
-</span><span id="Cartographer-217"><a href="#Cartographer-217"><span class="linenos">217</span></a>        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Expansion will include </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span><span class="si">}</span><span class="s2"> new publications.&quot;</span><span class="p">)</span>
-</span><span id="Cartographer-218"><a href="#Cartographer-218"><span class="linenos">218</span></a>
-</span><span id="Cartographer-219"><a href="#Cartographer-219"><span class="linenos">219</span></a>        <span class="c1"># Retrieve publications from ids using a librarian</span>
-</span><span id="Cartographer-220"><a href="#Cartographer-220"><span class="linenos">220</span></a>        <span class="n">new_publications</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">librarian</span><span class="o">.</span><span class="n">get_publications</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span>
-</span><span id="Cartographer-221"><a href="#Cartographer-221"><span class="linenos">221</span></a>
-</span><span id="Cartographer-222"><a href="#Cartographer-222"><span class="linenos">222</span></a>        <span class="c1"># New atlas</span>
-</span><span id="Cartographer-223"><a href="#Cartographer-223"><span class="linenos">223</span></a>        <span class="n">atl_exp</span> <span class="o">=</span> <span class="n">Atlas</span><span class="p">(</span><span class="n">new_publications</span><span class="p">)</span>
-</span><span id="Cartographer-224"><a href="#Cartographer-224"><span class="linenos">224</span></a>
-</span><span id="Cartographer-225"><a href="#Cartographer-225"><span class="linenos">225</span></a>        <span class="c1"># Update the new atlas</span>
-</span><span id="Cartographer-226"><a href="#Cartographer-226"><span class="linenos">226</span></a>        <span class="n">atl_exp</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">publications</span><span class="p">)</span>
-</span><span id="Cartographer-227"><a href="#Cartographer-227"><span class="linenos">227</span></a>
-</span><span id="Cartographer-228"><a href="#Cartographer-228"><span class="linenos">228</span></a>        <span class="k">return</span> <span class="n">atl_exp</span>
-</span><span id="Cartographer-229"><a href="#Cartographer-229"><span class="linenos">229</span></a>
-</span><span id="Cartographer-230"><a href="#Cartographer-230"><span class="linenos">230</span></a>    <span class="c1">######################################################################</span>
-</span><span id="Cartographer-231"><a href="#Cartographer-231"><span class="linenos">231</span></a>    <span class="c1"># Filter Atlas</span>
-</span><span id="Cartographer-232"><a href="#Cartographer-232"><span class="linenos">232</span></a>    <span class="c1">######################################################################</span>
-</span><span id="Cartographer-233"><a href="#Cartographer-233"><span class="linenos">233</span></a>
-</span><span id="Cartographer-234"><a href="#Cartographer-234"><span class="linenos">234</span></a>    <span class="k">def</span> <span class="nf">filter</span><span class="p">(</span>
-</span><span id="Cartographer-235"><a href="#Cartographer-235"><span class="linenos">235</span></a>        <span class="bp">self</span><span class="p">,</span>
-</span><span id="Cartographer-236"><a href="#Cartographer-236"><span class="linenos">236</span></a>        <span class="n">atl</span><span class="p">:</span> <span class="n">Atlas</span><span class="p">,</span>
-</span><span id="Cartographer-237"><a href="#Cartographer-237"><span class="linenos">237</span></a>        <span class="n">attributes</span><span class="p">:</span> <span class="nb">list</span> <span class="o">=</span> <span class="p">[</span>
-</span><span id="Cartographer-238"><a href="#Cartographer-238"><span class="linenos">238</span></a>            <span class="s2">&quot;abstract&quot;</span><span class="p">,</span>
-</span><span id="Cartographer-239"><a href="#Cartographer-239"><span class="linenos">239</span></a>            <span class="s2">&quot;publication_date&quot;</span><span class="p">,</span>
-</span><span id="Cartographer-240"><a href="#Cartographer-240"><span class="linenos">240</span></a>        <span class="p">],</span>
-</span><span id="Cartographer-241"><a href="#Cartographer-241"><span class="linenos">241</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Atlas</span><span class="p">:</span>
-</span><span id="Cartographer-242"><a href="#Cartographer-242"><span class="linenos">242</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Update an atlas by dropping publications (and corresponding data in projection) when certain fields are empty.</span>
-</span><span id="Cartographer-243"><a href="#Cartographer-243"><span class="linenos">243</span></a>
-</span><span id="Cartographer-244"><a href="#Cartographer-244"><span class="linenos">244</span></a><span class="sd">        Args:</span>
-</span><span id="Cartographer-245"><a href="#Cartographer-245"><span class="linenos">245</span></a><span class="sd">            atl: the Atlas containing publications to filter</span>
-</span><span id="Cartographer-246"><a href="#Cartographer-246"><span class="linenos">246</span></a>
-</span><span id="Cartographer-247"><a href="#Cartographer-247"><span class="linenos">247</span></a><span class="sd">            attributes: the list of attributes to filter publications from the atlas if any of items are None for a publication. For example, if attributes = [&quot;abstract&quot;], then all publications `pub` such that `pub.abstract is None` is True will be removed from the atlas, along with the corresponding data in the projection.</span>
-</span><span id="Cartographer-248"><a href="#Cartographer-248"><span class="linenos">248</span></a>
-</span><span id="Cartographer-249"><a href="#Cartographer-249"><span class="linenos">249</span></a><span class="sd">        Returns:</span>
-</span><span id="Cartographer-250"><a href="#Cartographer-250"><span class="linenos">250</span></a><span class="sd">            the filtered atlas</span>
-</span><span id="Cartographer-251"><a href="#Cartographer-251"><span class="linenos">251</span></a><span class="sd">        &quot;&quot;&quot;</span>
-</span><span id="Cartographer-252"><a href="#Cartographer-252"><span class="linenos">252</span></a>        <span class="c1"># Filter publications</span>
-</span><span id="Cartographer-253"><a href="#Cartographer-253"><span class="linenos">253</span></a>        <span class="n">invalid_pubs</span> <span class="o">=</span> <span class="p">{</span>
-</span><span id="Cartographer-254"><a href="#Cartographer-254"><span class="linenos">254</span></a>            <span class="nb">id</span><span class="p">:</span> <span class="n">pub</span>
-</span><span id="Cartographer-255"><a href="#Cartographer-255"><span class="linenos">255</span></a>            <span class="k">for</span> <span class="nb">id</span><span class="p">,</span> <span class="n">pub</span> <span class="ow">in</span> <span class="n">atl</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">items</span><span class="p">()</span>
-</span><span id="Cartographer-256"><a href="#Cartographer-256"><span class="linenos">256</span></a>            <span class="k">if</span> <span class="nb">all</span><span class="p">([</span><span class="nb">getattr</span><span class="p">(</span><span class="n">pub</span><span class="p">,</span> <span class="n">attr</span><span class="p">)</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">for</span> <span class="n">attr</span> <span class="ow">in</span> <span class="n">attributes</span><span class="p">])</span>
-</span><span id="Cartographer-257"><a href="#Cartographer-257"><span class="linenos">257</span></a>        <span class="p">}</span>
-</span><span id="Cartographer-258"><a href="#Cartographer-258"><span class="linenos">258</span></a>        <span class="c1"># Do not update if unnecessary</span>
-</span><span id="Cartographer-259"><a href="#Cartographer-259"><span class="linenos">259</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="nb">len</span><span class="p">(</span><span class="n">invalid_pubs</span><span class="p">):</span>
-</span><span id="Cartographer-260"><a href="#Cartographer-260"><span class="linenos">260</span></a>            <span class="k">return</span> <span class="n">atl</span>
-</span><span id="Cartographer-261"><a href="#Cartographer-261"><span class="linenos">261</span></a>
-</span><span id="Cartographer-262"><a href="#Cartographer-262"><span class="linenos">262</span></a>        <span class="n">filter_ids</span> <span class="o">=</span> <span class="n">invalid_pubs</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span>
-</span><span id="Cartographer-263"><a href="#Cartographer-263"><span class="linenos">263</span></a>        <span class="c1"># Remove embeddings, ids from projection</span>
-</span><span id="Cartographer-264"><a href="#Cartographer-264"><span class="linenos">264</span></a>        <span class="k">if</span> <span class="n">atl</span><span class="o">.</span><span class="n">projection</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="nb">len</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="p">):</span>
-</span><span id="Cartographer-265"><a href="#Cartographer-265"><span class="linenos">265</span></a>            <span class="n">filter_indices</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
-</span><span id="Cartographer-266"><a href="#Cartographer-266"><span class="linenos">266</span></a>            <span class="n">idx_to_id_new</span> <span class="o">=</span> <span class="p">[]</span>
-</span><span id="Cartographer-267"><a href="#Cartographer-267"><span class="linenos">267</span></a>            <span class="c1"># From indexing</span>
-</span><span id="Cartographer-268"><a href="#Cartographer-268"><span class="linenos">268</span></a>            <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="nb">id</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">index_to_identifier</span><span class="p">):</span>
-</span><span id="Cartographer-269"><a href="#Cartographer-269"><span class="linenos">269</span></a>                <span class="k">if</span> <span class="nb">id</span> <span class="ow">in</span> <span class="n">filter_ids</span><span class="p">:</span>
-</span><span id="Cartographer-270"><a href="#Cartographer-270"><span class="linenos">270</span></a>                    <span class="n">filter_indices</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">idx</span><span class="p">)</span>
-</span><span id="Cartographer-271"><a href="#Cartographer-271"><span class="linenos">271</span></a>                <span class="k">else</span><span class="p">:</span>
-</span><span id="Cartographer-272"><a href="#Cartographer-272"><span class="linenos">272</span></a>                    <span class="n">idx_to_id_new</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="nb">id</span><span class="p">)</span>
-</span><span id="Cartographer-273"><a href="#Cartographer-273"><span class="linenos">273</span></a>            <span class="c1"># From embeddings</span>
-</span><span id="Cartographer-274"><a href="#Cartographer-274"><span class="linenos">274</span></a>            <span class="n">embeddings</span> <span class="o">=</span> <span class="p">[</span>
-</span><span id="Cartographer-275"><a href="#Cartographer-275"><span class="linenos">275</span></a>                <span class="n">embedding</span>
-</span><span id="Cartographer-276"><a href="#Cartographer-276"><span class="linenos">276</span></a>                <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">embedding</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">embeddings</span><span class="p">)</span>
-</span><span id="Cartographer-277"><a href="#Cartographer-277"><span class="linenos">277</span></a>                <span class="k">if</span> <span class="n">idx</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">filter_indices</span>
-</span><span id="Cartographer-278"><a href="#Cartographer-278"><span class="linenos">278</span></a>            <span class="p">]</span>
-</span><span id="Cartographer-279"><a href="#Cartographer-279"><span class="linenos">279</span></a>            <span class="c1"># From identifier to index map</span>
-</span><span id="Cartographer-280"><a href="#Cartographer-280"><span class="linenos">280</span></a>            <span class="n">id_to_idx_new</span> <span class="o">=</span> <span class="p">{</span><span class="nb">id</span><span class="p">:</span> <span class="n">idx</span> <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="nb">id</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">idx_to_id_new</span><span class="p">)}</span>
-</span><span id="Cartographer-281"><a href="#Cartographer-281"><span class="linenos">281</span></a>            <span class="c1"># Overwrite Projection</span>
-</span><span id="Cartographer-282"><a href="#Cartographer-282"><span class="linenos">282</span></a>            <span class="n">atl</span><span class="o">.</span><span class="n">projection</span> <span class="o">=</span> <span class="n">Projection</span><span class="p">(</span>
-</span><span id="Cartographer-283"><a href="#Cartographer-283"><span class="linenos">283</span></a>                <span class="n">identifier_to_index</span><span class="o">=</span><span class="n">id_to_idx_new</span><span class="p">,</span>
-</span><span id="Cartographer-284"><a href="#Cartographer-284"><span class="linenos">284</span></a>                <span class="n">index_to_identifier</span><span class="o">=</span><span class="n">idx_to_id_new</span><span class="p">,</span>
-</span><span id="Cartographer-285"><a href="#Cartographer-285"><span class="linenos">285</span></a>                <span class="n">embeddings</span><span class="o">=</span><span class="n">embeddings</span><span class="p">,</span>
-</span><span id="Cartographer-286"><a href="#Cartographer-286"><span class="linenos">286</span></a>            <span class="p">)</span>
-</span><span id="Cartographer-287"><a href="#Cartographer-287"><span class="linenos">287</span></a>
-</span><span id="Cartographer-288"><a href="#Cartographer-288"><span class="linenos">288</span></a>        <span class="c1"># Remove publications</span>
-</span><span id="Cartographer-289"><a href="#Cartographer-289"><span class="linenos">289</span></a>        <span class="n">atl</span><span class="o">.</span><span class="n">publications</span> <span class="o">=</span> <span class="p">{</span>
-</span><span id="Cartographer-290"><a href="#Cartographer-290"><span class="linenos">290</span></a>            <span class="nb">id</span><span class="p">:</span> <span class="n">pub</span> <span class="k">for</span> <span class="nb">id</span><span class="p">,</span> <span class="n">pub</span> <span class="ow">in</span> <span class="n">atl</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span> <span class="nb">id</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">filter_ids</span>
-</span><span id="Cartographer-291"><a href="#Cartographer-291"><span class="linenos">291</span></a>        <span class="p">}</span>
-</span><span id="Cartographer-292"><a href="#Cartographer-292"><span class="linenos">292</span></a>
-</span><span id="Cartographer-293"><a href="#Cartographer-293"><span class="linenos">293</span></a>        <span class="k">return</span> <span class="n">atl</span>
+</span><span id="Cartographer-187"><a href="#Cartographer-187"><span class="linenos">187</span></a>            <span class="c1"># create new projection</span>
+</span><span id="Cartographer-188"><a href="#Cartographer-188"><span class="linenos">188</span></a>            <span class="n">projection</span> <span class="o">=</span> <span class="n">Projection</span><span class="p">(</span>
+</span><span id="Cartographer-189"><a href="#Cartographer-189"><span class="linenos">189</span></a>                <span class="n">identifier_to_index</span><span class="o">=</span><span class="p">{</span>
+</span><span id="Cartographer-190"><a href="#Cartographer-190"><span class="linenos">190</span></a>                    <span class="n">identifier</span><span class="p">:</span> <span class="n">idx</span> <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">identifier</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">successful_ids</span><span class="p">)</span>
+</span><span id="Cartographer-191"><a href="#Cartographer-191"><span class="linenos">191</span></a>                <span class="p">},</span>
+</span><span id="Cartographer-192"><a href="#Cartographer-192"><span class="linenos">192</span></a>                <span class="n">index_to_identifier</span><span class="o">=</span><span class="nb">tuple</span><span class="p">(</span><span class="n">successful_ids</span><span class="p">),</span>
+</span><span id="Cartographer-193"><a href="#Cartographer-193"><span class="linenos">193</span></a>                <span class="n">embeddings</span><span class="o">=</span><span class="n">embeddings</span><span class="p">,</span>
+</span><span id="Cartographer-194"><a href="#Cartographer-194"><span class="linenos">194</span></a>            <span class="p">)</span>
+</span><span id="Cartographer-195"><a href="#Cartographer-195"><span class="linenos">195</span></a>
+</span><span id="Cartographer-196"><a href="#Cartographer-196"><span class="linenos">196</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">embed_ids</span> <span class="ow">or</span> <span class="n">embed_ids</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">verbose</span><span class="p">:</span>
+</span><span id="Cartographer-197"><a href="#Cartographer-197"><span class="linenos">197</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Obtained no new publication embeddings.&quot;</span><span class="p">)</span>
+</span><span id="Cartographer-198"><a href="#Cartographer-198"><span class="linenos">198</span></a>            <span class="n">projection</span> <span class="o">=</span> <span class="n">get_empty_projection</span><span class="p">()</span>
+</span><span id="Cartographer-199"><a href="#Cartographer-199"><span class="linenos">199</span></a>
+</span><span id="Cartographer-200"><a href="#Cartographer-200"><span class="linenos">200</span></a>        <span class="c1"># merge existing projection with new projection</span>
+</span><span id="Cartographer-201"><a href="#Cartographer-201"><span class="linenos">201</span></a>        <span class="n">merged_projection</span> <span class="o">=</span> <span class="n">merge</span><span class="p">(</span><span class="n">atl_filtered</span><span class="o">.</span><span class="n">projection</span><span class="p">,</span> <span class="n">projection</span><span class="p">)</span>
+</span><span id="Cartographer-202"><a href="#Cartographer-202"><span class="linenos">202</span></a>
+</span><span id="Cartographer-203"><a href="#Cartographer-203"><span class="linenos">203</span></a>        <span class="c1"># prepare to overwrite atlas with publications corresponding to updated (merged) projection</span>
+</span><span id="Cartographer-204"><a href="#Cartographer-204"><span class="linenos">204</span></a>        <span class="n">embedded_publications</span> <span class="o">=</span> <span class="p">{</span>
+</span><span id="Cartographer-205"><a href="#Cartographer-205"><span class="linenos">205</span></a>            <span class="nb">id</span><span class="p">:</span> <span class="n">pub</span>
+</span><span id="Cartographer-206"><a href="#Cartographer-206"><span class="linenos">206</span></a>            <span class="k">for</span> <span class="nb">id</span><span class="p">,</span> <span class="n">pub</span> <span class="ow">in</span> <span class="n">atl_filtered</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">items</span><span class="p">()</span>
+</span><span id="Cartographer-207"><a href="#Cartographer-207"><span class="linenos">207</span></a>            <span class="k">if</span> <span class="nb">id</span> <span class="ow">in</span> <span class="n">merged_projection</span><span class="o">.</span><span class="n">identifier_to_index</span>
+</span><span id="Cartographer-208"><a href="#Cartographer-208"><span class="linenos">208</span></a>        <span class="p">}</span>
+</span><span id="Cartographer-209"><a href="#Cartographer-209"><span class="linenos">209</span></a>        <span class="k">assert</span> <span class="ow">not</span> <span class="nb">set</span><span class="p">(</span><span class="n">atl_filtered</span><span class="o">.</span><span class="n">ids</span><span class="p">())</span> <span class="o">-</span> <span class="nb">set</span><span class="p">(</span><span class="n">embedded_publications</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
+</span><span id="Cartographer-210"><a href="#Cartographer-210"><span class="linenos">210</span></a>
+</span><span id="Cartographer-211"><a href="#Cartographer-211"><span class="linenos">211</span></a>        <span class="c1"># Overwrite atlas data</span>
+</span><span id="Cartographer-212"><a href="#Cartographer-212"><span class="linenos">212</span></a>        <span class="n">atl_filtered</span><span class="o">.</span><span class="n">publications</span> <span class="o">=</span> <span class="n">embedded_publications</span>
+</span><span id="Cartographer-213"><a href="#Cartographer-213"><span class="linenos">213</span></a>        <span class="n">atl_filtered</span><span class="o">.</span><span class="n">projection</span> <span class="o">=</span> <span class="n">merged_projection</span>
+</span><span id="Cartographer-214"><a href="#Cartographer-214"><span class="linenos">214</span></a>        <span class="k">return</span> <span class="n">atl_filtered</span>
+</span><span id="Cartographer-215"><a href="#Cartographer-215"><span class="linenos">215</span></a>
+</span><span id="Cartographer-216"><a href="#Cartographer-216"><span class="linenos">216</span></a>    <span class="c1">######################################################################</span>
+</span><span id="Cartographer-217"><a href="#Cartographer-217"><span class="linenos">217</span></a>    <span class="c1"># Expand Atlas</span>
+</span><span id="Cartographer-218"><a href="#Cartographer-218"><span class="linenos">218</span></a>    <span class="c1">######################################################################</span>
+</span><span id="Cartographer-219"><a href="#Cartographer-219"><span class="linenos">219</span></a>
+</span><span id="Cartographer-220"><a href="#Cartographer-220"><span class="linenos">220</span></a>    <span class="k">def</span> <span class="nf">expand</span><span class="p">(</span>
+</span><span id="Cartographer-221"><a href="#Cartographer-221"><span class="linenos">221</span></a>        <span class="bp">self</span><span class="p">,</span>
+</span><span id="Cartographer-222"><a href="#Cartographer-222"><span class="linenos">222</span></a>        <span class="n">atl</span><span class="p">:</span> <span class="n">Atlas</span><span class="p">,</span>
+</span><span id="Cartographer-223"><a href="#Cartographer-223"><span class="linenos">223</span></a>        <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+</span><span id="Cartographer-224"><a href="#Cartographer-224"><span class="linenos">224</span></a>        <span class="n">center</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="Cartographer-225"><a href="#Cartographer-225"><span class="linenos">225</span></a>        <span class="n">n_pubs_max</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">4000</span><span class="p">,</span>
+</span><span id="Cartographer-226"><a href="#Cartographer-226"><span class="linenos">226</span></a>        <span class="n">n_sources_max</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="Cartographer-227"><a href="#Cartographer-227"><span class="linenos">227</span></a>        <span class="n">record_pubs_per_update</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+</span><span id="Cartographer-228"><a href="#Cartographer-228"><span class="linenos">228</span></a>        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+</span><span id="Cartographer-229"><a href="#Cartographer-229"><span class="linenos">229</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Atlas</span><span class="p">:</span>
+</span><span id="Cartographer-230"><a href="#Cartographer-230"><span class="linenos">230</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Expand an atlas by retrieving a list of publications resulting from traversal of the citation network.</span>
+</span><span id="Cartographer-231"><a href="#Cartographer-231"><span class="linenos">231</span></a>
+</span><span id="Cartographer-232"><a href="#Cartographer-232"><span class="linenos">232</span></a><span class="sd">        Args:</span>
+</span><span id="Cartographer-233"><a href="#Cartographer-233"><span class="linenos">233</span></a><span class="sd">            atl: the atlas containing the region to expand</span>
+</span><span id="Cartographer-234"><a href="#Cartographer-234"><span class="linenos">234</span></a>
+</span><span id="Cartographer-235"><a href="#Cartographer-235"><span class="linenos">235</span></a><span class="sd">            center: (if given) center the search on this publication, preferentially searching related publications.</span>
+</span><span id="Cartographer-236"><a href="#Cartographer-236"><span class="linenos">236</span></a>
+</span><span id="Cartographer-237"><a href="#Cartographer-237"><span class="linenos">237</span></a><span class="sd">            n_pubs_max: maximum number of publications allowed in the expansion.</span>
+</span><span id="Cartographer-238"><a href="#Cartographer-238"><span class="linenos">238</span></a>
+</span><span id="Cartographer-239"><a href="#Cartographer-239"><span class="linenos">239</span></a><span class="sd">            n_sources_max: maximum number of publications (already in the atlas) to draw references and citations from.</span>
+</span><span id="Cartographer-240"><a href="#Cartographer-240"><span class="linenos">240</span></a>
+</span><span id="Cartographer-241"><a href="#Cartographer-241"><span class="linenos">241</span></a><span class="sd">            record_pubs_per_update: whether to track all the publications that exist in the resulting atlas to `self.pubs_per_update`. This should only be set to `True` when you need to later filter by degree of convergence of the atlas.</span>
+</span><span id="Cartographer-242"><a href="#Cartographer-242"><span class="linenos">242</span></a>
+</span><span id="Cartographer-243"><a href="#Cartographer-243"><span class="linenos">243</span></a><span class="sd">        Returns:</span>
+</span><span id="Cartographer-244"><a href="#Cartographer-244"><span class="linenos">244</span></a><span class="sd">            atl_expanded: the expanded atlas</span>
+</span><span id="Cartographer-245"><a href="#Cartographer-245"><span class="linenos">245</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="Cartographer-246"><a href="#Cartographer-246"><span class="linenos">246</span></a>        <span class="n">existing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">ids</span><span class="p">())</span>
+</span><span id="Cartographer-247"><a href="#Cartographer-247"><span class="linenos">247</span></a>        <span class="n">expand_keys</span> <span class="o">=</span> <span class="n">existing_keys</span>
+</span><span id="Cartographer-248"><a href="#Cartographer-248"><span class="linenos">248</span></a>        <span class="k">if</span> <span class="n">center</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Cartographer-249"><a href="#Cartographer-249"><span class="linenos">249</span></a>            <span class="c1"># If atlas is initial</span>
+</span><span id="Cartographer-250"><a href="#Cartographer-250"><span class="linenos">250</span></a>            <span class="k">if</span> <span class="n">atl</span><span class="o">.</span><span class="n">projection</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Cartographer-251"><a href="#Cartographer-251"><span class="linenos">251</span></a>                <span class="n">atl</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">project</span><span class="p">(</span><span class="n">atl</span><span class="p">)</span>
+</span><span id="Cartographer-252"><a href="#Cartographer-252"><span class="linenos">252</span></a>
+</span><span id="Cartographer-253"><a href="#Cartographer-253"><span class="linenos">253</span></a>            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="p">):</span>
+</span><span id="Cartographer-254"><a href="#Cartographer-254"><span class="linenos">254</span></a>                <span class="c1"># build cosine similarity matrix, of shape (1, num_pubs)</span>
+</span><span id="Cartographer-255"><a href="#Cartographer-255"><span class="linenos">255</span></a>                <span class="n">cospsi_matrix</span> <span class="o">=</span> <span class="n">cosine_similarity</span><span class="p">(</span>
+</span><span id="Cartographer-256"><a href="#Cartographer-256"><span class="linenos">256</span></a>                    <span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">identifiers_to_embeddings</span><span class="p">([</span><span class="n">center</span><span class="p">]),</span>
+</span><span id="Cartographer-257"><a href="#Cartographer-257"><span class="linenos">257</span></a>                    <span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">embeddings</span><span class="p">,</span>
+</span><span id="Cartographer-258"><a href="#Cartographer-258"><span class="linenos">258</span></a>                <span class="p">)</span>
+</span><span id="Cartographer-259"><a href="#Cartographer-259"><span class="linenos">259</span></a>                <span class="c1"># get most similar keys from center, including center itself</span>
+</span><span id="Cartographer-260"><a href="#Cartographer-260"><span class="linenos">260</span></a>                <span class="n">sort_inds</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">argsort</span><span class="p">(</span><span class="n">cospsi_matrix</span><span class="p">)[::</span><span class="o">-</span><span class="mi">1</span><span class="p">][</span>
+</span><span id="Cartographer-261"><a href="#Cartographer-261"><span class="linenos">261</span></a>                    <span class="mi">0</span>
+</span><span id="Cartographer-262"><a href="#Cartographer-262"><span class="linenos">262</span></a>                <span class="p">]</span>  <span class="c1"># argsort orders from least to greatest similarity, so reverse</span>
+</span><span id="Cartographer-263"><a href="#Cartographer-263"><span class="linenos">263</span></a>                <span class="n">expand_keys</span> <span class="o">=</span> <span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">indices_to_identifiers</span><span class="p">(</span><span class="n">sort_inds</span><span class="p">)</span>
+</span><span id="Cartographer-264"><a href="#Cartographer-264"><span class="linenos">264</span></a>
+</span><span id="Cartographer-265"><a href="#Cartographer-265"><span class="linenos">265</span></a>        <span class="k">if</span> <span class="n">n_sources_max</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Cartographer-266"><a href="#Cartographer-266"><span class="linenos">266</span></a>            <span class="n">expand_keys</span> <span class="o">=</span> <span class="n">expand_keys</span><span class="p">[:</span><span class="n">n_sources_max</span><span class="p">]</span>
+</span><span id="Cartographer-267"><a href="#Cartographer-267"><span class="linenos">267</span></a>
+</span><span id="Cartographer-268"><a href="#Cartographer-268"><span class="linenos">268</span></a>        <span class="c1"># Get identifiers for the expansion</span>
+</span><span id="Cartographer-269"><a href="#Cartographer-269"><span class="linenos">269</span></a>        <span class="c1"># For each publication corresponding to an id in `expand_keys`, collect the ids corresponding to the publication&#39;s references and citations.</span>
+</span><span id="Cartographer-270"><a href="#Cartographer-270"><span class="linenos">270</span></a>        <span class="n">ids</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+</span><span id="Cartographer-271"><a href="#Cartographer-271"><span class="linenos">271</span></a>        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">expand_keys</span><span class="p">:</span>
+</span><span id="Cartographer-272"><a href="#Cartographer-272"><span class="linenos">272</span></a>            <span class="n">ids_i</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">atl</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">references</span> <span class="o">+</span> <span class="n">atl</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">citations</span><span class="p">)</span>
+</span><span id="Cartographer-273"><a href="#Cartographer-273"><span class="linenos">273</span></a>            <span class="c1"># Prune for obvious overlap, and for ids that have previously failed</span>
+</span><span id="Cartographer-274"><a href="#Cartographer-274"><span class="linenos">274</span></a>            <span class="n">ids</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">ids_i</span> <span class="o">-</span> <span class="n">existing_keys</span> <span class="o">-</span> <span class="n">atl</span><span class="o">.</span><span class="n">bad_ids</span><span class="p">)</span>
+</span><span id="Cartographer-275"><a href="#Cartographer-275"><span class="linenos">275</span></a>            <span class="c1"># Break when the search is centered and we&#39;re maxed out</span>
+</span><span id="Cartographer-276"><a href="#Cartographer-276"><span class="linenos">276</span></a>            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span> <span class="o">&gt;</span> <span class="n">n_pubs_max</span> <span class="ow">and</span> <span class="n">center</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Cartographer-277"><a href="#Cartographer-277"><span class="linenos">277</span></a>                <span class="k">break</span>
+</span><span id="Cartographer-278"><a href="#Cartographer-278"><span class="linenos">278</span></a>        <span class="n">ids</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span>
+</span><span id="Cartographer-279"><a href="#Cartographer-279"><span class="linenos">279</span></a>
+</span><span id="Cartographer-280"><a href="#Cartographer-280"><span class="linenos">280</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">ids</span><span class="p">:</span>
+</span><span id="Cartographer-281"><a href="#Cartographer-281"><span class="linenos">281</span></a>            <span class="nb">print</span><span class="p">(</span><span class="s2">&quot;Overly-restrictive search, no ids to retrive.&quot;</span><span class="p">)</span>
+</span><span id="Cartographer-282"><a href="#Cartographer-282"><span class="linenos">282</span></a>
+</span><span id="Cartographer-283"><a href="#Cartographer-283"><span class="linenos">283</span></a>        <span class="c1"># Sample to account for max number of publications we want to retrieve</span>
+</span><span id="Cartographer-284"><a href="#Cartographer-284"><span class="linenos">284</span></a>        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span> <span class="o">&gt;</span> <span class="n">n_pubs_max</span><span class="p">:</span>
+</span><span id="Cartographer-285"><a href="#Cartographer-285"><span class="linenos">285</span></a>            <span class="n">ids</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">choice</span><span class="p">(</span><span class="n">ids</span><span class="p">,</span> <span class="n">n_pubs_max</span><span class="p">,</span> <span class="n">replace</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+</span><span id="Cartographer-286"><a href="#Cartographer-286"><span class="linenos">286</span></a>
+</span><span id="Cartographer-287"><a href="#Cartographer-287"><span class="linenos">287</span></a>        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Expansion will include </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span><span class="si">}</span><span class="s2"> new publications.&quot;</span><span class="p">)</span>
+</span><span id="Cartographer-288"><a href="#Cartographer-288"><span class="linenos">288</span></a>
+</span><span id="Cartographer-289"><a href="#Cartographer-289"><span class="linenos">289</span></a>        <span class="c1"># Retrieve publications from ids using a librarian</span>
+</span><span id="Cartographer-290"><a href="#Cartographer-290"><span class="linenos">290</span></a>        <span class="n">new_publications</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">librarian</span><span class="o">.</span><span class="n">get_publications</span><span class="p">(</span><span class="n">ids</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+</span><span id="Cartographer-291"><a href="#Cartographer-291"><span class="linenos">291</span></a>
+</span><span id="Cartographer-292"><a href="#Cartographer-292"><span class="linenos">292</span></a>        <span class="c1"># New atlas</span>
+</span><span id="Cartographer-293"><a href="#Cartographer-293"><span class="linenos">293</span></a>        <span class="n">atl_exp</span> <span class="o">=</span> <span class="n">Atlas</span><span class="p">(</span><span class="n">new_publications</span><span class="p">)</span>
+</span><span id="Cartographer-294"><a href="#Cartographer-294"><span class="linenos">294</span></a>
+</span><span id="Cartographer-295"><a href="#Cartographer-295"><span class="linenos">295</span></a>        <span class="c1"># Update the new atlas</span>
+</span><span id="Cartographer-296"><a href="#Cartographer-296"><span class="linenos">296</span></a>        <span class="n">atl_exp</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">publications</span><span class="p">)</span>
+</span><span id="Cartographer-297"><a href="#Cartographer-297"><span class="linenos">297</span></a>        <span class="n">atl_exp</span><span class="o">.</span><span class="n">bad_ids</span> <span class="o">=</span> <span class="n">atl</span><span class="o">.</span><span class="n">bad_ids</span>
+</span><span id="Cartographer-298"><a href="#Cartographer-298"><span class="linenos">298</span></a>        <span class="n">atl_exp</span><span class="o">.</span><span class="n">projection</span> <span class="o">=</span> <span class="p">(</span>
+</span><span id="Cartographer-299"><a href="#Cartographer-299"><span class="linenos">299</span></a>            <span class="n">atl</span><span class="o">.</span><span class="n">projection</span>
+</span><span id="Cartographer-300"><a href="#Cartographer-300"><span class="linenos">300</span></a>        <span class="p">)</span>  <span class="c1"># new projection will be updated in `project`</span>
+</span><span id="Cartographer-301"><a href="#Cartographer-301"><span class="linenos">301</span></a>
+</span><span id="Cartographer-302"><a href="#Cartographer-302"><span class="linenos">302</span></a>        <span class="c1"># Record the new list of publications</span>
+</span><span id="Cartographer-303"><a href="#Cartographer-303"><span class="linenos">303</span></a>        <span class="k">if</span> <span class="n">record_pubs_per_update</span><span class="p">:</span>
+</span><span id="Cartographer-304"><a href="#Cartographer-304"><span class="linenos">304</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">pubs_per_update</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="nb">list</span><span class="p">(</span><span class="n">atl_exp</span><span class="o">.</span><span class="n">ids</span><span class="p">()))</span>
+</span><span id="Cartographer-305"><a href="#Cartographer-305"><span class="linenos">305</span></a>
+</span><span id="Cartographer-306"><a href="#Cartographer-306"><span class="linenos">306</span></a>        <span class="k">return</span> <span class="n">atl_exp</span>
+</span><span id="Cartographer-307"><a href="#Cartographer-307"><span class="linenos">307</span></a>
+</span><span id="Cartographer-308"><a href="#Cartographer-308"><span class="linenos">308</span></a>    <span class="c1">######################################################################</span>
+</span><span id="Cartographer-309"><a href="#Cartographer-309"><span class="linenos">309</span></a>    <span class="c1"># Filter Atlas</span>
+</span><span id="Cartographer-310"><a href="#Cartographer-310"><span class="linenos">310</span></a>    <span class="c1">######################################################################</span>
+</span><span id="Cartographer-311"><a href="#Cartographer-311"><span class="linenos">311</span></a>
+</span><span id="Cartographer-312"><a href="#Cartographer-312"><span class="linenos">312</span></a>    <span class="k">def</span> <span class="nf">filter_by_attributes</span><span class="p">(</span>
+</span><span id="Cartographer-313"><a href="#Cartographer-313"><span class="linenos">313</span></a>        <span class="bp">self</span><span class="p">,</span>
+</span><span id="Cartographer-314"><a href="#Cartographer-314"><span class="linenos">314</span></a>        <span class="n">atl</span><span class="p">:</span> <span class="n">Atlas</span><span class="p">,</span>
+</span><span id="Cartographer-315"><a href="#Cartographer-315"><span class="linenos">315</span></a>        <span class="n">attributes</span><span class="p">:</span> <span class="nb">list</span> <span class="o">=</span> <span class="p">[</span>
+</span><span id="Cartographer-316"><a href="#Cartographer-316"><span class="linenos">316</span></a>            <span class="s2">&quot;abstract&quot;</span><span class="p">,</span>
+</span><span id="Cartographer-317"><a href="#Cartographer-317"><span class="linenos">317</span></a>            <span class="s2">&quot;publication_date&quot;</span><span class="p">,</span>
+</span><span id="Cartographer-318"><a href="#Cartographer-318"><span class="linenos">318</span></a>        <span class="p">],</span>
+</span><span id="Cartographer-319"><a href="#Cartographer-319"><span class="linenos">319</span></a>        <span class="n">record_pubs_per_update</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+</span><span id="Cartographer-320"><a href="#Cartographer-320"><span class="linenos">320</span></a>        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+</span><span id="Cartographer-321"><a href="#Cartographer-321"><span class="linenos">321</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Atlas</span><span class="p">:</span>
+</span><span id="Cartographer-322"><a href="#Cartographer-322"><span class="linenos">322</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Update an atlas by dropping publications (and corresponding data in projection) when certain fields are empty.</span>
+</span><span id="Cartographer-323"><a href="#Cartographer-323"><span class="linenos">323</span></a>
+</span><span id="Cartographer-324"><a href="#Cartographer-324"><span class="linenos">324</span></a><span class="sd">        Args:</span>
+</span><span id="Cartographer-325"><a href="#Cartographer-325"><span class="linenos">325</span></a><span class="sd">            atl: the Atlas containing publications to filter</span>
+</span><span id="Cartographer-326"><a href="#Cartographer-326"><span class="linenos">326</span></a>
+</span><span id="Cartographer-327"><a href="#Cartographer-327"><span class="linenos">327</span></a><span class="sd">            attributes: the list of attributes to filter publications from the atlas IF any of items are None for a publication. For example, if attributes = [&quot;abstract&quot;], then all publications `pub` such that `pub.abstract is None` is True will be removed from the atlas, along with the corresponding data in the projection.</span>
+</span><span id="Cartographer-328"><a href="#Cartographer-328"><span class="linenos">328</span></a>
+</span><span id="Cartographer-329"><a href="#Cartographer-329"><span class="linenos">329</span></a><span class="sd">            record_pubs_per_update: whether to track all the publications that exist in the resulting atlas to `self.pubs_per_update`. This should only be set to `True` when you need to later filter by degree of convergence of the atlas. This is an important parameter because `self.filter` is called in `self.project`, which typically is called after `self.expand`, where we pass in the same parameter.</span>
+</span><span id="Cartographer-330"><a href="#Cartographer-330"><span class="linenos">330</span></a>
+</span><span id="Cartographer-331"><a href="#Cartographer-331"><span class="linenos">331</span></a><span class="sd">        Returns:</span>
+</span><span id="Cartographer-332"><a href="#Cartographer-332"><span class="linenos">332</span></a><span class="sd">            the filtered atlas</span>
+</span><span id="Cartographer-333"><a href="#Cartographer-333"><span class="linenos">333</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="Cartographer-334"><a href="#Cartographer-334"><span class="linenos">334</span></a>        <span class="c1"># Filter publications</span>
+</span><span id="Cartographer-335"><a href="#Cartographer-335"><span class="linenos">335</span></a>        <span class="n">invalid_pubs</span> <span class="o">=</span> <span class="p">{</span>
+</span><span id="Cartographer-336"><a href="#Cartographer-336"><span class="linenos">336</span></a>            <span class="nb">id</span><span class="p">:</span> <span class="n">pub</span>
+</span><span id="Cartographer-337"><a href="#Cartographer-337"><span class="linenos">337</span></a>            <span class="k">for</span> <span class="nb">id</span><span class="p">,</span> <span class="n">pub</span> <span class="ow">in</span> <span class="n">atl</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">items</span><span class="p">()</span>
+</span><span id="Cartographer-338"><a href="#Cartographer-338"><span class="linenos">338</span></a>            <span class="k">if</span> <span class="p">(</span><span class="n">pub</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="nb">any</span><span class="p">([</span><span class="nb">getattr</span><span class="p">(</span><span class="n">pub</span><span class="p">,</span> <span class="n">attr</span><span class="p">)</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">for</span> <span class="n">attr</span> <span class="ow">in</span> <span class="n">attributes</span><span class="p">]))</span>
+</span><span id="Cartographer-339"><a href="#Cartographer-339"><span class="linenos">339</span></a>        <span class="p">}</span>
+</span><span id="Cartographer-340"><a href="#Cartographer-340"><span class="linenos">340</span></a>        <span class="c1"># Do not update if unnecessary</span>
+</span><span id="Cartographer-341"><a href="#Cartographer-341"><span class="linenos">341</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="nb">len</span><span class="p">(</span><span class="n">invalid_pubs</span><span class="p">):</span>
+</span><span id="Cartographer-342"><a href="#Cartographer-342"><span class="linenos">342</span></a>            <span class="k">return</span> <span class="n">atl</span>
+</span><span id="Cartographer-343"><a href="#Cartographer-343"><span class="linenos">343</span></a>
+</span><span id="Cartographer-344"><a href="#Cartographer-344"><span class="linenos">344</span></a>        <span class="n">atl_filtered</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">filter_by_ids</span><span class="p">(</span><span class="n">atl</span><span class="p">,</span> <span class="n">drop_ids</span><span class="o">=</span><span class="n">invalid_pubs</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
+</span><span id="Cartographer-345"><a href="#Cartographer-345"><span class="linenos">345</span></a>
+</span><span id="Cartographer-346"><a href="#Cartographer-346"><span class="linenos">346</span></a>        <span class="c1"># Record only the publications in the history that weren&#39;t filtered out</span>
+</span><span id="Cartographer-347"><a href="#Cartographer-347"><span class="linenos">347</span></a>        <span class="k">if</span> <span class="n">record_pubs_per_update</span><span class="p">:</span>
+</span><span id="Cartographer-348"><a href="#Cartographer-348"><span class="linenos">348</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">pubs_per_update</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">=</span> <span class="n">atl_filtered</span><span class="o">.</span><span class="n">ids</span><span class="p">()</span>
+</span><span id="Cartographer-349"><a href="#Cartographer-349"><span class="linenos">349</span></a>
+</span><span id="Cartographer-350"><a href="#Cartographer-350"><span class="linenos">350</span></a>        <span class="k">return</span> <span class="n">atl_filtered</span>
+</span><span id="Cartographer-351"><a href="#Cartographer-351"><span class="linenos">351</span></a>
+</span><span id="Cartographer-352"><a href="#Cartographer-352"><span class="linenos">352</span></a>    <span class="k">def</span> <span class="nf">filter_by_ids</span><span class="p">(</span>
+</span><span id="Cartographer-353"><a href="#Cartographer-353"><span class="linenos">353</span></a>        <span class="bp">self</span><span class="p">,</span>
+</span><span id="Cartographer-354"><a href="#Cartographer-354"><span class="linenos">354</span></a>        <span class="n">atl</span><span class="p">:</span> <span class="n">Atlas</span><span class="p">,</span>
+</span><span id="Cartographer-355"><a href="#Cartographer-355"><span class="linenos">355</span></a>        <span class="n">keep_ids</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="Cartographer-356"><a href="#Cartographer-356"><span class="linenos">356</span></a>        <span class="n">drop_ids</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="Cartographer-357"><a href="#Cartographer-357"><span class="linenos">357</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Atlas</span><span class="p">:</span>
+</span><span id="Cartographer-358"><a href="#Cartographer-358"><span class="linenos">358</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Update an atlas by dropping publications (and corresponding data in projection).</span>
+</span><span id="Cartographer-359"><a href="#Cartographer-359"><span class="linenos">359</span></a>
+</span><span id="Cartographer-360"><a href="#Cartographer-360"><span class="linenos">360</span></a><span class="sd">        Args:</span>
+</span><span id="Cartographer-361"><a href="#Cartographer-361"><span class="linenos">361</span></a><span class="sd">            atl: the Atlas containing publications to filter</span>
+</span><span id="Cartographer-362"><a href="#Cartographer-362"><span class="linenos">362</span></a>
+</span><span id="Cartographer-363"><a href="#Cartographer-363"><span class="linenos">363</span></a><span class="sd">            keep_ids: the list of publication ids to NOT filter; all other publications in `atl` not matching one of these ids will be removed.</span>
+</span><span id="Cartographer-364"><a href="#Cartographer-364"><span class="linenos">364</span></a>
+</span><span id="Cartographer-365"><a href="#Cartographer-365"><span class="linenos">365</span></a><span class="sd">            drop_ids: the list of publications to filter; all publications in `atl` matching one of these ids will be removed.</span>
+</span><span id="Cartographer-366"><a href="#Cartographer-366"><span class="linenos">366</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="Cartographer-367"><a href="#Cartographer-367"><span class="linenos">367</span></a>
+</span><span id="Cartographer-368"><a href="#Cartographer-368"><span class="linenos">368</span></a>        <span class="k">if</span> <span class="nb">all</span><span class="p">(</span><span class="n">x</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="p">[</span><span class="n">keep_ids</span><span class="p">,</span> <span class="n">drop_ids</span><span class="p">]):</span>
+</span><span id="Cartographer-369"><a href="#Cartographer-369"><span class="linenos">369</span></a>            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+</span><span id="Cartographer-370"><a href="#Cartographer-370"><span class="linenos">370</span></a>                <span class="s2">&quot;You must pass exactly one of `keep_ids` or `drop_ids`, but both had a value that was not `None`.&quot;</span>
+</span><span id="Cartographer-371"><a href="#Cartographer-371"><span class="linenos">371</span></a>            <span class="p">)</span>
+</span><span id="Cartographer-372"><a href="#Cartographer-372"><span class="linenos">372</span></a>        <span class="k">if</span> <span class="n">keep_ids</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Cartographer-373"><a href="#Cartographer-373"><span class="linenos">373</span></a>            <span class="n">filter_ids</span> <span class="o">=</span> <span class="nb">set</span><span class="p">([</span><span class="nb">id</span> <span class="k">for</span> <span class="nb">id</span> <span class="ow">in</span> <span class="n">atl</span><span class="o">.</span><span class="n">ids</span><span class="p">()</span> <span class="k">if</span> <span class="nb">id</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">keep_ids</span><span class="p">])</span>
+</span><span id="Cartographer-374"><a href="#Cartographer-374"><span class="linenos">374</span></a>        <span class="k">elif</span> <span class="n">drop_ids</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Cartographer-375"><a href="#Cartographer-375"><span class="linenos">375</span></a>            <span class="n">filter_ids</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">drop_ids</span><span class="p">)</span>
+</span><span id="Cartographer-376"><a href="#Cartographer-376"><span class="linenos">376</span></a>        <span class="k">else</span><span class="p">:</span>
+</span><span id="Cartographer-377"><a href="#Cartographer-377"><span class="linenos">377</span></a>            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+</span><span id="Cartographer-378"><a href="#Cartographer-378"><span class="linenos">378</span></a>                <span class="s2">&quot;You must pass exactly one of `keep_ids` or `drop_ids`, but both had value `None`.&quot;</span>
+</span><span id="Cartographer-379"><a href="#Cartographer-379"><span class="linenos">379</span></a>            <span class="p">)</span>
+</span><span id="Cartographer-380"><a href="#Cartographer-380"><span class="linenos">380</span></a>
+</span><span id="Cartographer-381"><a href="#Cartographer-381"><span class="linenos">381</span></a>        <span class="c1"># Keep track of the bad identifiers to skip them in future expansions</span>
+</span><span id="Cartographer-382"><a href="#Cartographer-382"><span class="linenos">382</span></a>        <span class="n">new_bad_ids</span> <span class="o">=</span> <span class="n">atl</span><span class="o">.</span><span class="n">bad_ids</span><span class="o">.</span><span class="n">union</span><span class="p">(</span><span class="n">filter_ids</span><span class="p">)</span>
+</span><span id="Cartographer-383"><a href="#Cartographer-383"><span class="linenos">383</span></a>
+</span><span id="Cartographer-384"><a href="#Cartographer-384"><span class="linenos">384</span></a>        <span class="c1"># Filter embeddings, ids from projection</span>
+</span><span id="Cartographer-385"><a href="#Cartographer-385"><span class="linenos">385</span></a>        <span class="k">if</span> <span class="n">atl</span><span class="o">.</span><span class="n">projection</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Cartographer-386"><a href="#Cartographer-386"><span class="linenos">386</span></a>            <span class="n">new_projection</span> <span class="o">=</span> <span class="kc">None</span>
+</span><span id="Cartographer-387"><a href="#Cartographer-387"><span class="linenos">387</span></a>        <span class="k">else</span><span class="p">:</span>
+</span><span id="Cartographer-388"><a href="#Cartographer-388"><span class="linenos">388</span></a>            <span class="n">filter_indices</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+</span><span id="Cartographer-389"><a href="#Cartographer-389"><span class="linenos">389</span></a>            <span class="n">idx_to_id_new</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="Cartographer-390"><a href="#Cartographer-390"><span class="linenos">390</span></a>            <span class="c1"># From indexing</span>
+</span><span id="Cartographer-391"><a href="#Cartographer-391"><span class="linenos">391</span></a>            <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="nb">id</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">index_to_identifier</span><span class="p">):</span>
+</span><span id="Cartographer-392"><a href="#Cartographer-392"><span class="linenos">392</span></a>                <span class="k">if</span> <span class="nb">id</span> <span class="ow">in</span> <span class="n">filter_ids</span><span class="p">:</span>
+</span><span id="Cartographer-393"><a href="#Cartographer-393"><span class="linenos">393</span></a>                    <span class="n">filter_indices</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">idx</span><span class="p">)</span>
+</span><span id="Cartographer-394"><a href="#Cartographer-394"><span class="linenos">394</span></a>                <span class="k">else</span><span class="p">:</span>
+</span><span id="Cartographer-395"><a href="#Cartographer-395"><span class="linenos">395</span></a>                    <span class="n">idx_to_id_new</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="nb">id</span><span class="p">)</span>
+</span><span id="Cartographer-396"><a href="#Cartographer-396"><span class="linenos">396</span></a>            <span class="c1"># From embeddings</span>
+</span><span id="Cartographer-397"><a href="#Cartographer-397"><span class="linenos">397</span></a>            <span class="n">embeddings</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+</span><span id="Cartographer-398"><a href="#Cartographer-398"><span class="linenos">398</span></a>                <span class="p">[</span>
+</span><span id="Cartographer-399"><a href="#Cartographer-399"><span class="linenos">399</span></a>                    <span class="n">embedding</span>
+</span><span id="Cartographer-400"><a href="#Cartographer-400"><span class="linenos">400</span></a>                    <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">embedding</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">embeddings</span><span class="p">)</span>
+</span><span id="Cartographer-401"><a href="#Cartographer-401"><span class="linenos">401</span></a>                    <span class="k">if</span> <span class="n">idx</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">filter_indices</span>
+</span><span id="Cartographer-402"><a href="#Cartographer-402"><span class="linenos">402</span></a>                <span class="p">]</span>
+</span><span id="Cartographer-403"><a href="#Cartographer-403"><span class="linenos">403</span></a>            <span class="p">)</span>
+</span><span id="Cartographer-404"><a href="#Cartographer-404"><span class="linenos">404</span></a>            <span class="c1"># From identifier to index map</span>
+</span><span id="Cartographer-405"><a href="#Cartographer-405"><span class="linenos">405</span></a>            <span class="n">id_to_idx_new</span> <span class="o">=</span> <span class="p">{</span><span class="nb">id</span><span class="p">:</span> <span class="n">idx</span> <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="nb">id</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">idx_to_id_new</span><span class="p">)}</span>
+</span><span id="Cartographer-406"><a href="#Cartographer-406"><span class="linenos">406</span></a>            <span class="c1"># Construct new, filtered projection</span>
+</span><span id="Cartographer-407"><a href="#Cartographer-407"><span class="linenos">407</span></a>            <span class="n">new_projection</span> <span class="o">=</span> <span class="n">Projection</span><span class="p">(</span>
+</span><span id="Cartographer-408"><a href="#Cartographer-408"><span class="linenos">408</span></a>                <span class="n">identifier_to_index</span><span class="o">=</span><span class="n">id_to_idx_new</span><span class="p">,</span>
+</span><span id="Cartographer-409"><a href="#Cartographer-409"><span class="linenos">409</span></a>                <span class="n">index_to_identifier</span><span class="o">=</span><span class="n">idx_to_id_new</span><span class="p">,</span>
+</span><span id="Cartographer-410"><a href="#Cartographer-410"><span class="linenos">410</span></a>                <span class="n">embeddings</span><span class="o">=</span><span class="n">embeddings</span><span class="p">,</span>
+</span><span id="Cartographer-411"><a href="#Cartographer-411"><span class="linenos">411</span></a>            <span class="p">)</span>
+</span><span id="Cartographer-412"><a href="#Cartographer-412"><span class="linenos">412</span></a>
+</span><span id="Cartographer-413"><a href="#Cartographer-413"><span class="linenos">413</span></a>        <span class="c1"># Keep only filtered publications</span>
+</span><span id="Cartographer-414"><a href="#Cartographer-414"><span class="linenos">414</span></a>        <span class="n">new_publications</span> <span class="o">=</span> <span class="p">[</span>
+</span><span id="Cartographer-415"><a href="#Cartographer-415"><span class="linenos">415</span></a>            <span class="n">pub</span> <span class="k">for</span> <span class="nb">id</span><span class="p">,</span> <span class="n">pub</span> <span class="ow">in</span> <span class="n">atl</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span> <span class="nb">id</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">filter_ids</span>
+</span><span id="Cartographer-416"><a href="#Cartographer-416"><span class="linenos">416</span></a>        <span class="p">]</span>
+</span><span id="Cartographer-417"><a href="#Cartographer-417"><span class="linenos">417</span></a>
+</span><span id="Cartographer-418"><a href="#Cartographer-418"><span class="linenos">418</span></a>        <span class="c1"># Construct new atlas</span>
+</span><span id="Cartographer-419"><a href="#Cartographer-419"><span class="linenos">419</span></a>        <span class="n">atl_filtered</span> <span class="o">=</span> <span class="n">Atlas</span><span class="p">(</span><span class="n">new_publications</span><span class="p">,</span> <span class="n">new_projection</span><span class="p">)</span>
+</span><span id="Cartographer-420"><a href="#Cartographer-420"><span class="linenos">420</span></a>        <span class="n">atl_filtered</span><span class="o">.</span><span class="n">bad_ids</span> <span class="o">=</span> <span class="n">new_bad_ids</span>
+</span><span id="Cartographer-421"><a href="#Cartographer-421"><span class="linenos">421</span></a>
+</span><span id="Cartographer-422"><a href="#Cartographer-422"><span class="linenos">422</span></a>        <span class="k">return</span> <span class="n">atl_filtered</span>
+</span><span id="Cartographer-423"><a href="#Cartographer-423"><span class="linenos">423</span></a>
+</span><span id="Cartographer-424"><a href="#Cartographer-424"><span class="linenos">424</span></a>    <span class="c1">########################################################################</span>
+</span><span id="Cartographer-425"><a href="#Cartographer-425"><span class="linenos">425</span></a>    <span class="c1"># Record Atlas history</span>
+</span><span id="Cartographer-426"><a href="#Cartographer-426"><span class="linenos">426</span></a>    <span class="c1">########################################################################</span>
+</span><span id="Cartographer-427"><a href="#Cartographer-427"><span class="linenos">427</span></a>
+</span><span id="Cartographer-428"><a href="#Cartographer-428"><span class="linenos">428</span></a>    <span class="k">def</span> <span class="nf">track</span><span class="p">(</span>
+</span><span id="Cartographer-429"><a href="#Cartographer-429"><span class="linenos">429</span></a>        <span class="bp">self</span><span class="p">,</span>
+</span><span id="Cartographer-430"><a href="#Cartographer-430"><span class="linenos">430</span></a>        <span class="n">atl</span><span class="p">:</span> <span class="n">Atlas</span><span class="p">,</span>
+</span><span id="Cartographer-431"><a href="#Cartographer-431"><span class="linenos">431</span></a>        <span class="n">pubs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="Cartographer-432"><a href="#Cartographer-432"><span class="linenos">432</span></a>        <span class="n">pubs_per_update</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="Cartographer-433"><a href="#Cartographer-433"><span class="linenos">433</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Atlas</span><span class="p">:</span>
+</span><span id="Cartographer-434"><a href="#Cartographer-434"><span class="linenos">434</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Overwrite the data associated with tracking degree of convergence of publications in an atlas over multiple expansions. N.B.: the atlas must be fully projected, or else `converged_kernel_size` will raise a KeyError.</span>
+</span><span id="Cartographer-435"><a href="#Cartographer-435"><span class="linenos">435</span></a>
+</span><span id="Cartographer-436"><a href="#Cartographer-436"><span class="linenos">436</span></a><span class="sd">        Args:</span>
+</span><span id="Cartographer-437"><a href="#Cartographer-437"><span class="linenos">437</span></a><span class="sd">            atl: the Atlas that will be updated by overwriting `Atlas.history`</span>
+</span><span id="Cartographer-438"><a href="#Cartographer-438"><span class="linenos">438</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="Cartographer-439"><a href="#Cartographer-439"><span class="linenos">439</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">record_update_history</span><span class="p">(</span><span class="n">pubs</span><span class="p">,</span> <span class="n">pubs_per_update</span><span class="p">)</span>
+</span><span id="Cartographer-440"><a href="#Cartographer-440"><span class="linenos">440</span></a>        <span class="n">kernel_size</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">converged_kernel_size</span><span class="p">(</span><span class="n">atl</span><span class="p">)</span>
+</span><span id="Cartographer-441"><a href="#Cartographer-441"><span class="linenos">441</span></a>        <span class="n">atl</span><span class="o">.</span><span class="n">history</span> <span class="o">=</span> <span class="p">{</span>
+</span><span id="Cartographer-442"><a href="#Cartographer-442"><span class="linenos">442</span></a>            <span class="s2">&quot;pubs_per_update&quot;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">pubs_per_update</span>
+</span><span id="Cartographer-443"><a href="#Cartographer-443"><span class="linenos">443</span></a>            <span class="k">if</span> <span class="n">pubs_per_update</span> <span class="ow">is</span> <span class="kc">None</span>
+</span><span id="Cartographer-444"><a href="#Cartographer-444"><span class="linenos">444</span></a>            <span class="k">else</span> <span class="n">pubs_per_update</span><span class="p">,</span>
+</span><span id="Cartographer-445"><a href="#Cartographer-445"><span class="linenos">445</span></a>            <span class="s2">&quot;kernel_size&quot;</span><span class="p">:</span> <span class="n">kernel_size</span><span class="p">,</span>
+</span><span id="Cartographer-446"><a href="#Cartographer-446"><span class="linenos">446</span></a>        <span class="p">}</span>
+</span><span id="Cartographer-447"><a href="#Cartographer-447"><span class="linenos">447</span></a>        <span class="k">return</span> <span class="n">atl</span>
+</span><span id="Cartographer-448"><a href="#Cartographer-448"><span class="linenos">448</span></a>
+</span><span id="Cartographer-449"><a href="#Cartographer-449"><span class="linenos">449</span></a>    <span class="c1">########################################################################</span>
+</span><span id="Cartographer-450"><a href="#Cartographer-450"><span class="linenos">450</span></a>    <span class="c1"># Record Atlas history</span>
+</span><span id="Cartographer-451"><a href="#Cartographer-451"><span class="linenos">451</span></a>    <span class="c1">########################################################################</span>
+</span><span id="Cartographer-452"><a href="#Cartographer-452"><span class="linenos">452</span></a>
+</span><span id="Cartographer-453"><a href="#Cartographer-453"><span class="linenos">453</span></a>    <span class="k">def</span> <span class="nf">record_update_history</span><span class="p">(</span>
+</span><span id="Cartographer-454"><a href="#Cartographer-454"><span class="linenos">454</span></a>        <span class="bp">self</span><span class="p">,</span>
+</span><span id="Cartographer-455"><a href="#Cartographer-455"><span class="linenos">455</span></a>        <span class="n">pubs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="Cartographer-456"><a href="#Cartographer-456"><span class="linenos">456</span></a>        <span class="n">pubs_per_update</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="Cartographer-457"><a href="#Cartographer-457"><span class="linenos">457</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Cartographer-458"><a href="#Cartographer-458"><span class="linenos">458</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Record when publications were added, by updating atl.update_history.</span>
+</span><span id="Cartographer-459"><a href="#Cartographer-459"><span class="linenos">459</span></a>
+</span><span id="Cartographer-460"><a href="#Cartographer-460"><span class="linenos">460</span></a><span class="sd">        atl.update_history is a np.array of ints representing when publications were added. A value of -2 indicates no record of being added.</span>
+</span><span id="Cartographer-461"><a href="#Cartographer-461"><span class="linenos">461</span></a>
+</span><span id="Cartographer-462"><a href="#Cartographer-462"><span class="linenos">462</span></a><span class="sd">        Args:</span>
+</span><span id="Cartographer-463"><a href="#Cartographer-463"><span class="linenos">463</span></a><span class="sd">            pubs: a list of str ids corresponding to publications at the final update in the update history. By default `None`, and `self.pubs_per_update[-1]` will be used.</span>
+</span><span id="Cartographer-464"><a href="#Cartographer-464"><span class="linenos">464</span></a>
+</span><span id="Cartographer-465"><a href="#Cartographer-465"><span class="linenos">465</span></a><span class="sd">            pubs_per_update: a list of which publications existed at which iteration, with the index of the overall list corresponding to the iteration the publication was added. By default `None`, and `self.pubs_per_update` will be used.</span>
+</span><span id="Cartographer-466"><a href="#Cartographer-466"><span class="linenos">466</span></a>
+</span><span id="Cartographer-467"><a href="#Cartographer-467"><span class="linenos">467</span></a><span class="sd">        Updates:</span>
+</span><span id="Cartographer-468"><a href="#Cartographer-468"><span class="linenos">468</span></a><span class="sd">            `self.update_history`: an np.array of ints representing when publications were added. A value of -2 indicates no record of being added.</span>
+</span><span id="Cartographer-469"><a href="#Cartographer-469"><span class="linenos">469</span></a>
+</span><span id="Cartographer-470"><a href="#Cartographer-470"><span class="linenos">470</span></a><span class="sd">        Returns:</span>
+</span><span id="Cartographer-471"><a href="#Cartographer-471"><span class="linenos">471</span></a><span class="sd">            `None`</span>
+</span><span id="Cartographer-472"><a href="#Cartographer-472"><span class="linenos">472</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="Cartographer-473"><a href="#Cartographer-473"><span class="linenos">473</span></a>        <span class="k">if</span> <span class="n">pubs</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Cartographer-474"><a href="#Cartographer-474"><span class="linenos">474</span></a>            <span class="n">pubs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">pubs_per_update</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span>
+</span><span id="Cartographer-475"><a href="#Cartographer-475"><span class="linenos">475</span></a>
+</span><span id="Cartographer-476"><a href="#Cartographer-476"><span class="linenos">476</span></a>        <span class="k">if</span> <span class="n">pubs_per_update</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Cartographer-477"><a href="#Cartographer-477"><span class="linenos">477</span></a>            <span class="n">pubs_per_update</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">pubs_per_update</span>
+</span><span id="Cartographer-478"><a href="#Cartographer-478"><span class="linenos">478</span></a>
+</span><span id="Cartographer-479"><a href="#Cartographer-479"><span class="linenos">479</span></a>        <span class="c1"># Loop backwards</span>
+</span><span id="Cartographer-480"><a href="#Cartographer-480"><span class="linenos">480</span></a>        <span class="n">i_max</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">pubs_per_update</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span>
+</span><span id="Cartographer-481"><a href="#Cartographer-481"><span class="linenos">481</span></a>        <span class="n">update_history</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">pubs</span><span class="p">),</span> <span class="o">-</span><span class="mi">2</span><span class="p">)</span>
+</span><span id="Cartographer-482"><a href="#Cartographer-482"><span class="linenos">482</span></a>        <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">pubs_i</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">pubs_per_update</span><span class="p">[::</span><span class="o">-</span><span class="mi">1</span><span class="p">]):</span>
+</span><span id="Cartographer-483"><a href="#Cartographer-483"><span class="linenos">483</span></a>            <span class="n">is_in</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">isin</span><span class="p">(</span><span class="n">pubs</span><span class="p">,</span> <span class="n">pubs_i</span><span class="p">)</span>
+</span><span id="Cartographer-484"><a href="#Cartographer-484"><span class="linenos">484</span></a>            <span class="n">update_history</span><span class="p">[</span><span class="n">is_in</span><span class="p">]</span> <span class="o">=</span> <span class="n">i_max</span> <span class="o">-</span> <span class="n">i</span>
+</span><span id="Cartographer-485"><a href="#Cartographer-485"><span class="linenos">485</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">update_history</span> <span class="o">=</span> <span class="n">update_history</span>
+</span><span id="Cartographer-486"><a href="#Cartographer-486"><span class="linenos">486</span></a>
+</span><span id="Cartographer-487"><a href="#Cartographer-487"><span class="linenos">487</span></a>    <span class="c1">########################################################################</span>
+</span><span id="Cartographer-488"><a href="#Cartographer-488"><span class="linenos">488</span></a>    <span class="c1"># Calculate Atlas convergence</span>
+</span><span id="Cartographer-489"><a href="#Cartographer-489"><span class="linenos">489</span></a>    <span class="c1">########################################################################</span>
+</span><span id="Cartographer-490"><a href="#Cartographer-490"><span class="linenos">490</span></a>
+</span><span id="Cartographer-491"><a href="#Cartographer-491"><span class="linenos">491</span></a>    <span class="k">def</span> <span class="nf">converged_kernel_size</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">atl</span><span class="p">:</span> <span class="n">Atlas</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+</span><span id="Cartographer-492"><a href="#Cartographer-492"><span class="linenos">492</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Calculate the largest size of the kernel that&#39;s converged (at differing levels of convergence) for each publication in a sample at each update.</span>
+</span><span id="Cartographer-493"><a href="#Cartographer-493"><span class="linenos">493</span></a>
+</span><span id="Cartographer-494"><a href="#Cartographer-494"><span class="linenos">494</span></a><span class="sd">        Args:</span>
+</span><span id="Cartographer-495"><a href="#Cartographer-495"><span class="linenos">495</span></a><span class="sd">            atl: Atlas containing publications; for each publication we compute the largest converged kernel size at each update</span>
+</span><span id="Cartographer-496"><a href="#Cartographer-496"><span class="linenos">496</span></a>
+</span><span id="Cartographer-497"><a href="#Cartographer-497"><span class="linenos">497</span></a><span class="sd">        Returns:</span>
+</span><span id="Cartographer-498"><a href="#Cartographer-498"><span class="linenos">498</span></a><span class="sd">            kernel_size: an array of ints of shape `(num_pubs, max_update)` representing the kernel size for converged kernels.</span>
+</span><span id="Cartographer-499"><a href="#Cartographer-499"><span class="linenos">499</span></a><span class="sd">                - The first column indicates the largest kernel size that hasn&#39;t changed since the beginning,</span>
+</span><span id="Cartographer-500"><a href="#Cartographer-500"><span class="linenos">500</span></a><span class="sd">                - The second column indicates the largest kernel size that hasn&#39;t changed since the first update,</span>
+</span><span id="Cartographer-501"><a href="#Cartographer-501"><span class="linenos">501</span></a><span class="sd">                - etc. for the nth column.</span>
+</span><span id="Cartographer-502"><a href="#Cartographer-502"><span class="linenos">502</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="Cartographer-503"><a href="#Cartographer-503"><span class="linenos">503</span></a>
+</span><span id="Cartographer-504"><a href="#Cartographer-504"><span class="linenos">504</span></a>        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">update_history</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Cartographer-505"><a href="#Cartographer-505"><span class="linenos">505</span></a>            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+</span><span id="Cartographer-506"><a href="#Cartographer-506"><span class="linenos">506</span></a>                <span class="s2">&quot;update_history is None; make sure you have called record_update_history()!&quot;</span>
+</span><span id="Cartographer-507"><a href="#Cartographer-507"><span class="linenos">507</span></a>            <span class="p">)</span>
+</span><span id="Cartographer-508"><a href="#Cartographer-508"><span class="linenos">508</span></a>
+</span><span id="Cartographer-509"><a href="#Cartographer-509"><span class="linenos">509</span></a>        <span class="k">if</span> <span class="o">-</span><span class="mi">2</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">update_history</span><span class="p">:</span>
+</span><span id="Cartographer-510"><a href="#Cartographer-510"><span class="linenos">510</span></a>            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+</span><span id="Cartographer-511"><a href="#Cartographer-511"><span class="linenos">511</span></a>                <span class="s2">&quot;Incomplete update history as indicated by entries with values of -2.&quot;</span>
+</span><span id="Cartographer-512"><a href="#Cartographer-512"><span class="linenos">512</span></a>            <span class="p">)</span>
+</span><span id="Cartographer-513"><a href="#Cartographer-513"><span class="linenos">513</span></a>
+</span><span id="Cartographer-514"><a href="#Cartographer-514"><span class="linenos">514</span></a>        <span class="n">publications</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">ids</span><span class="p">())</span>
+</span><span id="Cartographer-515"><a href="#Cartographer-515"><span class="linenos">515</span></a>
+</span><span id="Cartographer-516"><a href="#Cartographer-516"><span class="linenos">516</span></a>        <span class="c1"># 1. Loop over each publication</span>
+</span><span id="Cartographer-517"><a href="#Cartographer-517"><span class="linenos">517</span></a>        <span class="n">cospsi_kernel</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="Cartographer-518"><a href="#Cartographer-518"><span class="linenos">518</span></a>        <span class="k">for</span> <span class="n">pub</span> <span class="ow">in</span> <span class="n">tqdm</span><span class="p">(</span><span class="n">publications</span><span class="p">):</span>
+</span><span id="Cartographer-519"><a href="#Cartographer-519"><span class="linenos">519</span></a>            <span class="c1"># 2. Identify the similarity with the other publications relative to this publication, and sort accordingly.</span>
+</span><span id="Cartographer-520"><a href="#Cartographer-520"><span class="linenos">520</span></a>            <span class="n">cospsi</span> <span class="o">=</span> <span class="n">cosine_similarity</span><span class="p">(</span>
+</span><span id="Cartographer-521"><a href="#Cartographer-521"><span class="linenos">521</span></a>                <span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">identifiers_to_embeddings</span><span class="p">([</span><span class="n">pub</span><span class="p">]),</span>
+</span><span id="Cartographer-522"><a href="#Cartographer-522"><span class="linenos">522</span></a>                <span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">embeddings</span><span class="p">,</span>
+</span><span id="Cartographer-523"><a href="#Cartographer-523"><span class="linenos">523</span></a>            <span class="p">)</span><span class="o">.</span><span class="n">flatten</span><span class="p">()</span>  <span class="c1"># shape `(num_pubs,)`</span>
+</span><span id="Cartographer-524"><a href="#Cartographer-524"><span class="linenos">524</span></a>            <span class="n">sort_inds</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">argsort</span><span class="p">(</span><span class="n">cospsi</span><span class="p">)[::</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span>  <span class="c1"># shape `(num_pubs,)`</span>
+</span><span id="Cartographer-525"><a href="#Cartographer-525"><span class="linenos">525</span></a>
+</span><span id="Cartographer-526"><a href="#Cartographer-526"><span class="linenos">526</span></a>            <span class="c1"># 3. Identify the expansion iteration at which those publications were added to the atlas (`sorted_history`).</span>
+</span><span id="Cartographer-527"><a href="#Cartographer-527"><span class="linenos">527</span></a>            <span class="n">sorted_history</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">update_history</span><span class="p">[</span><span class="n">sort_inds</span><span class="p">]</span>  <span class="c1"># shape `(num_pubs,)`</span>
+</span><span id="Cartographer-528"><a href="#Cartographer-528"><span class="linenos">528</span></a>
+</span><span id="Cartographer-529"><a href="#Cartographer-529"><span class="linenos">529</span></a>            <span class="c1"># 4. Identify the latest iteration at which any publication was added to the atlas; this can be less than the total iterations.</span>
+</span><span id="Cartographer-530"><a href="#Cartographer-530"><span class="linenos">530</span></a>            <span class="n">last_update</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">update_history</span><span class="o">.</span><span class="n">max</span><span class="p">()</span>
+</span><span id="Cartographer-531"><a href="#Cartographer-531"><span class="linenos">531</span></a>
+</span><span id="Cartographer-532"><a href="#Cartographer-532"><span class="linenos">532</span></a>            <span class="c1"># 5. Loop through each iteration until `last_update`, and identify which publications were added at or before that iteration.</span>
+</span><span id="Cartographer-533"><a href="#Cartographer-533"><span class="linenos">533</span></a>            <span class="n">result_2</span> <span class="o">=</span> <span class="p">[</span>
+</span><span id="Cartographer-534"><a href="#Cartographer-534"><span class="linenos">534</span></a>                <span class="c1"># 6. Compute how many publications out we can go and still only contain publications added at or before that iteration.</span>
+</span><span id="Cartographer-535"><a href="#Cartographer-535"><span class="linenos">535</span></a>                <span class="c1"># Use `argmin` to get the first instance of False</span>
+</span><span id="Cartographer-536"><a href="#Cartographer-536"><span class="linenos">536</span></a>                <span class="c1"># Finally, subtract 1: we want the first index before False.</span>
+</span><span id="Cartographer-537"><a href="#Cartographer-537"><span class="linenos">537</span></a>                <span class="n">np</span><span class="o">.</span><span class="n">argmin</span><span class="p">(</span><span class="n">sorted_history</span> <span class="o">&lt;=</span> <span class="n">update</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span>
+</span><span id="Cartographer-538"><a href="#Cartographer-538"><span class="linenos">538</span></a>                <span class="k">for</span> <span class="n">update</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">last_update</span><span class="p">)</span>
+</span><span id="Cartographer-539"><a href="#Cartographer-539"><span class="linenos">539</span></a>            <span class="p">]</span>  <span class="c1"># shape `(num_pubs, last_update)`</span>
+</span><span id="Cartographer-540"><a href="#Cartographer-540"><span class="linenos">540</span></a>
+</span><span id="Cartographer-541"><a href="#Cartographer-541"><span class="linenos">541</span></a>            <span class="n">cospsi_kernel</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">result_2</span><span class="p">)</span>
+</span><span id="Cartographer-542"><a href="#Cartographer-542"><span class="linenos">542</span></a>
+</span><span id="Cartographer-543"><a href="#Cartographer-543"><span class="linenos">543</span></a>        <span class="k">return</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">cospsi_kernel</span><span class="p">)</span>
+</span><span id="Cartographer-544"><a href="#Cartographer-544"><span class="linenos">544</span></a>
+</span><span id="Cartographer-545"><a href="#Cartographer-545"><span class="linenos">545</span></a>    <span class="c1">########################################################################</span>
+</span><span id="Cartographer-546"><a href="#Cartographer-546"><span class="linenos">546</span></a>    <span class="c1"># Measure Atlas topography</span>
+</span><span id="Cartographer-547"><a href="#Cartographer-547"><span class="linenos">547</span></a>    <span class="c1">########################################################################</span>
+</span><span id="Cartographer-548"><a href="#Cartographer-548"><span class="linenos">548</span></a>
+</span><span id="Cartographer-549"><a href="#Cartographer-549"><span class="linenos">549</span></a>    <span class="k">def</span> <span class="nf">measure_topography</span><span class="p">(</span>
+</span><span id="Cartographer-550"><a href="#Cartographer-550"><span class="linenos">550</span></a>        <span class="bp">self</span><span class="p">,</span>
+</span><span id="Cartographer-551"><a href="#Cartographer-551"><span class="linenos">551</span></a>        <span class="n">atl</span><span class="p">:</span> <span class="n">Atlas</span><span class="p">,</span>
+</span><span id="Cartographer-552"><a href="#Cartographer-552"><span class="linenos">552</span></a>        <span class="n">ids</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="Cartographer-553"><a href="#Cartographer-553"><span class="linenos">553</span></a>        <span class="n">metrics</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;density&quot;</span><span class="p">],</span>
+</span><span id="Cartographer-554"><a href="#Cartographer-554"><span class="linenos">554</span></a>        <span class="n">min_prior_pubs</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">2</span><span class="p">,</span>
+</span><span id="Cartographer-555"><a href="#Cartographer-555"><span class="linenos">555</span></a>        <span class="n">kernel_size</span><span class="o">=</span><span class="mi">16</span><span class="p">,</span>
+</span><span id="Cartographer-556"><a href="#Cartographer-556"><span class="linenos">556</span></a>        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+</span><span id="Cartographer-557"><a href="#Cartographer-557"><span class="linenos">557</span></a>    <span class="p">):</span>
+</span><span id="Cartographer-558"><a href="#Cartographer-558"><span class="linenos">558</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Measure topographic properties of all publications relative to prior</span>
+</span><span id="Cartographer-559"><a href="#Cartographer-559"><span class="linenos">559</span></a><span class="sd">        publications.</span>
+</span><span id="Cartographer-560"><a href="#Cartographer-560"><span class="linenos">560</span></a>
+</span><span id="Cartographer-561"><a href="#Cartographer-561"><span class="linenos">561</span></a><span class="sd">        Args:</span>
+</span><span id="Cartographer-562"><a href="#Cartographer-562"><span class="linenos">562</span></a>
+</span><span id="Cartographer-563"><a href="#Cartographer-563"><span class="linenos">563</span></a><span class="sd">            atl: the Atlas to measure</span>
+</span><span id="Cartographer-564"><a href="#Cartographer-564"><span class="linenos">564</span></a>
+</span><span id="Cartographer-565"><a href="#Cartographer-565"><span class="linenos">565</span></a><span class="sd">            publication_indices: an np.ndarray of ints representing the indices of publications in the Atlas projection to measure</span>
+</span><span id="Cartographer-566"><a href="#Cartographer-566"><span class="linenos">566</span></a>
+</span><span id="Cartographer-567"><a href="#Cartographer-567"><span class="linenos">567</span></a><span class="sd">            metrics: A list of strings representing the metrics to use. Options are...</span>
+</span><span id="Cartographer-568"><a href="#Cartographer-568"><span class="linenos">568</span></a><span class="sd">                constant_asymmetry: The asymmetry of a publication $p_i$ w.r.t the entire atlas $\\{ p_j \\forall j \\in \\{1, ..., k\\} \\} where $k$ is the length of the atlas</span>
+</span><span id="Cartographer-569"><a href="#Cartographer-569"><span class="linenos">569</span></a>
+</span><span id="Cartographer-570"><a href="#Cartographer-570"><span class="linenos">570</span></a><span class="sd">                    $| \\sum_{j}^{k-1}( p_i - p_j ) |$</span>
+</span><span id="Cartographer-571"><a href="#Cartographer-571"><span class="linenos">571</span></a>
+</span><span id="Cartographer-572"><a href="#Cartographer-572"><span class="linenos">572</span></a><span class="sd">                kernel_constant_asymmetry: The asymmetry of a publication w.r.t. its kernel, { p_j for all j in {1, ..., k} } where k is `kernel_size`, i.e. the k nearest neighbors.</span>
+</span><span id="Cartographer-573"><a href="#Cartographer-573"><span class="linenos">573</span></a>
+</span><span id="Cartographer-574"><a href="#Cartographer-574"><span class="linenos">574</span></a><span class="sd">                density: the density of a publication&#39;s surrounding area, estimated by a heuristic inspired by mass / volume = k publications divided by the minimum arc length enclosing the furthest publication.</span>
+</span><span id="Cartographer-575"><a href="#Cartographer-575"><span class="linenos">575</span></a>
+</span><span id="Cartographer-576"><a href="#Cartographer-576"><span class="linenos">576</span></a><span class="sd">                    $\\frac{ k }{ smoothing\\_length(k) }$</span>
+</span><span id="Cartographer-577"><a href="#Cartographer-577"><span class="linenos">577</span></a>
+</span><span id="Cartographer-578"><a href="#Cartographer-578"><span class="linenos">578</span></a><span class="sd">                smoothing_length: The distance (in radians) to the farthest publication in the kernel, i.e. the kth nearest neighbor.</span>
+</span><span id="Cartographer-579"><a href="#Cartographer-579"><span class="linenos">579</span></a>
+</span><span id="Cartographer-580"><a href="#Cartographer-580"><span class="linenos">580</span></a><span class="sd">            min_prior_pubs: The minimum number of publications prior to the target publication for which to calculate the metric.</span>
+</span><span id="Cartographer-581"><a href="#Cartographer-581"><span class="linenos">581</span></a>
+</span><span id="Cartographer-582"><a href="#Cartographer-582"><span class="linenos">582</span></a><span class="sd">            kernel_size: the number of publications surrounding the publication for which to compute the topography metric, i.e. k nearest neighbors for k=kernel_size.</span>
+</span><span id="Cartographer-583"><a href="#Cartographer-583"><span class="linenos">583</span></a>
+</span><span id="Cartographer-584"><a href="#Cartographer-584"><span class="linenos">584</span></a><span class="sd">        Returns:</span>
+</span><span id="Cartographer-585"><a href="#Cartographer-585"><span class="linenos">585</span></a><span class="sd">            estimates: an np.ndarray of shape `(len(publication_indices), len(metrics))` representing the estimated topography metric values for each publication.</span>
+</span><span id="Cartographer-586"><a href="#Cartographer-586"><span class="linenos">586</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="Cartographer-587"><a href="#Cartographer-587"><span class="linenos">587</span></a>        <span class="n">verbose</span> <span class="o">=</span> <span class="n">get_verbose</span><span class="p">(</span><span class="n">kwargs</span><span class="p">)</span>
+</span><span id="Cartographer-588"><a href="#Cartographer-588"><span class="linenos">588</span></a>
+</span><span id="Cartographer-589"><a href="#Cartographer-589"><span class="linenos">589</span></a>        <span class="c1"># By default calculate for all publications</span>
+</span><span id="Cartographer-590"><a href="#Cartographer-590"><span class="linenos">590</span></a>        <span class="k">if</span> <span class="n">ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Cartographer-591"><a href="#Cartographer-591"><span class="linenos">591</span></a>            <span class="n">ids</span> <span class="o">=</span> <span class="n">atl</span><span class="o">.</span><span class="n">ids</span><span class="p">()</span>
+</span><span id="Cartographer-592"><a href="#Cartographer-592"><span class="linenos">592</span></a>        <span class="k">else</span><span class="p">:</span>
+</span><span id="Cartographer-593"><a href="#Cartographer-593"><span class="linenos">593</span></a>            <span class="n">ids</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span>
+</span><span id="Cartographer-594"><a href="#Cartographer-594"><span class="linenos">594</span></a>
+</span><span id="Cartographer-595"><a href="#Cartographer-595"><span class="linenos">595</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">ids</span><span class="p">:</span>
+</span><span id="Cartographer-596"><a href="#Cartographer-596"><span class="linenos">596</span></a>            <span class="k">raise</span> <span class="ne">Exception</span><span class="p">(</span><span class="s2">&quot;No publications to measure topography of.&quot;</span><span class="p">)</span>
+</span><span id="Cartographer-597"><a href="#Cartographer-597"><span class="linenos">597</span></a>
+</span><span id="Cartographer-598"><a href="#Cartographer-598"><span class="linenos">598</span></a>        <span class="c1"># Get publication dates, for filtering</span>
+</span><span id="Cartographer-599"><a href="#Cartographer-599"><span class="linenos">599</span></a>        <span class="n">dates</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([</span><span class="n">atl</span><span class="p">[</span><span class="n">identifier</span><span class="p">]</span><span class="o">.</span><span class="n">publication_date</span> <span class="k">for</span> <span class="n">identifier</span> <span class="ow">in</span> <span class="n">ids</span><span class="p">])</span>
+</span><span id="Cartographer-600"><a href="#Cartographer-600"><span class="linenos">600</span></a>
+</span><span id="Cartographer-601"><a href="#Cartographer-601"><span class="linenos">601</span></a>        <span class="c1"># Get pairwise cosine similarities for ids</span>
+</span><span id="Cartographer-602"><a href="#Cartographer-602"><span class="linenos">602</span></a>        <span class="n">embeddings</span> <span class="o">=</span> <span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">identifiers_to_embeddings</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span>
+</span><span id="Cartographer-603"><a href="#Cartographer-603"><span class="linenos">603</span></a>        <span class="n">cospsi_matrix</span> <span class="o">=</span> <span class="n">batch_cospsi_matrix</span><span class="p">(</span><span class="n">embeddings</span><span class="p">)</span>
+</span><span id="Cartographer-604"><a href="#Cartographer-604"><span class="linenos">604</span></a>
+</span><span id="Cartographer-605"><a href="#Cartographer-605"><span class="linenos">605</span></a>        <span class="c1"># From here on, use embedding indices instead of identifiers</span>
+</span><span id="Cartographer-606"><a href="#Cartographer-606"><span class="linenos">606</span></a>        <span class="c1"># our embeddings are already in the correct order, so just use them</span>
+</span><span id="Cartographer-607"><a href="#Cartographer-607"><span class="linenos">607</span></a>        <span class="n">publication_indices</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">embeddings</span><span class="p">))</span>
+</span><span id="Cartographer-608"><a href="#Cartographer-608"><span class="linenos">608</span></a>        <span class="c1"># publication_indices = atl.projection.identifiers_to_indices(ids)</span>
+</span><span id="Cartographer-609"><a href="#Cartographer-609"><span class="linenos">609</span></a>
+</span><span id="Cartographer-610"><a href="#Cartographer-610"><span class="linenos">610</span></a>        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Computing </span><span class="si">{</span><span class="n">metrics</span><span class="si">}</span><span class="s2"> for </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span><span class="si">}</span><span class="s2"> publications.&quot;</span><span class="p">)</span>
+</span><span id="Cartographer-611"><a href="#Cartographer-611"><span class="linenos">611</span></a>        <span class="n">estimates</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="Cartographer-612"><a href="#Cartographer-612"><span class="linenos">612</span></a>        <span class="c1"># for idx in tqdm(publication_indices):</span>
+</span><span id="Cartographer-613"><a href="#Cartographer-613"><span class="linenos">613</span></a>        <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">identifier</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">ids</span><span class="p">):</span>
+</span><span id="Cartographer-614"><a href="#Cartographer-614"><span class="linenos">614</span></a>            <span class="c1"># Get the date of publication</span>
+</span><span id="Cartographer-615"><a href="#Cartographer-615"><span class="linenos">615</span></a>            <span class="c1"># identifier = atl.projection.index_to_identifier[idx]</span>
+</span><span id="Cartographer-616"><a href="#Cartographer-616"><span class="linenos">616</span></a>            <span class="n">date</span> <span class="o">=</span> <span class="n">atl</span><span class="p">[</span><span class="n">identifier</span><span class="p">]</span><span class="o">.</span><span class="n">publication_date</span>
+</span><span id="Cartographer-617"><a href="#Cartographer-617"><span class="linenos">617</span></a>
+</span><span id="Cartographer-618"><a href="#Cartographer-618"><span class="linenos">618</span></a>            <span class="c1"># Identify prior publications</span>
+</span><span id="Cartographer-619"><a href="#Cartographer-619"><span class="linenos">619</span></a>            <span class="n">is_prior</span> <span class="o">=</span> <span class="n">dates</span> <span class="o">&lt;</span> <span class="n">date</span>
+</span><span id="Cartographer-620"><a href="#Cartographer-620"><span class="linenos">620</span></a>            <span class="k">if</span> <span class="n">is_prior</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span> <span class="o">&lt;</span> <span class="n">min_prior_pubs</span><span class="p">:</span>
+</span><span id="Cartographer-621"><a href="#Cartographer-621"><span class="linenos">621</span></a>                <span class="n">estimates</span><span class="o">.</span><span class="n">append</span><span class="p">([</span><span class="n">np</span><span class="o">.</span><span class="n">nan</span> <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="n">metrics</span><span class="p">])</span>
+</span><span id="Cartographer-622"><a href="#Cartographer-622"><span class="linenos">622</span></a>                <span class="k">continue</span>
+</span><span id="Cartographer-623"><a href="#Cartographer-623"><span class="linenos">623</span></a>
+</span><span id="Cartographer-624"><a href="#Cartographer-624"><span class="linenos">624</span></a>            <span class="c1"># Choose valid publications</span>
+</span><span id="Cartographer-625"><a href="#Cartographer-625"><span class="linenos">625</span></a>            <span class="n">is_other</span> <span class="o">=</span> <span class="n">publication_indices</span> <span class="o">!=</span> <span class="n">idx</span>
+</span><span id="Cartographer-626"><a href="#Cartographer-626"><span class="linenos">626</span></a>            <span class="n">is_valid</span> <span class="o">=</span> <span class="n">is_prior</span> <span class="o">&amp;</span> <span class="n">is_other</span>
+</span><span id="Cartographer-627"><a href="#Cartographer-627"><span class="linenos">627</span></a>            <span class="n">valid_indices</span> <span class="o">=</span> <span class="n">publication_indices</span><span class="p">[</span><span class="n">is_valid</span><span class="p">]</span>
+</span><span id="Cartographer-628"><a href="#Cartographer-628"><span class="linenos">628</span></a>
+</span><span id="Cartographer-629"><a href="#Cartographer-629"><span class="linenos">629</span></a>            <span class="n">kwargs</span> <span class="o">=</span> <span class="p">{</span>
+</span><span id="Cartographer-630"><a href="#Cartographer-630"><span class="linenos">630</span></a>                <span class="s2">&quot;idx&quot;</span><span class="p">:</span> <span class="n">idx</span><span class="p">,</span>
+</span><span id="Cartographer-631"><a href="#Cartographer-631"><span class="linenos">631</span></a>                <span class="s2">&quot;cospsi_matrix&quot;</span><span class="p">:</span> <span class="n">cospsi_matrix</span><span class="p">,</span>
+</span><span id="Cartographer-632"><a href="#Cartographer-632"><span class="linenos">632</span></a>                <span class="s2">&quot;valid_indices&quot;</span><span class="p">:</span> <span class="n">valid_indices</span><span class="p">,</span>
+</span><span id="Cartographer-633"><a href="#Cartographer-633"><span class="linenos">633</span></a>                <span class="s2">&quot;publication_indices&quot;</span><span class="p">:</span> <span class="n">publication_indices</span><span class="p">,</span>
+</span><span id="Cartographer-634"><a href="#Cartographer-634"><span class="linenos">634</span></a>                <span class="s2">&quot;embeddings&quot;</span><span class="p">:</span> <span class="n">embeddings</span><span class="p">,</span>
+</span><span id="Cartographer-635"><a href="#Cartographer-635"><span class="linenos">635</span></a>                <span class="s2">&quot;kernel_size&quot;</span><span class="p">:</span> <span class="n">kernel_size</span><span class="p">,</span>
+</span><span id="Cartographer-636"><a href="#Cartographer-636"><span class="linenos">636</span></a>            <span class="p">}</span>
+</span><span id="Cartographer-637"><a href="#Cartographer-637"><span class="linenos">637</span></a>
+</span><span id="Cartographer-638"><a href="#Cartographer-638"><span class="linenos">638</span></a>            <span class="k">def</span> <span class="nf">call_metric</span><span class="p">(</span>
+</span><span id="Cartographer-639"><a href="#Cartographer-639"><span class="linenos">639</span></a>                <span class="n">metric</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+</span><span id="Cartographer-640"><a href="#Cartographer-640"><span class="linenos">640</span></a>                <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+</span><span id="Cartographer-641"><a href="#Cartographer-641"><span class="linenos">641</span></a>            <span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">float</span><span class="p">:</span>
+</span><span id="Cartographer-642"><a href="#Cartographer-642"><span class="linenos">642</span></a><span class="w">                </span><span class="sd">&quot;&quot;&quot;Wrapper function to simplify topography metric api.&quot;&quot;&quot;</span>
+</span><span id="Cartographer-643"><a href="#Cartographer-643"><span class="linenos">643</span></a>                <span class="c1"># Get the metric</span>
+</span><span id="Cartographer-644"><a href="#Cartographer-644"><span class="linenos">644</span></a>                <span class="n">fn</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="n">topography</span><span class="p">,</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">metric</span><span class="si">}</span><span class="s2">_metric&quot;</span><span class="p">)</span>
+</span><span id="Cartographer-645"><a href="#Cartographer-645"><span class="linenos">645</span></a>
+</span><span id="Cartographer-646"><a href="#Cartographer-646"><span class="linenos">646</span></a>                <span class="c1"># Identify arguments to pass</span>
+</span><span id="Cartographer-647"><a href="#Cartographer-647"><span class="linenos">647</span></a>                <span class="n">fn_args</span> <span class="o">=</span> <span class="n">inspect</span><span class="o">.</span><span class="n">getfullargspec</span><span class="p">(</span><span class="n">fn</span><span class="p">)</span>
+</span><span id="Cartographer-648"><a href="#Cartographer-648"><span class="linenos">648</span></a>                <span class="n">used_kwargs</span> <span class="o">=</span> <span class="p">{}</span>
+</span><span id="Cartographer-649"><a href="#Cartographer-649"><span class="linenos">649</span></a>                <span class="k">for</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="ow">in</span> <span class="n">kwargs</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+</span><span id="Cartographer-650"><a href="#Cartographer-650"><span class="linenos">650</span></a>                    <span class="k">if</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">fn_args</span><span class="o">.</span><span class="n">args</span><span class="p">:</span>
+</span><span id="Cartographer-651"><a href="#Cartographer-651"><span class="linenos">651</span></a>                        <span class="n">used_kwargs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
+</span><span id="Cartographer-652"><a href="#Cartographer-652"><span class="linenos">652</span></a>                <span class="c1"># Call</span>
+</span><span id="Cartographer-653"><a href="#Cartographer-653"><span class="linenos">653</span></a>                <span class="n">estimate</span> <span class="o">=</span> <span class="n">fn</span><span class="p">(</span><span class="o">**</span><span class="n">used_kwargs</span><span class="p">)</span>
+</span><span id="Cartographer-654"><a href="#Cartographer-654"><span class="linenos">654</span></a>                <span class="k">return</span> <span class="n">estimate</span>
+</span><span id="Cartographer-655"><a href="#Cartographer-655"><span class="linenos">655</span></a>
+</span><span id="Cartographer-656"><a href="#Cartographer-656"><span class="linenos">656</span></a>            <span class="n">estimates</span><span class="o">.</span><span class="n">append</span><span class="p">([</span><span class="n">call_metric</span><span class="p">(</span><span class="n">metric</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="k">for</span> <span class="n">metric</span> <span class="ow">in</span> <span class="n">metrics</span><span class="p">])</span>
+</span><span id="Cartographer-657"><a href="#Cartographer-657"><span class="linenos">657</span></a>        <span class="n">estimates</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">estimates</span><span class="p">)</span>
+</span><span id="Cartographer-658"><a href="#Cartographer-658"><span class="linenos">658</span></a>
+</span><span id="Cartographer-659"><a href="#Cartographer-659"><span class="linenos">659</span></a>        <span class="k">return</span> <span class="n">estimates</span>
 </span></pre></div>
 
 
             <div class="docstring"><p>A basic wrapper for obtaining and updating atlas projections.</p>
+
+<p><code>self.librarian</code>: the Librarian object used to query a bibliographic database API.
+<code>self.vectorizer</code>: the Vectorizer object used to get a document embedding for each abstract
+<code>self.pubs_per_update</code>: a list of lists of publication str ids, representing the publications that exist at each time step / expansion update.
+<code>self.update_history</code>: an np.array of ints representing when publications were added. A value of -2 indicates no record of being added.</p>
 </div>
 
 
@@ -703,13 +1573,16 @@ <h1 class="modulename">
 
     </div>
     <a class="headerlink" href="#Cartographer.__init__"></a>
-            <div class="pdoc-code codehilite"><pre><span></span><span id="Cartographer.__init__-20"><a href="#Cartographer.__init__-20"><span class="linenos">20</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
-</span><span id="Cartographer.__init__-21"><a href="#Cartographer.__init__-21"><span class="linenos">21</span></a>        <span class="bp">self</span><span class="p">,</span>
-</span><span id="Cartographer.__init__-22"><a href="#Cartographer.__init__-22"><span class="linenos">22</span></a>        <span class="n">librarian</span><span class="p">:</span> <span class="n">Librarian</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-</span><span id="Cartographer.__init__-23"><a href="#Cartographer.__init__-23"><span class="linenos">23</span></a>        <span class="n">vectorizer</span><span class="p">:</span> <span class="n">Vectorizer</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-</span><span id="Cartographer.__init__-24"><a href="#Cartographer.__init__-24"><span class="linenos">24</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="Cartographer.__init__-25"><a href="#Cartographer.__init__-25"><span class="linenos">25</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">librarian</span> <span class="o">=</span> <span class="n">librarian</span>
-</span><span id="Cartographer.__init__-26"><a href="#Cartographer.__init__-26"><span class="linenos">26</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">vectorizer</span> <span class="o">=</span> <span class="n">vectorizer</span>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="Cartographer.__init__-72"><a href="#Cartographer.__init__-72"><span class="linenos">72</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+</span><span id="Cartographer.__init__-73"><a href="#Cartographer.__init__-73"><span class="linenos">73</span></a>        <span class="bp">self</span><span class="p">,</span>
+</span><span id="Cartographer.__init__-74"><a href="#Cartographer.__init__-74"><span class="linenos">74</span></a>        <span class="n">librarian</span><span class="p">:</span> <span class="n">Librarian</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="Cartographer.__init__-75"><a href="#Cartographer.__init__-75"><span class="linenos">75</span></a>        <span class="n">vectorizer</span><span class="p">:</span> <span class="n">Vectorizer</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="Cartographer.__init__-76"><a href="#Cartographer.__init__-76"><span class="linenos">76</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Cartographer.__init__-77"><a href="#Cartographer.__init__-77"><span class="linenos">77</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">librarian</span> <span class="o">=</span> <span class="n">librarian</span>
+</span><span id="Cartographer.__init__-78"><a href="#Cartographer.__init__-78"><span class="linenos">78</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">vectorizer</span> <span class="o">=</span> <span class="n">vectorizer</span>
+</span><span id="Cartographer.__init__-79"><a href="#Cartographer.__init__-79"><span class="linenos">79</span></a>
+</span><span id="Cartographer.__init__-80"><a href="#Cartographer.__init__-80"><span class="linenos">80</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">pubs_per_update</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="Cartographer.__init__-81"><a href="#Cartographer.__init__-81"><span class="linenos">81</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">update_history</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span> <span class="o">=</span> <span class="kc">None</span>
 </span></pre></div>
 
 
@@ -737,6 +1610,28 @@ <h1 class="modulename">
     
     
 
+                            </div>
+                            <div id="Cartographer.pubs_per_update" class="classattr">
+                                <div class="attr variable">
+            <span class="name">pubs_per_update</span><span class="annotation">: list[list[str]]</span>
+
+        
+    </div>
+    <a class="headerlink" href="#Cartographer.pubs_per_update"></a>
+    
+    
+
+                            </div>
+                            <div id="Cartographer.update_history" class="classattr">
+                                <div class="attr variable">
+            <span class="name">update_history</span><span class="annotation">: numpy.ndarray</span>
+
+        
+    </div>
+    <a class="headerlink" href="#Cartographer.update_history"></a>
+    
+    
+
                             </div>
                             <div id="Cartographer.bibtex_to_atlas" class="classattr">
                                         <input id="Cartographer.bibtex_to_atlas-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
@@ -749,51 +1644,53 @@ <h1 class="modulename">
 
     </div>
     <a class="headerlink" href="#Cartographer.bibtex_to_atlas"></a>
-            <div class="pdoc-code codehilite"><pre><span></span><span id="Cartographer.bibtex_to_atlas-32"><a href="#Cartographer.bibtex_to_atlas-32"><span class="linenos">32</span></a>    <span class="k">def</span> <span class="nf">bibtex_to_atlas</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">bibtex_fp</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Atlas</span><span class="p">:</span>
-</span><span id="Cartographer.bibtex_to_atlas-33"><a href="#Cartographer.bibtex_to_atlas-33"><span class="linenos">33</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Convert a bibtex file to an atlas, by parsing each entry for an identifier, and querying an API for publications using `self.librarian`.</span>
-</span><span id="Cartographer.bibtex_to_atlas-34"><a href="#Cartographer.bibtex_to_atlas-34"><span class="linenos">34</span></a>
-</span><span id="Cartographer.bibtex_to_atlas-35"><a href="#Cartographer.bibtex_to_atlas-35"><span class="linenos">35</span></a><span class="sd">        NOTE: the identifiers in the corresponding atlas will be API-specific ids; there is no relationship between the parsed id used to query papers (e.g. &#39;DOI:XYZ&#39; in the case of SemanticScholar) and the resulting identifier associated with the resulting Publication object, (a paperId, a bibcode, etc.) Therefore, the purpose of using the `bibtex_to_atlas` method is primarily for initializing literature exploration in a human-readable way. If you want to obtain as many publications as identifiers supplied, you need to use `get_publications`.</span>
-</span><span id="Cartographer.bibtex_to_atlas-36"><a href="#Cartographer.bibtex_to_atlas-36"><span class="linenos">36</span></a>
-</span><span id="Cartographer.bibtex_to_atlas-37"><a href="#Cartographer.bibtex_to_atlas-37"><span class="linenos">37</span></a><span class="sd">        Args:</span>
-</span><span id="Cartographer.bibtex_to_atlas-38"><a href="#Cartographer.bibtex_to_atlas-38"><span class="linenos">38</span></a><span class="sd">            bibtex_fp: the filepath where the bibtex file is saved.</span>
-</span><span id="Cartographer.bibtex_to_atlas-39"><a href="#Cartographer.bibtex_to_atlas-39"><span class="linenos">39</span></a>
-</span><span id="Cartographer.bibtex_to_atlas-40"><a href="#Cartographer.bibtex_to_atlas-40"><span class="linenos">40</span></a><span class="sd">            args and kwargs are passed to `get_publications`.</span>
-</span><span id="Cartographer.bibtex_to_atlas-41"><a href="#Cartographer.bibtex_to_atlas-41"><span class="linenos">41</span></a><span class="sd">        &quot;&quot;&quot;</span>
-</span><span id="Cartographer.bibtex_to_atlas-42"><a href="#Cartographer.bibtex_to_atlas-42"><span class="linenos">42</span></a>        <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">bibtex_fp</span><span class="p">,</span> <span class="s2">&quot;r&quot;</span><span class="p">)</span> <span class="k">as</span> <span class="n">f</span><span class="p">:</span>
-</span><span id="Cartographer.bibtex_to_atlas-43"><a href="#Cartographer.bibtex_to_atlas-43"><span class="linenos">43</span></a>            <span class="n">bib_database</span> <span class="o">=</span> <span class="n">bibtexparser</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">f</span><span class="p">)</span>
-</span><span id="Cartographer.bibtex_to_atlas-44"><a href="#Cartographer.bibtex_to_atlas-44"><span class="linenos">44</span></a>
-</span><span id="Cartographer.bibtex_to_atlas-45"><a href="#Cartographer.bibtex_to_atlas-45"><span class="linenos">45</span></a>        <span class="c1"># Retrieve the identifier from each bibtex entry</span>
-</span><span id="Cartographer.bibtex_to_atlas-46"><a href="#Cartographer.bibtex_to_atlas-46"><span class="linenos">46</span></a>        <span class="n">identifiers</span> <span class="o">=</span> <span class="p">[</span>
-</span><span id="Cartographer.bibtex_to_atlas-47"><a href="#Cartographer.bibtex_to_atlas-47"><span class="linenos">47</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">librarian</span><span class="o">.</span><span class="n">bibtex_entry_identifier</span><span class="p">(</span><span class="n">entry</span><span class="p">)</span>
-</span><span id="Cartographer.bibtex_to_atlas-48"><a href="#Cartographer.bibtex_to_atlas-48"><span class="linenos">48</span></a>            <span class="k">for</span> <span class="n">entry</span> <span class="ow">in</span> <span class="n">bib_database</span><span class="o">.</span><span class="n">entries</span>
-</span><span id="Cartographer.bibtex_to_atlas-49"><a href="#Cartographer.bibtex_to_atlas-49"><span class="linenos">49</span></a>        <span class="p">]</span>
-</span><span id="Cartographer.bibtex_to_atlas-50"><a href="#Cartographer.bibtex_to_atlas-50"><span class="linenos">50</span></a>        <span class="n">identifiers</span> <span class="o">=</span> <span class="p">[</span><span class="nb">id</span> <span class="k">for</span> <span class="nb">id</span> <span class="ow">in</span> <span class="n">identifiers</span> <span class="k">if</span> <span class="nb">id</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">]</span>
-</span><span id="Cartographer.bibtex_to_atlas-51"><a href="#Cartographer.bibtex_to_atlas-51"><span class="linenos">51</span></a>        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">identifiers</span><span class="p">)</span> <span class="o">&lt;</span> <span class="nb">len</span><span class="p">(</span><span class="n">bib_database</span><span class="o">.</span><span class="n">entries</span><span class="p">):</span>
-</span><span id="Cartographer.bibtex_to_atlas-52"><a href="#Cartographer.bibtex_to_atlas-52"><span class="linenos">52</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
-</span><span id="Cartographer.bibtex_to_atlas-53"><a href="#Cartographer.bibtex_to_atlas-53"><span class="linenos">53</span></a>                <span class="sa">f</span><span class="s2">&quot;Only obtained </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">identifiers</span><span class="p">)</span><span class="si">}</span><span class="s2"> publications out of </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">bib_database</span><span class="o">.</span><span class="n">entries</span><span class="p">)</span><span class="si">}</span><span class="s2"> total due to missing identifiers.&quot;</span>
-</span><span id="Cartographer.bibtex_to_atlas-54"><a href="#Cartographer.bibtex_to_atlas-54"><span class="linenos">54</span></a>            <span class="p">)</span>
-</span><span id="Cartographer.bibtex_to_atlas-55"><a href="#Cartographer.bibtex_to_atlas-55"><span class="linenos">55</span></a>
-</span><span id="Cartographer.bibtex_to_atlas-56"><a href="#Cartographer.bibtex_to_atlas-56"><span class="linenos">56</span></a>        <span class="c1"># Query</span>
-</span><span id="Cartographer.bibtex_to_atlas-57"><a href="#Cartographer.bibtex_to_atlas-57"><span class="linenos">57</span></a>        <span class="n">results</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">librarian</span><span class="o">.</span><span class="n">get_publications</span><span class="p">(</span><span class="n">identifiers</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-</span><span id="Cartographer.bibtex_to_atlas-58"><a href="#Cartographer.bibtex_to_atlas-58"><span class="linenos">58</span></a>        <span class="c1"># Validate</span>
-</span><span id="Cartographer.bibtex_to_atlas-59"><a href="#Cartographer.bibtex_to_atlas-59"><span class="linenos">59</span></a>        <span class="n">publications</span> <span class="o">=</span> <span class="p">[</span>
-</span><span id="Cartographer.bibtex_to_atlas-60"><a href="#Cartographer.bibtex_to_atlas-60"><span class="linenos">60</span></a>            <span class="n">result</span>
-</span><span id="Cartographer.bibtex_to_atlas-61"><a href="#Cartographer.bibtex_to_atlas-61"><span class="linenos">61</span></a>            <span class="k">for</span> <span class="n">result</span> <span class="ow">in</span> <span class="n">results</span>
-</span><span id="Cartographer.bibtex_to_atlas-62"><a href="#Cartographer.bibtex_to_atlas-62"><span class="linenos">62</span></a>            <span class="k">if</span> <span class="p">(</span>
-</span><span id="Cartographer.bibtex_to_atlas-63"><a href="#Cartographer.bibtex_to_atlas-63"><span class="linenos">63</span></a>                <span class="n">result</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
-</span><span id="Cartographer.bibtex_to_atlas-64"><a href="#Cartographer.bibtex_to_atlas-64"><span class="linenos">64</span></a>                <span class="ow">and</span> <span class="n">result</span><span class="o">.</span><span class="n">publication_date</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
-</span><span id="Cartographer.bibtex_to_atlas-65"><a href="#Cartographer.bibtex_to_atlas-65"><span class="linenos">65</span></a>                <span class="ow">and</span> <span class="n">result</span><span class="o">.</span><span class="n">abstract</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
-</span><span id="Cartographer.bibtex_to_atlas-66"><a href="#Cartographer.bibtex_to_atlas-66"><span class="linenos">66</span></a>                <span class="c1"># identifier will never be none</span>
-</span><span id="Cartographer.bibtex_to_atlas-67"><a href="#Cartographer.bibtex_to_atlas-67"><span class="linenos">67</span></a>            <span class="p">)</span>
-</span><span id="Cartographer.bibtex_to_atlas-68"><a href="#Cartographer.bibtex_to_atlas-68"><span class="linenos">68</span></a>        <span class="p">]</span>
-</span><span id="Cartographer.bibtex_to_atlas-69"><a href="#Cartographer.bibtex_to_atlas-69"><span class="linenos">69</span></a>        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">publications</span><span class="p">)</span> <span class="o">&lt;</span> <span class="nb">len</span><span class="p">(</span><span class="n">identifiers</span><span class="p">):</span>
-</span><span id="Cartographer.bibtex_to_atlas-70"><a href="#Cartographer.bibtex_to_atlas-70"><span class="linenos">70</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
-</span><span id="Cartographer.bibtex_to_atlas-71"><a href="#Cartographer.bibtex_to_atlas-71"><span class="linenos">71</span></a>                <span class="sa">f</span><span class="s2">&quot;Only obtained </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">publications</span><span class="p">)</span><span class="si">}</span><span class="s2"> publications out of </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">identifiers</span><span class="p">)</span><span class="si">}</span><span class="s2"> total due to querying-related errors or missing abstracts.&quot;</span>
-</span><span id="Cartographer.bibtex_to_atlas-72"><a href="#Cartographer.bibtex_to_atlas-72"><span class="linenos">72</span></a>            <span class="p">)</span>
-</span><span id="Cartographer.bibtex_to_atlas-73"><a href="#Cartographer.bibtex_to_atlas-73"><span class="linenos">73</span></a>
-</span><span id="Cartographer.bibtex_to_atlas-74"><a href="#Cartographer.bibtex_to_atlas-74"><span class="linenos">74</span></a>        <span class="c1"># Construct atlas</span>
-</span><span id="Cartographer.bibtex_to_atlas-75"><a href="#Cartographer.bibtex_to_atlas-75"><span class="linenos">75</span></a>        <span class="n">atl</span> <span class="o">=</span> <span class="n">Atlas</span><span class="p">(</span><span class="n">publications</span><span class="p">)</span>
-</span><span id="Cartographer.bibtex_to_atlas-76"><a href="#Cartographer.bibtex_to_atlas-76"><span class="linenos">76</span></a>        <span class="k">return</span> <span class="n">atl</span>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="Cartographer.bibtex_to_atlas-87"><a href="#Cartographer.bibtex_to_atlas-87"><span class="linenos"> 87</span></a>    <span class="k">def</span> <span class="nf">bibtex_to_atlas</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">bibtex_fp</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Atlas</span><span class="p">:</span>
+</span><span id="Cartographer.bibtex_to_atlas-88"><a href="#Cartographer.bibtex_to_atlas-88"><span class="linenos"> 88</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Convert a bibtex file to an atlas, by parsing each entry for an identifier, and querying an API for publications using `self.librarian`.</span>
+</span><span id="Cartographer.bibtex_to_atlas-89"><a href="#Cartographer.bibtex_to_atlas-89"><span class="linenos"> 89</span></a>
+</span><span id="Cartographer.bibtex_to_atlas-90"><a href="#Cartographer.bibtex_to_atlas-90"><span class="linenos"> 90</span></a><span class="sd">        NOTE: the identifiers in the corresponding atlas will be API-specific ids; there is no relationship between the parsed id used to query papers (e.g. &#39;DOI:XYZ&#39; in the case of SemanticScholar) and the resulting identifier associated with the resulting Publication object, (a paperId, a bibcode, etc.) Therefore, the purpose of using the `bibtex_to_atlas` method is primarily for initializing literature exploration in a human-readable way. If you want to obtain as many publications as identifiers supplied, you need to use `get_publications`.</span>
+</span><span id="Cartographer.bibtex_to_atlas-91"><a href="#Cartographer.bibtex_to_atlas-91"><span class="linenos"> 91</span></a>
+</span><span id="Cartographer.bibtex_to_atlas-92"><a href="#Cartographer.bibtex_to_atlas-92"><span class="linenos"> 92</span></a><span class="sd">        Args:</span>
+</span><span id="Cartographer.bibtex_to_atlas-93"><a href="#Cartographer.bibtex_to_atlas-93"><span class="linenos"> 93</span></a><span class="sd">            bibtex_fp: the filepath where the bibtex file is saved.</span>
+</span><span id="Cartographer.bibtex_to_atlas-94"><a href="#Cartographer.bibtex_to_atlas-94"><span class="linenos"> 94</span></a>
+</span><span id="Cartographer.bibtex_to_atlas-95"><a href="#Cartographer.bibtex_to_atlas-95"><span class="linenos"> 95</span></a><span class="sd">            args and kwargs are passed to `get_publications`.</span>
+</span><span id="Cartographer.bibtex_to_atlas-96"><a href="#Cartographer.bibtex_to_atlas-96"><span class="linenos"> 96</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="Cartographer.bibtex_to_atlas-97"><a href="#Cartographer.bibtex_to_atlas-97"><span class="linenos"> 97</span></a>        <span class="n">verbose</span> <span class="o">=</span> <span class="n">get_verbose</span><span class="p">(</span><span class="n">kwargs</span><span class="p">)</span>
+</span><span id="Cartographer.bibtex_to_atlas-98"><a href="#Cartographer.bibtex_to_atlas-98"><span class="linenos"> 98</span></a>
+</span><span id="Cartographer.bibtex_to_atlas-99"><a href="#Cartographer.bibtex_to_atlas-99"><span class="linenos"> 99</span></a>        <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">bibtex_fp</span><span class="p">,</span> <span class="s2">&quot;r&quot;</span><span class="p">)</span> <span class="k">as</span> <span class="n">f</span><span class="p">:</span>
+</span><span id="Cartographer.bibtex_to_atlas-100"><a href="#Cartographer.bibtex_to_atlas-100"><span class="linenos">100</span></a>            <span class="n">bib_database</span> <span class="o">=</span> <span class="n">bibtexparser</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">f</span><span class="p">)</span>
+</span><span id="Cartographer.bibtex_to_atlas-101"><a href="#Cartographer.bibtex_to_atlas-101"><span class="linenos">101</span></a>
+</span><span id="Cartographer.bibtex_to_atlas-102"><a href="#Cartographer.bibtex_to_atlas-102"><span class="linenos">102</span></a>        <span class="c1"># Retrieve the identifier from each bibtex entry</span>
+</span><span id="Cartographer.bibtex_to_atlas-103"><a href="#Cartographer.bibtex_to_atlas-103"><span class="linenos">103</span></a>        <span class="n">identifiers</span> <span class="o">=</span> <span class="p">[</span>
+</span><span id="Cartographer.bibtex_to_atlas-104"><a href="#Cartographer.bibtex_to_atlas-104"><span class="linenos">104</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">librarian</span><span class="o">.</span><span class="n">bibtex_entry_identifier</span><span class="p">(</span><span class="n">entry</span><span class="p">)</span>
+</span><span id="Cartographer.bibtex_to_atlas-105"><a href="#Cartographer.bibtex_to_atlas-105"><span class="linenos">105</span></a>            <span class="k">for</span> <span class="n">entry</span> <span class="ow">in</span> <span class="n">bib_database</span><span class="o">.</span><span class="n">entries</span>
+</span><span id="Cartographer.bibtex_to_atlas-106"><a href="#Cartographer.bibtex_to_atlas-106"><span class="linenos">106</span></a>        <span class="p">]</span>
+</span><span id="Cartographer.bibtex_to_atlas-107"><a href="#Cartographer.bibtex_to_atlas-107"><span class="linenos">107</span></a>        <span class="n">identifiers</span> <span class="o">=</span> <span class="p">[</span><span class="nb">id</span> <span class="k">for</span> <span class="nb">id</span> <span class="ow">in</span> <span class="n">identifiers</span> <span class="k">if</span> <span class="nb">id</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">]</span>
+</span><span id="Cartographer.bibtex_to_atlas-108"><a href="#Cartographer.bibtex_to_atlas-108"><span class="linenos">108</span></a>        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">identifiers</span><span class="p">)</span> <span class="o">&lt;</span> <span class="nb">len</span><span class="p">(</span><span class="n">bib_database</span><span class="o">.</span><span class="n">entries</span><span class="p">)</span> <span class="ow">and</span> <span class="n">verbose</span><span class="p">:</span>
+</span><span id="Cartographer.bibtex_to_atlas-109"><a href="#Cartographer.bibtex_to_atlas-109"><span class="linenos">109</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+</span><span id="Cartographer.bibtex_to_atlas-110"><a href="#Cartographer.bibtex_to_atlas-110"><span class="linenos">110</span></a>                <span class="sa">f</span><span class="s2">&quot;Only obtained </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">identifiers</span><span class="p">)</span><span class="si">}</span><span class="s2"> publications out of </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">bib_database</span><span class="o">.</span><span class="n">entries</span><span class="p">)</span><span class="si">}</span><span class="s2"> total due to missing identifiers.&quot;</span>
+</span><span id="Cartographer.bibtex_to_atlas-111"><a href="#Cartographer.bibtex_to_atlas-111"><span class="linenos">111</span></a>            <span class="p">)</span>
+</span><span id="Cartographer.bibtex_to_atlas-112"><a href="#Cartographer.bibtex_to_atlas-112"><span class="linenos">112</span></a>
+</span><span id="Cartographer.bibtex_to_atlas-113"><a href="#Cartographer.bibtex_to_atlas-113"><span class="linenos">113</span></a>        <span class="c1"># Query</span>
+</span><span id="Cartographer.bibtex_to_atlas-114"><a href="#Cartographer.bibtex_to_atlas-114"><span class="linenos">114</span></a>        <span class="n">results</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">librarian</span><span class="o">.</span><span class="n">get_publications</span><span class="p">(</span><span class="n">identifiers</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+</span><span id="Cartographer.bibtex_to_atlas-115"><a href="#Cartographer.bibtex_to_atlas-115"><span class="linenos">115</span></a>        <span class="c1"># Validate</span>
+</span><span id="Cartographer.bibtex_to_atlas-116"><a href="#Cartographer.bibtex_to_atlas-116"><span class="linenos">116</span></a>        <span class="n">publications</span> <span class="o">=</span> <span class="p">[</span>
+</span><span id="Cartographer.bibtex_to_atlas-117"><a href="#Cartographer.bibtex_to_atlas-117"><span class="linenos">117</span></a>            <span class="n">result</span>
+</span><span id="Cartographer.bibtex_to_atlas-118"><a href="#Cartographer.bibtex_to_atlas-118"><span class="linenos">118</span></a>            <span class="k">for</span> <span class="n">result</span> <span class="ow">in</span> <span class="n">results</span>
+</span><span id="Cartographer.bibtex_to_atlas-119"><a href="#Cartographer.bibtex_to_atlas-119"><span class="linenos">119</span></a>            <span class="k">if</span> <span class="p">(</span>
+</span><span id="Cartographer.bibtex_to_atlas-120"><a href="#Cartographer.bibtex_to_atlas-120"><span class="linenos">120</span></a>                <span class="n">result</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+</span><span id="Cartographer.bibtex_to_atlas-121"><a href="#Cartographer.bibtex_to_atlas-121"><span class="linenos">121</span></a>                <span class="ow">and</span> <span class="n">result</span><span class="o">.</span><span class="n">publication_date</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+</span><span id="Cartographer.bibtex_to_atlas-122"><a href="#Cartographer.bibtex_to_atlas-122"><span class="linenos">122</span></a>                <span class="ow">and</span> <span class="n">result</span><span class="o">.</span><span class="n">abstract</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+</span><span id="Cartographer.bibtex_to_atlas-123"><a href="#Cartographer.bibtex_to_atlas-123"><span class="linenos">123</span></a>                <span class="c1"># identifier will never be none</span>
+</span><span id="Cartographer.bibtex_to_atlas-124"><a href="#Cartographer.bibtex_to_atlas-124"><span class="linenos">124</span></a>            <span class="p">)</span>
+</span><span id="Cartographer.bibtex_to_atlas-125"><a href="#Cartographer.bibtex_to_atlas-125"><span class="linenos">125</span></a>        <span class="p">]</span>
+</span><span id="Cartographer.bibtex_to_atlas-126"><a href="#Cartographer.bibtex_to_atlas-126"><span class="linenos">126</span></a>        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">publications</span><span class="p">)</span> <span class="o">&lt;</span> <span class="nb">len</span><span class="p">(</span><span class="n">identifiers</span><span class="p">)</span> <span class="ow">and</span> <span class="n">verbose</span><span class="p">:</span>
+</span><span id="Cartographer.bibtex_to_atlas-127"><a href="#Cartographer.bibtex_to_atlas-127"><span class="linenos">127</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+</span><span id="Cartographer.bibtex_to_atlas-128"><a href="#Cartographer.bibtex_to_atlas-128"><span class="linenos">128</span></a>                <span class="sa">f</span><span class="s2">&quot;Only obtained </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">publications</span><span class="p">)</span><span class="si">}</span><span class="s2"> publications out of </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">identifiers</span><span class="p">)</span><span class="si">}</span><span class="s2"> total due to querying-related errors or missing abstracts.&quot;</span>
+</span><span id="Cartographer.bibtex_to_atlas-129"><a href="#Cartographer.bibtex_to_atlas-129"><span class="linenos">129</span></a>            <span class="p">)</span>
+</span><span id="Cartographer.bibtex_to_atlas-130"><a href="#Cartographer.bibtex_to_atlas-130"><span class="linenos">130</span></a>
+</span><span id="Cartographer.bibtex_to_atlas-131"><a href="#Cartographer.bibtex_to_atlas-131"><span class="linenos">131</span></a>        <span class="c1"># Construct atlas</span>
+</span><span id="Cartographer.bibtex_to_atlas-132"><a href="#Cartographer.bibtex_to_atlas-132"><span class="linenos">132</span></a>        <span class="n">atl</span> <span class="o">=</span> <span class="n">Atlas</span><span class="p">(</span><span class="n">publications</span><span class="p">)</span>
+</span><span id="Cartographer.bibtex_to_atlas-133"><a href="#Cartographer.bibtex_to_atlas-133"><span class="linenos">133</span></a>        <span class="k">return</span> <span class="n">atl</span>
 </span></pre></div>
 
 
@@ -816,76 +1713,88 @@ <h6 id="arguments">Arguments:</h6>
 <div class="attr function">
             
         <span class="def">def</span>
-        <span class="name">project</span><span class="signature pdoc-code condensed">(<span class="param"><span class="bp">self</span>, </span><span class="param"><span class="n">atl</span><span class="p">:</span> <span class="n"><a href="atlas.html#Atlas">sciterra.mapping.atlas.Atlas</a></span></span><span class="return-annotation">) -> <span class="n"><a href="atlas.html#Atlas">sciterra.mapping.atlas.Atlas</a></span>:</span></span>
+        <span class="name">project</span><span class="signature pdoc-code multiline">(<span class="param">	<span class="bp">self</span>,</span><span class="param">	<span class="n">atl</span><span class="p">:</span> <span class="n"><a href="atlas.html#Atlas">sciterra.mapping.atlas.Atlas</a></span>,</span><span class="param">	<span class="o">**</span><span class="n">kwargs</span></span><span class="return-annotation">) -> <span class="n"><a href="atlas.html#Atlas">sciterra.mapping.atlas.Atlas</a></span>:</span></span>
 
                 <label class="view-source-button" for="Cartographer.project-view-source"><span>View Source</span></label>
 
     </div>
     <a class="headerlink" href="#Cartographer.project"></a>
-            <div class="pdoc-code codehilite"><pre><span></span><span id="Cartographer.project-82"><a href="#Cartographer.project-82"><span class="linenos"> 82</span></a>    <span class="k">def</span> <span class="nf">project</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">atl</span><span class="p">:</span> <span class="n">Atlas</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Atlas</span><span class="p">:</span>
-</span><span id="Cartographer.project-83"><a href="#Cartographer.project-83"><span class="linenos"> 83</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Update an atlas with its projection, i.e. the document embeddings for all publications using `self.vectorizer`, removing publications with no abstracts.</span>
-</span><span id="Cartographer.project-84"><a href="#Cartographer.project-84"><span class="linenos"> 84</span></a>
-</span><span id="Cartographer.project-85"><a href="#Cartographer.project-85"><span class="linenos"> 85</span></a><span class="sd">        Args:</span>
-</span><span id="Cartographer.project-86"><a href="#Cartographer.project-86"><span class="linenos"> 86</span></a><span class="sd">            atl: the Atlas containing publications to project to document embeddings</span>
-</span><span id="Cartographer.project-87"><a href="#Cartographer.project-87"><span class="linenos"> 87</span></a>
-</span><span id="Cartographer.project-88"><a href="#Cartographer.project-88"><span class="linenos"> 88</span></a><span class="sd">        Returns:</span>
-</span><span id="Cartographer.project-89"><a href="#Cartographer.project-89"><span class="linenos"> 89</span></a><span class="sd">            the updated atlas containing all nonempty-abstract-containing publications and their projection</span>
-</span><span id="Cartographer.project-90"><a href="#Cartographer.project-90"><span class="linenos"> 90</span></a><span class="sd">        &quot;&quot;&quot;</span>
-</span><span id="Cartographer.project-91"><a href="#Cartographer.project-91"><span class="linenos"> 91</span></a>        <span class="c1"># Only project publications that have abstracts</span>
-</span><span id="Cartographer.project-92"><a href="#Cartographer.project-92"><span class="linenos"> 92</span></a>        <span class="n">atl_filtered</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">filter</span><span class="p">(</span><span class="n">atl</span><span class="p">,</span> <span class="n">attributes</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;abstract&quot;</span><span class="p">])</span>
-</span><span id="Cartographer.project-93"><a href="#Cartographer.project-93"><span class="linenos"> 93</span></a>        <span class="n">invalid</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">atl</span><span class="p">)</span> <span class="o">-</span> <span class="nb">len</span><span class="p">(</span><span class="n">atl_filtered</span><span class="p">)</span>
-</span><span id="Cartographer.project-94"><a href="#Cartographer.project-94"><span class="linenos"> 94</span></a>        <span class="k">if</span> <span class="n">invalid</span><span class="p">:</span>
-</span><span id="Cartographer.project-95"><a href="#Cartographer.project-95"><span class="linenos"> 95</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
-</span><span id="Cartographer.project-96"><a href="#Cartographer.project-96"><span class="linenos"> 96</span></a>                <span class="sa">f</span><span class="s2">&quot;Some abstracts were not available. Found </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">atl_filtered</span><span class="p">)</span><span class="si">}</span><span class="s2"> nonempty abstracts out of </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">publications</span><span class="p">)</span><span class="si">}</span><span class="s2"> total publications.&quot;</span>
-</span><span id="Cartographer.project-97"><a href="#Cartographer.project-97"><span class="linenos"> 97</span></a>            <span class="p">)</span>
-</span><span id="Cartographer.project-98"><a href="#Cartographer.project-98"><span class="linenos"> 98</span></a>
-</span><span id="Cartographer.project-99"><a href="#Cartographer.project-99"><span class="linenos"> 99</span></a>        <span class="c1"># Project</span>
-</span><span id="Cartographer.project-100"><a href="#Cartographer.project-100"><span class="linenos">100</span></a>        <span class="n">embeddings</span> <span class="o">=</span> <span class="kc">None</span>
-</span><span id="Cartographer.project-101"><a href="#Cartographer.project-101"><span class="linenos">101</span></a>        <span class="c1"># get only embeddings for publications not already projected in atlas</span>
-</span><span id="Cartographer.project-102"><a href="#Cartographer.project-102"><span class="linenos">102</span></a>        <span class="n">previously_embedded_ids</span> <span class="o">=</span> <span class="p">[]</span>
-</span><span id="Cartographer.project-103"><a href="#Cartographer.project-103"><span class="linenos">103</span></a>        <span class="k">if</span> <span class="n">atl_filtered</span><span class="o">.</span><span class="n">projection</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="Cartographer.project-104"><a href="#Cartographer.project-104"><span class="linenos">104</span></a>            <span class="n">previously_embedded_ids</span> <span class="o">=</span> <span class="n">atl_filtered</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">identifier_to_index</span>
-</span><span id="Cartographer.project-105"><a href="#Cartographer.project-105"><span class="linenos">105</span></a>        <span class="n">embed_ids</span> <span class="o">=</span> <span class="p">[</span>
-</span><span id="Cartographer.project-106"><a href="#Cartographer.project-106"><span class="linenos">106</span></a>            <span class="nb">id</span> <span class="k">for</span> <span class="nb">id</span> <span class="ow">in</span> <span class="n">atl_filtered</span><span class="o">.</span><span class="n">publications</span> <span class="k">if</span> <span class="nb">id</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">previously_embedded_ids</span>
-</span><span id="Cartographer.project-107"><a href="#Cartographer.project-107"><span class="linenos">107</span></a>        <span class="p">]</span>
-</span><span id="Cartographer.project-108"><a href="#Cartographer.project-108"><span class="linenos">108</span></a>
-</span><span id="Cartographer.project-109"><a href="#Cartographer.project-109"><span class="linenos">109</span></a>        <span class="c1"># Embed documents</span>
-</span><span id="Cartographer.project-110"><a href="#Cartographer.project-110"><span class="linenos">110</span></a>        <span class="k">if</span> <span class="n">embed_ids</span><span class="p">:</span>
-</span><span id="Cartographer.project-111"><a href="#Cartographer.project-111"><span class="linenos">111</span></a>            <span class="n">embeddings</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">vectorizer</span><span class="o">.</span><span class="n">embed_documents</span><span class="p">(</span>
-</span><span id="Cartographer.project-112"><a href="#Cartographer.project-112"><span class="linenos">112</span></a>                <span class="p">[</span><span class="n">atl_filtered</span><span class="p">[</span><span class="nb">id</span><span class="p">]</span><span class="o">.</span><span class="n">abstract</span> <span class="k">for</span> <span class="nb">id</span> <span class="ow">in</span> <span class="n">embed_ids</span><span class="p">]</span>
-</span><span id="Cartographer.project-113"><a href="#Cartographer.project-113"><span class="linenos">113</span></a>            <span class="p">)</span>
-</span><span id="Cartographer.project-114"><a href="#Cartographer.project-114"><span class="linenos">114</span></a>        <span class="k">if</span> <span class="n">embeddings</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="Cartographer.project-115"><a href="#Cartographer.project-115"><span class="linenos">115</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Obtained no new publication embeddings.&quot;</span><span class="p">)</span>
-</span><span id="Cartographer.project-116"><a href="#Cartographer.project-116"><span class="linenos">116</span></a>
-</span><span id="Cartographer.project-117"><a href="#Cartographer.project-117"><span class="linenos">117</span></a>        <span class="c1"># create new projection</span>
-</span><span id="Cartographer.project-118"><a href="#Cartographer.project-118"><span class="linenos">118</span></a>        <span class="n">projection</span> <span class="o">=</span> <span class="n">Projection</span><span class="p">(</span>
-</span><span id="Cartographer.project-119"><a href="#Cartographer.project-119"><span class="linenos">119</span></a>            <span class="n">identifier_to_index</span><span class="o">=</span><span class="p">{</span>
-</span><span id="Cartographer.project-120"><a href="#Cartographer.project-120"><span class="linenos">120</span></a>                <span class="n">identifier</span><span class="p">:</span> <span class="n">idx</span> <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">identifier</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">embed_ids</span><span class="p">)</span>
-</span><span id="Cartographer.project-121"><a href="#Cartographer.project-121"><span class="linenos">121</span></a>            <span class="p">},</span>
-</span><span id="Cartographer.project-122"><a href="#Cartographer.project-122"><span class="linenos">122</span></a>            <span class="n">index_to_identifier</span><span class="o">=</span><span class="nb">tuple</span><span class="p">(</span><span class="n">embed_ids</span><span class="p">),</span>
-</span><span id="Cartographer.project-123"><a href="#Cartographer.project-123"><span class="linenos">123</span></a>            <span class="n">embeddings</span><span class="o">=</span><span class="n">embeddings</span><span class="p">,</span>
-</span><span id="Cartographer.project-124"><a href="#Cartographer.project-124"><span class="linenos">124</span></a>        <span class="p">)</span>
-</span><span id="Cartographer.project-125"><a href="#Cartographer.project-125"><span class="linenos">125</span></a>        <span class="c1"># merge existing projection with new projection</span>
-</span><span id="Cartographer.project-126"><a href="#Cartographer.project-126"><span class="linenos">126</span></a>        <span class="n">merged_projection</span> <span class="o">=</span> <span class="n">merge</span><span class="p">(</span><span class="n">atl_filtered</span><span class="o">.</span><span class="n">projection</span><span class="p">,</span> <span class="n">projection</span><span class="p">)</span>
-</span><span id="Cartographer.project-127"><a href="#Cartographer.project-127"><span class="linenos">127</span></a>
-</span><span id="Cartographer.project-128"><a href="#Cartographer.project-128"><span class="linenos">128</span></a>        <span class="c1"># prepare to overwrite atlas with publications corresponding to updated (merged) projection</span>
-</span><span id="Cartographer.project-129"><a href="#Cartographer.project-129"><span class="linenos">129</span></a>        <span class="n">embedded_publications</span> <span class="o">=</span> <span class="p">{</span>
-</span><span id="Cartographer.project-130"><a href="#Cartographer.project-130"><span class="linenos">130</span></a>            <span class="nb">id</span><span class="p">:</span> <span class="n">pub</span>
-</span><span id="Cartographer.project-131"><a href="#Cartographer.project-131"><span class="linenos">131</span></a>            <span class="k">for</span> <span class="nb">id</span><span class="p">,</span> <span class="n">pub</span> <span class="ow">in</span> <span class="n">atl_filtered</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">items</span><span class="p">()</span>
-</span><span id="Cartographer.project-132"><a href="#Cartographer.project-132"><span class="linenos">132</span></a>            <span class="k">if</span> <span class="nb">id</span> <span class="ow">in</span> <span class="n">merged_projection</span><span class="o">.</span><span class="n">identifier_to_index</span>
-</span><span id="Cartographer.project-133"><a href="#Cartographer.project-133"><span class="linenos">133</span></a>        <span class="p">}</span>
-</span><span id="Cartographer.project-134"><a href="#Cartographer.project-134"><span class="linenos">134</span></a>        <span class="n">invalid</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">atl_filtered</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span> <span class="o">-</span> <span class="nb">set</span><span class="p">(</span>
-</span><span id="Cartographer.project-135"><a href="#Cartographer.project-135"><span class="linenos">135</span></a>            <span class="n">embedded_publications</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span>
-</span><span id="Cartographer.project-136"><a href="#Cartographer.project-136"><span class="linenos">136</span></a>        <span class="p">)</span>
-</span><span id="Cartographer.project-137"><a href="#Cartographer.project-137"><span class="linenos">137</span></a>        <span class="k">if</span> <span class="n">invalid</span><span class="p">:</span>
-</span><span id="Cartographer.project-138"><a href="#Cartographer.project-138"><span class="linenos">138</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
-</span><span id="Cartographer.project-139"><a href="#Cartographer.project-139"><span class="linenos">139</span></a>                <span class="sa">f</span><span class="s2">&quot;Removing </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">invalid</span><span class="p">)</span><span class="si">}</span><span class="s2"> publications from atlas after projection.&quot;</span>
-</span><span id="Cartographer.project-140"><a href="#Cartographer.project-140"><span class="linenos">140</span></a>            <span class="p">)</span>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="Cartographer.project-139"><a href="#Cartographer.project-139"><span class="linenos">139</span></a>    <span class="k">def</span> <span class="nf">project</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">atl</span><span class="p">:</span> <span class="n">Atlas</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Atlas</span><span class="p">:</span>
+</span><span id="Cartographer.project-140"><a href="#Cartographer.project-140"><span class="linenos">140</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Update an atlas with its projection, i.e. the document embeddings for all publications using `self.vectorizer`, removing publications with no abstracts.</span>
 </span><span id="Cartographer.project-141"><a href="#Cartographer.project-141"><span class="linenos">141</span></a>
-</span><span id="Cartographer.project-142"><a href="#Cartographer.project-142"><span class="linenos">142</span></a>        <span class="c1"># Overwrite atlas data</span>
-</span><span id="Cartographer.project-143"><a href="#Cartographer.project-143"><span class="linenos">143</span></a>        <span class="n">atl_filtered</span><span class="o">.</span><span class="n">publications</span> <span class="o">=</span> <span class="n">embedded_publications</span>
-</span><span id="Cartographer.project-144"><a href="#Cartographer.project-144"><span class="linenos">144</span></a>        <span class="n">atl_filtered</span><span class="o">.</span><span class="n">projection</span> <span class="o">=</span> <span class="n">merged_projection</span>
-</span><span id="Cartographer.project-145"><a href="#Cartographer.project-145"><span class="linenos">145</span></a>        <span class="k">return</span> <span class="n">atl_filtered</span>
+</span><span id="Cartographer.project-142"><a href="#Cartographer.project-142"><span class="linenos">142</span></a><span class="sd">        Args:</span>
+</span><span id="Cartographer.project-143"><a href="#Cartographer.project-143"><span class="linenos">143</span></a><span class="sd">            atl: the Atlas containing publications to project to document embeddings</span>
+</span><span id="Cartographer.project-144"><a href="#Cartographer.project-144"><span class="linenos">144</span></a>
+</span><span id="Cartographer.project-145"><a href="#Cartographer.project-145"><span class="linenos">145</span></a><span class="sd">        Returns:</span>
+</span><span id="Cartographer.project-146"><a href="#Cartographer.project-146"><span class="linenos">146</span></a><span class="sd">            the updated atlas containing all nonempty-abstract-containing publications and their projection</span>
+</span><span id="Cartographer.project-147"><a href="#Cartographer.project-147"><span class="linenos">147</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="Cartographer.project-148"><a href="#Cartographer.project-148"><span class="linenos">148</span></a>        <span class="n">verbose</span> <span class="o">=</span> <span class="n">get_verbose</span><span class="p">(</span><span class="n">kwargs</span><span class="p">)</span>
+</span><span id="Cartographer.project-149"><a href="#Cartographer.project-149"><span class="linenos">149</span></a>
+</span><span id="Cartographer.project-150"><a href="#Cartographer.project-150"><span class="linenos">150</span></a>        <span class="c1"># Only project publications that have abstracts and publication dates</span>
+</span><span id="Cartographer.project-151"><a href="#Cartographer.project-151"><span class="linenos">151</span></a>        <span class="n">atl_filtered</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">filter_by_attributes</span><span class="p">(</span><span class="n">atl</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+</span><span id="Cartographer.project-152"><a href="#Cartographer.project-152"><span class="linenos">152</span></a>        <span class="n">num_empty</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">atl</span><span class="p">)</span> <span class="o">-</span> <span class="nb">len</span><span class="p">(</span><span class="n">atl_filtered</span><span class="p">)</span>
+</span><span id="Cartographer.project-153"><a href="#Cartographer.project-153"><span class="linenos">153</span></a>        <span class="k">if</span> <span class="n">num_empty</span> <span class="ow">and</span> <span class="n">verbose</span><span class="p">:</span>
+</span><span id="Cartographer.project-154"><a href="#Cartographer.project-154"><span class="linenos">154</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+</span><span id="Cartographer.project-155"><a href="#Cartographer.project-155"><span class="linenos">155</span></a>                <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">num_empty</span><span class="si">}</span><span class="s2"> publications were filtered due to missing crucial data. There are now </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">atl_filtered</span><span class="o">.</span><span class="n">bad_ids</span><span class="p">)</span><span class="si">}</span><span class="s2"> total ids that will be excluded in the future.&quot;</span>
+</span><span id="Cartographer.project-156"><a href="#Cartographer.project-156"><span class="linenos">156</span></a>            <span class="p">)</span>
+</span><span id="Cartographer.project-157"><a href="#Cartographer.project-157"><span class="linenos">157</span></a>
+</span><span id="Cartographer.project-158"><a href="#Cartographer.project-158"><span class="linenos">158</span></a>        <span class="c1"># Project</span>
+</span><span id="Cartographer.project-159"><a href="#Cartographer.project-159"><span class="linenos">159</span></a>        <span class="n">embeddings</span> <span class="o">=</span> <span class="kc">None</span>
+</span><span id="Cartographer.project-160"><a href="#Cartographer.project-160"><span class="linenos">160</span></a>        <span class="c1"># get only embeddings for publications not already projected in atlas</span>
+</span><span id="Cartographer.project-161"><a href="#Cartographer.project-161"><span class="linenos">161</span></a>        <span class="n">previously_embedded_ids</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="Cartographer.project-162"><a href="#Cartographer.project-162"><span class="linenos">162</span></a>        <span class="k">if</span> <span class="n">atl_filtered</span><span class="o">.</span><span class="n">projection</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Cartographer.project-163"><a href="#Cartographer.project-163"><span class="linenos">163</span></a>            <span class="n">previously_embedded_ids</span> <span class="o">=</span> <span class="n">atl_filtered</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">identifier_to_index</span>
+</span><span id="Cartographer.project-164"><a href="#Cartographer.project-164"><span class="linenos">164</span></a>        <span class="n">embed_ids</span> <span class="o">=</span> <span class="p">[</span>
+</span><span id="Cartographer.project-165"><a href="#Cartographer.project-165"><span class="linenos">165</span></a>            <span class="nb">id</span> <span class="k">for</span> <span class="nb">id</span> <span class="ow">in</span> <span class="n">atl_filtered</span><span class="o">.</span><span class="n">publications</span> <span class="k">if</span> <span class="nb">id</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">previously_embedded_ids</span>
+</span><span id="Cartographer.project-166"><a href="#Cartographer.project-166"><span class="linenos">166</span></a>        <span class="p">]</span>
+</span><span id="Cartographer.project-167"><a href="#Cartographer.project-167"><span class="linenos">167</span></a>
+</span><span id="Cartographer.project-168"><a href="#Cartographer.project-168"><span class="linenos">168</span></a>        <span class="k">if</span> <span class="n">embed_ids</span><span class="p">:</span>
+</span><span id="Cartographer.project-169"><a href="#Cartographer.project-169"><span class="linenos">169</span></a>            <span class="k">if</span> <span class="n">verbose</span><span class="p">:</span>
+</span><span id="Cartographer.project-170"><a href="#Cartographer.project-170"><span class="linenos">170</span></a>                <span class="k">if</span> <span class="n">atl_filtered</span><span class="o">.</span><span class="n">projection</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Cartographer.project-171"><a href="#Cartographer.project-171"><span class="linenos">171</span></a>                    <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+</span><span id="Cartographer.project-172"><a href="#Cartographer.project-172"><span class="linenos">172</span></a>                        <span class="sa">f</span><span class="s2">&quot;Found </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">atl_filtered</span><span class="o">.</span><span class="n">publications</span><span class="p">)</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="nb">len</span><span class="p">(</span><span class="n">atl_filtered</span><span class="o">.</span><span class="n">projection</span><span class="p">)</span><span class="si">}</span><span class="s2"> publications not contained in Atlas projection.&quot;</span>
+</span><span id="Cartographer.project-173"><a href="#Cartographer.project-173"><span class="linenos">173</span></a>                    <span class="p">)</span>
+</span><span id="Cartographer.project-174"><a href="#Cartographer.project-174"><span class="linenos">174</span></a>                <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Embedding </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">embed_ids</span><span class="p">)</span><span class="si">}</span><span class="s2"> total documents.&quot;</span><span class="p">)</span>
+</span><span id="Cartographer.project-175"><a href="#Cartographer.project-175"><span class="linenos">175</span></a>            <span class="c1"># Embed documents</span>
+</span><span id="Cartographer.project-176"><a href="#Cartographer.project-176"><span class="linenos">176</span></a>            <span class="n">result</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">vectorizer</span><span class="o">.</span><span class="n">embed_documents</span><span class="p">(</span>
+</span><span id="Cartographer.project-177"><a href="#Cartographer.project-177"><span class="linenos">177</span></a>                <span class="p">[</span><span class="n">atl_filtered</span><span class="p">[</span><span class="nb">id</span><span class="p">]</span><span class="o">.</span><span class="n">abstract</span> <span class="k">for</span> <span class="nb">id</span> <span class="ow">in</span> <span class="n">embed_ids</span><span class="p">]</span>
+</span><span id="Cartographer.project-178"><a href="#Cartographer.project-178"><span class="linenos">178</span></a>            <span class="p">)</span>
+</span><span id="Cartographer.project-179"><a href="#Cartographer.project-179"><span class="linenos">179</span></a>            <span class="n">embeddings</span> <span class="o">=</span> <span class="n">result</span><span class="p">[</span><span class="s2">&quot;embeddings&quot;</span><span class="p">]</span>
+</span><span id="Cartographer.project-180"><a href="#Cartographer.project-180"><span class="linenos">180</span></a>            <span class="n">successful_indices</span> <span class="o">=</span> <span class="n">result</span><span class="p">[</span><span class="s2">&quot;indices&quot;</span><span class="p">]</span>
+</span><span id="Cartographer.project-181"><a href="#Cartographer.project-181"><span class="linenos">181</span></a>
+</span><span id="Cartographer.project-182"><a href="#Cartographer.project-182"><span class="linenos">182</span></a>            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">successful_indices</span><span class="p">)</span> <span class="o">&lt;</span> <span class="nb">len</span><span class="p">(</span><span class="n">embed_ids</span><span class="p">)</span> <span class="ow">and</span> <span class="n">verbose</span><span class="p">:</span>
+</span><span id="Cartographer.project-183"><a href="#Cartographer.project-183"><span class="linenos">183</span></a>                <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Failed to get embeddings for all </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">embed_ids</span><span class="p">)</span><span class="si">}</span><span class="s2"> publications; only </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">embeddings</span><span class="p">)</span><span class="si">}</span><span class="s2"> will be added to the Atlas.&quot;</span><span class="p">)</span>
+</span><span id="Cartographer.project-184"><a href="#Cartographer.project-184"><span class="linenos">184</span></a>
+</span><span id="Cartographer.project-185"><a href="#Cartographer.project-185"><span class="linenos">185</span></a>            <span class="n">successful_ids</span> <span class="o">=</span> <span class="p">[</span><span class="nb">id</span> <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="nb">id</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">embed_ids</span><span class="p">)</span> <span class="k">if</span> <span class="n">i</span> <span class="ow">in</span> <span class="n">successful_indices</span><span class="p">]</span>
+</span><span id="Cartographer.project-186"><a href="#Cartographer.project-186"><span class="linenos">186</span></a>
+</span><span id="Cartographer.project-187"><a href="#Cartographer.project-187"><span class="linenos">187</span></a>            <span class="c1"># create new projection</span>
+</span><span id="Cartographer.project-188"><a href="#Cartographer.project-188"><span class="linenos">188</span></a>            <span class="n">projection</span> <span class="o">=</span> <span class="n">Projection</span><span class="p">(</span>
+</span><span id="Cartographer.project-189"><a href="#Cartographer.project-189"><span class="linenos">189</span></a>                <span class="n">identifier_to_index</span><span class="o">=</span><span class="p">{</span>
+</span><span id="Cartographer.project-190"><a href="#Cartographer.project-190"><span class="linenos">190</span></a>                    <span class="n">identifier</span><span class="p">:</span> <span class="n">idx</span> <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">identifier</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">successful_ids</span><span class="p">)</span>
+</span><span id="Cartographer.project-191"><a href="#Cartographer.project-191"><span class="linenos">191</span></a>                <span class="p">},</span>
+</span><span id="Cartographer.project-192"><a href="#Cartographer.project-192"><span class="linenos">192</span></a>                <span class="n">index_to_identifier</span><span class="o">=</span><span class="nb">tuple</span><span class="p">(</span><span class="n">successful_ids</span><span class="p">),</span>
+</span><span id="Cartographer.project-193"><a href="#Cartographer.project-193"><span class="linenos">193</span></a>                <span class="n">embeddings</span><span class="o">=</span><span class="n">embeddings</span><span class="p">,</span>
+</span><span id="Cartographer.project-194"><a href="#Cartographer.project-194"><span class="linenos">194</span></a>            <span class="p">)</span>
+</span><span id="Cartographer.project-195"><a href="#Cartographer.project-195"><span class="linenos">195</span></a>
+</span><span id="Cartographer.project-196"><a href="#Cartographer.project-196"><span class="linenos">196</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">embed_ids</span> <span class="ow">or</span> <span class="n">embed_ids</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">verbose</span><span class="p">:</span>
+</span><span id="Cartographer.project-197"><a href="#Cartographer.project-197"><span class="linenos">197</span></a>            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Obtained no new publication embeddings.&quot;</span><span class="p">)</span>
+</span><span id="Cartographer.project-198"><a href="#Cartographer.project-198"><span class="linenos">198</span></a>            <span class="n">projection</span> <span class="o">=</span> <span class="n">get_empty_projection</span><span class="p">()</span>
+</span><span id="Cartographer.project-199"><a href="#Cartographer.project-199"><span class="linenos">199</span></a>
+</span><span id="Cartographer.project-200"><a href="#Cartographer.project-200"><span class="linenos">200</span></a>        <span class="c1"># merge existing projection with new projection</span>
+</span><span id="Cartographer.project-201"><a href="#Cartographer.project-201"><span class="linenos">201</span></a>        <span class="n">merged_projection</span> <span class="o">=</span> <span class="n">merge</span><span class="p">(</span><span class="n">atl_filtered</span><span class="o">.</span><span class="n">projection</span><span class="p">,</span> <span class="n">projection</span><span class="p">)</span>
+</span><span id="Cartographer.project-202"><a href="#Cartographer.project-202"><span class="linenos">202</span></a>
+</span><span id="Cartographer.project-203"><a href="#Cartographer.project-203"><span class="linenos">203</span></a>        <span class="c1"># prepare to overwrite atlas with publications corresponding to updated (merged) projection</span>
+</span><span id="Cartographer.project-204"><a href="#Cartographer.project-204"><span class="linenos">204</span></a>        <span class="n">embedded_publications</span> <span class="o">=</span> <span class="p">{</span>
+</span><span id="Cartographer.project-205"><a href="#Cartographer.project-205"><span class="linenos">205</span></a>            <span class="nb">id</span><span class="p">:</span> <span class="n">pub</span>
+</span><span id="Cartographer.project-206"><a href="#Cartographer.project-206"><span class="linenos">206</span></a>            <span class="k">for</span> <span class="nb">id</span><span class="p">,</span> <span class="n">pub</span> <span class="ow">in</span> <span class="n">atl_filtered</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">items</span><span class="p">()</span>
+</span><span id="Cartographer.project-207"><a href="#Cartographer.project-207"><span class="linenos">207</span></a>            <span class="k">if</span> <span class="nb">id</span> <span class="ow">in</span> <span class="n">merged_projection</span><span class="o">.</span><span class="n">identifier_to_index</span>
+</span><span id="Cartographer.project-208"><a href="#Cartographer.project-208"><span class="linenos">208</span></a>        <span class="p">}</span>
+</span><span id="Cartographer.project-209"><a href="#Cartographer.project-209"><span class="linenos">209</span></a>        <span class="k">assert</span> <span class="ow">not</span> <span class="nb">set</span><span class="p">(</span><span class="n">atl_filtered</span><span class="o">.</span><span class="n">ids</span><span class="p">())</span> <span class="o">-</span> <span class="nb">set</span><span class="p">(</span><span class="n">embedded_publications</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
+</span><span id="Cartographer.project-210"><a href="#Cartographer.project-210"><span class="linenos">210</span></a>
+</span><span id="Cartographer.project-211"><a href="#Cartographer.project-211"><span class="linenos">211</span></a>        <span class="c1"># Overwrite atlas data</span>
+</span><span id="Cartographer.project-212"><a href="#Cartographer.project-212"><span class="linenos">212</span></a>        <span class="n">atl_filtered</span><span class="o">.</span><span class="n">publications</span> <span class="o">=</span> <span class="n">embedded_publications</span>
+</span><span id="Cartographer.project-213"><a href="#Cartographer.project-213"><span class="linenos">213</span></a>        <span class="n">atl_filtered</span><span class="o">.</span><span class="n">projection</span> <span class="o">=</span> <span class="n">merged_projection</span>
+</span><span id="Cartographer.project-214"><a href="#Cartographer.project-214"><span class="linenos">214</span></a>        <span class="k">return</span> <span class="n">atl_filtered</span>
 </span></pre></div>
 
 
@@ -911,90 +1820,99 @@ <h6 id="returns">Returns:</h6>
 <div class="attr function">
             
         <span class="def">def</span>
-        <span class="name">expand</span><span class="signature pdoc-code multiline">(<span class="param">	<span class="bp">self</span>,</span><span class="param">	<span class="n">atl</span><span class="p">:</span> <span class="n"><a href="atlas.html#Atlas">sciterra.mapping.atlas.Atlas</a></span>,</span><span class="param">	<span class="n">center</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span>,</span><span class="param">	<span class="n">n_pubs_max</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">4000</span>,</span><span class="param">	<span class="n">n_sources_max</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="kc">None</span></span><span class="return-annotation">) -> <span class="n"><a href="atlas.html#Atlas">sciterra.mapping.atlas.Atlas</a></span>:</span></span>
+        <span class="name">expand</span><span class="signature pdoc-code multiline">(<span class="param">	<span class="bp">self</span>,</span><span class="param">	<span class="n">atl</span><span class="p">:</span> <span class="n"><a href="atlas.html#Atlas">sciterra.mapping.atlas.Atlas</a></span>,</span><span class="param">	<span class="o">*</span><span class="n">args</span>,</span><span class="param">	<span class="n">center</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span>,</span><span class="param">	<span class="n">n_pubs_max</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">4000</span>,</span><span class="param">	<span class="n">n_sources_max</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="kc">None</span>,</span><span class="param">	<span class="n">record_pubs_per_update</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span>,</span><span class="param">	<span class="o">**</span><span class="n">kwargs</span></span><span class="return-annotation">) -> <span class="n"><a href="atlas.html#Atlas">sciterra.mapping.atlas.Atlas</a></span>:</span></span>
 
                 <label class="view-source-button" for="Cartographer.expand-view-source"><span>View Source</span></label>
 
     </div>
     <a class="headerlink" href="#Cartographer.expand"></a>
-            <div class="pdoc-code codehilite"><pre><span></span><span id="Cartographer.expand-151"><a href="#Cartographer.expand-151"><span class="linenos">151</span></a>    <span class="k">def</span> <span class="nf">expand</span><span class="p">(</span>
-</span><span id="Cartographer.expand-152"><a href="#Cartographer.expand-152"><span class="linenos">152</span></a>        <span class="bp">self</span><span class="p">,</span>
-</span><span id="Cartographer.expand-153"><a href="#Cartographer.expand-153"><span class="linenos">153</span></a>        <span class="n">atl</span><span class="p">:</span> <span class="n">Atlas</span><span class="p">,</span>
-</span><span id="Cartographer.expand-154"><a href="#Cartographer.expand-154"><span class="linenos">154</span></a>        <span class="n">center</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-</span><span id="Cartographer.expand-155"><a href="#Cartographer.expand-155"><span class="linenos">155</span></a>        <span class="n">n_pubs_max</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">4000</span><span class="p">,</span>
-</span><span id="Cartographer.expand-156"><a href="#Cartographer.expand-156"><span class="linenos">156</span></a>        <span class="n">n_sources_max</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-</span><span id="Cartographer.expand-157"><a href="#Cartographer.expand-157"><span class="linenos">157</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Atlas</span><span class="p">:</span>
-</span><span id="Cartographer.expand-158"><a href="#Cartographer.expand-158"><span class="linenos">158</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Expand an atlas by retrieving a list of publications resulting from traversal of the citation network.</span>
-</span><span id="Cartographer.expand-159"><a href="#Cartographer.expand-159"><span class="linenos">159</span></a>
-</span><span id="Cartographer.expand-160"><a href="#Cartographer.expand-160"><span class="linenos">160</span></a><span class="sd">        Args:</span>
-</span><span id="Cartographer.expand-161"><a href="#Cartographer.expand-161"><span class="linenos">161</span></a><span class="sd">            atl: the atlas containing the region to expand</span>
-</span><span id="Cartographer.expand-162"><a href="#Cartographer.expand-162"><span class="linenos">162</span></a>
-</span><span id="Cartographer.expand-163"><a href="#Cartographer.expand-163"><span class="linenos">163</span></a><span class="sd">            center: (if given) center the search on this publication, preferentially searching related publications.</span>
-</span><span id="Cartographer.expand-164"><a href="#Cartographer.expand-164"><span class="linenos">164</span></a>
-</span><span id="Cartographer.expand-165"><a href="#Cartographer.expand-165"><span class="linenos">165</span></a><span class="sd">            n_pubs_max: maximum number of publications allowed in the expansion.</span>
-</span><span id="Cartographer.expand-166"><a href="#Cartographer.expand-166"><span class="linenos">166</span></a>
-</span><span id="Cartographer.expand-167"><a href="#Cartographer.expand-167"><span class="linenos">167</span></a><span class="sd">            n_sources_max: maximum number of publications (already in the atlas) to draw references and citations from.</span>
-</span><span id="Cartographer.expand-168"><a href="#Cartographer.expand-168"><span class="linenos">168</span></a>
-</span><span id="Cartographer.expand-169"><a href="#Cartographer.expand-169"><span class="linenos">169</span></a><span class="sd">        Returns:</span>
-</span><span id="Cartographer.expand-170"><a href="#Cartographer.expand-170"><span class="linenos">170</span></a><span class="sd">            atl_expanded: the expanded atlas</span>
-</span><span id="Cartographer.expand-171"><a href="#Cartographer.expand-171"><span class="linenos">171</span></a><span class="sd">        &quot;&quot;&quot;</span>
-</span><span id="Cartographer.expand-172"><a href="#Cartographer.expand-172"><span class="linenos">172</span></a>        <span class="n">existing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
-</span><span id="Cartographer.expand-173"><a href="#Cartographer.expand-173"><span class="linenos">173</span></a>        <span class="n">expand_keys</span> <span class="o">=</span> <span class="n">existing_keys</span>
-</span><span id="Cartographer.expand-174"><a href="#Cartographer.expand-174"><span class="linenos">174</span></a>        <span class="k">if</span> <span class="n">center</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="Cartographer.expand-175"><a href="#Cartographer.expand-175"><span class="linenos">175</span></a>            <span class="k">if</span> <span class="n">atl</span><span class="o">.</span><span class="n">projection</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="Cartographer.expand-176"><a href="#Cartographer.expand-176"><span class="linenos">176</span></a>                <span class="n">atl</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">project</span><span class="p">(</span><span class="n">atl</span><span class="p">)</span>
-</span><span id="Cartographer.expand-177"><a href="#Cartographer.expand-177"><span class="linenos">177</span></a>
-</span><span id="Cartographer.expand-178"><a href="#Cartographer.expand-178"><span class="linenos">178</span></a>            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="p">):</span>
-</span><span id="Cartographer.expand-179"><a href="#Cartographer.expand-179"><span class="linenos">179</span></a>                <span class="c1"># cosine similarity matrix</span>
-</span><span id="Cartographer.expand-180"><a href="#Cartographer.expand-180"><span class="linenos">180</span></a>                <span class="n">cospsi_matrix</span> <span class="o">=</span> <span class="n">cosine_similarity</span><span class="p">(</span>
-</span><span id="Cartographer.expand-181"><a href="#Cartographer.expand-181"><span class="linenos">181</span></a>                    <span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">identifiers_to_embeddings</span><span class="p">([</span><span class="n">center</span><span class="p">]),</span>
-</span><span id="Cartographer.expand-182"><a href="#Cartographer.expand-182"><span class="linenos">182</span></a>                    <span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">embeddings</span><span class="p">,</span>
-</span><span id="Cartographer.expand-183"><a href="#Cartographer.expand-183"><span class="linenos">183</span></a>                <span class="p">)</span>
-</span><span id="Cartographer.expand-184"><a href="#Cartographer.expand-184"><span class="linenos">184</span></a>                <span class="n">sort_inds</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">argsort</span><span class="p">(</span><span class="n">cospsi_matrix</span><span class="p">)[</span><span class="mi">1</span><span class="p">:]</span>  <span class="c1"># exclude the center</span>
-</span><span id="Cartographer.expand-185"><a href="#Cartographer.expand-185"><span class="linenos">185</span></a>                <span class="n">expand_keys</span> <span class="o">=</span> <span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">indices_to_identifiers</span><span class="p">(</span><span class="n">sort_inds</span><span class="p">)</span>
-</span><span id="Cartographer.expand-186"><a href="#Cartographer.expand-186"><span class="linenos">186</span></a>
-</span><span id="Cartographer.expand-187"><a href="#Cartographer.expand-187"><span class="linenos">187</span></a>                <span class="c1"># fill expand keys to allowed capacity</span>
-</span><span id="Cartographer.expand-188"><a href="#Cartographer.expand-188"><span class="linenos">188</span></a>                <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">expand_keys</span><span class="p">)</span> <span class="o">&lt;</span> <span class="nb">len</span><span class="p">(</span><span class="n">existing_keys</span><span class="p">):</span>
-</span><span id="Cartographer.expand-189"><a href="#Cartographer.expand-189"><span class="linenos">189</span></a>                    <span class="c1"># only consider non-empty abstracts</span>
-</span><span id="Cartographer.expand-190"><a href="#Cartographer.expand-190"><span class="linenos">190</span></a>                    <span class="n">expand_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">expand_keys</span><span class="p">)</span><span class="o">.</span><span class="n">union</span><span class="p">(</span><span class="n">existing_keys</span><span class="p">)</span>
-</span><span id="Cartographer.expand-191"><a href="#Cartographer.expand-191"><span class="linenos">191</span></a>
-</span><span id="Cartographer.expand-192"><a href="#Cartographer.expand-192"><span class="linenos">192</span></a>        <span class="k">if</span> <span class="n">n_sources_max</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="Cartographer.expand-193"><a href="#Cartographer.expand-193"><span class="linenos">193</span></a>            <span class="n">expand_keys</span> <span class="o">=</span> <span class="n">expand_keys</span><span class="p">[:</span><span class="n">n_sources_max</span><span class="p">]</span>
-</span><span id="Cartographer.expand-194"><a href="#Cartographer.expand-194"><span class="linenos">194</span></a>
-</span><span id="Cartographer.expand-195"><a href="#Cartographer.expand-195"><span class="linenos">195</span></a>        <span class="c1"># Get identifiers for the expansion</span>
-</span><span id="Cartographer.expand-196"><a href="#Cartographer.expand-196"><span class="linenos">196</span></a>        <span class="c1"># For each publication corresponding to an id in `expand_keys`, collect the ids corresponding to the publication&#39;s references and citations.</span>
-</span><span id="Cartographer.expand-197"><a href="#Cartographer.expand-197"><span class="linenos">197</span></a>        <span class="n">ids</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
-</span><span id="Cartographer.expand-198"><a href="#Cartographer.expand-198"><span class="linenos">198</span></a>        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">expand_keys</span><span class="p">:</span>
-</span><span id="Cartographer.expand-199"><a href="#Cartographer.expand-199"><span class="linenos">199</span></a>            <span class="k">try</span><span class="p">:</span>
-</span><span id="Cartographer.expand-200"><a href="#Cartographer.expand-200"><span class="linenos">200</span></a>                <span class="n">ids_i</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">atl</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">references</span> <span class="o">+</span> <span class="n">atl</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">citations</span><span class="p">)</span>
-</span><span id="Cartographer.expand-201"><a href="#Cartographer.expand-201"><span class="linenos">201</span></a>            <span class="k">except</span> <span class="ne">ValueError</span> <span class="k">as</span> <span class="n">e</span><span class="p">:</span>
-</span><span id="Cartographer.expand-202"><a href="#Cartographer.expand-202"><span class="linenos">202</span></a>                <span class="nb">breakpoint</span><span class="p">()</span>
-</span><span id="Cartographer.expand-203"><a href="#Cartographer.expand-203"><span class="linenos">203</span></a>            <span class="c1"># Prune for obvious overlap</span>
-</span><span id="Cartographer.expand-204"><a href="#Cartographer.expand-204"><span class="linenos">204</span></a>            <span class="n">ids</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">ids_i</span> <span class="o">-</span> <span class="n">existing_keys</span><span class="p">)</span>
-</span><span id="Cartographer.expand-205"><a href="#Cartographer.expand-205"><span class="linenos">205</span></a>            <span class="c1"># Break when the search is centered and we&#39;re maxed out</span>
-</span><span id="Cartographer.expand-206"><a href="#Cartographer.expand-206"><span class="linenos">206</span></a>            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span> <span class="o">&gt;</span> <span class="n">n_pubs_max</span> <span class="ow">and</span> <span class="n">center</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="Cartographer.expand-207"><a href="#Cartographer.expand-207"><span class="linenos">207</span></a>                <span class="k">break</span>
-</span><span id="Cartographer.expand-208"><a href="#Cartographer.expand-208"><span class="linenos">208</span></a>        <span class="n">ids</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span>
-</span><span id="Cartographer.expand-209"><a href="#Cartographer.expand-209"><span class="linenos">209</span></a>
-</span><span id="Cartographer.expand-210"><a href="#Cartographer.expand-210"><span class="linenos">210</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">ids</span><span class="p">:</span>
-</span><span id="Cartographer.expand-211"><a href="#Cartographer.expand-211"><span class="linenos">211</span></a>            <span class="nb">print</span><span class="p">(</span><span class="s2">&quot;Overly-restrictive search, no ids to retrive.&quot;</span><span class="p">)</span>
-</span><span id="Cartographer.expand-212"><a href="#Cartographer.expand-212"><span class="linenos">212</span></a>
-</span><span id="Cartographer.expand-213"><a href="#Cartographer.expand-213"><span class="linenos">213</span></a>        <span class="c1"># Sample to account for max number of publications we want to retrieve</span>
-</span><span id="Cartographer.expand-214"><a href="#Cartographer.expand-214"><span class="linenos">214</span></a>        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span> <span class="o">&gt;</span> <span class="n">n_pubs_max</span><span class="p">:</span>
-</span><span id="Cartographer.expand-215"><a href="#Cartographer.expand-215"><span class="linenos">215</span></a>            <span class="n">ids</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">choice</span><span class="p">(</span><span class="n">ids</span><span class="p">,</span> <span class="n">n_pubs_max</span><span class="p">,</span> <span class="n">replace</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
-</span><span id="Cartographer.expand-216"><a href="#Cartographer.expand-216"><span class="linenos">216</span></a>
-</span><span id="Cartographer.expand-217"><a href="#Cartographer.expand-217"><span class="linenos">217</span></a>        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Expansion will include </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span><span class="si">}</span><span class="s2"> new publications.&quot;</span><span class="p">)</span>
-</span><span id="Cartographer.expand-218"><a href="#Cartographer.expand-218"><span class="linenos">218</span></a>
-</span><span id="Cartographer.expand-219"><a href="#Cartographer.expand-219"><span class="linenos">219</span></a>        <span class="c1"># Retrieve publications from ids using a librarian</span>
-</span><span id="Cartographer.expand-220"><a href="#Cartographer.expand-220"><span class="linenos">220</span></a>        <span class="n">new_publications</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">librarian</span><span class="o">.</span><span class="n">get_publications</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span>
-</span><span id="Cartographer.expand-221"><a href="#Cartographer.expand-221"><span class="linenos">221</span></a>
-</span><span id="Cartographer.expand-222"><a href="#Cartographer.expand-222"><span class="linenos">222</span></a>        <span class="c1"># New atlas</span>
-</span><span id="Cartographer.expand-223"><a href="#Cartographer.expand-223"><span class="linenos">223</span></a>        <span class="n">atl_exp</span> <span class="o">=</span> <span class="n">Atlas</span><span class="p">(</span><span class="n">new_publications</span><span class="p">)</span>
-</span><span id="Cartographer.expand-224"><a href="#Cartographer.expand-224"><span class="linenos">224</span></a>
-</span><span id="Cartographer.expand-225"><a href="#Cartographer.expand-225"><span class="linenos">225</span></a>        <span class="c1"># Update the new atlas</span>
-</span><span id="Cartographer.expand-226"><a href="#Cartographer.expand-226"><span class="linenos">226</span></a>        <span class="n">atl_exp</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">publications</span><span class="p">)</span>
-</span><span id="Cartographer.expand-227"><a href="#Cartographer.expand-227"><span class="linenos">227</span></a>
-</span><span id="Cartographer.expand-228"><a href="#Cartographer.expand-228"><span class="linenos">228</span></a>        <span class="k">return</span> <span class="n">atl_exp</span>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="Cartographer.expand-220"><a href="#Cartographer.expand-220"><span class="linenos">220</span></a>    <span class="k">def</span> <span class="nf">expand</span><span class="p">(</span>
+</span><span id="Cartographer.expand-221"><a href="#Cartographer.expand-221"><span class="linenos">221</span></a>        <span class="bp">self</span><span class="p">,</span>
+</span><span id="Cartographer.expand-222"><a href="#Cartographer.expand-222"><span class="linenos">222</span></a>        <span class="n">atl</span><span class="p">:</span> <span class="n">Atlas</span><span class="p">,</span>
+</span><span id="Cartographer.expand-223"><a href="#Cartographer.expand-223"><span class="linenos">223</span></a>        <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+</span><span id="Cartographer.expand-224"><a href="#Cartographer.expand-224"><span class="linenos">224</span></a>        <span class="n">center</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="Cartographer.expand-225"><a href="#Cartographer.expand-225"><span class="linenos">225</span></a>        <span class="n">n_pubs_max</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">4000</span><span class="p">,</span>
+</span><span id="Cartographer.expand-226"><a href="#Cartographer.expand-226"><span class="linenos">226</span></a>        <span class="n">n_sources_max</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="Cartographer.expand-227"><a href="#Cartographer.expand-227"><span class="linenos">227</span></a>        <span class="n">record_pubs_per_update</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+</span><span id="Cartographer.expand-228"><a href="#Cartographer.expand-228"><span class="linenos">228</span></a>        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+</span><span id="Cartographer.expand-229"><a href="#Cartographer.expand-229"><span class="linenos">229</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Atlas</span><span class="p">:</span>
+</span><span id="Cartographer.expand-230"><a href="#Cartographer.expand-230"><span class="linenos">230</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Expand an atlas by retrieving a list of publications resulting from traversal of the citation network.</span>
+</span><span id="Cartographer.expand-231"><a href="#Cartographer.expand-231"><span class="linenos">231</span></a>
+</span><span id="Cartographer.expand-232"><a href="#Cartographer.expand-232"><span class="linenos">232</span></a><span class="sd">        Args:</span>
+</span><span id="Cartographer.expand-233"><a href="#Cartographer.expand-233"><span class="linenos">233</span></a><span class="sd">            atl: the atlas containing the region to expand</span>
+</span><span id="Cartographer.expand-234"><a href="#Cartographer.expand-234"><span class="linenos">234</span></a>
+</span><span id="Cartographer.expand-235"><a href="#Cartographer.expand-235"><span class="linenos">235</span></a><span class="sd">            center: (if given) center the search on this publication, preferentially searching related publications.</span>
+</span><span id="Cartographer.expand-236"><a href="#Cartographer.expand-236"><span class="linenos">236</span></a>
+</span><span id="Cartographer.expand-237"><a href="#Cartographer.expand-237"><span class="linenos">237</span></a><span class="sd">            n_pubs_max: maximum number of publications allowed in the expansion.</span>
+</span><span id="Cartographer.expand-238"><a href="#Cartographer.expand-238"><span class="linenos">238</span></a>
+</span><span id="Cartographer.expand-239"><a href="#Cartographer.expand-239"><span class="linenos">239</span></a><span class="sd">            n_sources_max: maximum number of publications (already in the atlas) to draw references and citations from.</span>
+</span><span id="Cartographer.expand-240"><a href="#Cartographer.expand-240"><span class="linenos">240</span></a>
+</span><span id="Cartographer.expand-241"><a href="#Cartographer.expand-241"><span class="linenos">241</span></a><span class="sd">            record_pubs_per_update: whether to track all the publications that exist in the resulting atlas to `self.pubs_per_update`. This should only be set to `True` when you need to later filter by degree of convergence of the atlas.</span>
+</span><span id="Cartographer.expand-242"><a href="#Cartographer.expand-242"><span class="linenos">242</span></a>
+</span><span id="Cartographer.expand-243"><a href="#Cartographer.expand-243"><span class="linenos">243</span></a><span class="sd">        Returns:</span>
+</span><span id="Cartographer.expand-244"><a href="#Cartographer.expand-244"><span class="linenos">244</span></a><span class="sd">            atl_expanded: the expanded atlas</span>
+</span><span id="Cartographer.expand-245"><a href="#Cartographer.expand-245"><span class="linenos">245</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="Cartographer.expand-246"><a href="#Cartographer.expand-246"><span class="linenos">246</span></a>        <span class="n">existing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">ids</span><span class="p">())</span>
+</span><span id="Cartographer.expand-247"><a href="#Cartographer.expand-247"><span class="linenos">247</span></a>        <span class="n">expand_keys</span> <span class="o">=</span> <span class="n">existing_keys</span>
+</span><span id="Cartographer.expand-248"><a href="#Cartographer.expand-248"><span class="linenos">248</span></a>        <span class="k">if</span> <span class="n">center</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Cartographer.expand-249"><a href="#Cartographer.expand-249"><span class="linenos">249</span></a>            <span class="c1"># If atlas is initial</span>
+</span><span id="Cartographer.expand-250"><a href="#Cartographer.expand-250"><span class="linenos">250</span></a>            <span class="k">if</span> <span class="n">atl</span><span class="o">.</span><span class="n">projection</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Cartographer.expand-251"><a href="#Cartographer.expand-251"><span class="linenos">251</span></a>                <span class="n">atl</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">project</span><span class="p">(</span><span class="n">atl</span><span class="p">)</span>
+</span><span id="Cartographer.expand-252"><a href="#Cartographer.expand-252"><span class="linenos">252</span></a>
+</span><span id="Cartographer.expand-253"><a href="#Cartographer.expand-253"><span class="linenos">253</span></a>            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="p">):</span>
+</span><span id="Cartographer.expand-254"><a href="#Cartographer.expand-254"><span class="linenos">254</span></a>                <span class="c1"># build cosine similarity matrix, of shape (1, num_pubs)</span>
+</span><span id="Cartographer.expand-255"><a href="#Cartographer.expand-255"><span class="linenos">255</span></a>                <span class="n">cospsi_matrix</span> <span class="o">=</span> <span class="n">cosine_similarity</span><span class="p">(</span>
+</span><span id="Cartographer.expand-256"><a href="#Cartographer.expand-256"><span class="linenos">256</span></a>                    <span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">identifiers_to_embeddings</span><span class="p">([</span><span class="n">center</span><span class="p">]),</span>
+</span><span id="Cartographer.expand-257"><a href="#Cartographer.expand-257"><span class="linenos">257</span></a>                    <span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">embeddings</span><span class="p">,</span>
+</span><span id="Cartographer.expand-258"><a href="#Cartographer.expand-258"><span class="linenos">258</span></a>                <span class="p">)</span>
+</span><span id="Cartographer.expand-259"><a href="#Cartographer.expand-259"><span class="linenos">259</span></a>                <span class="c1"># get most similar keys from center, including center itself</span>
+</span><span id="Cartographer.expand-260"><a href="#Cartographer.expand-260"><span class="linenos">260</span></a>                <span class="n">sort_inds</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">argsort</span><span class="p">(</span><span class="n">cospsi_matrix</span><span class="p">)[::</span><span class="o">-</span><span class="mi">1</span><span class="p">][</span>
+</span><span id="Cartographer.expand-261"><a href="#Cartographer.expand-261"><span class="linenos">261</span></a>                    <span class="mi">0</span>
+</span><span id="Cartographer.expand-262"><a href="#Cartographer.expand-262"><span class="linenos">262</span></a>                <span class="p">]</span>  <span class="c1"># argsort orders from least to greatest similarity, so reverse</span>
+</span><span id="Cartographer.expand-263"><a href="#Cartographer.expand-263"><span class="linenos">263</span></a>                <span class="n">expand_keys</span> <span class="o">=</span> <span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">indices_to_identifiers</span><span class="p">(</span><span class="n">sort_inds</span><span class="p">)</span>
+</span><span id="Cartographer.expand-264"><a href="#Cartographer.expand-264"><span class="linenos">264</span></a>
+</span><span id="Cartographer.expand-265"><a href="#Cartographer.expand-265"><span class="linenos">265</span></a>        <span class="k">if</span> <span class="n">n_sources_max</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Cartographer.expand-266"><a href="#Cartographer.expand-266"><span class="linenos">266</span></a>            <span class="n">expand_keys</span> <span class="o">=</span> <span class="n">expand_keys</span><span class="p">[:</span><span class="n">n_sources_max</span><span class="p">]</span>
+</span><span id="Cartographer.expand-267"><a href="#Cartographer.expand-267"><span class="linenos">267</span></a>
+</span><span id="Cartographer.expand-268"><a href="#Cartographer.expand-268"><span class="linenos">268</span></a>        <span class="c1"># Get identifiers for the expansion</span>
+</span><span id="Cartographer.expand-269"><a href="#Cartographer.expand-269"><span class="linenos">269</span></a>        <span class="c1"># For each publication corresponding to an id in `expand_keys`, collect the ids corresponding to the publication&#39;s references and citations.</span>
+</span><span id="Cartographer.expand-270"><a href="#Cartographer.expand-270"><span class="linenos">270</span></a>        <span class="n">ids</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+</span><span id="Cartographer.expand-271"><a href="#Cartographer.expand-271"><span class="linenos">271</span></a>        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">expand_keys</span><span class="p">:</span>
+</span><span id="Cartographer.expand-272"><a href="#Cartographer.expand-272"><span class="linenos">272</span></a>            <span class="n">ids_i</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">atl</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">references</span> <span class="o">+</span> <span class="n">atl</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">citations</span><span class="p">)</span>
+</span><span id="Cartographer.expand-273"><a href="#Cartographer.expand-273"><span class="linenos">273</span></a>            <span class="c1"># Prune for obvious overlap, and for ids that have previously failed</span>
+</span><span id="Cartographer.expand-274"><a href="#Cartographer.expand-274"><span class="linenos">274</span></a>            <span class="n">ids</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">ids_i</span> <span class="o">-</span> <span class="n">existing_keys</span> <span class="o">-</span> <span class="n">atl</span><span class="o">.</span><span class="n">bad_ids</span><span class="p">)</span>
+</span><span id="Cartographer.expand-275"><a href="#Cartographer.expand-275"><span class="linenos">275</span></a>            <span class="c1"># Break when the search is centered and we&#39;re maxed out</span>
+</span><span id="Cartographer.expand-276"><a href="#Cartographer.expand-276"><span class="linenos">276</span></a>            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span> <span class="o">&gt;</span> <span class="n">n_pubs_max</span> <span class="ow">and</span> <span class="n">center</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Cartographer.expand-277"><a href="#Cartographer.expand-277"><span class="linenos">277</span></a>                <span class="k">break</span>
+</span><span id="Cartographer.expand-278"><a href="#Cartographer.expand-278"><span class="linenos">278</span></a>        <span class="n">ids</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span>
+</span><span id="Cartographer.expand-279"><a href="#Cartographer.expand-279"><span class="linenos">279</span></a>
+</span><span id="Cartographer.expand-280"><a href="#Cartographer.expand-280"><span class="linenos">280</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">ids</span><span class="p">:</span>
+</span><span id="Cartographer.expand-281"><a href="#Cartographer.expand-281"><span class="linenos">281</span></a>            <span class="nb">print</span><span class="p">(</span><span class="s2">&quot;Overly-restrictive search, no ids to retrive.&quot;</span><span class="p">)</span>
+</span><span id="Cartographer.expand-282"><a href="#Cartographer.expand-282"><span class="linenos">282</span></a>
+</span><span id="Cartographer.expand-283"><a href="#Cartographer.expand-283"><span class="linenos">283</span></a>        <span class="c1"># Sample to account for max number of publications we want to retrieve</span>
+</span><span id="Cartographer.expand-284"><a href="#Cartographer.expand-284"><span class="linenos">284</span></a>        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span> <span class="o">&gt;</span> <span class="n">n_pubs_max</span><span class="p">:</span>
+</span><span id="Cartographer.expand-285"><a href="#Cartographer.expand-285"><span class="linenos">285</span></a>            <span class="n">ids</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">choice</span><span class="p">(</span><span class="n">ids</span><span class="p">,</span> <span class="n">n_pubs_max</span><span class="p">,</span> <span class="n">replace</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+</span><span id="Cartographer.expand-286"><a href="#Cartographer.expand-286"><span class="linenos">286</span></a>
+</span><span id="Cartographer.expand-287"><a href="#Cartographer.expand-287"><span class="linenos">287</span></a>        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Expansion will include </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span><span class="si">}</span><span class="s2"> new publications.&quot;</span><span class="p">)</span>
+</span><span id="Cartographer.expand-288"><a href="#Cartographer.expand-288"><span class="linenos">288</span></a>
+</span><span id="Cartographer.expand-289"><a href="#Cartographer.expand-289"><span class="linenos">289</span></a>        <span class="c1"># Retrieve publications from ids using a librarian</span>
+</span><span id="Cartographer.expand-290"><a href="#Cartographer.expand-290"><span class="linenos">290</span></a>        <span class="n">new_publications</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">librarian</span><span class="o">.</span><span class="n">get_publications</span><span class="p">(</span><span class="n">ids</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+</span><span id="Cartographer.expand-291"><a href="#Cartographer.expand-291"><span class="linenos">291</span></a>
+</span><span id="Cartographer.expand-292"><a href="#Cartographer.expand-292"><span class="linenos">292</span></a>        <span class="c1"># New atlas</span>
+</span><span id="Cartographer.expand-293"><a href="#Cartographer.expand-293"><span class="linenos">293</span></a>        <span class="n">atl_exp</span> <span class="o">=</span> <span class="n">Atlas</span><span class="p">(</span><span class="n">new_publications</span><span class="p">)</span>
+</span><span id="Cartographer.expand-294"><a href="#Cartographer.expand-294"><span class="linenos">294</span></a>
+</span><span id="Cartographer.expand-295"><a href="#Cartographer.expand-295"><span class="linenos">295</span></a>        <span class="c1"># Update the new atlas</span>
+</span><span id="Cartographer.expand-296"><a href="#Cartographer.expand-296"><span class="linenos">296</span></a>        <span class="n">atl_exp</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">publications</span><span class="p">)</span>
+</span><span id="Cartographer.expand-297"><a href="#Cartographer.expand-297"><span class="linenos">297</span></a>        <span class="n">atl_exp</span><span class="o">.</span><span class="n">bad_ids</span> <span class="o">=</span> <span class="n">atl</span><span class="o">.</span><span class="n">bad_ids</span>
+</span><span id="Cartographer.expand-298"><a href="#Cartographer.expand-298"><span class="linenos">298</span></a>        <span class="n">atl_exp</span><span class="o">.</span><span class="n">projection</span> <span class="o">=</span> <span class="p">(</span>
+</span><span id="Cartographer.expand-299"><a href="#Cartographer.expand-299"><span class="linenos">299</span></a>            <span class="n">atl</span><span class="o">.</span><span class="n">projection</span>
+</span><span id="Cartographer.expand-300"><a href="#Cartographer.expand-300"><span class="linenos">300</span></a>        <span class="p">)</span>  <span class="c1"># new projection will be updated in `project`</span>
+</span><span id="Cartographer.expand-301"><a href="#Cartographer.expand-301"><span class="linenos">301</span></a>
+</span><span id="Cartographer.expand-302"><a href="#Cartographer.expand-302"><span class="linenos">302</span></a>        <span class="c1"># Record the new list of publications</span>
+</span><span id="Cartographer.expand-303"><a href="#Cartographer.expand-303"><span class="linenos">303</span></a>        <span class="k">if</span> <span class="n">record_pubs_per_update</span><span class="p">:</span>
+</span><span id="Cartographer.expand-304"><a href="#Cartographer.expand-304"><span class="linenos">304</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">pubs_per_update</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="nb">list</span><span class="p">(</span><span class="n">atl_exp</span><span class="o">.</span><span class="n">ids</span><span class="p">()))</span>
+</span><span id="Cartographer.expand-305"><a href="#Cartographer.expand-305"><span class="linenos">305</span></a>
+</span><span id="Cartographer.expand-306"><a href="#Cartographer.expand-306"><span class="linenos">306</span></a>        <span class="k">return</span> <span class="n">atl_exp</span>
 </span></pre></div>
 
 
@@ -1007,6 +1925,7 @@ <h6 id="arguments">Arguments:</h6>
 <li><strong>center:</strong>  (if given) center the search on this publication, preferentially searching related publications.</li>
 <li><strong>n_pubs_max:</strong>  maximum number of publications allowed in the expansion.</li>
 <li><strong>n_sources_max:</strong>  maximum number of publications (already in the atlas) to draw references and citations from.</li>
+<li><strong>record_pubs_per_update:</strong>  whether to track all the publications that exist in the resulting atlas to <code>self.pubs_per_update</code>. This should only be set to <code>True</code> when you need to later filter by degree of convergence of the atlas.</li>
 </ul>
 
 <h6 id="returns">Returns:</h6>
@@ -1018,77 +1937,56 @@ <h6 id="returns">Returns:</h6>
 
 
                             </div>
-                            <div id="Cartographer.filter" class="classattr">
-                                        <input id="Cartographer.filter-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
+                            <div id="Cartographer.filter_by_attributes" class="classattr">
+                                        <input id="Cartographer.filter_by_attributes-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
 <div class="attr function">
             
         <span class="def">def</span>
-        <span class="name">filter</span><span class="signature pdoc-code multiline">(<span class="param">	<span class="bp">self</span>,</span><span class="param">	<span class="n">atl</span><span class="p">:</span> <span class="n"><a href="atlas.html#Atlas">sciterra.mapping.atlas.Atlas</a></span>,</span><span class="param">	<span class="n">attributes</span><span class="p">:</span> <span class="nb">list</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;abstract&#39;</span><span class="p">,</span> <span class="s1">&#39;publication_date&#39;</span><span class="p">]</span></span><span class="return-annotation">) -> <span class="n"><a href="atlas.html#Atlas">sciterra.mapping.atlas.Atlas</a></span>:</span></span>
+        <span class="name">filter_by_attributes</span><span class="signature pdoc-code multiline">(<span class="param">	<span class="bp">self</span>,</span><span class="param">	<span class="n">atl</span><span class="p">:</span> <span class="n"><a href="atlas.html#Atlas">sciterra.mapping.atlas.Atlas</a></span>,</span><span class="param">	<span class="n">attributes</span><span class="p">:</span> <span class="nb">list</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;abstract&#39;</span><span class="p">,</span> <span class="s1">&#39;publication_date&#39;</span><span class="p">]</span>,</span><span class="param">	<span class="n">record_pubs_per_update</span><span class="o">=</span><span class="kc">False</span>,</span><span class="param">	<span class="o">**</span><span class="n">kwargs</span></span><span class="return-annotation">) -> <span class="n"><a href="atlas.html#Atlas">sciterra.mapping.atlas.Atlas</a></span>:</span></span>
 
-                <label class="view-source-button" for="Cartographer.filter-view-source"><span>View Source</span></label>
+                <label class="view-source-button" for="Cartographer.filter_by_attributes-view-source"><span>View Source</span></label>
 
     </div>
-    <a class="headerlink" href="#Cartographer.filter"></a>
-            <div class="pdoc-code codehilite"><pre><span></span><span id="Cartographer.filter-234"><a href="#Cartographer.filter-234"><span class="linenos">234</span></a>    <span class="k">def</span> <span class="nf">filter</span><span class="p">(</span>
-</span><span id="Cartographer.filter-235"><a href="#Cartographer.filter-235"><span class="linenos">235</span></a>        <span class="bp">self</span><span class="p">,</span>
-</span><span id="Cartographer.filter-236"><a href="#Cartographer.filter-236"><span class="linenos">236</span></a>        <span class="n">atl</span><span class="p">:</span> <span class="n">Atlas</span><span class="p">,</span>
-</span><span id="Cartographer.filter-237"><a href="#Cartographer.filter-237"><span class="linenos">237</span></a>        <span class="n">attributes</span><span class="p">:</span> <span class="nb">list</span> <span class="o">=</span> <span class="p">[</span>
-</span><span id="Cartographer.filter-238"><a href="#Cartographer.filter-238"><span class="linenos">238</span></a>            <span class="s2">&quot;abstract&quot;</span><span class="p">,</span>
-</span><span id="Cartographer.filter-239"><a href="#Cartographer.filter-239"><span class="linenos">239</span></a>            <span class="s2">&quot;publication_date&quot;</span><span class="p">,</span>
-</span><span id="Cartographer.filter-240"><a href="#Cartographer.filter-240"><span class="linenos">240</span></a>        <span class="p">],</span>
-</span><span id="Cartographer.filter-241"><a href="#Cartographer.filter-241"><span class="linenos">241</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Atlas</span><span class="p">:</span>
-</span><span id="Cartographer.filter-242"><a href="#Cartographer.filter-242"><span class="linenos">242</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Update an atlas by dropping publications (and corresponding data in projection) when certain fields are empty.</span>
-</span><span id="Cartographer.filter-243"><a href="#Cartographer.filter-243"><span class="linenos">243</span></a>
-</span><span id="Cartographer.filter-244"><a href="#Cartographer.filter-244"><span class="linenos">244</span></a><span class="sd">        Args:</span>
-</span><span id="Cartographer.filter-245"><a href="#Cartographer.filter-245"><span class="linenos">245</span></a><span class="sd">            atl: the Atlas containing publications to filter</span>
-</span><span id="Cartographer.filter-246"><a href="#Cartographer.filter-246"><span class="linenos">246</span></a>
-</span><span id="Cartographer.filter-247"><a href="#Cartographer.filter-247"><span class="linenos">247</span></a><span class="sd">            attributes: the list of attributes to filter publications from the atlas if any of items are None for a publication. For example, if attributes = [&quot;abstract&quot;], then all publications `pub` such that `pub.abstract is None` is True will be removed from the atlas, along with the corresponding data in the projection.</span>
-</span><span id="Cartographer.filter-248"><a href="#Cartographer.filter-248"><span class="linenos">248</span></a>
-</span><span id="Cartographer.filter-249"><a href="#Cartographer.filter-249"><span class="linenos">249</span></a><span class="sd">        Returns:</span>
-</span><span id="Cartographer.filter-250"><a href="#Cartographer.filter-250"><span class="linenos">250</span></a><span class="sd">            the filtered atlas</span>
-</span><span id="Cartographer.filter-251"><a href="#Cartographer.filter-251"><span class="linenos">251</span></a><span class="sd">        &quot;&quot;&quot;</span>
-</span><span id="Cartographer.filter-252"><a href="#Cartographer.filter-252"><span class="linenos">252</span></a>        <span class="c1"># Filter publications</span>
-</span><span id="Cartographer.filter-253"><a href="#Cartographer.filter-253"><span class="linenos">253</span></a>        <span class="n">invalid_pubs</span> <span class="o">=</span> <span class="p">{</span>
-</span><span id="Cartographer.filter-254"><a href="#Cartographer.filter-254"><span class="linenos">254</span></a>            <span class="nb">id</span><span class="p">:</span> <span class="n">pub</span>
-</span><span id="Cartographer.filter-255"><a href="#Cartographer.filter-255"><span class="linenos">255</span></a>            <span class="k">for</span> <span class="nb">id</span><span class="p">,</span> <span class="n">pub</span> <span class="ow">in</span> <span class="n">atl</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">items</span><span class="p">()</span>
-</span><span id="Cartographer.filter-256"><a href="#Cartographer.filter-256"><span class="linenos">256</span></a>            <span class="k">if</span> <span class="nb">all</span><span class="p">([</span><span class="nb">getattr</span><span class="p">(</span><span class="n">pub</span><span class="p">,</span> <span class="n">attr</span><span class="p">)</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">for</span> <span class="n">attr</span> <span class="ow">in</span> <span class="n">attributes</span><span class="p">])</span>
-</span><span id="Cartographer.filter-257"><a href="#Cartographer.filter-257"><span class="linenos">257</span></a>        <span class="p">}</span>
-</span><span id="Cartographer.filter-258"><a href="#Cartographer.filter-258"><span class="linenos">258</span></a>        <span class="c1"># Do not update if unnecessary</span>
-</span><span id="Cartographer.filter-259"><a href="#Cartographer.filter-259"><span class="linenos">259</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="nb">len</span><span class="p">(</span><span class="n">invalid_pubs</span><span class="p">):</span>
-</span><span id="Cartographer.filter-260"><a href="#Cartographer.filter-260"><span class="linenos">260</span></a>            <span class="k">return</span> <span class="n">atl</span>
-</span><span id="Cartographer.filter-261"><a href="#Cartographer.filter-261"><span class="linenos">261</span></a>
-</span><span id="Cartographer.filter-262"><a href="#Cartographer.filter-262"><span class="linenos">262</span></a>        <span class="n">filter_ids</span> <span class="o">=</span> <span class="n">invalid_pubs</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span>
-</span><span id="Cartographer.filter-263"><a href="#Cartographer.filter-263"><span class="linenos">263</span></a>        <span class="c1"># Remove embeddings, ids from projection</span>
-</span><span id="Cartographer.filter-264"><a href="#Cartographer.filter-264"><span class="linenos">264</span></a>        <span class="k">if</span> <span class="n">atl</span><span class="o">.</span><span class="n">projection</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="nb">len</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="p">):</span>
-</span><span id="Cartographer.filter-265"><a href="#Cartographer.filter-265"><span class="linenos">265</span></a>            <span class="n">filter_indices</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
-</span><span id="Cartographer.filter-266"><a href="#Cartographer.filter-266"><span class="linenos">266</span></a>            <span class="n">idx_to_id_new</span> <span class="o">=</span> <span class="p">[]</span>
-</span><span id="Cartographer.filter-267"><a href="#Cartographer.filter-267"><span class="linenos">267</span></a>            <span class="c1"># From indexing</span>
-</span><span id="Cartographer.filter-268"><a href="#Cartographer.filter-268"><span class="linenos">268</span></a>            <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="nb">id</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">index_to_identifier</span><span class="p">):</span>
-</span><span id="Cartographer.filter-269"><a href="#Cartographer.filter-269"><span class="linenos">269</span></a>                <span class="k">if</span> <span class="nb">id</span> <span class="ow">in</span> <span class="n">filter_ids</span><span class="p">:</span>
-</span><span id="Cartographer.filter-270"><a href="#Cartographer.filter-270"><span class="linenos">270</span></a>                    <span class="n">filter_indices</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">idx</span><span class="p">)</span>
-</span><span id="Cartographer.filter-271"><a href="#Cartographer.filter-271"><span class="linenos">271</span></a>                <span class="k">else</span><span class="p">:</span>
-</span><span id="Cartographer.filter-272"><a href="#Cartographer.filter-272"><span class="linenos">272</span></a>                    <span class="n">idx_to_id_new</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="nb">id</span><span class="p">)</span>
-</span><span id="Cartographer.filter-273"><a href="#Cartographer.filter-273"><span class="linenos">273</span></a>            <span class="c1"># From embeddings</span>
-</span><span id="Cartographer.filter-274"><a href="#Cartographer.filter-274"><span class="linenos">274</span></a>            <span class="n">embeddings</span> <span class="o">=</span> <span class="p">[</span>
-</span><span id="Cartographer.filter-275"><a href="#Cartographer.filter-275"><span class="linenos">275</span></a>                <span class="n">embedding</span>
-</span><span id="Cartographer.filter-276"><a href="#Cartographer.filter-276"><span class="linenos">276</span></a>                <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">embedding</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">embeddings</span><span class="p">)</span>
-</span><span id="Cartographer.filter-277"><a href="#Cartographer.filter-277"><span class="linenos">277</span></a>                <span class="k">if</span> <span class="n">idx</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">filter_indices</span>
-</span><span id="Cartographer.filter-278"><a href="#Cartographer.filter-278"><span class="linenos">278</span></a>            <span class="p">]</span>
-</span><span id="Cartographer.filter-279"><a href="#Cartographer.filter-279"><span class="linenos">279</span></a>            <span class="c1"># From identifier to index map</span>
-</span><span id="Cartographer.filter-280"><a href="#Cartographer.filter-280"><span class="linenos">280</span></a>            <span class="n">id_to_idx_new</span> <span class="o">=</span> <span class="p">{</span><span class="nb">id</span><span class="p">:</span> <span class="n">idx</span> <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="nb">id</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">idx_to_id_new</span><span class="p">)}</span>
-</span><span id="Cartographer.filter-281"><a href="#Cartographer.filter-281"><span class="linenos">281</span></a>            <span class="c1"># Overwrite Projection</span>
-</span><span id="Cartographer.filter-282"><a href="#Cartographer.filter-282"><span class="linenos">282</span></a>            <span class="n">atl</span><span class="o">.</span><span class="n">projection</span> <span class="o">=</span> <span class="n">Projection</span><span class="p">(</span>
-</span><span id="Cartographer.filter-283"><a href="#Cartographer.filter-283"><span class="linenos">283</span></a>                <span class="n">identifier_to_index</span><span class="o">=</span><span class="n">id_to_idx_new</span><span class="p">,</span>
-</span><span id="Cartographer.filter-284"><a href="#Cartographer.filter-284"><span class="linenos">284</span></a>                <span class="n">index_to_identifier</span><span class="o">=</span><span class="n">idx_to_id_new</span><span class="p">,</span>
-</span><span id="Cartographer.filter-285"><a href="#Cartographer.filter-285"><span class="linenos">285</span></a>                <span class="n">embeddings</span><span class="o">=</span><span class="n">embeddings</span><span class="p">,</span>
-</span><span id="Cartographer.filter-286"><a href="#Cartographer.filter-286"><span class="linenos">286</span></a>            <span class="p">)</span>
-</span><span id="Cartographer.filter-287"><a href="#Cartographer.filter-287"><span class="linenos">287</span></a>
-</span><span id="Cartographer.filter-288"><a href="#Cartographer.filter-288"><span class="linenos">288</span></a>        <span class="c1"># Remove publications</span>
-</span><span id="Cartographer.filter-289"><a href="#Cartographer.filter-289"><span class="linenos">289</span></a>        <span class="n">atl</span><span class="o">.</span><span class="n">publications</span> <span class="o">=</span> <span class="p">{</span>
-</span><span id="Cartographer.filter-290"><a href="#Cartographer.filter-290"><span class="linenos">290</span></a>            <span class="nb">id</span><span class="p">:</span> <span class="n">pub</span> <span class="k">for</span> <span class="nb">id</span><span class="p">,</span> <span class="n">pub</span> <span class="ow">in</span> <span class="n">atl</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span> <span class="nb">id</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">filter_ids</span>
-</span><span id="Cartographer.filter-291"><a href="#Cartographer.filter-291"><span class="linenos">291</span></a>        <span class="p">}</span>
-</span><span id="Cartographer.filter-292"><a href="#Cartographer.filter-292"><span class="linenos">292</span></a>
-</span><span id="Cartographer.filter-293"><a href="#Cartographer.filter-293"><span class="linenos">293</span></a>        <span class="k">return</span> <span class="n">atl</span>
+    <a class="headerlink" href="#Cartographer.filter_by_attributes"></a>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="Cartographer.filter_by_attributes-312"><a href="#Cartographer.filter_by_attributes-312"><span class="linenos">312</span></a>    <span class="k">def</span> <span class="nf">filter_by_attributes</span><span class="p">(</span>
+</span><span id="Cartographer.filter_by_attributes-313"><a href="#Cartographer.filter_by_attributes-313"><span class="linenos">313</span></a>        <span class="bp">self</span><span class="p">,</span>
+</span><span id="Cartographer.filter_by_attributes-314"><a href="#Cartographer.filter_by_attributes-314"><span class="linenos">314</span></a>        <span class="n">atl</span><span class="p">:</span> <span class="n">Atlas</span><span class="p">,</span>
+</span><span id="Cartographer.filter_by_attributes-315"><a href="#Cartographer.filter_by_attributes-315"><span class="linenos">315</span></a>        <span class="n">attributes</span><span class="p">:</span> <span class="nb">list</span> <span class="o">=</span> <span class="p">[</span>
+</span><span id="Cartographer.filter_by_attributes-316"><a href="#Cartographer.filter_by_attributes-316"><span class="linenos">316</span></a>            <span class="s2">&quot;abstract&quot;</span><span class="p">,</span>
+</span><span id="Cartographer.filter_by_attributes-317"><a href="#Cartographer.filter_by_attributes-317"><span class="linenos">317</span></a>            <span class="s2">&quot;publication_date&quot;</span><span class="p">,</span>
+</span><span id="Cartographer.filter_by_attributes-318"><a href="#Cartographer.filter_by_attributes-318"><span class="linenos">318</span></a>        <span class="p">],</span>
+</span><span id="Cartographer.filter_by_attributes-319"><a href="#Cartographer.filter_by_attributes-319"><span class="linenos">319</span></a>        <span class="n">record_pubs_per_update</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+</span><span id="Cartographer.filter_by_attributes-320"><a href="#Cartographer.filter_by_attributes-320"><span class="linenos">320</span></a>        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+</span><span id="Cartographer.filter_by_attributes-321"><a href="#Cartographer.filter_by_attributes-321"><span class="linenos">321</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Atlas</span><span class="p">:</span>
+</span><span id="Cartographer.filter_by_attributes-322"><a href="#Cartographer.filter_by_attributes-322"><span class="linenos">322</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Update an atlas by dropping publications (and corresponding data in projection) when certain fields are empty.</span>
+</span><span id="Cartographer.filter_by_attributes-323"><a href="#Cartographer.filter_by_attributes-323"><span class="linenos">323</span></a>
+</span><span id="Cartographer.filter_by_attributes-324"><a href="#Cartographer.filter_by_attributes-324"><span class="linenos">324</span></a><span class="sd">        Args:</span>
+</span><span id="Cartographer.filter_by_attributes-325"><a href="#Cartographer.filter_by_attributes-325"><span class="linenos">325</span></a><span class="sd">            atl: the Atlas containing publications to filter</span>
+</span><span id="Cartographer.filter_by_attributes-326"><a href="#Cartographer.filter_by_attributes-326"><span class="linenos">326</span></a>
+</span><span id="Cartographer.filter_by_attributes-327"><a href="#Cartographer.filter_by_attributes-327"><span class="linenos">327</span></a><span class="sd">            attributes: the list of attributes to filter publications from the atlas IF any of items are None for a publication. For example, if attributes = [&quot;abstract&quot;], then all publications `pub` such that `pub.abstract is None` is True will be removed from the atlas, along with the corresponding data in the projection.</span>
+</span><span id="Cartographer.filter_by_attributes-328"><a href="#Cartographer.filter_by_attributes-328"><span class="linenos">328</span></a>
+</span><span id="Cartographer.filter_by_attributes-329"><a href="#Cartographer.filter_by_attributes-329"><span class="linenos">329</span></a><span class="sd">            record_pubs_per_update: whether to track all the publications that exist in the resulting atlas to `self.pubs_per_update`. This should only be set to `True` when you need to later filter by degree of convergence of the atlas. This is an important parameter because `self.filter` is called in `self.project`, which typically is called after `self.expand`, where we pass in the same parameter.</span>
+</span><span id="Cartographer.filter_by_attributes-330"><a href="#Cartographer.filter_by_attributes-330"><span class="linenos">330</span></a>
+</span><span id="Cartographer.filter_by_attributes-331"><a href="#Cartographer.filter_by_attributes-331"><span class="linenos">331</span></a><span class="sd">        Returns:</span>
+</span><span id="Cartographer.filter_by_attributes-332"><a href="#Cartographer.filter_by_attributes-332"><span class="linenos">332</span></a><span class="sd">            the filtered atlas</span>
+</span><span id="Cartographer.filter_by_attributes-333"><a href="#Cartographer.filter_by_attributes-333"><span class="linenos">333</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="Cartographer.filter_by_attributes-334"><a href="#Cartographer.filter_by_attributes-334"><span class="linenos">334</span></a>        <span class="c1"># Filter publications</span>
+</span><span id="Cartographer.filter_by_attributes-335"><a href="#Cartographer.filter_by_attributes-335"><span class="linenos">335</span></a>        <span class="n">invalid_pubs</span> <span class="o">=</span> <span class="p">{</span>
+</span><span id="Cartographer.filter_by_attributes-336"><a href="#Cartographer.filter_by_attributes-336"><span class="linenos">336</span></a>            <span class="nb">id</span><span class="p">:</span> <span class="n">pub</span>
+</span><span id="Cartographer.filter_by_attributes-337"><a href="#Cartographer.filter_by_attributes-337"><span class="linenos">337</span></a>            <span class="k">for</span> <span class="nb">id</span><span class="p">,</span> <span class="n">pub</span> <span class="ow">in</span> <span class="n">atl</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">items</span><span class="p">()</span>
+</span><span id="Cartographer.filter_by_attributes-338"><a href="#Cartographer.filter_by_attributes-338"><span class="linenos">338</span></a>            <span class="k">if</span> <span class="p">(</span><span class="n">pub</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="nb">any</span><span class="p">([</span><span class="nb">getattr</span><span class="p">(</span><span class="n">pub</span><span class="p">,</span> <span class="n">attr</span><span class="p">)</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">for</span> <span class="n">attr</span> <span class="ow">in</span> <span class="n">attributes</span><span class="p">]))</span>
+</span><span id="Cartographer.filter_by_attributes-339"><a href="#Cartographer.filter_by_attributes-339"><span class="linenos">339</span></a>        <span class="p">}</span>
+</span><span id="Cartographer.filter_by_attributes-340"><a href="#Cartographer.filter_by_attributes-340"><span class="linenos">340</span></a>        <span class="c1"># Do not update if unnecessary</span>
+</span><span id="Cartographer.filter_by_attributes-341"><a href="#Cartographer.filter_by_attributes-341"><span class="linenos">341</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="nb">len</span><span class="p">(</span><span class="n">invalid_pubs</span><span class="p">):</span>
+</span><span id="Cartographer.filter_by_attributes-342"><a href="#Cartographer.filter_by_attributes-342"><span class="linenos">342</span></a>            <span class="k">return</span> <span class="n">atl</span>
+</span><span id="Cartographer.filter_by_attributes-343"><a href="#Cartographer.filter_by_attributes-343"><span class="linenos">343</span></a>
+</span><span id="Cartographer.filter_by_attributes-344"><a href="#Cartographer.filter_by_attributes-344"><span class="linenos">344</span></a>        <span class="n">atl_filtered</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">filter_by_ids</span><span class="p">(</span><span class="n">atl</span><span class="p">,</span> <span class="n">drop_ids</span><span class="o">=</span><span class="n">invalid_pubs</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
+</span><span id="Cartographer.filter_by_attributes-345"><a href="#Cartographer.filter_by_attributes-345"><span class="linenos">345</span></a>
+</span><span id="Cartographer.filter_by_attributes-346"><a href="#Cartographer.filter_by_attributes-346"><span class="linenos">346</span></a>        <span class="c1"># Record only the publications in the history that weren&#39;t filtered out</span>
+</span><span id="Cartographer.filter_by_attributes-347"><a href="#Cartographer.filter_by_attributes-347"><span class="linenos">347</span></a>        <span class="k">if</span> <span class="n">record_pubs_per_update</span><span class="p">:</span>
+</span><span id="Cartographer.filter_by_attributes-348"><a href="#Cartographer.filter_by_attributes-348"><span class="linenos">348</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">pubs_per_update</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">=</span> <span class="n">atl_filtered</span><span class="o">.</span><span class="n">ids</span><span class="p">()</span>
+</span><span id="Cartographer.filter_by_attributes-349"><a href="#Cartographer.filter_by_attributes-349"><span class="linenos">349</span></a>
+</span><span id="Cartographer.filter_by_attributes-350"><a href="#Cartographer.filter_by_attributes-350"><span class="linenos">350</span></a>        <span class="k">return</span> <span class="n">atl_filtered</span>
 </span></pre></div>
 
 
@@ -1098,7 +1996,8 @@ <h6 id="arguments">Arguments:</h6>
 
 <ul>
 <li><strong>atl:</strong>  the Atlas containing publications to filter</li>
-<li><strong>attributes:</strong>  the list of attributes to filter publications from the atlas if any of items are None for a publication. For example, if attributes = ["abstract"], then all publications <code>pub</code> such that <code>pub.abstract is None</code> is True will be removed from the atlas, along with the corresponding data in the projection.</li>
+<li><strong>attributes:</strong>  the list of attributes to filter publications from the atlas IF any of items are None for a publication. For example, if attributes = ["abstract"], then all publications <code>pub</code> such that <code>pub.abstract is None</code> is True will be removed from the atlas, along with the corresponding data in the projection.</li>
+<li><strong>record_pubs_per_update:</strong>  whether to track all the publications that exist in the resulting atlas to <code>self.pubs_per_update</code>. This should only be set to <code>True</code> when you need to later filter by degree of convergence of the atlas. This is an important parameter because <code>self.filter</code> is called in <code>self.project</code>, which typically is called after <code>self.expand</code>, where we pass in the same parameter.</li>
 </ul>
 
 <h6 id="returns">Returns:</h6>
@@ -1110,6 +2009,591 @@ <h6 id="returns">Returns:</h6>
 
 
                             </div>
+                            <div id="Cartographer.filter_by_ids" class="classattr">
+                                        <input id="Cartographer.filter_by_ids-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
+<div class="attr function">
+            
+        <span class="def">def</span>
+        <span class="name">filter_by_ids</span><span class="signature pdoc-code multiline">(<span class="param">	<span class="bp">self</span>,</span><span class="param">	<span class="n">atl</span><span class="p">:</span> <span class="n"><a href="atlas.html#Atlas">sciterra.mapping.atlas.Atlas</a></span>,</span><span class="param">	<span class="n">keep_ids</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>,</span><span class="param">	<span class="n">drop_ids</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span></span><span class="return-annotation">) -> <span class="n"><a href="atlas.html#Atlas">sciterra.mapping.atlas.Atlas</a></span>:</span></span>
+
+                <label class="view-source-button" for="Cartographer.filter_by_ids-view-source"><span>View Source</span></label>
+
+    </div>
+    <a class="headerlink" href="#Cartographer.filter_by_ids"></a>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="Cartographer.filter_by_ids-352"><a href="#Cartographer.filter_by_ids-352"><span class="linenos">352</span></a>    <span class="k">def</span> <span class="nf">filter_by_ids</span><span class="p">(</span>
+</span><span id="Cartographer.filter_by_ids-353"><a href="#Cartographer.filter_by_ids-353"><span class="linenos">353</span></a>        <span class="bp">self</span><span class="p">,</span>
+</span><span id="Cartographer.filter_by_ids-354"><a href="#Cartographer.filter_by_ids-354"><span class="linenos">354</span></a>        <span class="n">atl</span><span class="p">:</span> <span class="n">Atlas</span><span class="p">,</span>
+</span><span id="Cartographer.filter_by_ids-355"><a href="#Cartographer.filter_by_ids-355"><span class="linenos">355</span></a>        <span class="n">keep_ids</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="Cartographer.filter_by_ids-356"><a href="#Cartographer.filter_by_ids-356"><span class="linenos">356</span></a>        <span class="n">drop_ids</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="Cartographer.filter_by_ids-357"><a href="#Cartographer.filter_by_ids-357"><span class="linenos">357</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Atlas</span><span class="p">:</span>
+</span><span id="Cartographer.filter_by_ids-358"><a href="#Cartographer.filter_by_ids-358"><span class="linenos">358</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Update an atlas by dropping publications (and corresponding data in projection).</span>
+</span><span id="Cartographer.filter_by_ids-359"><a href="#Cartographer.filter_by_ids-359"><span class="linenos">359</span></a>
+</span><span id="Cartographer.filter_by_ids-360"><a href="#Cartographer.filter_by_ids-360"><span class="linenos">360</span></a><span class="sd">        Args:</span>
+</span><span id="Cartographer.filter_by_ids-361"><a href="#Cartographer.filter_by_ids-361"><span class="linenos">361</span></a><span class="sd">            atl: the Atlas containing publications to filter</span>
+</span><span id="Cartographer.filter_by_ids-362"><a href="#Cartographer.filter_by_ids-362"><span class="linenos">362</span></a>
+</span><span id="Cartographer.filter_by_ids-363"><a href="#Cartographer.filter_by_ids-363"><span class="linenos">363</span></a><span class="sd">            keep_ids: the list of publication ids to NOT filter; all other publications in `atl` not matching one of these ids will be removed.</span>
+</span><span id="Cartographer.filter_by_ids-364"><a href="#Cartographer.filter_by_ids-364"><span class="linenos">364</span></a>
+</span><span id="Cartographer.filter_by_ids-365"><a href="#Cartographer.filter_by_ids-365"><span class="linenos">365</span></a><span class="sd">            drop_ids: the list of publications to filter; all publications in `atl` matching one of these ids will be removed.</span>
+</span><span id="Cartographer.filter_by_ids-366"><a href="#Cartographer.filter_by_ids-366"><span class="linenos">366</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="Cartographer.filter_by_ids-367"><a href="#Cartographer.filter_by_ids-367"><span class="linenos">367</span></a>
+</span><span id="Cartographer.filter_by_ids-368"><a href="#Cartographer.filter_by_ids-368"><span class="linenos">368</span></a>        <span class="k">if</span> <span class="nb">all</span><span class="p">(</span><span class="n">x</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="p">[</span><span class="n">keep_ids</span><span class="p">,</span> <span class="n">drop_ids</span><span class="p">]):</span>
+</span><span id="Cartographer.filter_by_ids-369"><a href="#Cartographer.filter_by_ids-369"><span class="linenos">369</span></a>            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+</span><span id="Cartographer.filter_by_ids-370"><a href="#Cartographer.filter_by_ids-370"><span class="linenos">370</span></a>                <span class="s2">&quot;You must pass exactly one of `keep_ids` or `drop_ids`, but both had a value that was not `None`.&quot;</span>
+</span><span id="Cartographer.filter_by_ids-371"><a href="#Cartographer.filter_by_ids-371"><span class="linenos">371</span></a>            <span class="p">)</span>
+</span><span id="Cartographer.filter_by_ids-372"><a href="#Cartographer.filter_by_ids-372"><span class="linenos">372</span></a>        <span class="k">if</span> <span class="n">keep_ids</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Cartographer.filter_by_ids-373"><a href="#Cartographer.filter_by_ids-373"><span class="linenos">373</span></a>            <span class="n">filter_ids</span> <span class="o">=</span> <span class="nb">set</span><span class="p">([</span><span class="nb">id</span> <span class="k">for</span> <span class="nb">id</span> <span class="ow">in</span> <span class="n">atl</span><span class="o">.</span><span class="n">ids</span><span class="p">()</span> <span class="k">if</span> <span class="nb">id</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">keep_ids</span><span class="p">])</span>
+</span><span id="Cartographer.filter_by_ids-374"><a href="#Cartographer.filter_by_ids-374"><span class="linenos">374</span></a>        <span class="k">elif</span> <span class="n">drop_ids</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Cartographer.filter_by_ids-375"><a href="#Cartographer.filter_by_ids-375"><span class="linenos">375</span></a>            <span class="n">filter_ids</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">drop_ids</span><span class="p">)</span>
+</span><span id="Cartographer.filter_by_ids-376"><a href="#Cartographer.filter_by_ids-376"><span class="linenos">376</span></a>        <span class="k">else</span><span class="p">:</span>
+</span><span id="Cartographer.filter_by_ids-377"><a href="#Cartographer.filter_by_ids-377"><span class="linenos">377</span></a>            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+</span><span id="Cartographer.filter_by_ids-378"><a href="#Cartographer.filter_by_ids-378"><span class="linenos">378</span></a>                <span class="s2">&quot;You must pass exactly one of `keep_ids` or `drop_ids`, but both had value `None`.&quot;</span>
+</span><span id="Cartographer.filter_by_ids-379"><a href="#Cartographer.filter_by_ids-379"><span class="linenos">379</span></a>            <span class="p">)</span>
+</span><span id="Cartographer.filter_by_ids-380"><a href="#Cartographer.filter_by_ids-380"><span class="linenos">380</span></a>
+</span><span id="Cartographer.filter_by_ids-381"><a href="#Cartographer.filter_by_ids-381"><span class="linenos">381</span></a>        <span class="c1"># Keep track of the bad identifiers to skip them in future expansions</span>
+</span><span id="Cartographer.filter_by_ids-382"><a href="#Cartographer.filter_by_ids-382"><span class="linenos">382</span></a>        <span class="n">new_bad_ids</span> <span class="o">=</span> <span class="n">atl</span><span class="o">.</span><span class="n">bad_ids</span><span class="o">.</span><span class="n">union</span><span class="p">(</span><span class="n">filter_ids</span><span class="p">)</span>
+</span><span id="Cartographer.filter_by_ids-383"><a href="#Cartographer.filter_by_ids-383"><span class="linenos">383</span></a>
+</span><span id="Cartographer.filter_by_ids-384"><a href="#Cartographer.filter_by_ids-384"><span class="linenos">384</span></a>        <span class="c1"># Filter embeddings, ids from projection</span>
+</span><span id="Cartographer.filter_by_ids-385"><a href="#Cartographer.filter_by_ids-385"><span class="linenos">385</span></a>        <span class="k">if</span> <span class="n">atl</span><span class="o">.</span><span class="n">projection</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Cartographer.filter_by_ids-386"><a href="#Cartographer.filter_by_ids-386"><span class="linenos">386</span></a>            <span class="n">new_projection</span> <span class="o">=</span> <span class="kc">None</span>
+</span><span id="Cartographer.filter_by_ids-387"><a href="#Cartographer.filter_by_ids-387"><span class="linenos">387</span></a>        <span class="k">else</span><span class="p">:</span>
+</span><span id="Cartographer.filter_by_ids-388"><a href="#Cartographer.filter_by_ids-388"><span class="linenos">388</span></a>            <span class="n">filter_indices</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+</span><span id="Cartographer.filter_by_ids-389"><a href="#Cartographer.filter_by_ids-389"><span class="linenos">389</span></a>            <span class="n">idx_to_id_new</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="Cartographer.filter_by_ids-390"><a href="#Cartographer.filter_by_ids-390"><span class="linenos">390</span></a>            <span class="c1"># From indexing</span>
+</span><span id="Cartographer.filter_by_ids-391"><a href="#Cartographer.filter_by_ids-391"><span class="linenos">391</span></a>            <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="nb">id</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">index_to_identifier</span><span class="p">):</span>
+</span><span id="Cartographer.filter_by_ids-392"><a href="#Cartographer.filter_by_ids-392"><span class="linenos">392</span></a>                <span class="k">if</span> <span class="nb">id</span> <span class="ow">in</span> <span class="n">filter_ids</span><span class="p">:</span>
+</span><span id="Cartographer.filter_by_ids-393"><a href="#Cartographer.filter_by_ids-393"><span class="linenos">393</span></a>                    <span class="n">filter_indices</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">idx</span><span class="p">)</span>
+</span><span id="Cartographer.filter_by_ids-394"><a href="#Cartographer.filter_by_ids-394"><span class="linenos">394</span></a>                <span class="k">else</span><span class="p">:</span>
+</span><span id="Cartographer.filter_by_ids-395"><a href="#Cartographer.filter_by_ids-395"><span class="linenos">395</span></a>                    <span class="n">idx_to_id_new</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="nb">id</span><span class="p">)</span>
+</span><span id="Cartographer.filter_by_ids-396"><a href="#Cartographer.filter_by_ids-396"><span class="linenos">396</span></a>            <span class="c1"># From embeddings</span>
+</span><span id="Cartographer.filter_by_ids-397"><a href="#Cartographer.filter_by_ids-397"><span class="linenos">397</span></a>            <span class="n">embeddings</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+</span><span id="Cartographer.filter_by_ids-398"><a href="#Cartographer.filter_by_ids-398"><span class="linenos">398</span></a>                <span class="p">[</span>
+</span><span id="Cartographer.filter_by_ids-399"><a href="#Cartographer.filter_by_ids-399"><span class="linenos">399</span></a>                    <span class="n">embedding</span>
+</span><span id="Cartographer.filter_by_ids-400"><a href="#Cartographer.filter_by_ids-400"><span class="linenos">400</span></a>                    <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">embedding</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">embeddings</span><span class="p">)</span>
+</span><span id="Cartographer.filter_by_ids-401"><a href="#Cartographer.filter_by_ids-401"><span class="linenos">401</span></a>                    <span class="k">if</span> <span class="n">idx</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">filter_indices</span>
+</span><span id="Cartographer.filter_by_ids-402"><a href="#Cartographer.filter_by_ids-402"><span class="linenos">402</span></a>                <span class="p">]</span>
+</span><span id="Cartographer.filter_by_ids-403"><a href="#Cartographer.filter_by_ids-403"><span class="linenos">403</span></a>            <span class="p">)</span>
+</span><span id="Cartographer.filter_by_ids-404"><a href="#Cartographer.filter_by_ids-404"><span class="linenos">404</span></a>            <span class="c1"># From identifier to index map</span>
+</span><span id="Cartographer.filter_by_ids-405"><a href="#Cartographer.filter_by_ids-405"><span class="linenos">405</span></a>            <span class="n">id_to_idx_new</span> <span class="o">=</span> <span class="p">{</span><span class="nb">id</span><span class="p">:</span> <span class="n">idx</span> <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="nb">id</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">idx_to_id_new</span><span class="p">)}</span>
+</span><span id="Cartographer.filter_by_ids-406"><a href="#Cartographer.filter_by_ids-406"><span class="linenos">406</span></a>            <span class="c1"># Construct new, filtered projection</span>
+</span><span id="Cartographer.filter_by_ids-407"><a href="#Cartographer.filter_by_ids-407"><span class="linenos">407</span></a>            <span class="n">new_projection</span> <span class="o">=</span> <span class="n">Projection</span><span class="p">(</span>
+</span><span id="Cartographer.filter_by_ids-408"><a href="#Cartographer.filter_by_ids-408"><span class="linenos">408</span></a>                <span class="n">identifier_to_index</span><span class="o">=</span><span class="n">id_to_idx_new</span><span class="p">,</span>
+</span><span id="Cartographer.filter_by_ids-409"><a href="#Cartographer.filter_by_ids-409"><span class="linenos">409</span></a>                <span class="n">index_to_identifier</span><span class="o">=</span><span class="n">idx_to_id_new</span><span class="p">,</span>
+</span><span id="Cartographer.filter_by_ids-410"><a href="#Cartographer.filter_by_ids-410"><span class="linenos">410</span></a>                <span class="n">embeddings</span><span class="o">=</span><span class="n">embeddings</span><span class="p">,</span>
+</span><span id="Cartographer.filter_by_ids-411"><a href="#Cartographer.filter_by_ids-411"><span class="linenos">411</span></a>            <span class="p">)</span>
+</span><span id="Cartographer.filter_by_ids-412"><a href="#Cartographer.filter_by_ids-412"><span class="linenos">412</span></a>
+</span><span id="Cartographer.filter_by_ids-413"><a href="#Cartographer.filter_by_ids-413"><span class="linenos">413</span></a>        <span class="c1"># Keep only filtered publications</span>
+</span><span id="Cartographer.filter_by_ids-414"><a href="#Cartographer.filter_by_ids-414"><span class="linenos">414</span></a>        <span class="n">new_publications</span> <span class="o">=</span> <span class="p">[</span>
+</span><span id="Cartographer.filter_by_ids-415"><a href="#Cartographer.filter_by_ids-415"><span class="linenos">415</span></a>            <span class="n">pub</span> <span class="k">for</span> <span class="nb">id</span><span class="p">,</span> <span class="n">pub</span> <span class="ow">in</span> <span class="n">atl</span><span class="o">.</span><span class="n">publications</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span> <span class="nb">id</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">filter_ids</span>
+</span><span id="Cartographer.filter_by_ids-416"><a href="#Cartographer.filter_by_ids-416"><span class="linenos">416</span></a>        <span class="p">]</span>
+</span><span id="Cartographer.filter_by_ids-417"><a href="#Cartographer.filter_by_ids-417"><span class="linenos">417</span></a>
+</span><span id="Cartographer.filter_by_ids-418"><a href="#Cartographer.filter_by_ids-418"><span class="linenos">418</span></a>        <span class="c1"># Construct new atlas</span>
+</span><span id="Cartographer.filter_by_ids-419"><a href="#Cartographer.filter_by_ids-419"><span class="linenos">419</span></a>        <span class="n">atl_filtered</span> <span class="o">=</span> <span class="n">Atlas</span><span class="p">(</span><span class="n">new_publications</span><span class="p">,</span> <span class="n">new_projection</span><span class="p">)</span>
+</span><span id="Cartographer.filter_by_ids-420"><a href="#Cartographer.filter_by_ids-420"><span class="linenos">420</span></a>        <span class="n">atl_filtered</span><span class="o">.</span><span class="n">bad_ids</span> <span class="o">=</span> <span class="n">new_bad_ids</span>
+</span><span id="Cartographer.filter_by_ids-421"><a href="#Cartographer.filter_by_ids-421"><span class="linenos">421</span></a>
+</span><span id="Cartographer.filter_by_ids-422"><a href="#Cartographer.filter_by_ids-422"><span class="linenos">422</span></a>        <span class="k">return</span> <span class="n">atl_filtered</span>
+</span></pre></div>
+
+
+            <div class="docstring"><p>Update an atlas by dropping publications (and corresponding data in projection).</p>
+
+<h6 id="arguments">Arguments:</h6>
+
+<ul>
+<li><strong>atl:</strong>  the Atlas containing publications to filter</li>
+<li><strong>keep_ids:</strong>  the list of publication ids to NOT filter; all other publications in <code>atl</code> not matching one of these ids will be removed.</li>
+<li><strong>drop_ids:</strong>  the list of publications to filter; all publications in <code>atl</code> matching one of these ids will be removed.</li>
+</ul>
+</div>
+
+
+                            </div>
+                            <div id="Cartographer.track" class="classattr">
+                                        <input id="Cartographer.track-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
+<div class="attr function">
+            
+        <span class="def">def</span>
+        <span class="name">track</span><span class="signature pdoc-code multiline">(<span class="param">	<span class="bp">self</span>,</span><span class="param">	<span class="n">atl</span><span class="p">:</span> <span class="n"><a href="atlas.html#Atlas">sciterra.mapping.atlas.Atlas</a></span>,</span><span class="param">	<span class="n">pubs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>,</span><span class="param">	<span class="n">pubs_per_update</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span></span><span class="return-annotation">) -> <span class="n"><a href="atlas.html#Atlas">sciterra.mapping.atlas.Atlas</a></span>:</span></span>
+
+                <label class="view-source-button" for="Cartographer.track-view-source"><span>View Source</span></label>
+
+    </div>
+    <a class="headerlink" href="#Cartographer.track"></a>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="Cartographer.track-428"><a href="#Cartographer.track-428"><span class="linenos">428</span></a>    <span class="k">def</span> <span class="nf">track</span><span class="p">(</span>
+</span><span id="Cartographer.track-429"><a href="#Cartographer.track-429"><span class="linenos">429</span></a>        <span class="bp">self</span><span class="p">,</span>
+</span><span id="Cartographer.track-430"><a href="#Cartographer.track-430"><span class="linenos">430</span></a>        <span class="n">atl</span><span class="p">:</span> <span class="n">Atlas</span><span class="p">,</span>
+</span><span id="Cartographer.track-431"><a href="#Cartographer.track-431"><span class="linenos">431</span></a>        <span class="n">pubs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="Cartographer.track-432"><a href="#Cartographer.track-432"><span class="linenos">432</span></a>        <span class="n">pubs_per_update</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="Cartographer.track-433"><a href="#Cartographer.track-433"><span class="linenos">433</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Atlas</span><span class="p">:</span>
+</span><span id="Cartographer.track-434"><a href="#Cartographer.track-434"><span class="linenos">434</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Overwrite the data associated with tracking degree of convergence of publications in an atlas over multiple expansions. N.B.: the atlas must be fully projected, or else `converged_kernel_size` will raise a KeyError.</span>
+</span><span id="Cartographer.track-435"><a href="#Cartographer.track-435"><span class="linenos">435</span></a>
+</span><span id="Cartographer.track-436"><a href="#Cartographer.track-436"><span class="linenos">436</span></a><span class="sd">        Args:</span>
+</span><span id="Cartographer.track-437"><a href="#Cartographer.track-437"><span class="linenos">437</span></a><span class="sd">            atl: the Atlas that will be updated by overwriting `Atlas.history`</span>
+</span><span id="Cartographer.track-438"><a href="#Cartographer.track-438"><span class="linenos">438</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="Cartographer.track-439"><a href="#Cartographer.track-439"><span class="linenos">439</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">record_update_history</span><span class="p">(</span><span class="n">pubs</span><span class="p">,</span> <span class="n">pubs_per_update</span><span class="p">)</span>
+</span><span id="Cartographer.track-440"><a href="#Cartographer.track-440"><span class="linenos">440</span></a>        <span class="n">kernel_size</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">converged_kernel_size</span><span class="p">(</span><span class="n">atl</span><span class="p">)</span>
+</span><span id="Cartographer.track-441"><a href="#Cartographer.track-441"><span class="linenos">441</span></a>        <span class="n">atl</span><span class="o">.</span><span class="n">history</span> <span class="o">=</span> <span class="p">{</span>
+</span><span id="Cartographer.track-442"><a href="#Cartographer.track-442"><span class="linenos">442</span></a>            <span class="s2">&quot;pubs_per_update&quot;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">pubs_per_update</span>
+</span><span id="Cartographer.track-443"><a href="#Cartographer.track-443"><span class="linenos">443</span></a>            <span class="k">if</span> <span class="n">pubs_per_update</span> <span class="ow">is</span> <span class="kc">None</span>
+</span><span id="Cartographer.track-444"><a href="#Cartographer.track-444"><span class="linenos">444</span></a>            <span class="k">else</span> <span class="n">pubs_per_update</span><span class="p">,</span>
+</span><span id="Cartographer.track-445"><a href="#Cartographer.track-445"><span class="linenos">445</span></a>            <span class="s2">&quot;kernel_size&quot;</span><span class="p">:</span> <span class="n">kernel_size</span><span class="p">,</span>
+</span><span id="Cartographer.track-446"><a href="#Cartographer.track-446"><span class="linenos">446</span></a>        <span class="p">}</span>
+</span><span id="Cartographer.track-447"><a href="#Cartographer.track-447"><span class="linenos">447</span></a>        <span class="k">return</span> <span class="n">atl</span>
+</span></pre></div>
+
+
+            <div class="docstring"><p>Overwrite the data associated with tracking degree of convergence of publications in an atlas over multiple expansions. N.B.: the atlas must be fully projected, or else <code><a href="#Cartographer.converged_kernel_size">converged_kernel_size</a></code> will raise a KeyError.</p>
+
+<h6 id="arguments">Arguments:</h6>
+
+<ul>
+<li><strong>atl:</strong>  the Atlas that will be updated by overwriting <code>Atlas.history</code></li>
+</ul>
+</div>
+
+
+                            </div>
+                            <div id="Cartographer.record_update_history" class="classattr">
+                                        <input id="Cartographer.record_update_history-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
+<div class="attr function">
+            
+        <span class="def">def</span>
+        <span class="name">record_update_history</span><span class="signature pdoc-code multiline">(<span class="param">	<span class="bp">self</span>,</span><span class="param">	<span class="n">pubs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>,</span><span class="param">	<span class="n">pubs_per_update</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span></span><span class="return-annotation">) -> <span class="kc">None</span>:</span></span>
+
+                <label class="view-source-button" for="Cartographer.record_update_history-view-source"><span>View Source</span></label>
+
+    </div>
+    <a class="headerlink" href="#Cartographer.record_update_history"></a>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="Cartographer.record_update_history-453"><a href="#Cartographer.record_update_history-453"><span class="linenos">453</span></a>    <span class="k">def</span> <span class="nf">record_update_history</span><span class="p">(</span>
+</span><span id="Cartographer.record_update_history-454"><a href="#Cartographer.record_update_history-454"><span class="linenos">454</span></a>        <span class="bp">self</span><span class="p">,</span>
+</span><span id="Cartographer.record_update_history-455"><a href="#Cartographer.record_update_history-455"><span class="linenos">455</span></a>        <span class="n">pubs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="Cartographer.record_update_history-456"><a href="#Cartographer.record_update_history-456"><span class="linenos">456</span></a>        <span class="n">pubs_per_update</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="Cartographer.record_update_history-457"><a href="#Cartographer.record_update_history-457"><span class="linenos">457</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Cartographer.record_update_history-458"><a href="#Cartographer.record_update_history-458"><span class="linenos">458</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Record when publications were added, by updating atl.update_history.</span>
+</span><span id="Cartographer.record_update_history-459"><a href="#Cartographer.record_update_history-459"><span class="linenos">459</span></a>
+</span><span id="Cartographer.record_update_history-460"><a href="#Cartographer.record_update_history-460"><span class="linenos">460</span></a><span class="sd">        atl.update_history is a np.array of ints representing when publications were added. A value of -2 indicates no record of being added.</span>
+</span><span id="Cartographer.record_update_history-461"><a href="#Cartographer.record_update_history-461"><span class="linenos">461</span></a>
+</span><span id="Cartographer.record_update_history-462"><a href="#Cartographer.record_update_history-462"><span class="linenos">462</span></a><span class="sd">        Args:</span>
+</span><span id="Cartographer.record_update_history-463"><a href="#Cartographer.record_update_history-463"><span class="linenos">463</span></a><span class="sd">            pubs: a list of str ids corresponding to publications at the final update in the update history. By default `None`, and `self.pubs_per_update[-1]` will be used.</span>
+</span><span id="Cartographer.record_update_history-464"><a href="#Cartographer.record_update_history-464"><span class="linenos">464</span></a>
+</span><span id="Cartographer.record_update_history-465"><a href="#Cartographer.record_update_history-465"><span class="linenos">465</span></a><span class="sd">            pubs_per_update: a list of which publications existed at which iteration, with the index of the overall list corresponding to the iteration the publication was added. By default `None`, and `self.pubs_per_update` will be used.</span>
+</span><span id="Cartographer.record_update_history-466"><a href="#Cartographer.record_update_history-466"><span class="linenos">466</span></a>
+</span><span id="Cartographer.record_update_history-467"><a href="#Cartographer.record_update_history-467"><span class="linenos">467</span></a><span class="sd">        Updates:</span>
+</span><span id="Cartographer.record_update_history-468"><a href="#Cartographer.record_update_history-468"><span class="linenos">468</span></a><span class="sd">            `self.update_history`: an np.array of ints representing when publications were added. A value of -2 indicates no record of being added.</span>
+</span><span id="Cartographer.record_update_history-469"><a href="#Cartographer.record_update_history-469"><span class="linenos">469</span></a>
+</span><span id="Cartographer.record_update_history-470"><a href="#Cartographer.record_update_history-470"><span class="linenos">470</span></a><span class="sd">        Returns:</span>
+</span><span id="Cartographer.record_update_history-471"><a href="#Cartographer.record_update_history-471"><span class="linenos">471</span></a><span class="sd">            `None`</span>
+</span><span id="Cartographer.record_update_history-472"><a href="#Cartographer.record_update_history-472"><span class="linenos">472</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="Cartographer.record_update_history-473"><a href="#Cartographer.record_update_history-473"><span class="linenos">473</span></a>        <span class="k">if</span> <span class="n">pubs</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Cartographer.record_update_history-474"><a href="#Cartographer.record_update_history-474"><span class="linenos">474</span></a>            <span class="n">pubs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">pubs_per_update</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span>
+</span><span id="Cartographer.record_update_history-475"><a href="#Cartographer.record_update_history-475"><span class="linenos">475</span></a>
+</span><span id="Cartographer.record_update_history-476"><a href="#Cartographer.record_update_history-476"><span class="linenos">476</span></a>        <span class="k">if</span> <span class="n">pubs_per_update</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Cartographer.record_update_history-477"><a href="#Cartographer.record_update_history-477"><span class="linenos">477</span></a>            <span class="n">pubs_per_update</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">pubs_per_update</span>
+</span><span id="Cartographer.record_update_history-478"><a href="#Cartographer.record_update_history-478"><span class="linenos">478</span></a>
+</span><span id="Cartographer.record_update_history-479"><a href="#Cartographer.record_update_history-479"><span class="linenos">479</span></a>        <span class="c1"># Loop backwards</span>
+</span><span id="Cartographer.record_update_history-480"><a href="#Cartographer.record_update_history-480"><span class="linenos">480</span></a>        <span class="n">i_max</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">pubs_per_update</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span>
+</span><span id="Cartographer.record_update_history-481"><a href="#Cartographer.record_update_history-481"><span class="linenos">481</span></a>        <span class="n">update_history</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">pubs</span><span class="p">),</span> <span class="o">-</span><span class="mi">2</span><span class="p">)</span>
+</span><span id="Cartographer.record_update_history-482"><a href="#Cartographer.record_update_history-482"><span class="linenos">482</span></a>        <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">pubs_i</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">pubs_per_update</span><span class="p">[::</span><span class="o">-</span><span class="mi">1</span><span class="p">]):</span>
+</span><span id="Cartographer.record_update_history-483"><a href="#Cartographer.record_update_history-483"><span class="linenos">483</span></a>            <span class="n">is_in</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">isin</span><span class="p">(</span><span class="n">pubs</span><span class="p">,</span> <span class="n">pubs_i</span><span class="p">)</span>
+</span><span id="Cartographer.record_update_history-484"><a href="#Cartographer.record_update_history-484"><span class="linenos">484</span></a>            <span class="n">update_history</span><span class="p">[</span><span class="n">is_in</span><span class="p">]</span> <span class="o">=</span> <span class="n">i_max</span> <span class="o">-</span> <span class="n">i</span>
+</span><span id="Cartographer.record_update_history-485"><a href="#Cartographer.record_update_history-485"><span class="linenos">485</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">update_history</span> <span class="o">=</span> <span class="n">update_history</span>
+</span></pre></div>
+
+
+            <div class="docstring"><p>Record when publications were added, by updating atl.update_history.</p>
+
+<p>atl.update_history is a np.array of ints representing when publications were added. A value of -2 indicates no record of being added.</p>
+
+<h6 id="arguments">Arguments:</h6>
+
+<ul>
+<li><strong>pubs:</strong>  a list of str ids corresponding to publications at the final update in the update history. By default <code>None</code>, and <code>self.pubs_per_update[-1]</code> will be used.</li>
+<li><strong>pubs_per_update:</strong>  a list of which publications existed at which iteration, with the index of the overall list corresponding to the iteration the publication was added. By default <code>None</code>, and <code>self.pubs_per_update</code> will be used.</li>
+</ul>
+
+<h6 id="updates">Updates:</h6>
+
+<blockquote>
+  <p><code>self.update_history</code>: an np.array of ints representing when publications were added. A value of -2 indicates no record of being added.</p>
+</blockquote>
+
+<h6 id="returns">Returns:</h6>
+
+<blockquote>
+  <p><code>None</code></p>
+</blockquote>
+</div>
+
+
+                            </div>
+                            <div id="Cartographer.converged_kernel_size" class="classattr">
+                                        <input id="Cartographer.converged_kernel_size-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
+<div class="attr function">
+            
+        <span class="def">def</span>
+        <span class="name">converged_kernel_size</span><span class="signature pdoc-code condensed">(<span class="param"><span class="bp">self</span>, </span><span class="param"><span class="n">atl</span><span class="p">:</span> <span class="n"><a href="atlas.html#Atlas">sciterra.mapping.atlas.Atlas</a></span></span><span class="return-annotation">) -> <span class="n">numpy</span><span class="o">.</span><span class="n">ndarray</span>:</span></span>
+
+                <label class="view-source-button" for="Cartographer.converged_kernel_size-view-source"><span>View Source</span></label>
+
+    </div>
+    <a class="headerlink" href="#Cartographer.converged_kernel_size"></a>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="Cartographer.converged_kernel_size-491"><a href="#Cartographer.converged_kernel_size-491"><span class="linenos">491</span></a>    <span class="k">def</span> <span class="nf">converged_kernel_size</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">atl</span><span class="p">:</span> <span class="n">Atlas</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+</span><span id="Cartographer.converged_kernel_size-492"><a href="#Cartographer.converged_kernel_size-492"><span class="linenos">492</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Calculate the largest size of the kernel that&#39;s converged (at differing levels of convergence) for each publication in a sample at each update.</span>
+</span><span id="Cartographer.converged_kernel_size-493"><a href="#Cartographer.converged_kernel_size-493"><span class="linenos">493</span></a>
+</span><span id="Cartographer.converged_kernel_size-494"><a href="#Cartographer.converged_kernel_size-494"><span class="linenos">494</span></a><span class="sd">        Args:</span>
+</span><span id="Cartographer.converged_kernel_size-495"><a href="#Cartographer.converged_kernel_size-495"><span class="linenos">495</span></a><span class="sd">            atl: Atlas containing publications; for each publication we compute the largest converged kernel size at each update</span>
+</span><span id="Cartographer.converged_kernel_size-496"><a href="#Cartographer.converged_kernel_size-496"><span class="linenos">496</span></a>
+</span><span id="Cartographer.converged_kernel_size-497"><a href="#Cartographer.converged_kernel_size-497"><span class="linenos">497</span></a><span class="sd">        Returns:</span>
+</span><span id="Cartographer.converged_kernel_size-498"><a href="#Cartographer.converged_kernel_size-498"><span class="linenos">498</span></a><span class="sd">            kernel_size: an array of ints of shape `(num_pubs, max_update)` representing the kernel size for converged kernels.</span>
+</span><span id="Cartographer.converged_kernel_size-499"><a href="#Cartographer.converged_kernel_size-499"><span class="linenos">499</span></a><span class="sd">                - The first column indicates the largest kernel size that hasn&#39;t changed since the beginning,</span>
+</span><span id="Cartographer.converged_kernel_size-500"><a href="#Cartographer.converged_kernel_size-500"><span class="linenos">500</span></a><span class="sd">                - The second column indicates the largest kernel size that hasn&#39;t changed since the first update,</span>
+</span><span id="Cartographer.converged_kernel_size-501"><a href="#Cartographer.converged_kernel_size-501"><span class="linenos">501</span></a><span class="sd">                - etc. for the nth column.</span>
+</span><span id="Cartographer.converged_kernel_size-502"><a href="#Cartographer.converged_kernel_size-502"><span class="linenos">502</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="Cartographer.converged_kernel_size-503"><a href="#Cartographer.converged_kernel_size-503"><span class="linenos">503</span></a>
+</span><span id="Cartographer.converged_kernel_size-504"><a href="#Cartographer.converged_kernel_size-504"><span class="linenos">504</span></a>        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">update_history</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Cartographer.converged_kernel_size-505"><a href="#Cartographer.converged_kernel_size-505"><span class="linenos">505</span></a>            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+</span><span id="Cartographer.converged_kernel_size-506"><a href="#Cartographer.converged_kernel_size-506"><span class="linenos">506</span></a>                <span class="s2">&quot;update_history is None; make sure you have called record_update_history()!&quot;</span>
+</span><span id="Cartographer.converged_kernel_size-507"><a href="#Cartographer.converged_kernel_size-507"><span class="linenos">507</span></a>            <span class="p">)</span>
+</span><span id="Cartographer.converged_kernel_size-508"><a href="#Cartographer.converged_kernel_size-508"><span class="linenos">508</span></a>
+</span><span id="Cartographer.converged_kernel_size-509"><a href="#Cartographer.converged_kernel_size-509"><span class="linenos">509</span></a>        <span class="k">if</span> <span class="o">-</span><span class="mi">2</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">update_history</span><span class="p">:</span>
+</span><span id="Cartographer.converged_kernel_size-510"><a href="#Cartographer.converged_kernel_size-510"><span class="linenos">510</span></a>            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+</span><span id="Cartographer.converged_kernel_size-511"><a href="#Cartographer.converged_kernel_size-511"><span class="linenos">511</span></a>                <span class="s2">&quot;Incomplete update history as indicated by entries with values of -2.&quot;</span>
+</span><span id="Cartographer.converged_kernel_size-512"><a href="#Cartographer.converged_kernel_size-512"><span class="linenos">512</span></a>            <span class="p">)</span>
+</span><span id="Cartographer.converged_kernel_size-513"><a href="#Cartographer.converged_kernel_size-513"><span class="linenos">513</span></a>
+</span><span id="Cartographer.converged_kernel_size-514"><a href="#Cartographer.converged_kernel_size-514"><span class="linenos">514</span></a>        <span class="n">publications</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">ids</span><span class="p">())</span>
+</span><span id="Cartographer.converged_kernel_size-515"><a href="#Cartographer.converged_kernel_size-515"><span class="linenos">515</span></a>
+</span><span id="Cartographer.converged_kernel_size-516"><a href="#Cartographer.converged_kernel_size-516"><span class="linenos">516</span></a>        <span class="c1"># 1. Loop over each publication</span>
+</span><span id="Cartographer.converged_kernel_size-517"><a href="#Cartographer.converged_kernel_size-517"><span class="linenos">517</span></a>        <span class="n">cospsi_kernel</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="Cartographer.converged_kernel_size-518"><a href="#Cartographer.converged_kernel_size-518"><span class="linenos">518</span></a>        <span class="k">for</span> <span class="n">pub</span> <span class="ow">in</span> <span class="n">tqdm</span><span class="p">(</span><span class="n">publications</span><span class="p">):</span>
+</span><span id="Cartographer.converged_kernel_size-519"><a href="#Cartographer.converged_kernel_size-519"><span class="linenos">519</span></a>            <span class="c1"># 2. Identify the similarity with the other publications relative to this publication, and sort accordingly.</span>
+</span><span id="Cartographer.converged_kernel_size-520"><a href="#Cartographer.converged_kernel_size-520"><span class="linenos">520</span></a>            <span class="n">cospsi</span> <span class="o">=</span> <span class="n">cosine_similarity</span><span class="p">(</span>
+</span><span id="Cartographer.converged_kernel_size-521"><a href="#Cartographer.converged_kernel_size-521"><span class="linenos">521</span></a>                <span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">identifiers_to_embeddings</span><span class="p">([</span><span class="n">pub</span><span class="p">]),</span>
+</span><span id="Cartographer.converged_kernel_size-522"><a href="#Cartographer.converged_kernel_size-522"><span class="linenos">522</span></a>                <span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">embeddings</span><span class="p">,</span>
+</span><span id="Cartographer.converged_kernel_size-523"><a href="#Cartographer.converged_kernel_size-523"><span class="linenos">523</span></a>            <span class="p">)</span><span class="o">.</span><span class="n">flatten</span><span class="p">()</span>  <span class="c1"># shape `(num_pubs,)`</span>
+</span><span id="Cartographer.converged_kernel_size-524"><a href="#Cartographer.converged_kernel_size-524"><span class="linenos">524</span></a>            <span class="n">sort_inds</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">argsort</span><span class="p">(</span><span class="n">cospsi</span><span class="p">)[::</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span>  <span class="c1"># shape `(num_pubs,)`</span>
+</span><span id="Cartographer.converged_kernel_size-525"><a href="#Cartographer.converged_kernel_size-525"><span class="linenos">525</span></a>
+</span><span id="Cartographer.converged_kernel_size-526"><a href="#Cartographer.converged_kernel_size-526"><span class="linenos">526</span></a>            <span class="c1"># 3. Identify the expansion iteration at which those publications were added to the atlas (`sorted_history`).</span>
+</span><span id="Cartographer.converged_kernel_size-527"><a href="#Cartographer.converged_kernel_size-527"><span class="linenos">527</span></a>            <span class="n">sorted_history</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">update_history</span><span class="p">[</span><span class="n">sort_inds</span><span class="p">]</span>  <span class="c1"># shape `(num_pubs,)`</span>
+</span><span id="Cartographer.converged_kernel_size-528"><a href="#Cartographer.converged_kernel_size-528"><span class="linenos">528</span></a>
+</span><span id="Cartographer.converged_kernel_size-529"><a href="#Cartographer.converged_kernel_size-529"><span class="linenos">529</span></a>            <span class="c1"># 4. Identify the latest iteration at which any publication was added to the atlas; this can be less than the total iterations.</span>
+</span><span id="Cartographer.converged_kernel_size-530"><a href="#Cartographer.converged_kernel_size-530"><span class="linenos">530</span></a>            <span class="n">last_update</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">update_history</span><span class="o">.</span><span class="n">max</span><span class="p">()</span>
+</span><span id="Cartographer.converged_kernel_size-531"><a href="#Cartographer.converged_kernel_size-531"><span class="linenos">531</span></a>
+</span><span id="Cartographer.converged_kernel_size-532"><a href="#Cartographer.converged_kernel_size-532"><span class="linenos">532</span></a>            <span class="c1"># 5. Loop through each iteration until `last_update`, and identify which publications were added at or before that iteration.</span>
+</span><span id="Cartographer.converged_kernel_size-533"><a href="#Cartographer.converged_kernel_size-533"><span class="linenos">533</span></a>            <span class="n">result_2</span> <span class="o">=</span> <span class="p">[</span>
+</span><span id="Cartographer.converged_kernel_size-534"><a href="#Cartographer.converged_kernel_size-534"><span class="linenos">534</span></a>                <span class="c1"># 6. Compute how many publications out we can go and still only contain publications added at or before that iteration.</span>
+</span><span id="Cartographer.converged_kernel_size-535"><a href="#Cartographer.converged_kernel_size-535"><span class="linenos">535</span></a>                <span class="c1"># Use `argmin` to get the first instance of False</span>
+</span><span id="Cartographer.converged_kernel_size-536"><a href="#Cartographer.converged_kernel_size-536"><span class="linenos">536</span></a>                <span class="c1"># Finally, subtract 1: we want the first index before False.</span>
+</span><span id="Cartographer.converged_kernel_size-537"><a href="#Cartographer.converged_kernel_size-537"><span class="linenos">537</span></a>                <span class="n">np</span><span class="o">.</span><span class="n">argmin</span><span class="p">(</span><span class="n">sorted_history</span> <span class="o">&lt;=</span> <span class="n">update</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span>
+</span><span id="Cartographer.converged_kernel_size-538"><a href="#Cartographer.converged_kernel_size-538"><span class="linenos">538</span></a>                <span class="k">for</span> <span class="n">update</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">last_update</span><span class="p">)</span>
+</span><span id="Cartographer.converged_kernel_size-539"><a href="#Cartographer.converged_kernel_size-539"><span class="linenos">539</span></a>            <span class="p">]</span>  <span class="c1"># shape `(num_pubs, last_update)`</span>
+</span><span id="Cartographer.converged_kernel_size-540"><a href="#Cartographer.converged_kernel_size-540"><span class="linenos">540</span></a>
+</span><span id="Cartographer.converged_kernel_size-541"><a href="#Cartographer.converged_kernel_size-541"><span class="linenos">541</span></a>            <span class="n">cospsi_kernel</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">result_2</span><span class="p">)</span>
+</span><span id="Cartographer.converged_kernel_size-542"><a href="#Cartographer.converged_kernel_size-542"><span class="linenos">542</span></a>
+</span><span id="Cartographer.converged_kernel_size-543"><a href="#Cartographer.converged_kernel_size-543"><span class="linenos">543</span></a>        <span class="k">return</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">cospsi_kernel</span><span class="p">)</span>
+</span></pre></div>
+
+
+            <div class="docstring"><p>Calculate the largest size of the kernel that's converged (at differing levels of convergence) for each publication in a sample at each update.</p>
+
+<h6 id="arguments">Arguments:</h6>
+
+<ul>
+<li><strong>atl:</strong>  Atlas containing publications; for each publication we compute the largest converged kernel size at each update</li>
+</ul>
+
+<h6 id="returns">Returns:</h6>
+
+<blockquote>
+  <p>kernel_size: an array of ints of shape <code>(num_pubs, max_update)</code> representing the kernel size for converged kernels.
+      - The first column indicates the largest kernel size that hasn't changed since the beginning,
+      - The second column indicates the largest kernel size that hasn't changed since the first update,
+      - etc. for the nth column.</p>
+</blockquote>
+</div>
+
+
+                            </div>
+                            <div id="Cartographer.measure_topography" class="classattr">
+                                        <input id="Cartographer.measure_topography-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
+<div class="attr function">
+            
+        <span class="def">def</span>
+        <span class="name">measure_topography</span><span class="signature pdoc-code multiline">(<span class="param">	<span class="bp">self</span>,</span><span class="param">	<span class="n">atl</span><span class="p">:</span> <span class="n"><a href="atlas.html#Atlas">sciterra.mapping.atlas.Atlas</a></span>,</span><span class="param">	<span class="n">ids</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>,</span><span class="param">	<span class="n">metrics</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;density&#39;</span><span class="p">]</span>,</span><span class="param">	<span class="n">min_prior_pubs</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">2</span>,</span><span class="param">	<span class="n">kernel_size</span><span class="o">=</span><span class="mi">16</span>,</span><span class="param">	<span class="o">**</span><span class="n">kwargs</span></span><span class="return-annotation">):</span></span>
+
+                <label class="view-source-button" for="Cartographer.measure_topography-view-source"><span>View Source</span></label>
+
+    </div>
+    <a class="headerlink" href="#Cartographer.measure_topography"></a>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="Cartographer.measure_topography-549"><a href="#Cartographer.measure_topography-549"><span class="linenos">549</span></a>    <span class="k">def</span> <span class="nf">measure_topography</span><span class="p">(</span>
+</span><span id="Cartographer.measure_topography-550"><a href="#Cartographer.measure_topography-550"><span class="linenos">550</span></a>        <span class="bp">self</span><span class="p">,</span>
+</span><span id="Cartographer.measure_topography-551"><a href="#Cartographer.measure_topography-551"><span class="linenos">551</span></a>        <span class="n">atl</span><span class="p">:</span> <span class="n">Atlas</span><span class="p">,</span>
+</span><span id="Cartographer.measure_topography-552"><a href="#Cartographer.measure_topography-552"><span class="linenos">552</span></a>        <span class="n">ids</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="Cartographer.measure_topography-553"><a href="#Cartographer.measure_topography-553"><span class="linenos">553</span></a>        <span class="n">metrics</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;density&quot;</span><span class="p">],</span>
+</span><span id="Cartographer.measure_topography-554"><a href="#Cartographer.measure_topography-554"><span class="linenos">554</span></a>        <span class="n">min_prior_pubs</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">2</span><span class="p">,</span>
+</span><span id="Cartographer.measure_topography-555"><a href="#Cartographer.measure_topography-555"><span class="linenos">555</span></a>        <span class="n">kernel_size</span><span class="o">=</span><span class="mi">16</span><span class="p">,</span>
+</span><span id="Cartographer.measure_topography-556"><a href="#Cartographer.measure_topography-556"><span class="linenos">556</span></a>        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+</span><span id="Cartographer.measure_topography-557"><a href="#Cartographer.measure_topography-557"><span class="linenos">557</span></a>    <span class="p">):</span>
+</span><span id="Cartographer.measure_topography-558"><a href="#Cartographer.measure_topography-558"><span class="linenos">558</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Measure topographic properties of all publications relative to prior</span>
+</span><span id="Cartographer.measure_topography-559"><a href="#Cartographer.measure_topography-559"><span class="linenos">559</span></a><span class="sd">        publications.</span>
+</span><span id="Cartographer.measure_topography-560"><a href="#Cartographer.measure_topography-560"><span class="linenos">560</span></a>
+</span><span id="Cartographer.measure_topography-561"><a href="#Cartographer.measure_topography-561"><span class="linenos">561</span></a><span class="sd">        Args:</span>
+</span><span id="Cartographer.measure_topography-562"><a href="#Cartographer.measure_topography-562"><span class="linenos">562</span></a>
+</span><span id="Cartographer.measure_topography-563"><a href="#Cartographer.measure_topography-563"><span class="linenos">563</span></a><span class="sd">            atl: the Atlas to measure</span>
+</span><span id="Cartographer.measure_topography-564"><a href="#Cartographer.measure_topography-564"><span class="linenos">564</span></a>
+</span><span id="Cartographer.measure_topography-565"><a href="#Cartographer.measure_topography-565"><span class="linenos">565</span></a><span class="sd">            publication_indices: an np.ndarray of ints representing the indices of publications in the Atlas projection to measure</span>
+</span><span id="Cartographer.measure_topography-566"><a href="#Cartographer.measure_topography-566"><span class="linenos">566</span></a>
+</span><span id="Cartographer.measure_topography-567"><a href="#Cartographer.measure_topography-567"><span class="linenos">567</span></a><span class="sd">            metrics: A list of strings representing the metrics to use. Options are...</span>
+</span><span id="Cartographer.measure_topography-568"><a href="#Cartographer.measure_topography-568"><span class="linenos">568</span></a><span class="sd">                constant_asymmetry: The asymmetry of a publication $p_i$ w.r.t the entire atlas $\\{ p_j \\forall j \\in \\{1, ..., k\\} \\} where $k$ is the length of the atlas</span>
+</span><span id="Cartographer.measure_topography-569"><a href="#Cartographer.measure_topography-569"><span class="linenos">569</span></a>
+</span><span id="Cartographer.measure_topography-570"><a href="#Cartographer.measure_topography-570"><span class="linenos">570</span></a><span class="sd">                    $| \\sum_{j}^{k-1}( p_i - p_j ) |$</span>
+</span><span id="Cartographer.measure_topography-571"><a href="#Cartographer.measure_topography-571"><span class="linenos">571</span></a>
+</span><span id="Cartographer.measure_topography-572"><a href="#Cartographer.measure_topography-572"><span class="linenos">572</span></a><span class="sd">                kernel_constant_asymmetry: The asymmetry of a publication w.r.t. its kernel, { p_j for all j in {1, ..., k} } where k is `kernel_size`, i.e. the k nearest neighbors.</span>
+</span><span id="Cartographer.measure_topography-573"><a href="#Cartographer.measure_topography-573"><span class="linenos">573</span></a>
+</span><span id="Cartographer.measure_topography-574"><a href="#Cartographer.measure_topography-574"><span class="linenos">574</span></a><span class="sd">                density: the density of a publication&#39;s surrounding area, estimated by a heuristic inspired by mass / volume = k publications divided by the minimum arc length enclosing the furthest publication.</span>
+</span><span id="Cartographer.measure_topography-575"><a href="#Cartographer.measure_topography-575"><span class="linenos">575</span></a>
+</span><span id="Cartographer.measure_topography-576"><a href="#Cartographer.measure_topography-576"><span class="linenos">576</span></a><span class="sd">                    $\\frac{ k }{ smoothing\\_length(k) }$</span>
+</span><span id="Cartographer.measure_topography-577"><a href="#Cartographer.measure_topography-577"><span class="linenos">577</span></a>
+</span><span id="Cartographer.measure_topography-578"><a href="#Cartographer.measure_topography-578"><span class="linenos">578</span></a><span class="sd">                smoothing_length: The distance (in radians) to the farthest publication in the kernel, i.e. the kth nearest neighbor.</span>
+</span><span id="Cartographer.measure_topography-579"><a href="#Cartographer.measure_topography-579"><span class="linenos">579</span></a>
+</span><span id="Cartographer.measure_topography-580"><a href="#Cartographer.measure_topography-580"><span class="linenos">580</span></a><span class="sd">            min_prior_pubs: The minimum number of publications prior to the target publication for which to calculate the metric.</span>
+</span><span id="Cartographer.measure_topography-581"><a href="#Cartographer.measure_topography-581"><span class="linenos">581</span></a>
+</span><span id="Cartographer.measure_topography-582"><a href="#Cartographer.measure_topography-582"><span class="linenos">582</span></a><span class="sd">            kernel_size: the number of publications surrounding the publication for which to compute the topography metric, i.e. k nearest neighbors for k=kernel_size.</span>
+</span><span id="Cartographer.measure_topography-583"><a href="#Cartographer.measure_topography-583"><span class="linenos">583</span></a>
+</span><span id="Cartographer.measure_topography-584"><a href="#Cartographer.measure_topography-584"><span class="linenos">584</span></a><span class="sd">        Returns:</span>
+</span><span id="Cartographer.measure_topography-585"><a href="#Cartographer.measure_topography-585"><span class="linenos">585</span></a><span class="sd">            estimates: an np.ndarray of shape `(len(publication_indices), len(metrics))` representing the estimated topography metric values for each publication.</span>
+</span><span id="Cartographer.measure_topography-586"><a href="#Cartographer.measure_topography-586"><span class="linenos">586</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="Cartographer.measure_topography-587"><a href="#Cartographer.measure_topography-587"><span class="linenos">587</span></a>        <span class="n">verbose</span> <span class="o">=</span> <span class="n">get_verbose</span><span class="p">(</span><span class="n">kwargs</span><span class="p">)</span>
+</span><span id="Cartographer.measure_topography-588"><a href="#Cartographer.measure_topography-588"><span class="linenos">588</span></a>
+</span><span id="Cartographer.measure_topography-589"><a href="#Cartographer.measure_topography-589"><span class="linenos">589</span></a>        <span class="c1"># By default calculate for all publications</span>
+</span><span id="Cartographer.measure_topography-590"><a href="#Cartographer.measure_topography-590"><span class="linenos">590</span></a>        <span class="k">if</span> <span class="n">ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Cartographer.measure_topography-591"><a href="#Cartographer.measure_topography-591"><span class="linenos">591</span></a>            <span class="n">ids</span> <span class="o">=</span> <span class="n">atl</span><span class="o">.</span><span class="n">ids</span><span class="p">()</span>
+</span><span id="Cartographer.measure_topography-592"><a href="#Cartographer.measure_topography-592"><span class="linenos">592</span></a>        <span class="k">else</span><span class="p">:</span>
+</span><span id="Cartographer.measure_topography-593"><a href="#Cartographer.measure_topography-593"><span class="linenos">593</span></a>            <span class="n">ids</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span>
+</span><span id="Cartographer.measure_topography-594"><a href="#Cartographer.measure_topography-594"><span class="linenos">594</span></a>
+</span><span id="Cartographer.measure_topography-595"><a href="#Cartographer.measure_topography-595"><span class="linenos">595</span></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">ids</span><span class="p">:</span>
+</span><span id="Cartographer.measure_topography-596"><a href="#Cartographer.measure_topography-596"><span class="linenos">596</span></a>            <span class="k">raise</span> <span class="ne">Exception</span><span class="p">(</span><span class="s2">&quot;No publications to measure topography of.&quot;</span><span class="p">)</span>
+</span><span id="Cartographer.measure_topography-597"><a href="#Cartographer.measure_topography-597"><span class="linenos">597</span></a>
+</span><span id="Cartographer.measure_topography-598"><a href="#Cartographer.measure_topography-598"><span class="linenos">598</span></a>        <span class="c1"># Get publication dates, for filtering</span>
+</span><span id="Cartographer.measure_topography-599"><a href="#Cartographer.measure_topography-599"><span class="linenos">599</span></a>        <span class="n">dates</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([</span><span class="n">atl</span><span class="p">[</span><span class="n">identifier</span><span class="p">]</span><span class="o">.</span><span class="n">publication_date</span> <span class="k">for</span> <span class="n">identifier</span> <span class="ow">in</span> <span class="n">ids</span><span class="p">])</span>
+</span><span id="Cartographer.measure_topography-600"><a href="#Cartographer.measure_topography-600"><span class="linenos">600</span></a>
+</span><span id="Cartographer.measure_topography-601"><a href="#Cartographer.measure_topography-601"><span class="linenos">601</span></a>        <span class="c1"># Get pairwise cosine similarities for ids</span>
+</span><span id="Cartographer.measure_topography-602"><a href="#Cartographer.measure_topography-602"><span class="linenos">602</span></a>        <span class="n">embeddings</span> <span class="o">=</span> <span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="o">.</span><span class="n">identifiers_to_embeddings</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span>
+</span><span id="Cartographer.measure_topography-603"><a href="#Cartographer.measure_topography-603"><span class="linenos">603</span></a>        <span class="n">cospsi_matrix</span> <span class="o">=</span> <span class="n">batch_cospsi_matrix</span><span class="p">(</span><span class="n">embeddings</span><span class="p">)</span>
+</span><span id="Cartographer.measure_topography-604"><a href="#Cartographer.measure_topography-604"><span class="linenos">604</span></a>
+</span><span id="Cartographer.measure_topography-605"><a href="#Cartographer.measure_topography-605"><span class="linenos">605</span></a>        <span class="c1"># From here on, use embedding indices instead of identifiers</span>
+</span><span id="Cartographer.measure_topography-606"><a href="#Cartographer.measure_topography-606"><span class="linenos">606</span></a>        <span class="c1"># our embeddings are already in the correct order, so just use them</span>
+</span><span id="Cartographer.measure_topography-607"><a href="#Cartographer.measure_topography-607"><span class="linenos">607</span></a>        <span class="n">publication_indices</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">embeddings</span><span class="p">))</span>
+</span><span id="Cartographer.measure_topography-608"><a href="#Cartographer.measure_topography-608"><span class="linenos">608</span></a>        <span class="c1"># publication_indices = atl.projection.identifiers_to_indices(ids)</span>
+</span><span id="Cartographer.measure_topography-609"><a href="#Cartographer.measure_topography-609"><span class="linenos">609</span></a>
+</span><span id="Cartographer.measure_topography-610"><a href="#Cartographer.measure_topography-610"><span class="linenos">610</span></a>        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Computing </span><span class="si">{</span><span class="n">metrics</span><span class="si">}</span><span class="s2"> for </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">ids</span><span class="p">)</span><span class="si">}</span><span class="s2"> publications.&quot;</span><span class="p">)</span>
+</span><span id="Cartographer.measure_topography-611"><a href="#Cartographer.measure_topography-611"><span class="linenos">611</span></a>        <span class="n">estimates</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="Cartographer.measure_topography-612"><a href="#Cartographer.measure_topography-612"><span class="linenos">612</span></a>        <span class="c1"># for idx in tqdm(publication_indices):</span>
+</span><span id="Cartographer.measure_topography-613"><a href="#Cartographer.measure_topography-613"><span class="linenos">613</span></a>        <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">identifier</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">ids</span><span class="p">):</span>
+</span><span id="Cartographer.measure_topography-614"><a href="#Cartographer.measure_topography-614"><span class="linenos">614</span></a>            <span class="c1"># Get the date of publication</span>
+</span><span id="Cartographer.measure_topography-615"><a href="#Cartographer.measure_topography-615"><span class="linenos">615</span></a>            <span class="c1"># identifier = atl.projection.index_to_identifier[idx]</span>
+</span><span id="Cartographer.measure_topography-616"><a href="#Cartographer.measure_topography-616"><span class="linenos">616</span></a>            <span class="n">date</span> <span class="o">=</span> <span class="n">atl</span><span class="p">[</span><span class="n">identifier</span><span class="p">]</span><span class="o">.</span><span class="n">publication_date</span>
+</span><span id="Cartographer.measure_topography-617"><a href="#Cartographer.measure_topography-617"><span class="linenos">617</span></a>
+</span><span id="Cartographer.measure_topography-618"><a href="#Cartographer.measure_topography-618"><span class="linenos">618</span></a>            <span class="c1"># Identify prior publications</span>
+</span><span id="Cartographer.measure_topography-619"><a href="#Cartographer.measure_topography-619"><span class="linenos">619</span></a>            <span class="n">is_prior</span> <span class="o">=</span> <span class="n">dates</span> <span class="o">&lt;</span> <span class="n">date</span>
+</span><span id="Cartographer.measure_topography-620"><a href="#Cartographer.measure_topography-620"><span class="linenos">620</span></a>            <span class="k">if</span> <span class="n">is_prior</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span> <span class="o">&lt;</span> <span class="n">min_prior_pubs</span><span class="p">:</span>
+</span><span id="Cartographer.measure_topography-621"><a href="#Cartographer.measure_topography-621"><span class="linenos">621</span></a>                <span class="n">estimates</span><span class="o">.</span><span class="n">append</span><span class="p">([</span><span class="n">np</span><span class="o">.</span><span class="n">nan</span> <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="n">metrics</span><span class="p">])</span>
+</span><span id="Cartographer.measure_topography-622"><a href="#Cartographer.measure_topography-622"><span class="linenos">622</span></a>                <span class="k">continue</span>
+</span><span id="Cartographer.measure_topography-623"><a href="#Cartographer.measure_topography-623"><span class="linenos">623</span></a>
+</span><span id="Cartographer.measure_topography-624"><a href="#Cartographer.measure_topography-624"><span class="linenos">624</span></a>            <span class="c1"># Choose valid publications</span>
+</span><span id="Cartographer.measure_topography-625"><a href="#Cartographer.measure_topography-625"><span class="linenos">625</span></a>            <span class="n">is_other</span> <span class="o">=</span> <span class="n">publication_indices</span> <span class="o">!=</span> <span class="n">idx</span>
+</span><span id="Cartographer.measure_topography-626"><a href="#Cartographer.measure_topography-626"><span class="linenos">626</span></a>            <span class="n">is_valid</span> <span class="o">=</span> <span class="n">is_prior</span> <span class="o">&amp;</span> <span class="n">is_other</span>
+</span><span id="Cartographer.measure_topography-627"><a href="#Cartographer.measure_topography-627"><span class="linenos">627</span></a>            <span class="n">valid_indices</span> <span class="o">=</span> <span class="n">publication_indices</span><span class="p">[</span><span class="n">is_valid</span><span class="p">]</span>
+</span><span id="Cartographer.measure_topography-628"><a href="#Cartographer.measure_topography-628"><span class="linenos">628</span></a>
+</span><span id="Cartographer.measure_topography-629"><a href="#Cartographer.measure_topography-629"><span class="linenos">629</span></a>            <span class="n">kwargs</span> <span class="o">=</span> <span class="p">{</span>
+</span><span id="Cartographer.measure_topography-630"><a href="#Cartographer.measure_topography-630"><span class="linenos">630</span></a>                <span class="s2">&quot;idx&quot;</span><span class="p">:</span> <span class="n">idx</span><span class="p">,</span>
+</span><span id="Cartographer.measure_topography-631"><a href="#Cartographer.measure_topography-631"><span class="linenos">631</span></a>                <span class="s2">&quot;cospsi_matrix&quot;</span><span class="p">:</span> <span class="n">cospsi_matrix</span><span class="p">,</span>
+</span><span id="Cartographer.measure_topography-632"><a href="#Cartographer.measure_topography-632"><span class="linenos">632</span></a>                <span class="s2">&quot;valid_indices&quot;</span><span class="p">:</span> <span class="n">valid_indices</span><span class="p">,</span>
+</span><span id="Cartographer.measure_topography-633"><a href="#Cartographer.measure_topography-633"><span class="linenos">633</span></a>                <span class="s2">&quot;publication_indices&quot;</span><span class="p">:</span> <span class="n">publication_indices</span><span class="p">,</span>
+</span><span id="Cartographer.measure_topography-634"><a href="#Cartographer.measure_topography-634"><span class="linenos">634</span></a>                <span class="s2">&quot;embeddings&quot;</span><span class="p">:</span> <span class="n">embeddings</span><span class="p">,</span>
+</span><span id="Cartographer.measure_topography-635"><a href="#Cartographer.measure_topography-635"><span class="linenos">635</span></a>                <span class="s2">&quot;kernel_size&quot;</span><span class="p">:</span> <span class="n">kernel_size</span><span class="p">,</span>
+</span><span id="Cartographer.measure_topography-636"><a href="#Cartographer.measure_topography-636"><span class="linenos">636</span></a>            <span class="p">}</span>
+</span><span id="Cartographer.measure_topography-637"><a href="#Cartographer.measure_topography-637"><span class="linenos">637</span></a>
+</span><span id="Cartographer.measure_topography-638"><a href="#Cartographer.measure_topography-638"><span class="linenos">638</span></a>            <span class="k">def</span> <span class="nf">call_metric</span><span class="p">(</span>
+</span><span id="Cartographer.measure_topography-639"><a href="#Cartographer.measure_topography-639"><span class="linenos">639</span></a>                <span class="n">metric</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+</span><span id="Cartographer.measure_topography-640"><a href="#Cartographer.measure_topography-640"><span class="linenos">640</span></a>                <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+</span><span id="Cartographer.measure_topography-641"><a href="#Cartographer.measure_topography-641"><span class="linenos">641</span></a>            <span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">float</span><span class="p">:</span>
+</span><span id="Cartographer.measure_topography-642"><a href="#Cartographer.measure_topography-642"><span class="linenos">642</span></a><span class="w">                </span><span class="sd">&quot;&quot;&quot;Wrapper function to simplify topography metric api.&quot;&quot;&quot;</span>
+</span><span id="Cartographer.measure_topography-643"><a href="#Cartographer.measure_topography-643"><span class="linenos">643</span></a>                <span class="c1"># Get the metric</span>
+</span><span id="Cartographer.measure_topography-644"><a href="#Cartographer.measure_topography-644"><span class="linenos">644</span></a>                <span class="n">fn</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="n">topography</span><span class="p">,</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">metric</span><span class="si">}</span><span class="s2">_metric&quot;</span><span class="p">)</span>
+</span><span id="Cartographer.measure_topography-645"><a href="#Cartographer.measure_topography-645"><span class="linenos">645</span></a>
+</span><span id="Cartographer.measure_topography-646"><a href="#Cartographer.measure_topography-646"><span class="linenos">646</span></a>                <span class="c1"># Identify arguments to pass</span>
+</span><span id="Cartographer.measure_topography-647"><a href="#Cartographer.measure_topography-647"><span class="linenos">647</span></a>                <span class="n">fn_args</span> <span class="o">=</span> <span class="n">inspect</span><span class="o">.</span><span class="n">getfullargspec</span><span class="p">(</span><span class="n">fn</span><span class="p">)</span>
+</span><span id="Cartographer.measure_topography-648"><a href="#Cartographer.measure_topography-648"><span class="linenos">648</span></a>                <span class="n">used_kwargs</span> <span class="o">=</span> <span class="p">{}</span>
+</span><span id="Cartographer.measure_topography-649"><a href="#Cartographer.measure_topography-649"><span class="linenos">649</span></a>                <span class="k">for</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="ow">in</span> <span class="n">kwargs</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+</span><span id="Cartographer.measure_topography-650"><a href="#Cartographer.measure_topography-650"><span class="linenos">650</span></a>                    <span class="k">if</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">fn_args</span><span class="o">.</span><span class="n">args</span><span class="p">:</span>
+</span><span id="Cartographer.measure_topography-651"><a href="#Cartographer.measure_topography-651"><span class="linenos">651</span></a>                        <span class="n">used_kwargs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
+</span><span id="Cartographer.measure_topography-652"><a href="#Cartographer.measure_topography-652"><span class="linenos">652</span></a>                <span class="c1"># Call</span>
+</span><span id="Cartographer.measure_topography-653"><a href="#Cartographer.measure_topography-653"><span class="linenos">653</span></a>                <span class="n">estimate</span> <span class="o">=</span> <span class="n">fn</span><span class="p">(</span><span class="o">**</span><span class="n">used_kwargs</span><span class="p">)</span>
+</span><span id="Cartographer.measure_topography-654"><a href="#Cartographer.measure_topography-654"><span class="linenos">654</span></a>                <span class="k">return</span> <span class="n">estimate</span>
+</span><span id="Cartographer.measure_topography-655"><a href="#Cartographer.measure_topography-655"><span class="linenos">655</span></a>
+</span><span id="Cartographer.measure_topography-656"><a href="#Cartographer.measure_topography-656"><span class="linenos">656</span></a>            <span class="n">estimates</span><span class="o">.</span><span class="n">append</span><span class="p">([</span><span class="n">call_metric</span><span class="p">(</span><span class="n">metric</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="k">for</span> <span class="n">metric</span> <span class="ow">in</span> <span class="n">metrics</span><span class="p">])</span>
+</span><span id="Cartographer.measure_topography-657"><a href="#Cartographer.measure_topography-657"><span class="linenos">657</span></a>        <span class="n">estimates</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">estimates</span><span class="p">)</span>
+</span><span id="Cartographer.measure_topography-658"><a href="#Cartographer.measure_topography-658"><span class="linenos">658</span></a>
+</span><span id="Cartographer.measure_topography-659"><a href="#Cartographer.measure_topography-659"><span class="linenos">659</span></a>        <span class="k">return</span> <span class="n">estimates</span>
+</span></pre></div>
+
+
+            <div class="docstring"><p>Measure topographic properties of all publications relative to prior
+publications.</p>
+
+<h6 id="arguments">Arguments:</h6>
+
+<ul>
+<li><strong>atl:</strong>  the Atlas to measure</li>
+<li><strong>publication_indices:</strong>  an np.ndarray of ints representing the indices of publications in the Atlas projection to measure</li>
+<li><p><strong>metrics:</strong>  A list of strings representing the metrics to use. Options are...
+constant_asymmetry: The asymmetry of a publication $p_i$ w.r.t the entire atlas ${ p_j \forall j \in {1, ..., k} } where $k$ is the length of the atlas</p>
+
+<p>$| \sum_{j}^{k-1}( p_i - p_j ) |$</p>
+
+<p>kernel_constant_asymmetry: The asymmetry of a publication w.r.t. its kernel, { p_j for all j in {1, ..., k} } where k is <code>kernel_size</code>, i.e. the k nearest neighbors.</p>
+
+<p>density: the density of a publication's surrounding area, estimated by a heuristic inspired by mass / volume = k publications divided by the minimum arc length enclosing the furthest publication.</p>
+
+<p>$\frac{ k }{ smoothing_length(k) }$</p>
+
+<p>smoothing_length: The distance (in radians) to the farthest publication in the kernel, i.e. the kth nearest neighbor.</p></li>
+<li><strong>min_prior_pubs:</strong>  The minimum number of publications prior to the target publication for which to calculate the metric.</li>
+<li><strong>kernel_size:</strong>  the number of publications surrounding the publication for which to compute the topography metric, i.e. k nearest neighbors for k=kernel_size.</li>
+</ul>
+
+<h6 id="returns">Returns:</h6>
+
+<blockquote>
+  <p>estimates: an np.ndarray of shape <code>(len(publication_indices), len(metrics))</code> representing the estimated topography metric values for each publication.</p>
+</blockquote>
+</div>
+
+
+                            </div>
+                </section>
+                <section id="iterate_expand">
+                            <input id="iterate_expand-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
+<div class="attr function">
+            
+        <span class="def">def</span>
+        <span class="name">iterate_expand</span><span class="signature pdoc-code multiline">(<span class="param">	<span class="n">atl</span><span class="p">:</span> <span class="n"><a href="atlas.html#Atlas">sciterra.mapping.atlas.Atlas</a></span>,</span><span class="param">	<span class="n">crt</span><span class="p">:</span> <span class="n"><a href="#Cartographer">sciterra.mapping.cartography.Cartographer</a></span>,</span><span class="param">	<span class="n">atlas_dir</span><span class="p">:</span> <span class="nb">str</span>,</span><span class="param">	<span class="n">target_size</span><span class="p">:</span> <span class="nb">int</span>,</span><span class="param">	<span class="n">max_failed_expansions</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">2</span>,</span><span class="param">	<span class="n">center</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span>,</span><span class="param">	<span class="n">n_pubs_max</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="kc">None</span>,</span><span class="param">	<span class="n">call_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="kc">None</span>,</span><span class="param">	<span class="n">n_sources_max</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="kc">None</span>,</span><span class="param">	<span class="n">record_pubs_per_update</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span></span><span class="return-annotation">) -> <span class="n"><a href="atlas.html#Atlas">sciterra.mapping.atlas.Atlas</a></span>:</span></span>
+
+                <label class="view-source-button" for="iterate_expand-view-source"><span>View Source</span></label>
+
+    </div>
+    <a class="headerlink" href="#iterate_expand"></a>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="iterate_expand-667"><a href="#iterate_expand-667"><span class="linenos">667</span></a><span class="k">def</span> <span class="nf">iterate_expand</span><span class="p">(</span>
+</span><span id="iterate_expand-668"><a href="#iterate_expand-668"><span class="linenos">668</span></a>    <span class="n">atl</span><span class="p">:</span> <span class="n">Atlas</span><span class="p">,</span>
+</span><span id="iterate_expand-669"><a href="#iterate_expand-669"><span class="linenos">669</span></a>    <span class="n">crt</span><span class="p">:</span> <span class="n">Cartographer</span><span class="p">,</span>
+</span><span id="iterate_expand-670"><a href="#iterate_expand-670"><span class="linenos">670</span></a>    <span class="n">atlas_dir</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+</span><span id="iterate_expand-671"><a href="#iterate_expand-671"><span class="linenos">671</span></a>    <span class="n">target_size</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+</span><span id="iterate_expand-672"><a href="#iterate_expand-672"><span class="linenos">672</span></a>    <span class="n">max_failed_expansions</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">2</span><span class="p">,</span>
+</span><span id="iterate_expand-673"><a href="#iterate_expand-673"><span class="linenos">673</span></a>    <span class="n">center</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="iterate_expand-674"><a href="#iterate_expand-674"><span class="linenos">674</span></a>    <span class="n">n_pubs_max</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="iterate_expand-675"><a href="#iterate_expand-675"><span class="linenos">675</span></a>    <span class="n">call_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="iterate_expand-676"><a href="#iterate_expand-676"><span class="linenos">676</span></a>    <span class="n">n_sources_max</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="iterate_expand-677"><a href="#iterate_expand-677"><span class="linenos">677</span></a>    <span class="n">record_pubs_per_update</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+</span><span id="iterate_expand-678"><a href="#iterate_expand-678"><span class="linenos">678</span></a><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Atlas</span><span class="p">:</span>
+</span><span id="iterate_expand-679"><a href="#iterate_expand-679"><span class="linenos">679</span></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Build out an Atlas of publications, i.e. search for similar publications. This is done by iterating a sequence of [expand, save, project, save, track, save].</span>
+</span><span id="iterate_expand-680"><a href="#iterate_expand-680"><span class="linenos">680</span></a>
+</span><span id="iterate_expand-681"><a href="#iterate_expand-681"><span class="linenos">681</span></a><span class="sd">    Args:</span>
+</span><span id="iterate_expand-682"><a href="#iterate_expand-682"><span class="linenos">682</span></a><span class="sd">        atl: the Atlas to expand</span>
+</span><span id="iterate_expand-683"><a href="#iterate_expand-683"><span class="linenos">683</span></a>
+</span><span id="iterate_expand-684"><a href="#iterate_expand-684"><span class="linenos">684</span></a><span class="sd">        crt: the Cartographer to use</span>
+</span><span id="iterate_expand-685"><a href="#iterate_expand-685"><span class="linenos">685</span></a>
+</span><span id="iterate_expand-686"><a href="#iterate_expand-686"><span class="linenos">686</span></a><span class="sd">        atlas_dir: the directory where Atlas binaries will be saved/loaded from</span>
+</span><span id="iterate_expand-687"><a href="#iterate_expand-687"><span class="linenos">687</span></a>
+</span><span id="iterate_expand-688"><a href="#iterate_expand-688"><span class="linenos">688</span></a><span class="sd">        target_size: stop iterating when we reach this number of publications in the Atlas</span>
+</span><span id="iterate_expand-689"><a href="#iterate_expand-689"><span class="linenos">689</span></a>
+</span><span id="iterate_expand-690"><a href="#iterate_expand-690"><span class="linenos">690</span></a><span class="sd">        max_failed_expansions: stop iterating when we fail to add new publications after this many successive iterations. Default is 2.</span>
+</span><span id="iterate_expand-691"><a href="#iterate_expand-691"><span class="linenos">691</span></a>
+</span><span id="iterate_expand-692"><a href="#iterate_expand-692"><span class="linenos">692</span></a><span class="sd">        center: (if given) center the search on this publication, preferentially searching related publications.</span>
+</span><span id="iterate_expand-693"><a href="#iterate_expand-693"><span class="linenos">693</span></a>
+</span><span id="iterate_expand-694"><a href="#iterate_expand-694"><span class="linenos">694</span></a><span class="sd">        n_pubs_max: maximum number of publications allowed in the expansion.</span>
+</span><span id="iterate_expand-695"><a href="#iterate_expand-695"><span class="linenos">695</span></a>
+</span><span id="iterate_expand-696"><a href="#iterate_expand-696"><span class="linenos">696</span></a><span class="sd">        call_size: maximum number of papers to call API for in one query; if less than `len(paper_ids)`, chunking will be performed.</span>
+</span><span id="iterate_expand-697"><a href="#iterate_expand-697"><span class="linenos">697</span></a>
+</span><span id="iterate_expand-698"><a href="#iterate_expand-698"><span class="linenos">698</span></a><span class="sd">        n_sources_max: maximum number of publications (already in the atlas) to draw references and citations from.</span>
+</span><span id="iterate_expand-699"><a href="#iterate_expand-699"><span class="linenos">699</span></a>
+</span><span id="iterate_expand-700"><a href="#iterate_expand-700"><span class="linenos">700</span></a><span class="sd">        record_pubs_per_update: whether to track all the publications that exist in the resulting atlas to `self.pubs_per_update`. This should only be set to `True` when you need to later filter by degree of convergence of the atlas.</span>
+</span><span id="iterate_expand-701"><a href="#iterate_expand-701"><span class="linenos">701</span></a>
+</span><span id="iterate_expand-702"><a href="#iterate_expand-702"><span class="linenos">702</span></a><span class="sd">    Returns:</span>
+</span><span id="iterate_expand-703"><a href="#iterate_expand-703"><span class="linenos">703</span></a><span class="sd">        atl: the expanded Atlas</span>
+</span><span id="iterate_expand-704"><a href="#iterate_expand-704"><span class="linenos">704</span></a><span class="sd">    &quot;&quot;&quot;</span>
+</span><span id="iterate_expand-705"><a href="#iterate_expand-705"><span class="linenos">705</span></a>    <span class="n">converged</span> <span class="o">=</span> <span class="kc">False</span>
+</span><span id="iterate_expand-706"><a href="#iterate_expand-706"><span class="linenos">706</span></a>    <span class="n">print_progress</span> <span class="o">=</span> <span class="k">lambda</span> <span class="n">atl</span><span class="p">:</span> <span class="nb">print</span><span class="p">(</span>  <span class="c1"># view incremental progress</span>
+</span><span id="iterate_expand-707"><a href="#iterate_expand-707"><span class="linenos">707</span></a>        <span class="sa">f</span><span class="s2">&quot;Atlas has </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">atl</span><span class="p">)</span><span class="si">}</span><span class="s2"> publications and </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="p">)</span><span class="w"> </span><span class="k">if</span><span class="w"> </span><span class="n">atl</span><span class="o">.</span><span class="n">projection</span><span class="w"> </span><span class="ow">is</span><span class="w"> </span><span class="ow">not</span><span class="w"> </span><span class="kc">None</span><span class="w"> </span><span class="k">else</span><span class="w"> </span><span class="s1">&#39;None&#39;</span><span class="si">}</span><span class="s2"> embeddings.&quot;</span>
+</span><span id="iterate_expand-708"><a href="#iterate_expand-708"><span class="linenos">708</span></a>    <span class="p">)</span>
+</span><span id="iterate_expand-709"><a href="#iterate_expand-709"><span class="linenos">709</span></a>
+</span><span id="iterate_expand-710"><a href="#iterate_expand-710"><span class="linenos">710</span></a>    <span class="c1"># Expansion loop</span>
+</span><span id="iterate_expand-711"><a href="#iterate_expand-711"><span class="linenos">711</span></a>    <span class="n">failures</span> <span class="o">=</span> <span class="mi">0</span>
+</span><span id="iterate_expand-712"><a href="#iterate_expand-712"><span class="linenos">712</span></a>    <span class="n">its</span> <span class="o">=</span> <span class="mi">0</span>
+</span><span id="iterate_expand-713"><a href="#iterate_expand-713"><span class="linenos">713</span></a>    <span class="k">while</span> <span class="ow">not</span> <span class="n">converged</span><span class="p">:</span>
+</span><span id="iterate_expand-714"><a href="#iterate_expand-714"><span class="linenos">714</span></a>        <span class="n">its</span> <span class="o">+=</span> <span class="mi">1</span>
+</span><span id="iterate_expand-715"><a href="#iterate_expand-715"><span class="linenos">715</span></a>        <span class="n">len_prev</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">atl</span><span class="p">)</span>
+</span><span id="iterate_expand-716"><a href="#iterate_expand-716"><span class="linenos">716</span></a>
+</span><span id="iterate_expand-717"><a href="#iterate_expand-717"><span class="linenos">717</span></a>        <span class="c1"># Retrieve up to n_pubs_max citations and references.</span>
+</span><span id="iterate_expand-718"><a href="#iterate_expand-718"><span class="linenos">718</span></a>        <span class="n">atl</span> <span class="o">=</span> <span class="n">crt</span><span class="o">.</span><span class="n">expand</span><span class="p">(</span>
+</span><span id="iterate_expand-719"><a href="#iterate_expand-719"><span class="linenos">719</span></a>            <span class="n">atl</span><span class="p">,</span>
+</span><span id="iterate_expand-720"><a href="#iterate_expand-720"><span class="linenos">720</span></a>            <span class="n">center</span><span class="o">=</span><span class="n">center</span><span class="p">,</span>
+</span><span id="iterate_expand-721"><a href="#iterate_expand-721"><span class="linenos">721</span></a>            <span class="n">n_pubs_max</span><span class="o">=</span><span class="n">n_pubs_max</span><span class="p">,</span>
+</span><span id="iterate_expand-722"><a href="#iterate_expand-722"><span class="linenos">722</span></a>            <span class="n">call_size</span><span class="o">=</span><span class="n">call_size</span><span class="p">,</span>
+</span><span id="iterate_expand-723"><a href="#iterate_expand-723"><span class="linenos">723</span></a>            <span class="n">n_sources_max</span><span class="o">=</span><span class="n">n_sources_max</span><span class="p">,</span>
+</span><span id="iterate_expand-724"><a href="#iterate_expand-724"><span class="linenos">724</span></a>            <span class="n">record_pubs_per_update</span><span class="o">=</span><span class="n">record_pubs_per_update</span><span class="p">,</span>
+</span><span id="iterate_expand-725"><a href="#iterate_expand-725"><span class="linenos">725</span></a>        <span class="p">)</span>
+</span><span id="iterate_expand-726"><a href="#iterate_expand-726"><span class="linenos">726</span></a>        <span class="n">print_progress</span><span class="p">(</span><span class="n">atl</span><span class="p">)</span>
+</span><span id="iterate_expand-727"><a href="#iterate_expand-727"><span class="linenos">727</span></a>        <span class="n">atl</span><span class="o">.</span><span class="n">save</span><span class="p">(</span><span class="n">atlas_dir</span><span class="p">)</span>
+</span><span id="iterate_expand-728"><a href="#iterate_expand-728"><span class="linenos">728</span></a>
+</span><span id="iterate_expand-729"><a href="#iterate_expand-729"><span class="linenos">729</span></a>        <span class="c1"># Obtain document embeddings for all new abstracts.</span>
+</span><span id="iterate_expand-730"><a href="#iterate_expand-730"><span class="linenos">730</span></a>        <span class="n">atl</span> <span class="o">=</span> <span class="n">crt</span><span class="o">.</span><span class="n">project</span><span class="p">(</span>
+</span><span id="iterate_expand-731"><a href="#iterate_expand-731"><span class="linenos">731</span></a>            <span class="n">atl</span><span class="p">,</span>
+</span><span id="iterate_expand-732"><a href="#iterate_expand-732"><span class="linenos">732</span></a>            <span class="n">verbose</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+</span><span id="iterate_expand-733"><a href="#iterate_expand-733"><span class="linenos">733</span></a>            <span class="n">record_pubs_per_update</span><span class="o">=</span><span class="n">record_pubs_per_update</span><span class="p">,</span>
+</span><span id="iterate_expand-734"><a href="#iterate_expand-734"><span class="linenos">734</span></a>        <span class="p">)</span>
+</span><span id="iterate_expand-735"><a href="#iterate_expand-735"><span class="linenos">735</span></a>        <span class="n">print_progress</span><span class="p">(</span><span class="n">atl</span><span class="p">)</span>
+</span><span id="iterate_expand-736"><a href="#iterate_expand-736"><span class="linenos">736</span></a>        <span class="n">atl</span><span class="o">.</span><span class="n">save</span><span class="p">(</span><span class="n">atlas_dir</span><span class="p">)</span>
+</span><span id="iterate_expand-737"><a href="#iterate_expand-737"><span class="linenos">737</span></a>
+</span><span id="iterate_expand-738"><a href="#iterate_expand-738"><span class="linenos">738</span></a>        <span class="n">atl</span> <span class="o">=</span> <span class="n">crt</span><span class="o">.</span><span class="n">track</span><span class="p">(</span><span class="n">atl</span><span class="p">)</span>
+</span><span id="iterate_expand-739"><a href="#iterate_expand-739"><span class="linenos">739</span></a>        <span class="n">atl</span><span class="o">.</span><span class="n">save</span><span class="p">(</span><span class="n">atlas_dir</span><span class="p">)</span>
+</span><span id="iterate_expand-740"><a href="#iterate_expand-740"><span class="linenos">740</span></a>
+</span><span id="iterate_expand-741"><a href="#iterate_expand-741"><span class="linenos">741</span></a>        <span class="k">if</span> <span class="n">len_prev</span> <span class="o">==</span> <span class="nb">len</span><span class="p">(</span><span class="n">atl</span><span class="p">):</span>
+</span><span id="iterate_expand-742"><a href="#iterate_expand-742"><span class="linenos">742</span></a>            <span class="n">failures</span> <span class="o">+=</span> <span class="mi">0</span>
+</span><span id="iterate_expand-743"><a href="#iterate_expand-743"><span class="linenos">743</span></a>        <span class="k">else</span><span class="p">:</span>
+</span><span id="iterate_expand-744"><a href="#iterate_expand-744"><span class="linenos">744</span></a>            <span class="n">failures</span> <span class="o">=</span> <span class="mi">0</span>
+</span><span id="iterate_expand-745"><a href="#iterate_expand-745"><span class="linenos">745</span></a>
+</span><span id="iterate_expand-746"><a href="#iterate_expand-746"><span class="linenos">746</span></a>        <span class="n">converged</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">atl</span><span class="p">)</span> <span class="o">&gt;=</span> <span class="n">target_size</span> <span class="ow">or</span> <span class="n">failures</span> <span class="o">&gt;=</span> <span class="n">max_failed_expansions</span>
+</span><span id="iterate_expand-747"><a href="#iterate_expand-747"><span class="linenos">747</span></a>        <span class="nb">print</span><span class="p">()</span>
+</span><span id="iterate_expand-748"><a href="#iterate_expand-748"><span class="linenos">748</span></a>
+</span><span id="iterate_expand-749"><a href="#iterate_expand-749"><span class="linenos">749</span></a>    <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Expansion loop exited with atlas size </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">atl</span><span class="p">)</span><span class="si">}</span><span class="s2"> after </span><span class="si">{</span><span class="n">its</span><span class="si">}</span><span class="s2"> iterations.&quot;</span><span class="p">)</span>
+</span><span id="iterate_expand-750"><a href="#iterate_expand-750"><span class="linenos">750</span></a>    <span class="k">return</span> <span class="n">atl</span>
+</span></pre></div>
+
+
+            <div class="docstring"><p>Build out an Atlas of publications, i.e. search for similar publications. This is done by iterating a sequence of [expand, save, project, save, track, save].</p>
+
+<h6 id="arguments">Arguments:</h6>
+
+<ul>
+<li><strong>atl:</strong>  the Atlas to expand</li>
+<li><strong>crt:</strong>  the Cartographer to use</li>
+<li><strong>atlas_dir:</strong>  the directory where Atlas binaries will be saved/loaded from</li>
+<li><strong>target_size:</strong>  stop iterating when we reach this number of publications in the Atlas</li>
+<li><strong>max_failed_expansions:</strong>  stop iterating when we fail to add new publications after this many successive iterations. Default is 2.</li>
+<li><strong>center:</strong>  (if given) center the search on this publication, preferentially searching related publications.</li>
+<li><strong>n_pubs_max:</strong>  maximum number of publications allowed in the expansion.</li>
+<li><strong>call_size:</strong>  maximum number of papers to call API for in one query; if less than <code>len(paper_ids)</code>, chunking will be performed.</li>
+<li><strong>n_sources_max:</strong>  maximum number of publications (already in the atlas) to draw references and citations from.</li>
+<li><strong>record_pubs_per_update:</strong>  whether to track all the publications that exist in the resulting atlas to <code>self.pubs_per_update</code>. This should only be set to <code>True</code> when you need to later filter by degree of convergence of the atlas.</li>
+</ul>
+
+<h6 id="returns">Returns:</h6>
+
+<blockquote>
+  <p>atl: the expanded Atlas</p>
+</blockquote>
+</div>
+
+
                 </section>
     </main>
 <script>
diff --git a/docs/sciterra/mapping/publication.html b/docs/sciterra/mapping/publication.html
index 190cb51..ed70dd4 100644
--- a/docs/sciterra/mapping/publication.html
+++ b/docs/sciterra/mapping/publication.html
@@ -114,171 +114,176 @@ <h1 class="modulename">
                         <div class="pdoc-code codehilite"><pre><span></span><span id="L-1"><a href="#L-1"><span class="linenos">  1</span></a><span class="sd">&quot;&quot;&quot;The general container for data for any scientific publication, regardless of the API that was used to obtain it.&quot;&quot;&quot;</span>
 </span><span id="L-2"><a href="#L-2"><span class="linenos">  2</span></a>
 </span><span id="L-3"><a href="#L-3"><span class="linenos">  3</span></a><span class="kn">import</span> <span class="nn">warnings</span>
-</span><span id="L-4"><a href="#L-4"><span class="linenos">  4</span></a><span class="kn">from</span> <span class="nn">ast</span> <span class="kn">import</span> <span class="n">literal_eval</span>
-</span><span id="L-5"><a href="#L-5"><span class="linenos">  5</span></a><span class="kn">from</span> <span class="nn">datetime</span> <span class="kn">import</span> <span class="n">date</span><span class="p">,</span> <span class="n">datetime</span>
+</span><span id="L-4"><a href="#L-4"><span class="linenos">  4</span></a><span class="kn">from</span> <span class="nn">datetime</span> <span class="kn">import</span> <span class="n">date</span>
+</span><span id="L-5"><a href="#L-5"><span class="linenos">  5</span></a><span class="kn">from</span> <span class="nn">..misc.utils</span> <span class="kn">import</span> <span class="n">get_verbose</span><span class="p">,</span> <span class="n">custom_formatwarning</span>
 </span><span id="L-6"><a href="#L-6"><span class="linenos">  6</span></a>
-</span><span id="L-7"><a href="#L-7"><span class="linenos">  7</span></a><span class="sd">&quot;&quot;&quot;Things a publication must have.</span>
+</span><span id="L-7"><a href="#L-7"><span class="linenos">  7</span></a><span class="n">warnings</span><span class="o">.</span><span class="n">formatwarning</span> <span class="o">=</span> <span class="n">custom_formatwarning</span>
 </span><span id="L-8"><a href="#L-8"><span class="linenos">  8</span></a>
-</span><span id="L-9"><a href="#L-9"><span class="linenos">  9</span></a><span class="sd">1. identifier</span>
-</span><span id="L-10"><a href="#L-10"><span class="linenos"> 10</span></a><span class="sd">2. abstract</span>
-</span><span id="L-11"><a href="#L-11"><span class="linenos"> 11</span></a><span class="sd">3. references -- a list of publication identifiers</span>
-</span><span id="L-12"><a href="#L-12"><span class="linenos"> 12</span></a><span class="sd">4. citations -- a list of publication identifiers</span>
-</span><span id="L-13"><a href="#L-13"><span class="linenos"> 13</span></a><span class="sd">5. publication date</span>
-</span><span id="L-14"><a href="#L-14"><span class="linenos"> 14</span></a><span class="sd">6. citation count</span>
-</span><span id="L-15"><a href="#L-15"><span class="linenos"> 15</span></a>
-</span><span id="L-16"><a href="#L-16"><span class="linenos"> 16</span></a><span class="sd">&quot;&quot;&quot;</span>
-</span><span id="L-17"><a href="#L-17"><span class="linenos"> 17</span></a>
+</span><span id="L-9"><a href="#L-9"><span class="linenos">  9</span></a>
+</span><span id="L-10"><a href="#L-10"><span class="linenos"> 10</span></a><span class="sd">&quot;&quot;&quot;Things a publication must have.</span>
+</span><span id="L-11"><a href="#L-11"><span class="linenos"> 11</span></a>
+</span><span id="L-12"><a href="#L-12"><span class="linenos"> 12</span></a><span class="sd">1. identifier</span>
+</span><span id="L-13"><a href="#L-13"><span class="linenos"> 13</span></a><span class="sd">2. abstract</span>
+</span><span id="L-14"><a href="#L-14"><span class="linenos"> 14</span></a><span class="sd">3. references -- a list of publication identifiers</span>
+</span><span id="L-15"><a href="#L-15"><span class="linenos"> 15</span></a><span class="sd">4. citations -- a list of publication identifiers</span>
+</span><span id="L-16"><a href="#L-16"><span class="linenos"> 16</span></a><span class="sd">5. publication date</span>
+</span><span id="L-17"><a href="#L-17"><span class="linenos"> 17</span></a><span class="sd">6. citation count</span>
 </span><span id="L-18"><a href="#L-18"><span class="linenos"> 18</span></a>
-</span><span id="L-19"><a href="#L-19"><span class="linenos"> 19</span></a><span class="c1"># keys for data</span>
-</span><span id="L-20"><a href="#L-20"><span class="linenos"> 20</span></a><span class="n">FIELDS</span> <span class="o">=</span> <span class="p">[</span>
-</span><span id="L-21"><a href="#L-21"><span class="linenos"> 21</span></a>    <span class="s2">&quot;identifier&quot;</span><span class="p">,</span>
-</span><span id="L-22"><a href="#L-22"><span class="linenos"> 22</span></a>    <span class="s2">&quot;abstract&quot;</span><span class="p">,</span>
-</span><span id="L-23"><a href="#L-23"><span class="linenos"> 23</span></a>    <span class="s2">&quot;publication_date&quot;</span><span class="p">,</span>
-</span><span id="L-24"><a href="#L-24"><span class="linenos"> 24</span></a>    <span class="s2">&quot;citation_count&quot;</span><span class="p">,</span>
-</span><span id="L-25"><a href="#L-25"><span class="linenos"> 25</span></a>    <span class="s2">&quot;citations&quot;</span><span class="p">,</span>
-</span><span id="L-26"><a href="#L-26"><span class="linenos"> 26</span></a>    <span class="s2">&quot;references&quot;</span><span class="p">,</span>
-</span><span id="L-27"><a href="#L-27"><span class="linenos"> 27</span></a><span class="p">]</span>
-</span><span id="L-28"><a href="#L-28"><span class="linenos"> 28</span></a>
-</span><span id="L-29"><a href="#L-29"><span class="linenos"> 29</span></a><span class="n">ADDITIONAL_FIELDS</span> <span class="o">=</span> <span class="p">[</span>
-</span><span id="L-30"><a href="#L-30"><span class="linenos"> 30</span></a>    <span class="s2">&quot;doi&quot;</span><span class="p">,</span>
-</span><span id="L-31"><a href="#L-31"><span class="linenos"> 31</span></a>    <span class="s2">&quot;url&quot;</span><span class="p">,</span>
-</span><span id="L-32"><a href="#L-32"><span class="linenos"> 32</span></a>    <span class="s2">&quot;title&quot;</span><span class="p">,</span>
-</span><span id="L-33"><a href="#L-33"><span class="linenos"> 33</span></a>    <span class="s2">&quot;issn&quot;</span><span class="p">,</span>
-</span><span id="L-34"><a href="#L-34"><span class="linenos"> 34</span></a><span class="p">]</span>
-</span><span id="L-35"><a href="#L-35"><span class="linenos"> 35</span></a>
-</span><span id="L-36"><a href="#L-36"><span class="linenos"> 36</span></a>
-</span><span id="L-37"><a href="#L-37"><span class="linenos"> 37</span></a><span class="k">class</span> <span class="nc">Publication</span><span class="p">:</span>
-</span><span id="L-38"><a href="#L-38"><span class="linenos"> 38</span></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;The Publication is a standardized container a scientific publication&#39;s retrieved data.</span>
+</span><span id="L-19"><a href="#L-19"><span class="linenos"> 19</span></a><span class="sd">&quot;&quot;&quot;</span>
+</span><span id="L-20"><a href="#L-20"><span class="linenos"> 20</span></a>
+</span><span id="L-21"><a href="#L-21"><span class="linenos"> 21</span></a>
+</span><span id="L-22"><a href="#L-22"><span class="linenos"> 22</span></a><span class="c1"># keys for data</span>
+</span><span id="L-23"><a href="#L-23"><span class="linenos"> 23</span></a><span class="n">FIELDS</span> <span class="o">=</span> <span class="p">[</span>
+</span><span id="L-24"><a href="#L-24"><span class="linenos"> 24</span></a>    <span class="s2">&quot;identifier&quot;</span><span class="p">,</span>
+</span><span id="L-25"><a href="#L-25"><span class="linenos"> 25</span></a>    <span class="s2">&quot;abstract&quot;</span><span class="p">,</span>
+</span><span id="L-26"><a href="#L-26"><span class="linenos"> 26</span></a>    <span class="s2">&quot;publication_date&quot;</span><span class="p">,</span>
+</span><span id="L-27"><a href="#L-27"><span class="linenos"> 27</span></a>    <span class="s2">&quot;citation_count&quot;</span><span class="p">,</span>
+</span><span id="L-28"><a href="#L-28"><span class="linenos"> 28</span></a>    <span class="s2">&quot;citations&quot;</span><span class="p">,</span>
+</span><span id="L-29"><a href="#L-29"><span class="linenos"> 29</span></a>    <span class="s2">&quot;references&quot;</span><span class="p">,</span>
+</span><span id="L-30"><a href="#L-30"><span class="linenos"> 30</span></a><span class="p">]</span>
+</span><span id="L-31"><a href="#L-31"><span class="linenos"> 31</span></a>
+</span><span id="L-32"><a href="#L-32"><span class="linenos"> 32</span></a><span class="n">ADDITIONAL_FIELDS</span> <span class="o">=</span> <span class="p">[</span>
+</span><span id="L-33"><a href="#L-33"><span class="linenos"> 33</span></a>    <span class="s2">&quot;doi&quot;</span><span class="p">,</span>
+</span><span id="L-34"><a href="#L-34"><span class="linenos"> 34</span></a>    <span class="s2">&quot;url&quot;</span><span class="p">,</span>
+</span><span id="L-35"><a href="#L-35"><span class="linenos"> 35</span></a>    <span class="s2">&quot;title&quot;</span><span class="p">,</span>
+</span><span id="L-36"><a href="#L-36"><span class="linenos"> 36</span></a>    <span class="s2">&quot;issn&quot;</span><span class="p">,</span>
+</span><span id="L-37"><a href="#L-37"><span class="linenos"> 37</span></a><span class="p">]</span>
+</span><span id="L-38"><a href="#L-38"><span class="linenos"> 38</span></a>
 </span><span id="L-39"><a href="#L-39"><span class="linenos"> 39</span></a>
-</span><span id="L-40"><a href="#L-40"><span class="linenos"> 40</span></a><span class="sd">    In general, all data-cleaning shoud be done prior to constructing a Publication, in order to keep the class minimal.</span>
-</span><span id="L-41"><a href="#L-41"><span class="linenos"> 41</span></a>
-</span><span id="L-42"><a href="#L-42"><span class="linenos"> 42</span></a><span class="sd">    Attributes:</span>
-</span><span id="L-43"><a href="#L-43"><span class="linenos"> 43</span></a>
-</span><span id="L-44"><a href="#L-44"><span class="linenos"> 44</span></a><span class="sd">        identifier:</span>
-</span><span id="L-45"><a href="#L-45"><span class="linenos"> 45</span></a><span class="sd">            The string id that uniquely identifies the publication, used for</span>
-</span><span id="L-46"><a href="#L-46"><span class="linenos"> 46</span></a><span class="sd">                - storing in an Atlas</span>
-</span><span id="L-47"><a href="#L-47"><span class="linenos"> 47</span></a><span class="sd">                - querying an API</span>
-</span><span id="L-48"><a href="#L-48"><span class="linenos"> 48</span></a>
-</span><span id="L-49"><a href="#L-49"><span class="linenos"> 49</span></a><span class="sd">        abstract:</span>
-</span><span id="L-50"><a href="#L-50"><span class="linenos"> 50</span></a><span class="sd">            The string corresponding to the publication&#39;s abstract</span>
+</span><span id="L-40"><a href="#L-40"><span class="linenos"> 40</span></a><span class="k">class</span> <span class="nc">Publication</span><span class="p">:</span>
+</span><span id="L-41"><a href="#L-41"><span class="linenos"> 41</span></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;The Publication is a standardized container a scientific publication&#39;s retrieved data.</span>
+</span><span id="L-42"><a href="#L-42"><span class="linenos"> 42</span></a>
+</span><span id="L-43"><a href="#L-43"><span class="linenos"> 43</span></a><span class="sd">    In general, all data-cleaning shoud be done prior to constructing a Publication, in order to keep the class minimal.</span>
+</span><span id="L-44"><a href="#L-44"><span class="linenos"> 44</span></a>
+</span><span id="L-45"><a href="#L-45"><span class="linenos"> 45</span></a><span class="sd">    Attributes:</span>
+</span><span id="L-46"><a href="#L-46"><span class="linenos"> 46</span></a>
+</span><span id="L-47"><a href="#L-47"><span class="linenos"> 47</span></a><span class="sd">        identifier:</span>
+</span><span id="L-48"><a href="#L-48"><span class="linenos"> 48</span></a><span class="sd">            The string id that uniquely identifies the publication, used for</span>
+</span><span id="L-49"><a href="#L-49"><span class="linenos"> 49</span></a><span class="sd">                - storing in an Atlas</span>
+</span><span id="L-50"><a href="#L-50"><span class="linenos"> 50</span></a><span class="sd">                - querying an API</span>
 </span><span id="L-51"><a href="#L-51"><span class="linenos"> 51</span></a>
-</span><span id="L-52"><a href="#L-52"><span class="linenos"> 52</span></a><span class="sd">        publication_date:</span>
-</span><span id="L-53"><a href="#L-53"><span class="linenos"> 53</span></a><span class="sd">            A datetime representing the date of publication</span>
+</span><span id="L-52"><a href="#L-52"><span class="linenos"> 52</span></a><span class="sd">        abstract:</span>
+</span><span id="L-53"><a href="#L-53"><span class="linenos"> 53</span></a><span class="sd">            The string corresponding to the publication&#39;s abstract</span>
 </span><span id="L-54"><a href="#L-54"><span class="linenos"> 54</span></a>
-</span><span id="L-55"><a href="#L-55"><span class="linenos"> 55</span></a><span class="sd">        citation_count:</span>
-</span><span id="L-56"><a href="#L-56"><span class="linenos"> 56</span></a><span class="sd">            An int corresponding to the number of citations received by the publication</span>
-</span><span id="L-57"><a href="#L-57"><span class="linenos"> 57</span></a><span class="sd">    &quot;&quot;&quot;</span>
-</span><span id="L-58"><a href="#L-58"><span class="linenos"> 58</span></a>
-</span><span id="L-59"><a href="#L-59"><span class="linenos"> 59</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">data</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="p">{})</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="L-60"><a href="#L-60"><span class="linenos"> 60</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Construct a publication.</span>
+</span><span id="L-55"><a href="#L-55"><span class="linenos"> 55</span></a><span class="sd">        publication_date:</span>
+</span><span id="L-56"><a href="#L-56"><span class="linenos"> 56</span></a><span class="sd">            A datetime representing the date of publication</span>
+</span><span id="L-57"><a href="#L-57"><span class="linenos"> 57</span></a>
+</span><span id="L-58"><a href="#L-58"><span class="linenos"> 58</span></a><span class="sd">        citation_count:</span>
+</span><span id="L-59"><a href="#L-59"><span class="linenos"> 59</span></a><span class="sd">            An int corresponding to the number of citations received by the publication</span>
+</span><span id="L-60"><a href="#L-60"><span class="linenos"> 60</span></a><span class="sd">    &quot;&quot;&quot;</span>
 </span><span id="L-61"><a href="#L-61"><span class="linenos"> 61</span></a>
-</span><span id="L-62"><a href="#L-62"><span class="linenos"> 62</span></a><span class="sd">        Args:</span>
-</span><span id="L-63"><a href="#L-63"><span class="linenos"> 63</span></a><span class="sd">            data: to initialize attributes</span>
-</span><span id="L-64"><a href="#L-64"><span class="linenos"> 64</span></a><span class="sd">        &quot;&quot;&quot;</span>
-</span><span id="L-65"><a href="#L-65"><span class="linenos"> 65</span></a>        <span class="c1"># Below are the attributes we expect every publication to have. If a publication is missing these, it will be removed from analysis.</span>
-</span><span id="L-66"><a href="#L-66"><span class="linenos"> 66</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_identifier</span> <span class="o">=</span> <span class="kc">None</span>
-</span><span id="L-67"><a href="#L-67"><span class="linenos"> 67</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_abstract</span> <span class="o">=</span> <span class="kc">None</span>
-</span><span id="L-68"><a href="#L-68"><span class="linenos"> 68</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_publication_date</span> <span class="o">=</span> <span class="kc">None</span>
-</span><span id="L-69"><a href="#L-69"><span class="linenos"> 69</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_citation_count</span> <span class="o">=</span> <span class="kc">None</span>
-</span><span id="L-70"><a href="#L-70"><span class="linenos"> 70</span></a>
-</span><span id="L-71"><a href="#L-71"><span class="linenos"> 71</span></a>        <span class="c1"># Regularize and store data, including but not limited to above attrs.</span>
-</span><span id="L-72"><a href="#L-72"><span class="linenos"> 72</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">init_attributes</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
+</span><span id="L-62"><a href="#L-62"><span class="linenos"> 62</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">data</span><span class="p">:</span> <span class="nb">dict</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="L-63"><a href="#L-63"><span class="linenos"> 63</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Construct a publication.</span>
+</span><span id="L-64"><a href="#L-64"><span class="linenos"> 64</span></a>
+</span><span id="L-65"><a href="#L-65"><span class="linenos"> 65</span></a><span class="sd">        Args:</span>
+</span><span id="L-66"><a href="#L-66"><span class="linenos"> 66</span></a><span class="sd">            data: to initialize attributes</span>
+</span><span id="L-67"><a href="#L-67"><span class="linenos"> 67</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="L-68"><a href="#L-68"><span class="linenos"> 68</span></a>        <span class="c1"># Below are the attributes we expect every publication to have. If a publication is missing these, it will be removed from analysis.</span>
+</span><span id="L-69"><a href="#L-69"><span class="linenos"> 69</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_identifier</span> <span class="o">=</span> <span class="kc">None</span>
+</span><span id="L-70"><a href="#L-70"><span class="linenos"> 70</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_abstract</span> <span class="o">=</span> <span class="kc">None</span>
+</span><span id="L-71"><a href="#L-71"><span class="linenos"> 71</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_publication_date</span> <span class="o">=</span> <span class="kc">None</span>
+</span><span id="L-72"><a href="#L-72"><span class="linenos"> 72</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_citation_count</span> <span class="o">=</span> <span class="kc">None</span>
 </span><span id="L-73"><a href="#L-73"><span class="linenos"> 73</span></a>
-</span><span id="L-74"><a href="#L-74"><span class="linenos"> 74</span></a>    <span class="nd">@property</span>
-</span><span id="L-75"><a href="#L-75"><span class="linenos"> 75</span></a>    <span class="k">def</span> <span class="nf">identifier</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
-</span><span id="L-76"><a href="#L-76"><span class="linenos"> 76</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_identifier</span>
-</span><span id="L-77"><a href="#L-77"><span class="linenos"> 77</span></a>
-</span><span id="L-78"><a href="#L-78"><span class="linenos"> 78</span></a>    <span class="nd">@property</span>
-</span><span id="L-79"><a href="#L-79"><span class="linenos"> 79</span></a>    <span class="k">def</span> <span class="nf">abstract</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
-</span><span id="L-80"><a href="#L-80"><span class="linenos"> 80</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_abstract</span>
-</span><span id="L-81"><a href="#L-81"><span class="linenos"> 81</span></a>
-</span><span id="L-82"><a href="#L-82"><span class="linenos"> 82</span></a>    <span class="nd">@property</span>
-</span><span id="L-83"><a href="#L-83"><span class="linenos"> 83</span></a>    <span class="k">def</span> <span class="nf">publication_date</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">date</span><span class="p">:</span>
-</span><span id="L-84"><a href="#L-84"><span class="linenos"> 84</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_publication_date</span>
-</span><span id="L-85"><a href="#L-85"><span class="linenos"> 85</span></a>
-</span><span id="L-86"><a href="#L-86"><span class="linenos"> 86</span></a>    <span class="nd">@property</span>
-</span><span id="L-87"><a href="#L-87"><span class="linenos"> 87</span></a>    <span class="k">def</span> <span class="nf">citations</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]:</span>
-</span><span id="L-88"><a href="#L-88"><span class="linenos"> 88</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_citations</span>
-</span><span id="L-89"><a href="#L-89"><span class="linenos"> 89</span></a>
-</span><span id="L-90"><a href="#L-90"><span class="linenos"> 90</span></a>    <span class="nd">@property</span>
-</span><span id="L-91"><a href="#L-91"><span class="linenos"> 91</span></a>    <span class="k">def</span> <span class="nf">references</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]:</span>
-</span><span id="L-92"><a href="#L-92"><span class="linenos"> 92</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_references</span>
-</span><span id="L-93"><a href="#L-93"><span class="linenos"> 93</span></a>
-</span><span id="L-94"><a href="#L-94"><span class="linenos"> 94</span></a>    <span class="nd">@property</span>
-</span><span id="L-95"><a href="#L-95"><span class="linenos"> 95</span></a>    <span class="k">def</span> <span class="nf">citation_count</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">int</span><span class="p">:</span>
-</span><span id="L-96"><a href="#L-96"><span class="linenos"> 96</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;The citation_count can be different from the length of `citations`, since the number of citations listed for a paper might be different from the number of (valid) citing papers indexed on the relevant API.&quot;&quot;&quot;</span>
-</span><span id="L-97"><a href="#L-97"><span class="linenos"> 97</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_citation_count</span>
-</span><span id="L-98"><a href="#L-98"><span class="linenos"> 98</span></a>
-</span><span id="L-99"><a href="#L-99"><span class="linenos"> 99</span></a>    <span class="k">def</span> <span class="fm">__repr__</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
-</span><span id="L-100"><a href="#L-100"><span class="linenos">100</span></a>        <span class="k">return</span> <span class="s2">&quot;sciterra.publication.Publication:</span><span class="si">{}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">identifier</span><span class="p">)</span>
+</span><span id="L-74"><a href="#L-74"><span class="linenos"> 74</span></a>        <span class="c1"># Regularize and store data, including but not limited to above attrs.</span>
+</span><span id="L-75"><a href="#L-75"><span class="linenos"> 75</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">init_attributes</span><span class="p">(</span><span class="n">data</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+</span><span id="L-76"><a href="#L-76"><span class="linenos"> 76</span></a>
+</span><span id="L-77"><a href="#L-77"><span class="linenos"> 77</span></a>    <span class="nd">@property</span>
+</span><span id="L-78"><a href="#L-78"><span class="linenos"> 78</span></a>    <span class="k">def</span> <span class="nf">identifier</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+</span><span id="L-79"><a href="#L-79"><span class="linenos"> 79</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_identifier</span>
+</span><span id="L-80"><a href="#L-80"><span class="linenos"> 80</span></a>
+</span><span id="L-81"><a href="#L-81"><span class="linenos"> 81</span></a>    <span class="nd">@property</span>
+</span><span id="L-82"><a href="#L-82"><span class="linenos"> 82</span></a>    <span class="k">def</span> <span class="nf">abstract</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+</span><span id="L-83"><a href="#L-83"><span class="linenos"> 83</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_abstract</span>
+</span><span id="L-84"><a href="#L-84"><span class="linenos"> 84</span></a>
+</span><span id="L-85"><a href="#L-85"><span class="linenos"> 85</span></a>    <span class="nd">@property</span>
+</span><span id="L-86"><a href="#L-86"><span class="linenos"> 86</span></a>    <span class="k">def</span> <span class="nf">publication_date</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">date</span><span class="p">:</span>
+</span><span id="L-87"><a href="#L-87"><span class="linenos"> 87</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_publication_date</span>
+</span><span id="L-88"><a href="#L-88"><span class="linenos"> 88</span></a>
+</span><span id="L-89"><a href="#L-89"><span class="linenos"> 89</span></a>    <span class="nd">@property</span>
+</span><span id="L-90"><a href="#L-90"><span class="linenos"> 90</span></a>    <span class="k">def</span> <span class="nf">citations</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]:</span>
+</span><span id="L-91"><a href="#L-91"><span class="linenos"> 91</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_citations</span>
+</span><span id="L-92"><a href="#L-92"><span class="linenos"> 92</span></a>
+</span><span id="L-93"><a href="#L-93"><span class="linenos"> 93</span></a>    <span class="nd">@property</span>
+</span><span id="L-94"><a href="#L-94"><span class="linenos"> 94</span></a>    <span class="k">def</span> <span class="nf">references</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]:</span>
+</span><span id="L-95"><a href="#L-95"><span class="linenos"> 95</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_references</span>
+</span><span id="L-96"><a href="#L-96"><span class="linenos"> 96</span></a>
+</span><span id="L-97"><a href="#L-97"><span class="linenos"> 97</span></a>    <span class="nd">@property</span>
+</span><span id="L-98"><a href="#L-98"><span class="linenos"> 98</span></a>    <span class="k">def</span> <span class="nf">citation_count</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">int</span><span class="p">:</span>
+</span><span id="L-99"><a href="#L-99"><span class="linenos"> 99</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;The citation_count can be different from the length of `citations`, since the number of citations listed for a paper might be different from the number of (valid) citing papers indexed on the relevant API.&quot;&quot;&quot;</span>
+</span><span id="L-100"><a href="#L-100"><span class="linenos">100</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_citation_count</span>
 </span><span id="L-101"><a href="#L-101"><span class="linenos">101</span></a>
-</span><span id="L-102"><a href="#L-102"><span class="linenos">102</span></a>    <span class="k">def</span> <span class="fm">__str__</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
-</span><span id="L-103"><a href="#L-103"><span class="linenos">103</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">identifier</span>
+</span><span id="L-102"><a href="#L-102"><span class="linenos">102</span></a>    <span class="k">def</span> <span class="fm">__repr__</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+</span><span id="L-103"><a href="#L-103"><span class="linenos">103</span></a>        <span class="k">return</span> <span class="s2">&quot;sciterra.publication.Publication:</span><span class="si">{}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">identifier</span><span class="p">)</span>
 </span><span id="L-104"><a href="#L-104"><span class="linenos">104</span></a>
-</span><span id="L-105"><a href="#L-105"><span class="linenos">105</span></a>    <span class="k">def</span> <span class="fm">__hash__</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">int</span><span class="p">:</span>
-</span><span id="L-106"><a href="#L-106"><span class="linenos">106</span></a>        <span class="k">return</span> <span class="nb">hash</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">values</span><span class="p">())</span>
+</span><span id="L-105"><a href="#L-105"><span class="linenos">105</span></a>    <span class="k">def</span> <span class="fm">__str__</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+</span><span id="L-106"><a href="#L-106"><span class="linenos">106</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">identifier</span>
 </span><span id="L-107"><a href="#L-107"><span class="linenos">107</span></a>
-</span><span id="L-108"><a href="#L-108"><span class="linenos">108</span></a>    <span class="k">def</span> <span class="fm">__eq__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">__value</span><span class="p">:</span> <span class="nb">object</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
-</span><span id="L-109"><a href="#L-109"><span class="linenos">109</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span> <span class="o">==</span> <span class="n">__value</span><span class="o">.</span><span class="vm">__dict__</span>
+</span><span id="L-108"><a href="#L-108"><span class="linenos">108</span></a>    <span class="k">def</span> <span class="fm">__hash__</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">int</span><span class="p">:</span>
+</span><span id="L-109"><a href="#L-109"><span class="linenos">109</span></a>        <span class="k">return</span> <span class="nb">hash</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">values</span><span class="p">())</span>
 </span><span id="L-110"><a href="#L-110"><span class="linenos">110</span></a>
-</span><span id="L-111"><a href="#L-111"><span class="linenos">111</span></a>    <span class="k">def</span> <span class="fm">__lt__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">__value</span><span class="p">:</span> <span class="nb">object</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
-</span><span id="L-112"><a href="#L-112"><span class="linenos">112</span></a>        <span class="k">return</span> <span class="nb">str</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">&lt;</span> <span class="nb">str</span><span class="p">(</span><span class="n">__value</span><span class="p">)</span>
+</span><span id="L-111"><a href="#L-111"><span class="linenos">111</span></a>    <span class="k">def</span> <span class="fm">__eq__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">__value</span><span class="p">:</span> <span class="nb">object</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
+</span><span id="L-112"><a href="#L-112"><span class="linenos">112</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span> <span class="o">==</span> <span class="n">__value</span><span class="o">.</span><span class="vm">__dict__</span>
 </span><span id="L-113"><a href="#L-113"><span class="linenos">113</span></a>
-</span><span id="L-114"><a href="#L-114"><span class="linenos">114</span></a>    <span class="k">def</span> <span class="nf">init_attributes</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">data</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="L-115"><a href="#L-115"><span class="linenos">115</span></a>        <span class="k">if</span> <span class="s2">&quot;identifier&quot;</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
-</span><span id="L-116"><a href="#L-116"><span class="linenos">116</span></a>            <span class="n">val</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;identifier&quot;</span><span class="p">]</span>
-</span><span id="L-117"><a href="#L-117"><span class="linenos">117</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
-</span><span id="L-118"><a href="#L-118"><span class="linenos">118</span></a>                <span class="k">raise</span> <span class="ne">ValueError</span>
-</span><span id="L-119"><a href="#L-119"><span class="linenos">119</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_identifier</span> <span class="o">=</span> <span class="n">val</span>
-</span><span id="L-120"><a href="#L-120"><span class="linenos">120</span></a>
-</span><span id="L-121"><a href="#L-121"><span class="linenos">121</span></a>        <span class="k">if</span> <span class="s2">&quot;abstract&quot;</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
-</span><span id="L-122"><a href="#L-122"><span class="linenos">122</span></a>            <span class="n">val</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;abstract&quot;</span><span class="p">]</span>
-</span><span id="L-123"><a href="#L-123"><span class="linenos">123</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
-</span><span id="L-124"><a href="#L-124"><span class="linenos">124</span></a>                <span class="k">raise</span> <span class="ne">ValueError</span>
-</span><span id="L-125"><a href="#L-125"><span class="linenos">125</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_abstract</span> <span class="o">=</span> <span class="n">val</span>
-</span><span id="L-126"><a href="#L-126"><span class="linenos">126</span></a>
-</span><span id="L-127"><a href="#L-127"><span class="linenos">127</span></a>        <span class="k">if</span> <span class="s2">&quot;publication_date&quot;</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
-</span><span id="L-128"><a href="#L-128"><span class="linenos">128</span></a>            <span class="n">val</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;publication_date&quot;</span><span class="p">]</span>
-</span><span id="L-129"><a href="#L-129"><span class="linenos">129</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="n">date</span><span class="p">):</span>
-</span><span id="L-130"><a href="#L-130"><span class="linenos">130</span></a>                <span class="k">raise</span> <span class="ne">ValueError</span>
-</span><span id="L-131"><a href="#L-131"><span class="linenos">131</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_publication_date</span> <span class="o">=</span> <span class="n">val</span>
-</span><span id="L-132"><a href="#L-132"><span class="linenos">132</span></a>
-</span><span id="L-133"><a href="#L-133"><span class="linenos">133</span></a>        <span class="k">if</span> <span class="s2">&quot;citations&quot;</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
-</span><span id="L-134"><a href="#L-134"><span class="linenos">134</span></a>            <span class="n">val</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;citations&quot;</span><span class="p">]</span>
-</span><span id="L-135"><a href="#L-135"><span class="linenos">135</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="nb">list</span><span class="p">):</span>
-</span><span id="L-136"><a href="#L-136"><span class="linenos">136</span></a>                <span class="k">raise</span> <span class="ne">ValueError</span>
-</span><span id="L-137"><a href="#L-137"><span class="linenos">137</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_citations</span> <span class="o">=</span> <span class="n">val</span>
-</span><span id="L-138"><a href="#L-138"><span class="linenos">138</span></a>        <span class="k">else</span><span class="p">:</span>
-</span><span id="L-139"><a href="#L-139"><span class="linenos">139</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_citations</span> <span class="o">=</span> <span class="p">[]</span>
-</span><span id="L-140"><a href="#L-140"><span class="linenos">140</span></a>
-</span><span id="L-141"><a href="#L-141"><span class="linenos">141</span></a>        <span class="k">if</span> <span class="s2">&quot;references&quot;</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
-</span><span id="L-142"><a href="#L-142"><span class="linenos">142</span></a>            <span class="n">val</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;references&quot;</span><span class="p">]</span>
-</span><span id="L-143"><a href="#L-143"><span class="linenos">143</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="nb">list</span><span class="p">):</span>
-</span><span id="L-144"><a href="#L-144"><span class="linenos">144</span></a>                <span class="k">raise</span> <span class="ne">ValueError</span>
-</span><span id="L-145"><a href="#L-145"><span class="linenos">145</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_references</span> <span class="o">=</span> <span class="n">val</span>
-</span><span id="L-146"><a href="#L-146"><span class="linenos">146</span></a>        <span class="k">else</span><span class="p">:</span>
-</span><span id="L-147"><a href="#L-147"><span class="linenos">147</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_references</span> <span class="o">=</span> <span class="p">[]</span>
-</span><span id="L-148"><a href="#L-148"><span class="linenos">148</span></a>
-</span><span id="L-149"><a href="#L-149"><span class="linenos">149</span></a>        <span class="k">if</span> <span class="s2">&quot;citation_count&quot;</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
-</span><span id="L-150"><a href="#L-150"><span class="linenos">150</span></a>            <span class="n">val</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;citation_count&quot;</span><span class="p">]</span>
-</span><span id="L-151"><a href="#L-151"><span class="linenos">151</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="nb">int</span><span class="p">):</span>
-</span><span id="L-152"><a href="#L-152"><span class="linenos">152</span></a>                <span class="k">raise</span> <span class="ne">ValueError</span>
-</span><span id="L-153"><a href="#L-153"><span class="linenos">153</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_citation_count</span> <span class="o">=</span> <span class="n">val</span>
-</span><span id="L-154"><a href="#L-154"><span class="linenos">154</span></a>
-</span><span id="L-155"><a href="#L-155"><span class="linenos">155</span></a>        <span class="k">else</span><span class="p">:</span>
-</span><span id="L-156"><a href="#L-156"><span class="linenos">156</span></a>            <span class="c1"># we can use citations, but this is unexpected, so raise a warning.</span>
-</span><span id="L-157"><a href="#L-157"><span class="linenos">157</span></a>            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">citations</span><span class="p">:</span>
-</span><span id="L-158"><a href="#L-158"><span class="linenos">158</span></a>                <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
-</span><span id="L-159"><a href="#L-159"><span class="linenos">159</span></a>                    <span class="s2">&quot;Found an entry for &#39;citations&#39; but no entry for citation_count; this is unexpected. Inferring value from citation_count.&quot;</span>
-</span><span id="L-160"><a href="#L-160"><span class="linenos">160</span></a>                <span class="p">)</span>
-</span><span id="L-161"><a href="#L-161"><span class="linenos">161</span></a>                <span class="bp">self</span><span class="o">.</span><span class="n">_citation_count</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">citations</span><span class="p">)</span>
-</span><span id="L-162"><a href="#L-162"><span class="linenos">162</span></a>
-</span><span id="L-163"><a href="#L-163"><span class="linenos">163</span></a>        <span class="c1">######################################################################</span>
-</span><span id="L-164"><a href="#L-164"><span class="linenos">164</span></a>        <span class="c1"># Other attributes</span>
-</span><span id="L-165"><a href="#L-165"><span class="linenos">165</span></a>        <span class="c1">######################################################################</span>
-</span><span id="L-166"><a href="#L-166"><span class="linenos">166</span></a>
-</span><span id="L-167"><a href="#L-167"><span class="linenos">167</span></a>        <span class="n">data_copy</span> <span class="o">=</span> <span class="p">{</span><span class="n">k</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">data</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span> <span class="n">k</span> <span class="ow">in</span> <span class="n">ADDITIONAL_FIELDS</span><span class="p">}</span>
-</span><span id="L-168"><a href="#L-168"><span class="linenos">168</span></a>        <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">data_copy</span><span class="p">)</span>
+</span><span id="L-114"><a href="#L-114"><span class="linenos">114</span></a>    <span class="k">def</span> <span class="fm">__lt__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">__value</span><span class="p">:</span> <span class="nb">object</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
+</span><span id="L-115"><a href="#L-115"><span class="linenos">115</span></a>        <span class="k">return</span> <span class="nb">str</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">&lt;</span> <span class="nb">str</span><span class="p">(</span><span class="n">__value</span><span class="p">)</span>
+</span><span id="L-116"><a href="#L-116"><span class="linenos">116</span></a>
+</span><span id="L-117"><a href="#L-117"><span class="linenos">117</span></a>    <span class="k">def</span> <span class="nf">init_attributes</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">data</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="L-118"><a href="#L-118"><span class="linenos">118</span></a>        <span class="n">verbose</span> <span class="o">=</span> <span class="n">get_verbose</span><span class="p">(</span><span class="n">kwargs</span><span class="p">)</span>
+</span><span id="L-119"><a href="#L-119"><span class="linenos">119</span></a>
+</span><span id="L-120"><a href="#L-120"><span class="linenos">120</span></a>        <span class="k">if</span> <span class="s2">&quot;identifier&quot;</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
+</span><span id="L-121"><a href="#L-121"><span class="linenos">121</span></a>            <span class="n">val</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;identifier&quot;</span><span class="p">]</span>
+</span><span id="L-122"><a href="#L-122"><span class="linenos">122</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+</span><span id="L-123"><a href="#L-123"><span class="linenos">123</span></a>                <span class="k">raise</span> <span class="ne">ValueError</span>
+</span><span id="L-124"><a href="#L-124"><span class="linenos">124</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_identifier</span> <span class="o">=</span> <span class="n">val</span>
+</span><span id="L-125"><a href="#L-125"><span class="linenos">125</span></a>
+</span><span id="L-126"><a href="#L-126"><span class="linenos">126</span></a>        <span class="k">if</span> <span class="s2">&quot;abstract&quot;</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
+</span><span id="L-127"><a href="#L-127"><span class="linenos">127</span></a>            <span class="n">val</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;abstract&quot;</span><span class="p">]</span>
+</span><span id="L-128"><a href="#L-128"><span class="linenos">128</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+</span><span id="L-129"><a href="#L-129"><span class="linenos">129</span></a>                <span class="k">raise</span> <span class="ne">ValueError</span>
+</span><span id="L-130"><a href="#L-130"><span class="linenos">130</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_abstract</span> <span class="o">=</span> <span class="n">val</span>
+</span><span id="L-131"><a href="#L-131"><span class="linenos">131</span></a>
+</span><span id="L-132"><a href="#L-132"><span class="linenos">132</span></a>        <span class="k">if</span> <span class="s2">&quot;publication_date&quot;</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
+</span><span id="L-133"><a href="#L-133"><span class="linenos">133</span></a>            <span class="n">val</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;publication_date&quot;</span><span class="p">]</span>
+</span><span id="L-134"><a href="#L-134"><span class="linenos">134</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="n">date</span><span class="p">):</span>
+</span><span id="L-135"><a href="#L-135"><span class="linenos">135</span></a>                <span class="k">raise</span> <span class="ne">ValueError</span>
+</span><span id="L-136"><a href="#L-136"><span class="linenos">136</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_publication_date</span> <span class="o">=</span> <span class="n">val</span>
+</span><span id="L-137"><a href="#L-137"><span class="linenos">137</span></a>
+</span><span id="L-138"><a href="#L-138"><span class="linenos">138</span></a>        <span class="k">if</span> <span class="s2">&quot;citations&quot;</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
+</span><span id="L-139"><a href="#L-139"><span class="linenos">139</span></a>            <span class="n">val</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;citations&quot;</span><span class="p">]</span>
+</span><span id="L-140"><a href="#L-140"><span class="linenos">140</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="nb">list</span><span class="p">):</span>
+</span><span id="L-141"><a href="#L-141"><span class="linenos">141</span></a>                <span class="k">raise</span> <span class="ne">ValueError</span>
+</span><span id="L-142"><a href="#L-142"><span class="linenos">142</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_citations</span> <span class="o">=</span> <span class="n">val</span>
+</span><span id="L-143"><a href="#L-143"><span class="linenos">143</span></a>        <span class="k">else</span><span class="p">:</span>
+</span><span id="L-144"><a href="#L-144"><span class="linenos">144</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_citations</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="L-145"><a href="#L-145"><span class="linenos">145</span></a>
+</span><span id="L-146"><a href="#L-146"><span class="linenos">146</span></a>        <span class="k">if</span> <span class="s2">&quot;references&quot;</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
+</span><span id="L-147"><a href="#L-147"><span class="linenos">147</span></a>            <span class="n">val</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;references&quot;</span><span class="p">]</span>
+</span><span id="L-148"><a href="#L-148"><span class="linenos">148</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="nb">list</span><span class="p">):</span>
+</span><span id="L-149"><a href="#L-149"><span class="linenos">149</span></a>                <span class="k">raise</span> <span class="ne">ValueError</span>
+</span><span id="L-150"><a href="#L-150"><span class="linenos">150</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_references</span> <span class="o">=</span> <span class="n">val</span>
+</span><span id="L-151"><a href="#L-151"><span class="linenos">151</span></a>        <span class="k">else</span><span class="p">:</span>
+</span><span id="L-152"><a href="#L-152"><span class="linenos">152</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_references</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="L-153"><a href="#L-153"><span class="linenos">153</span></a>
+</span><span id="L-154"><a href="#L-154"><span class="linenos">154</span></a>        <span class="k">if</span> <span class="s2">&quot;citation_count&quot;</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
+</span><span id="L-155"><a href="#L-155"><span class="linenos">155</span></a>            <span class="n">val</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;citation_count&quot;</span><span class="p">]</span>
+</span><span id="L-156"><a href="#L-156"><span class="linenos">156</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="nb">int</span><span class="p">):</span>
+</span><span id="L-157"><a href="#L-157"><span class="linenos">157</span></a>                <span class="k">raise</span> <span class="ne">ValueError</span>
+</span><span id="L-158"><a href="#L-158"><span class="linenos">158</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_citation_count</span> <span class="o">=</span> <span class="n">val</span>
+</span><span id="L-159"><a href="#L-159"><span class="linenos">159</span></a>
+</span><span id="L-160"><a href="#L-160"><span class="linenos">160</span></a>        <span class="k">else</span><span class="p">:</span>
+</span><span id="L-161"><a href="#L-161"><span class="linenos">161</span></a>            <span class="c1"># we can use citations, but this is unexpected, so raise a warning.</span>
+</span><span id="L-162"><a href="#L-162"><span class="linenos">162</span></a>            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">citations</span> <span class="ow">and</span> <span class="n">verbose</span><span class="p">:</span>
+</span><span id="L-163"><a href="#L-163"><span class="linenos">163</span></a>                <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+</span><span id="L-164"><a href="#L-164"><span class="linenos">164</span></a>                    <span class="s2">&quot;Found an entry for &#39;citations&#39; but no entry for citation_count; this is unexpected. Inferring value from citation_count.&quot;</span>
+</span><span id="L-165"><a href="#L-165"><span class="linenos">165</span></a>                <span class="p">)</span>
+</span><span id="L-166"><a href="#L-166"><span class="linenos">166</span></a>                <span class="bp">self</span><span class="o">.</span><span class="n">_citation_count</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">citations</span><span class="p">)</span>
+</span><span id="L-167"><a href="#L-167"><span class="linenos">167</span></a>
+</span><span id="L-168"><a href="#L-168"><span class="linenos">168</span></a>        <span class="c1">######################################################################</span>
+</span><span id="L-169"><a href="#L-169"><span class="linenos">169</span></a>        <span class="c1"># Other attributes</span>
+</span><span id="L-170"><a href="#L-170"><span class="linenos">170</span></a>        <span class="c1">######################################################################</span>
+</span><span id="L-171"><a href="#L-171"><span class="linenos">171</span></a>
+</span><span id="L-172"><a href="#L-172"><span class="linenos">172</span></a>        <span class="n">data_copy</span> <span class="o">=</span> <span class="p">{</span><span class="n">k</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">data</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span> <span class="n">k</span> <span class="ow">in</span> <span class="n">ADDITIONAL_FIELDS</span><span class="p">}</span>
+</span><span id="L-173"><a href="#L-173"><span class="linenos">173</span></a>        <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">data_copy</span><span class="p">)</span>
 </span></pre></div>
 
 
@@ -318,138 +323,140 @@ <h1 class="modulename">
 
     </div>
     <a class="headerlink" href="#Publication"></a>
-            <div class="pdoc-code codehilite"><pre><span></span><span id="Publication-38"><a href="#Publication-38"><span class="linenos"> 38</span></a><span class="k">class</span> <span class="nc">Publication</span><span class="p">:</span>
-</span><span id="Publication-39"><a href="#Publication-39"><span class="linenos"> 39</span></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;The Publication is a standardized container a scientific publication&#39;s retrieved data.</span>
-</span><span id="Publication-40"><a href="#Publication-40"><span class="linenos"> 40</span></a>
-</span><span id="Publication-41"><a href="#Publication-41"><span class="linenos"> 41</span></a><span class="sd">    In general, all data-cleaning shoud be done prior to constructing a Publication, in order to keep the class minimal.</span>
-</span><span id="Publication-42"><a href="#Publication-42"><span class="linenos"> 42</span></a>
-</span><span id="Publication-43"><a href="#Publication-43"><span class="linenos"> 43</span></a><span class="sd">    Attributes:</span>
-</span><span id="Publication-44"><a href="#Publication-44"><span class="linenos"> 44</span></a>
-</span><span id="Publication-45"><a href="#Publication-45"><span class="linenos"> 45</span></a><span class="sd">        identifier:</span>
-</span><span id="Publication-46"><a href="#Publication-46"><span class="linenos"> 46</span></a><span class="sd">            The string id that uniquely identifies the publication, used for</span>
-</span><span id="Publication-47"><a href="#Publication-47"><span class="linenos"> 47</span></a><span class="sd">                - storing in an Atlas</span>
-</span><span id="Publication-48"><a href="#Publication-48"><span class="linenos"> 48</span></a><span class="sd">                - querying an API</span>
-</span><span id="Publication-49"><a href="#Publication-49"><span class="linenos"> 49</span></a>
-</span><span id="Publication-50"><a href="#Publication-50"><span class="linenos"> 50</span></a><span class="sd">        abstract:</span>
-</span><span id="Publication-51"><a href="#Publication-51"><span class="linenos"> 51</span></a><span class="sd">            The string corresponding to the publication&#39;s abstract</span>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="Publication-41"><a href="#Publication-41"><span class="linenos"> 41</span></a><span class="k">class</span> <span class="nc">Publication</span><span class="p">:</span>
+</span><span id="Publication-42"><a href="#Publication-42"><span class="linenos"> 42</span></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;The Publication is a standardized container a scientific publication&#39;s retrieved data.</span>
+</span><span id="Publication-43"><a href="#Publication-43"><span class="linenos"> 43</span></a>
+</span><span id="Publication-44"><a href="#Publication-44"><span class="linenos"> 44</span></a><span class="sd">    In general, all data-cleaning shoud be done prior to constructing a Publication, in order to keep the class minimal.</span>
+</span><span id="Publication-45"><a href="#Publication-45"><span class="linenos"> 45</span></a>
+</span><span id="Publication-46"><a href="#Publication-46"><span class="linenos"> 46</span></a><span class="sd">    Attributes:</span>
+</span><span id="Publication-47"><a href="#Publication-47"><span class="linenos"> 47</span></a>
+</span><span id="Publication-48"><a href="#Publication-48"><span class="linenos"> 48</span></a><span class="sd">        identifier:</span>
+</span><span id="Publication-49"><a href="#Publication-49"><span class="linenos"> 49</span></a><span class="sd">            The string id that uniquely identifies the publication, used for</span>
+</span><span id="Publication-50"><a href="#Publication-50"><span class="linenos"> 50</span></a><span class="sd">                - storing in an Atlas</span>
+</span><span id="Publication-51"><a href="#Publication-51"><span class="linenos"> 51</span></a><span class="sd">                - querying an API</span>
 </span><span id="Publication-52"><a href="#Publication-52"><span class="linenos"> 52</span></a>
-</span><span id="Publication-53"><a href="#Publication-53"><span class="linenos"> 53</span></a><span class="sd">        publication_date:</span>
-</span><span id="Publication-54"><a href="#Publication-54"><span class="linenos"> 54</span></a><span class="sd">            A datetime representing the date of publication</span>
+</span><span id="Publication-53"><a href="#Publication-53"><span class="linenos"> 53</span></a><span class="sd">        abstract:</span>
+</span><span id="Publication-54"><a href="#Publication-54"><span class="linenos"> 54</span></a><span class="sd">            The string corresponding to the publication&#39;s abstract</span>
 </span><span id="Publication-55"><a href="#Publication-55"><span class="linenos"> 55</span></a>
-</span><span id="Publication-56"><a href="#Publication-56"><span class="linenos"> 56</span></a><span class="sd">        citation_count:</span>
-</span><span id="Publication-57"><a href="#Publication-57"><span class="linenos"> 57</span></a><span class="sd">            An int corresponding to the number of citations received by the publication</span>
-</span><span id="Publication-58"><a href="#Publication-58"><span class="linenos"> 58</span></a><span class="sd">    &quot;&quot;&quot;</span>
-</span><span id="Publication-59"><a href="#Publication-59"><span class="linenos"> 59</span></a>
-</span><span id="Publication-60"><a href="#Publication-60"><span class="linenos"> 60</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">data</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="p">{})</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="Publication-61"><a href="#Publication-61"><span class="linenos"> 61</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Construct a publication.</span>
+</span><span id="Publication-56"><a href="#Publication-56"><span class="linenos"> 56</span></a><span class="sd">        publication_date:</span>
+</span><span id="Publication-57"><a href="#Publication-57"><span class="linenos"> 57</span></a><span class="sd">            A datetime representing the date of publication</span>
+</span><span id="Publication-58"><a href="#Publication-58"><span class="linenos"> 58</span></a>
+</span><span id="Publication-59"><a href="#Publication-59"><span class="linenos"> 59</span></a><span class="sd">        citation_count:</span>
+</span><span id="Publication-60"><a href="#Publication-60"><span class="linenos"> 60</span></a><span class="sd">            An int corresponding to the number of citations received by the publication</span>
+</span><span id="Publication-61"><a href="#Publication-61"><span class="linenos"> 61</span></a><span class="sd">    &quot;&quot;&quot;</span>
 </span><span id="Publication-62"><a href="#Publication-62"><span class="linenos"> 62</span></a>
-</span><span id="Publication-63"><a href="#Publication-63"><span class="linenos"> 63</span></a><span class="sd">        Args:</span>
-</span><span id="Publication-64"><a href="#Publication-64"><span class="linenos"> 64</span></a><span class="sd">            data: to initialize attributes</span>
-</span><span id="Publication-65"><a href="#Publication-65"><span class="linenos"> 65</span></a><span class="sd">        &quot;&quot;&quot;</span>
-</span><span id="Publication-66"><a href="#Publication-66"><span class="linenos"> 66</span></a>        <span class="c1"># Below are the attributes we expect every publication to have. If a publication is missing these, it will be removed from analysis.</span>
-</span><span id="Publication-67"><a href="#Publication-67"><span class="linenos"> 67</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_identifier</span> <span class="o">=</span> <span class="kc">None</span>
-</span><span id="Publication-68"><a href="#Publication-68"><span class="linenos"> 68</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_abstract</span> <span class="o">=</span> <span class="kc">None</span>
-</span><span id="Publication-69"><a href="#Publication-69"><span class="linenos"> 69</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_publication_date</span> <span class="o">=</span> <span class="kc">None</span>
-</span><span id="Publication-70"><a href="#Publication-70"><span class="linenos"> 70</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_citation_count</span> <span class="o">=</span> <span class="kc">None</span>
-</span><span id="Publication-71"><a href="#Publication-71"><span class="linenos"> 71</span></a>
-</span><span id="Publication-72"><a href="#Publication-72"><span class="linenos"> 72</span></a>        <span class="c1"># Regularize and store data, including but not limited to above attrs.</span>
-</span><span id="Publication-73"><a href="#Publication-73"><span class="linenos"> 73</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">init_attributes</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
+</span><span id="Publication-63"><a href="#Publication-63"><span class="linenos"> 63</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">data</span><span class="p">:</span> <span class="nb">dict</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Publication-64"><a href="#Publication-64"><span class="linenos"> 64</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Construct a publication.</span>
+</span><span id="Publication-65"><a href="#Publication-65"><span class="linenos"> 65</span></a>
+</span><span id="Publication-66"><a href="#Publication-66"><span class="linenos"> 66</span></a><span class="sd">        Args:</span>
+</span><span id="Publication-67"><a href="#Publication-67"><span class="linenos"> 67</span></a><span class="sd">            data: to initialize attributes</span>
+</span><span id="Publication-68"><a href="#Publication-68"><span class="linenos"> 68</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="Publication-69"><a href="#Publication-69"><span class="linenos"> 69</span></a>        <span class="c1"># Below are the attributes we expect every publication to have. If a publication is missing these, it will be removed from analysis.</span>
+</span><span id="Publication-70"><a href="#Publication-70"><span class="linenos"> 70</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_identifier</span> <span class="o">=</span> <span class="kc">None</span>
+</span><span id="Publication-71"><a href="#Publication-71"><span class="linenos"> 71</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_abstract</span> <span class="o">=</span> <span class="kc">None</span>
+</span><span id="Publication-72"><a href="#Publication-72"><span class="linenos"> 72</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_publication_date</span> <span class="o">=</span> <span class="kc">None</span>
+</span><span id="Publication-73"><a href="#Publication-73"><span class="linenos"> 73</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_citation_count</span> <span class="o">=</span> <span class="kc">None</span>
 </span><span id="Publication-74"><a href="#Publication-74"><span class="linenos"> 74</span></a>
-</span><span id="Publication-75"><a href="#Publication-75"><span class="linenos"> 75</span></a>    <span class="nd">@property</span>
-</span><span id="Publication-76"><a href="#Publication-76"><span class="linenos"> 76</span></a>    <span class="k">def</span> <span class="nf">identifier</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
-</span><span id="Publication-77"><a href="#Publication-77"><span class="linenos"> 77</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_identifier</span>
-</span><span id="Publication-78"><a href="#Publication-78"><span class="linenos"> 78</span></a>
-</span><span id="Publication-79"><a href="#Publication-79"><span class="linenos"> 79</span></a>    <span class="nd">@property</span>
-</span><span id="Publication-80"><a href="#Publication-80"><span class="linenos"> 80</span></a>    <span class="k">def</span> <span class="nf">abstract</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
-</span><span id="Publication-81"><a href="#Publication-81"><span class="linenos"> 81</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_abstract</span>
-</span><span id="Publication-82"><a href="#Publication-82"><span class="linenos"> 82</span></a>
-</span><span id="Publication-83"><a href="#Publication-83"><span class="linenos"> 83</span></a>    <span class="nd">@property</span>
-</span><span id="Publication-84"><a href="#Publication-84"><span class="linenos"> 84</span></a>    <span class="k">def</span> <span class="nf">publication_date</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">date</span><span class="p">:</span>
-</span><span id="Publication-85"><a href="#Publication-85"><span class="linenos"> 85</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_publication_date</span>
-</span><span id="Publication-86"><a href="#Publication-86"><span class="linenos"> 86</span></a>
-</span><span id="Publication-87"><a href="#Publication-87"><span class="linenos"> 87</span></a>    <span class="nd">@property</span>
-</span><span id="Publication-88"><a href="#Publication-88"><span class="linenos"> 88</span></a>    <span class="k">def</span> <span class="nf">citations</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]:</span>
-</span><span id="Publication-89"><a href="#Publication-89"><span class="linenos"> 89</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_citations</span>
-</span><span id="Publication-90"><a href="#Publication-90"><span class="linenos"> 90</span></a>
-</span><span id="Publication-91"><a href="#Publication-91"><span class="linenos"> 91</span></a>    <span class="nd">@property</span>
-</span><span id="Publication-92"><a href="#Publication-92"><span class="linenos"> 92</span></a>    <span class="k">def</span> <span class="nf">references</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]:</span>
-</span><span id="Publication-93"><a href="#Publication-93"><span class="linenos"> 93</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_references</span>
-</span><span id="Publication-94"><a href="#Publication-94"><span class="linenos"> 94</span></a>
-</span><span id="Publication-95"><a href="#Publication-95"><span class="linenos"> 95</span></a>    <span class="nd">@property</span>
-</span><span id="Publication-96"><a href="#Publication-96"><span class="linenos"> 96</span></a>    <span class="k">def</span> <span class="nf">citation_count</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">int</span><span class="p">:</span>
-</span><span id="Publication-97"><a href="#Publication-97"><span class="linenos"> 97</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;The citation_count can be different from the length of `citations`, since the number of citations listed for a paper might be different from the number of (valid) citing papers indexed on the relevant API.&quot;&quot;&quot;</span>
-</span><span id="Publication-98"><a href="#Publication-98"><span class="linenos"> 98</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_citation_count</span>
-</span><span id="Publication-99"><a href="#Publication-99"><span class="linenos"> 99</span></a>
-</span><span id="Publication-100"><a href="#Publication-100"><span class="linenos">100</span></a>    <span class="k">def</span> <span class="fm">__repr__</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
-</span><span id="Publication-101"><a href="#Publication-101"><span class="linenos">101</span></a>        <span class="k">return</span> <span class="s2">&quot;sciterra.publication.Publication:</span><span class="si">{}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">identifier</span><span class="p">)</span>
+</span><span id="Publication-75"><a href="#Publication-75"><span class="linenos"> 75</span></a>        <span class="c1"># Regularize and store data, including but not limited to above attrs.</span>
+</span><span id="Publication-76"><a href="#Publication-76"><span class="linenos"> 76</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">init_attributes</span><span class="p">(</span><span class="n">data</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+</span><span id="Publication-77"><a href="#Publication-77"><span class="linenos"> 77</span></a>
+</span><span id="Publication-78"><a href="#Publication-78"><span class="linenos"> 78</span></a>    <span class="nd">@property</span>
+</span><span id="Publication-79"><a href="#Publication-79"><span class="linenos"> 79</span></a>    <span class="k">def</span> <span class="nf">identifier</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+</span><span id="Publication-80"><a href="#Publication-80"><span class="linenos"> 80</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_identifier</span>
+</span><span id="Publication-81"><a href="#Publication-81"><span class="linenos"> 81</span></a>
+</span><span id="Publication-82"><a href="#Publication-82"><span class="linenos"> 82</span></a>    <span class="nd">@property</span>
+</span><span id="Publication-83"><a href="#Publication-83"><span class="linenos"> 83</span></a>    <span class="k">def</span> <span class="nf">abstract</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+</span><span id="Publication-84"><a href="#Publication-84"><span class="linenos"> 84</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_abstract</span>
+</span><span id="Publication-85"><a href="#Publication-85"><span class="linenos"> 85</span></a>
+</span><span id="Publication-86"><a href="#Publication-86"><span class="linenos"> 86</span></a>    <span class="nd">@property</span>
+</span><span id="Publication-87"><a href="#Publication-87"><span class="linenos"> 87</span></a>    <span class="k">def</span> <span class="nf">publication_date</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">date</span><span class="p">:</span>
+</span><span id="Publication-88"><a href="#Publication-88"><span class="linenos"> 88</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_publication_date</span>
+</span><span id="Publication-89"><a href="#Publication-89"><span class="linenos"> 89</span></a>
+</span><span id="Publication-90"><a href="#Publication-90"><span class="linenos"> 90</span></a>    <span class="nd">@property</span>
+</span><span id="Publication-91"><a href="#Publication-91"><span class="linenos"> 91</span></a>    <span class="k">def</span> <span class="nf">citations</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]:</span>
+</span><span id="Publication-92"><a href="#Publication-92"><span class="linenos"> 92</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_citations</span>
+</span><span id="Publication-93"><a href="#Publication-93"><span class="linenos"> 93</span></a>
+</span><span id="Publication-94"><a href="#Publication-94"><span class="linenos"> 94</span></a>    <span class="nd">@property</span>
+</span><span id="Publication-95"><a href="#Publication-95"><span class="linenos"> 95</span></a>    <span class="k">def</span> <span class="nf">references</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]:</span>
+</span><span id="Publication-96"><a href="#Publication-96"><span class="linenos"> 96</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_references</span>
+</span><span id="Publication-97"><a href="#Publication-97"><span class="linenos"> 97</span></a>
+</span><span id="Publication-98"><a href="#Publication-98"><span class="linenos"> 98</span></a>    <span class="nd">@property</span>
+</span><span id="Publication-99"><a href="#Publication-99"><span class="linenos"> 99</span></a>    <span class="k">def</span> <span class="nf">citation_count</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">int</span><span class="p">:</span>
+</span><span id="Publication-100"><a href="#Publication-100"><span class="linenos">100</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;The citation_count can be different from the length of `citations`, since the number of citations listed for a paper might be different from the number of (valid) citing papers indexed on the relevant API.&quot;&quot;&quot;</span>
+</span><span id="Publication-101"><a href="#Publication-101"><span class="linenos">101</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_citation_count</span>
 </span><span id="Publication-102"><a href="#Publication-102"><span class="linenos">102</span></a>
-</span><span id="Publication-103"><a href="#Publication-103"><span class="linenos">103</span></a>    <span class="k">def</span> <span class="fm">__str__</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
-</span><span id="Publication-104"><a href="#Publication-104"><span class="linenos">104</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">identifier</span>
+</span><span id="Publication-103"><a href="#Publication-103"><span class="linenos">103</span></a>    <span class="k">def</span> <span class="fm">__repr__</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+</span><span id="Publication-104"><a href="#Publication-104"><span class="linenos">104</span></a>        <span class="k">return</span> <span class="s2">&quot;sciterra.publication.Publication:</span><span class="si">{}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">identifier</span><span class="p">)</span>
 </span><span id="Publication-105"><a href="#Publication-105"><span class="linenos">105</span></a>
-</span><span id="Publication-106"><a href="#Publication-106"><span class="linenos">106</span></a>    <span class="k">def</span> <span class="fm">__hash__</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">int</span><span class="p">:</span>
-</span><span id="Publication-107"><a href="#Publication-107"><span class="linenos">107</span></a>        <span class="k">return</span> <span class="nb">hash</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">values</span><span class="p">())</span>
+</span><span id="Publication-106"><a href="#Publication-106"><span class="linenos">106</span></a>    <span class="k">def</span> <span class="fm">__str__</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+</span><span id="Publication-107"><a href="#Publication-107"><span class="linenos">107</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">identifier</span>
 </span><span id="Publication-108"><a href="#Publication-108"><span class="linenos">108</span></a>
-</span><span id="Publication-109"><a href="#Publication-109"><span class="linenos">109</span></a>    <span class="k">def</span> <span class="fm">__eq__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">__value</span><span class="p">:</span> <span class="nb">object</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
-</span><span id="Publication-110"><a href="#Publication-110"><span class="linenos">110</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span> <span class="o">==</span> <span class="n">__value</span><span class="o">.</span><span class="vm">__dict__</span>
+</span><span id="Publication-109"><a href="#Publication-109"><span class="linenos">109</span></a>    <span class="k">def</span> <span class="fm">__hash__</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">int</span><span class="p">:</span>
+</span><span id="Publication-110"><a href="#Publication-110"><span class="linenos">110</span></a>        <span class="k">return</span> <span class="nb">hash</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">values</span><span class="p">())</span>
 </span><span id="Publication-111"><a href="#Publication-111"><span class="linenos">111</span></a>
-</span><span id="Publication-112"><a href="#Publication-112"><span class="linenos">112</span></a>    <span class="k">def</span> <span class="fm">__lt__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">__value</span><span class="p">:</span> <span class="nb">object</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
-</span><span id="Publication-113"><a href="#Publication-113"><span class="linenos">113</span></a>        <span class="k">return</span> <span class="nb">str</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">&lt;</span> <span class="nb">str</span><span class="p">(</span><span class="n">__value</span><span class="p">)</span>
+</span><span id="Publication-112"><a href="#Publication-112"><span class="linenos">112</span></a>    <span class="k">def</span> <span class="fm">__eq__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">__value</span><span class="p">:</span> <span class="nb">object</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
+</span><span id="Publication-113"><a href="#Publication-113"><span class="linenos">113</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span> <span class="o">==</span> <span class="n">__value</span><span class="o">.</span><span class="vm">__dict__</span>
 </span><span id="Publication-114"><a href="#Publication-114"><span class="linenos">114</span></a>
-</span><span id="Publication-115"><a href="#Publication-115"><span class="linenos">115</span></a>    <span class="k">def</span> <span class="nf">init_attributes</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">data</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="Publication-116"><a href="#Publication-116"><span class="linenos">116</span></a>        <span class="k">if</span> <span class="s2">&quot;identifier&quot;</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
-</span><span id="Publication-117"><a href="#Publication-117"><span class="linenos">117</span></a>            <span class="n">val</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;identifier&quot;</span><span class="p">]</span>
-</span><span id="Publication-118"><a href="#Publication-118"><span class="linenos">118</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
-</span><span id="Publication-119"><a href="#Publication-119"><span class="linenos">119</span></a>                <span class="k">raise</span> <span class="ne">ValueError</span>
-</span><span id="Publication-120"><a href="#Publication-120"><span class="linenos">120</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_identifier</span> <span class="o">=</span> <span class="n">val</span>
-</span><span id="Publication-121"><a href="#Publication-121"><span class="linenos">121</span></a>
-</span><span id="Publication-122"><a href="#Publication-122"><span class="linenos">122</span></a>        <span class="k">if</span> <span class="s2">&quot;abstract&quot;</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
-</span><span id="Publication-123"><a href="#Publication-123"><span class="linenos">123</span></a>            <span class="n">val</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;abstract&quot;</span><span class="p">]</span>
-</span><span id="Publication-124"><a href="#Publication-124"><span class="linenos">124</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
-</span><span id="Publication-125"><a href="#Publication-125"><span class="linenos">125</span></a>                <span class="k">raise</span> <span class="ne">ValueError</span>
-</span><span id="Publication-126"><a href="#Publication-126"><span class="linenos">126</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_abstract</span> <span class="o">=</span> <span class="n">val</span>
-</span><span id="Publication-127"><a href="#Publication-127"><span class="linenos">127</span></a>
-</span><span id="Publication-128"><a href="#Publication-128"><span class="linenos">128</span></a>        <span class="k">if</span> <span class="s2">&quot;publication_date&quot;</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
-</span><span id="Publication-129"><a href="#Publication-129"><span class="linenos">129</span></a>            <span class="n">val</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;publication_date&quot;</span><span class="p">]</span>
-</span><span id="Publication-130"><a href="#Publication-130"><span class="linenos">130</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="n">date</span><span class="p">):</span>
-</span><span id="Publication-131"><a href="#Publication-131"><span class="linenos">131</span></a>                <span class="k">raise</span> <span class="ne">ValueError</span>
-</span><span id="Publication-132"><a href="#Publication-132"><span class="linenos">132</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_publication_date</span> <span class="o">=</span> <span class="n">val</span>
-</span><span id="Publication-133"><a href="#Publication-133"><span class="linenos">133</span></a>
-</span><span id="Publication-134"><a href="#Publication-134"><span class="linenos">134</span></a>        <span class="k">if</span> <span class="s2">&quot;citations&quot;</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
-</span><span id="Publication-135"><a href="#Publication-135"><span class="linenos">135</span></a>            <span class="n">val</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;citations&quot;</span><span class="p">]</span>
-</span><span id="Publication-136"><a href="#Publication-136"><span class="linenos">136</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="nb">list</span><span class="p">):</span>
-</span><span id="Publication-137"><a href="#Publication-137"><span class="linenos">137</span></a>                <span class="k">raise</span> <span class="ne">ValueError</span>
-</span><span id="Publication-138"><a href="#Publication-138"><span class="linenos">138</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_citations</span> <span class="o">=</span> <span class="n">val</span>
-</span><span id="Publication-139"><a href="#Publication-139"><span class="linenos">139</span></a>        <span class="k">else</span><span class="p">:</span>
-</span><span id="Publication-140"><a href="#Publication-140"><span class="linenos">140</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_citations</span> <span class="o">=</span> <span class="p">[]</span>
-</span><span id="Publication-141"><a href="#Publication-141"><span class="linenos">141</span></a>
-</span><span id="Publication-142"><a href="#Publication-142"><span class="linenos">142</span></a>        <span class="k">if</span> <span class="s2">&quot;references&quot;</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
-</span><span id="Publication-143"><a href="#Publication-143"><span class="linenos">143</span></a>            <span class="n">val</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;references&quot;</span><span class="p">]</span>
-</span><span id="Publication-144"><a href="#Publication-144"><span class="linenos">144</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="nb">list</span><span class="p">):</span>
-</span><span id="Publication-145"><a href="#Publication-145"><span class="linenos">145</span></a>                <span class="k">raise</span> <span class="ne">ValueError</span>
-</span><span id="Publication-146"><a href="#Publication-146"><span class="linenos">146</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_references</span> <span class="o">=</span> <span class="n">val</span>
-</span><span id="Publication-147"><a href="#Publication-147"><span class="linenos">147</span></a>        <span class="k">else</span><span class="p">:</span>
-</span><span id="Publication-148"><a href="#Publication-148"><span class="linenos">148</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_references</span> <span class="o">=</span> <span class="p">[]</span>
-</span><span id="Publication-149"><a href="#Publication-149"><span class="linenos">149</span></a>
-</span><span id="Publication-150"><a href="#Publication-150"><span class="linenos">150</span></a>        <span class="k">if</span> <span class="s2">&quot;citation_count&quot;</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
-</span><span id="Publication-151"><a href="#Publication-151"><span class="linenos">151</span></a>            <span class="n">val</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;citation_count&quot;</span><span class="p">]</span>
-</span><span id="Publication-152"><a href="#Publication-152"><span class="linenos">152</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="nb">int</span><span class="p">):</span>
-</span><span id="Publication-153"><a href="#Publication-153"><span class="linenos">153</span></a>                <span class="k">raise</span> <span class="ne">ValueError</span>
-</span><span id="Publication-154"><a href="#Publication-154"><span class="linenos">154</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_citation_count</span> <span class="o">=</span> <span class="n">val</span>
-</span><span id="Publication-155"><a href="#Publication-155"><span class="linenos">155</span></a>
-</span><span id="Publication-156"><a href="#Publication-156"><span class="linenos">156</span></a>        <span class="k">else</span><span class="p">:</span>
-</span><span id="Publication-157"><a href="#Publication-157"><span class="linenos">157</span></a>            <span class="c1"># we can use citations, but this is unexpected, so raise a warning.</span>
-</span><span id="Publication-158"><a href="#Publication-158"><span class="linenos">158</span></a>            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">citations</span><span class="p">:</span>
-</span><span id="Publication-159"><a href="#Publication-159"><span class="linenos">159</span></a>                <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
-</span><span id="Publication-160"><a href="#Publication-160"><span class="linenos">160</span></a>                    <span class="s2">&quot;Found an entry for &#39;citations&#39; but no entry for citation_count; this is unexpected. Inferring value from citation_count.&quot;</span>
-</span><span id="Publication-161"><a href="#Publication-161"><span class="linenos">161</span></a>                <span class="p">)</span>
-</span><span id="Publication-162"><a href="#Publication-162"><span class="linenos">162</span></a>                <span class="bp">self</span><span class="o">.</span><span class="n">_citation_count</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">citations</span><span class="p">)</span>
-</span><span id="Publication-163"><a href="#Publication-163"><span class="linenos">163</span></a>
-</span><span id="Publication-164"><a href="#Publication-164"><span class="linenos">164</span></a>        <span class="c1">######################################################################</span>
-</span><span id="Publication-165"><a href="#Publication-165"><span class="linenos">165</span></a>        <span class="c1"># Other attributes</span>
-</span><span id="Publication-166"><a href="#Publication-166"><span class="linenos">166</span></a>        <span class="c1">######################################################################</span>
-</span><span id="Publication-167"><a href="#Publication-167"><span class="linenos">167</span></a>
-</span><span id="Publication-168"><a href="#Publication-168"><span class="linenos">168</span></a>        <span class="n">data_copy</span> <span class="o">=</span> <span class="p">{</span><span class="n">k</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">data</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span> <span class="n">k</span> <span class="ow">in</span> <span class="n">ADDITIONAL_FIELDS</span><span class="p">}</span>
-</span><span id="Publication-169"><a href="#Publication-169"><span class="linenos">169</span></a>        <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">data_copy</span><span class="p">)</span>
+</span><span id="Publication-115"><a href="#Publication-115"><span class="linenos">115</span></a>    <span class="k">def</span> <span class="fm">__lt__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">__value</span><span class="p">:</span> <span class="nb">object</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
+</span><span id="Publication-116"><a href="#Publication-116"><span class="linenos">116</span></a>        <span class="k">return</span> <span class="nb">str</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">&lt;</span> <span class="nb">str</span><span class="p">(</span><span class="n">__value</span><span class="p">)</span>
+</span><span id="Publication-117"><a href="#Publication-117"><span class="linenos">117</span></a>
+</span><span id="Publication-118"><a href="#Publication-118"><span class="linenos">118</span></a>    <span class="k">def</span> <span class="nf">init_attributes</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">data</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Publication-119"><a href="#Publication-119"><span class="linenos">119</span></a>        <span class="n">verbose</span> <span class="o">=</span> <span class="n">get_verbose</span><span class="p">(</span><span class="n">kwargs</span><span class="p">)</span>
+</span><span id="Publication-120"><a href="#Publication-120"><span class="linenos">120</span></a>
+</span><span id="Publication-121"><a href="#Publication-121"><span class="linenos">121</span></a>        <span class="k">if</span> <span class="s2">&quot;identifier&quot;</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
+</span><span id="Publication-122"><a href="#Publication-122"><span class="linenos">122</span></a>            <span class="n">val</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;identifier&quot;</span><span class="p">]</span>
+</span><span id="Publication-123"><a href="#Publication-123"><span class="linenos">123</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+</span><span id="Publication-124"><a href="#Publication-124"><span class="linenos">124</span></a>                <span class="k">raise</span> <span class="ne">ValueError</span>
+</span><span id="Publication-125"><a href="#Publication-125"><span class="linenos">125</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_identifier</span> <span class="o">=</span> <span class="n">val</span>
+</span><span id="Publication-126"><a href="#Publication-126"><span class="linenos">126</span></a>
+</span><span id="Publication-127"><a href="#Publication-127"><span class="linenos">127</span></a>        <span class="k">if</span> <span class="s2">&quot;abstract&quot;</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
+</span><span id="Publication-128"><a href="#Publication-128"><span class="linenos">128</span></a>            <span class="n">val</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;abstract&quot;</span><span class="p">]</span>
+</span><span id="Publication-129"><a href="#Publication-129"><span class="linenos">129</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+</span><span id="Publication-130"><a href="#Publication-130"><span class="linenos">130</span></a>                <span class="k">raise</span> <span class="ne">ValueError</span>
+</span><span id="Publication-131"><a href="#Publication-131"><span class="linenos">131</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_abstract</span> <span class="o">=</span> <span class="n">val</span>
+</span><span id="Publication-132"><a href="#Publication-132"><span class="linenos">132</span></a>
+</span><span id="Publication-133"><a href="#Publication-133"><span class="linenos">133</span></a>        <span class="k">if</span> <span class="s2">&quot;publication_date&quot;</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
+</span><span id="Publication-134"><a href="#Publication-134"><span class="linenos">134</span></a>            <span class="n">val</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;publication_date&quot;</span><span class="p">]</span>
+</span><span id="Publication-135"><a href="#Publication-135"><span class="linenos">135</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="n">date</span><span class="p">):</span>
+</span><span id="Publication-136"><a href="#Publication-136"><span class="linenos">136</span></a>                <span class="k">raise</span> <span class="ne">ValueError</span>
+</span><span id="Publication-137"><a href="#Publication-137"><span class="linenos">137</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_publication_date</span> <span class="o">=</span> <span class="n">val</span>
+</span><span id="Publication-138"><a href="#Publication-138"><span class="linenos">138</span></a>
+</span><span id="Publication-139"><a href="#Publication-139"><span class="linenos">139</span></a>        <span class="k">if</span> <span class="s2">&quot;citations&quot;</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
+</span><span id="Publication-140"><a href="#Publication-140"><span class="linenos">140</span></a>            <span class="n">val</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;citations&quot;</span><span class="p">]</span>
+</span><span id="Publication-141"><a href="#Publication-141"><span class="linenos">141</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="nb">list</span><span class="p">):</span>
+</span><span id="Publication-142"><a href="#Publication-142"><span class="linenos">142</span></a>                <span class="k">raise</span> <span class="ne">ValueError</span>
+</span><span id="Publication-143"><a href="#Publication-143"><span class="linenos">143</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_citations</span> <span class="o">=</span> <span class="n">val</span>
+</span><span id="Publication-144"><a href="#Publication-144"><span class="linenos">144</span></a>        <span class="k">else</span><span class="p">:</span>
+</span><span id="Publication-145"><a href="#Publication-145"><span class="linenos">145</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_citations</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="Publication-146"><a href="#Publication-146"><span class="linenos">146</span></a>
+</span><span id="Publication-147"><a href="#Publication-147"><span class="linenos">147</span></a>        <span class="k">if</span> <span class="s2">&quot;references&quot;</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
+</span><span id="Publication-148"><a href="#Publication-148"><span class="linenos">148</span></a>            <span class="n">val</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;references&quot;</span><span class="p">]</span>
+</span><span id="Publication-149"><a href="#Publication-149"><span class="linenos">149</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="nb">list</span><span class="p">):</span>
+</span><span id="Publication-150"><a href="#Publication-150"><span class="linenos">150</span></a>                <span class="k">raise</span> <span class="ne">ValueError</span>
+</span><span id="Publication-151"><a href="#Publication-151"><span class="linenos">151</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_references</span> <span class="o">=</span> <span class="n">val</span>
+</span><span id="Publication-152"><a href="#Publication-152"><span class="linenos">152</span></a>        <span class="k">else</span><span class="p">:</span>
+</span><span id="Publication-153"><a href="#Publication-153"><span class="linenos">153</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_references</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="Publication-154"><a href="#Publication-154"><span class="linenos">154</span></a>
+</span><span id="Publication-155"><a href="#Publication-155"><span class="linenos">155</span></a>        <span class="k">if</span> <span class="s2">&quot;citation_count&quot;</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
+</span><span id="Publication-156"><a href="#Publication-156"><span class="linenos">156</span></a>            <span class="n">val</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;citation_count&quot;</span><span class="p">]</span>
+</span><span id="Publication-157"><a href="#Publication-157"><span class="linenos">157</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="nb">int</span><span class="p">):</span>
+</span><span id="Publication-158"><a href="#Publication-158"><span class="linenos">158</span></a>                <span class="k">raise</span> <span class="ne">ValueError</span>
+</span><span id="Publication-159"><a href="#Publication-159"><span class="linenos">159</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_citation_count</span> <span class="o">=</span> <span class="n">val</span>
+</span><span id="Publication-160"><a href="#Publication-160"><span class="linenos">160</span></a>
+</span><span id="Publication-161"><a href="#Publication-161"><span class="linenos">161</span></a>        <span class="k">else</span><span class="p">:</span>
+</span><span id="Publication-162"><a href="#Publication-162"><span class="linenos">162</span></a>            <span class="c1"># we can use citations, but this is unexpected, so raise a warning.</span>
+</span><span id="Publication-163"><a href="#Publication-163"><span class="linenos">163</span></a>            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">citations</span> <span class="ow">and</span> <span class="n">verbose</span><span class="p">:</span>
+</span><span id="Publication-164"><a href="#Publication-164"><span class="linenos">164</span></a>                <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+</span><span id="Publication-165"><a href="#Publication-165"><span class="linenos">165</span></a>                    <span class="s2">&quot;Found an entry for &#39;citations&#39; but no entry for citation_count; this is unexpected. Inferring value from citation_count.&quot;</span>
+</span><span id="Publication-166"><a href="#Publication-166"><span class="linenos">166</span></a>                <span class="p">)</span>
+</span><span id="Publication-167"><a href="#Publication-167"><span class="linenos">167</span></a>                <span class="bp">self</span><span class="o">.</span><span class="n">_citation_count</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">citations</span><span class="p">)</span>
+</span><span id="Publication-168"><a href="#Publication-168"><span class="linenos">168</span></a>
+</span><span id="Publication-169"><a href="#Publication-169"><span class="linenos">169</span></a>        <span class="c1">######################################################################</span>
+</span><span id="Publication-170"><a href="#Publication-170"><span class="linenos">170</span></a>        <span class="c1"># Other attributes</span>
+</span><span id="Publication-171"><a href="#Publication-171"><span class="linenos">171</span></a>        <span class="c1">######################################################################</span>
+</span><span id="Publication-172"><a href="#Publication-172"><span class="linenos">172</span></a>
+</span><span id="Publication-173"><a href="#Publication-173"><span class="linenos">173</span></a>        <span class="n">data_copy</span> <span class="o">=</span> <span class="p">{</span><span class="n">k</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">data</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span> <span class="n">k</span> <span class="ow">in</span> <span class="n">ADDITIONAL_FIELDS</span><span class="p">}</span>
+</span><span id="Publication-174"><a href="#Publication-174"><span class="linenos">174</span></a>        <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">data_copy</span><span class="p">)</span>
 </span></pre></div>
 
 
@@ -476,26 +483,26 @@ <h6 id="attributes">Attributes:</h6>
                                         <input id="Publication.__init__-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
 <div class="attr function">
             
-        <span class="name">Publication</span><span class="signature pdoc-code condensed">(<span class="param"><span class="n">data</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="p">{}</span></span>)</span>
+        <span class="name">Publication</span><span class="signature pdoc-code condensed">(<span class="param"><span class="n">data</span><span class="p">:</span> <span class="nb">dict</span>, </span><span class="param"><span class="o">**</span><span class="n">kwargs</span></span>)</span>
 
                 <label class="view-source-button" for="Publication.__init__-view-source"><span>View Source</span></label>
 
     </div>
     <a class="headerlink" href="#Publication.__init__"></a>
-            <div class="pdoc-code codehilite"><pre><span></span><span id="Publication.__init__-60"><a href="#Publication.__init__-60"><span class="linenos">60</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">data</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="p">{})</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="Publication.__init__-61"><a href="#Publication.__init__-61"><span class="linenos">61</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Construct a publication.</span>
-</span><span id="Publication.__init__-62"><a href="#Publication.__init__-62"><span class="linenos">62</span></a>
-</span><span id="Publication.__init__-63"><a href="#Publication.__init__-63"><span class="linenos">63</span></a><span class="sd">        Args:</span>
-</span><span id="Publication.__init__-64"><a href="#Publication.__init__-64"><span class="linenos">64</span></a><span class="sd">            data: to initialize attributes</span>
-</span><span id="Publication.__init__-65"><a href="#Publication.__init__-65"><span class="linenos">65</span></a><span class="sd">        &quot;&quot;&quot;</span>
-</span><span id="Publication.__init__-66"><a href="#Publication.__init__-66"><span class="linenos">66</span></a>        <span class="c1"># Below are the attributes we expect every publication to have. If a publication is missing these, it will be removed from analysis.</span>
-</span><span id="Publication.__init__-67"><a href="#Publication.__init__-67"><span class="linenos">67</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_identifier</span> <span class="o">=</span> <span class="kc">None</span>
-</span><span id="Publication.__init__-68"><a href="#Publication.__init__-68"><span class="linenos">68</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_abstract</span> <span class="o">=</span> <span class="kc">None</span>
-</span><span id="Publication.__init__-69"><a href="#Publication.__init__-69"><span class="linenos">69</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_publication_date</span> <span class="o">=</span> <span class="kc">None</span>
-</span><span id="Publication.__init__-70"><a href="#Publication.__init__-70"><span class="linenos">70</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_citation_count</span> <span class="o">=</span> <span class="kc">None</span>
-</span><span id="Publication.__init__-71"><a href="#Publication.__init__-71"><span class="linenos">71</span></a>
-</span><span id="Publication.__init__-72"><a href="#Publication.__init__-72"><span class="linenos">72</span></a>        <span class="c1"># Regularize and store data, including but not limited to above attrs.</span>
-</span><span id="Publication.__init__-73"><a href="#Publication.__init__-73"><span class="linenos">73</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">init_attributes</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="Publication.__init__-63"><a href="#Publication.__init__-63"><span class="linenos">63</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">data</span><span class="p">:</span> <span class="nb">dict</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Publication.__init__-64"><a href="#Publication.__init__-64"><span class="linenos">64</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Construct a publication.</span>
+</span><span id="Publication.__init__-65"><a href="#Publication.__init__-65"><span class="linenos">65</span></a>
+</span><span id="Publication.__init__-66"><a href="#Publication.__init__-66"><span class="linenos">66</span></a><span class="sd">        Args:</span>
+</span><span id="Publication.__init__-67"><a href="#Publication.__init__-67"><span class="linenos">67</span></a><span class="sd">            data: to initialize attributes</span>
+</span><span id="Publication.__init__-68"><a href="#Publication.__init__-68"><span class="linenos">68</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="Publication.__init__-69"><a href="#Publication.__init__-69"><span class="linenos">69</span></a>        <span class="c1"># Below are the attributes we expect every publication to have. If a publication is missing these, it will be removed from analysis.</span>
+</span><span id="Publication.__init__-70"><a href="#Publication.__init__-70"><span class="linenos">70</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_identifier</span> <span class="o">=</span> <span class="kc">None</span>
+</span><span id="Publication.__init__-71"><a href="#Publication.__init__-71"><span class="linenos">71</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_abstract</span> <span class="o">=</span> <span class="kc">None</span>
+</span><span id="Publication.__init__-72"><a href="#Publication.__init__-72"><span class="linenos">72</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_publication_date</span> <span class="o">=</span> <span class="kc">None</span>
+</span><span id="Publication.__init__-73"><a href="#Publication.__init__-73"><span class="linenos">73</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_citation_count</span> <span class="o">=</span> <span class="kc">None</span>
+</span><span id="Publication.__init__-74"><a href="#Publication.__init__-74"><span class="linenos">74</span></a>
+</span><span id="Publication.__init__-75"><a href="#Publication.__init__-75"><span class="linenos">75</span></a>        <span class="c1"># Regularize and store data, including but not limited to above attrs.</span>
+</span><span id="Publication.__init__-76"><a href="#Publication.__init__-76"><span class="linenos">76</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">init_attributes</span><span class="p">(</span><span class="n">data</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
 </span></pre></div>
 
 
@@ -583,67 +590,69 @@ <h6 id="arguments">Arguments:</h6>
 <div class="attr function">
             
         <span class="def">def</span>
-        <span class="name">init_attributes</span><span class="signature pdoc-code condensed">(<span class="param"><span class="bp">self</span>, </span><span class="param"><span class="n">data</span></span><span class="return-annotation">) -> <span class="kc">None</span>:</span></span>
+        <span class="name">init_attributes</span><span class="signature pdoc-code condensed">(<span class="param"><span class="bp">self</span>, </span><span class="param"><span class="n">data</span>, </span><span class="param"><span class="o">**</span><span class="n">kwargs</span></span><span class="return-annotation">) -> <span class="kc">None</span>:</span></span>
 
                 <label class="view-source-button" for="Publication.init_attributes-view-source"><span>View Source</span></label>
 
     </div>
     <a class="headerlink" href="#Publication.init_attributes"></a>
-            <div class="pdoc-code codehilite"><pre><span></span><span id="Publication.init_attributes-115"><a href="#Publication.init_attributes-115"><span class="linenos">115</span></a>    <span class="k">def</span> <span class="nf">init_attributes</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">data</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="Publication.init_attributes-116"><a href="#Publication.init_attributes-116"><span class="linenos">116</span></a>        <span class="k">if</span> <span class="s2">&quot;identifier&quot;</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
-</span><span id="Publication.init_attributes-117"><a href="#Publication.init_attributes-117"><span class="linenos">117</span></a>            <span class="n">val</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;identifier&quot;</span><span class="p">]</span>
-</span><span id="Publication.init_attributes-118"><a href="#Publication.init_attributes-118"><span class="linenos">118</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
-</span><span id="Publication.init_attributes-119"><a href="#Publication.init_attributes-119"><span class="linenos">119</span></a>                <span class="k">raise</span> <span class="ne">ValueError</span>
-</span><span id="Publication.init_attributes-120"><a href="#Publication.init_attributes-120"><span class="linenos">120</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_identifier</span> <span class="o">=</span> <span class="n">val</span>
-</span><span id="Publication.init_attributes-121"><a href="#Publication.init_attributes-121"><span class="linenos">121</span></a>
-</span><span id="Publication.init_attributes-122"><a href="#Publication.init_attributes-122"><span class="linenos">122</span></a>        <span class="k">if</span> <span class="s2">&quot;abstract&quot;</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
-</span><span id="Publication.init_attributes-123"><a href="#Publication.init_attributes-123"><span class="linenos">123</span></a>            <span class="n">val</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;abstract&quot;</span><span class="p">]</span>
-</span><span id="Publication.init_attributes-124"><a href="#Publication.init_attributes-124"><span class="linenos">124</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
-</span><span id="Publication.init_attributes-125"><a href="#Publication.init_attributes-125"><span class="linenos">125</span></a>                <span class="k">raise</span> <span class="ne">ValueError</span>
-</span><span id="Publication.init_attributes-126"><a href="#Publication.init_attributes-126"><span class="linenos">126</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_abstract</span> <span class="o">=</span> <span class="n">val</span>
-</span><span id="Publication.init_attributes-127"><a href="#Publication.init_attributes-127"><span class="linenos">127</span></a>
-</span><span id="Publication.init_attributes-128"><a href="#Publication.init_attributes-128"><span class="linenos">128</span></a>        <span class="k">if</span> <span class="s2">&quot;publication_date&quot;</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
-</span><span id="Publication.init_attributes-129"><a href="#Publication.init_attributes-129"><span class="linenos">129</span></a>            <span class="n">val</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;publication_date&quot;</span><span class="p">]</span>
-</span><span id="Publication.init_attributes-130"><a href="#Publication.init_attributes-130"><span class="linenos">130</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="n">date</span><span class="p">):</span>
-</span><span id="Publication.init_attributes-131"><a href="#Publication.init_attributes-131"><span class="linenos">131</span></a>                <span class="k">raise</span> <span class="ne">ValueError</span>
-</span><span id="Publication.init_attributes-132"><a href="#Publication.init_attributes-132"><span class="linenos">132</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_publication_date</span> <span class="o">=</span> <span class="n">val</span>
-</span><span id="Publication.init_attributes-133"><a href="#Publication.init_attributes-133"><span class="linenos">133</span></a>
-</span><span id="Publication.init_attributes-134"><a href="#Publication.init_attributes-134"><span class="linenos">134</span></a>        <span class="k">if</span> <span class="s2">&quot;citations&quot;</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
-</span><span id="Publication.init_attributes-135"><a href="#Publication.init_attributes-135"><span class="linenos">135</span></a>            <span class="n">val</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;citations&quot;</span><span class="p">]</span>
-</span><span id="Publication.init_attributes-136"><a href="#Publication.init_attributes-136"><span class="linenos">136</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="nb">list</span><span class="p">):</span>
-</span><span id="Publication.init_attributes-137"><a href="#Publication.init_attributes-137"><span class="linenos">137</span></a>                <span class="k">raise</span> <span class="ne">ValueError</span>
-</span><span id="Publication.init_attributes-138"><a href="#Publication.init_attributes-138"><span class="linenos">138</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_citations</span> <span class="o">=</span> <span class="n">val</span>
-</span><span id="Publication.init_attributes-139"><a href="#Publication.init_attributes-139"><span class="linenos">139</span></a>        <span class="k">else</span><span class="p">:</span>
-</span><span id="Publication.init_attributes-140"><a href="#Publication.init_attributes-140"><span class="linenos">140</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_citations</span> <span class="o">=</span> <span class="p">[]</span>
-</span><span id="Publication.init_attributes-141"><a href="#Publication.init_attributes-141"><span class="linenos">141</span></a>
-</span><span id="Publication.init_attributes-142"><a href="#Publication.init_attributes-142"><span class="linenos">142</span></a>        <span class="k">if</span> <span class="s2">&quot;references&quot;</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
-</span><span id="Publication.init_attributes-143"><a href="#Publication.init_attributes-143"><span class="linenos">143</span></a>            <span class="n">val</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;references&quot;</span><span class="p">]</span>
-</span><span id="Publication.init_attributes-144"><a href="#Publication.init_attributes-144"><span class="linenos">144</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="nb">list</span><span class="p">):</span>
-</span><span id="Publication.init_attributes-145"><a href="#Publication.init_attributes-145"><span class="linenos">145</span></a>                <span class="k">raise</span> <span class="ne">ValueError</span>
-</span><span id="Publication.init_attributes-146"><a href="#Publication.init_attributes-146"><span class="linenos">146</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_references</span> <span class="o">=</span> <span class="n">val</span>
-</span><span id="Publication.init_attributes-147"><a href="#Publication.init_attributes-147"><span class="linenos">147</span></a>        <span class="k">else</span><span class="p">:</span>
-</span><span id="Publication.init_attributes-148"><a href="#Publication.init_attributes-148"><span class="linenos">148</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_references</span> <span class="o">=</span> <span class="p">[]</span>
-</span><span id="Publication.init_attributes-149"><a href="#Publication.init_attributes-149"><span class="linenos">149</span></a>
-</span><span id="Publication.init_attributes-150"><a href="#Publication.init_attributes-150"><span class="linenos">150</span></a>        <span class="k">if</span> <span class="s2">&quot;citation_count&quot;</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
-</span><span id="Publication.init_attributes-151"><a href="#Publication.init_attributes-151"><span class="linenos">151</span></a>            <span class="n">val</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;citation_count&quot;</span><span class="p">]</span>
-</span><span id="Publication.init_attributes-152"><a href="#Publication.init_attributes-152"><span class="linenos">152</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="nb">int</span><span class="p">):</span>
-</span><span id="Publication.init_attributes-153"><a href="#Publication.init_attributes-153"><span class="linenos">153</span></a>                <span class="k">raise</span> <span class="ne">ValueError</span>
-</span><span id="Publication.init_attributes-154"><a href="#Publication.init_attributes-154"><span class="linenos">154</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_citation_count</span> <span class="o">=</span> <span class="n">val</span>
-</span><span id="Publication.init_attributes-155"><a href="#Publication.init_attributes-155"><span class="linenos">155</span></a>
-</span><span id="Publication.init_attributes-156"><a href="#Publication.init_attributes-156"><span class="linenos">156</span></a>        <span class="k">else</span><span class="p">:</span>
-</span><span id="Publication.init_attributes-157"><a href="#Publication.init_attributes-157"><span class="linenos">157</span></a>            <span class="c1"># we can use citations, but this is unexpected, so raise a warning.</span>
-</span><span id="Publication.init_attributes-158"><a href="#Publication.init_attributes-158"><span class="linenos">158</span></a>            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">citations</span><span class="p">:</span>
-</span><span id="Publication.init_attributes-159"><a href="#Publication.init_attributes-159"><span class="linenos">159</span></a>                <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
-</span><span id="Publication.init_attributes-160"><a href="#Publication.init_attributes-160"><span class="linenos">160</span></a>                    <span class="s2">&quot;Found an entry for &#39;citations&#39; but no entry for citation_count; this is unexpected. Inferring value from citation_count.&quot;</span>
-</span><span id="Publication.init_attributes-161"><a href="#Publication.init_attributes-161"><span class="linenos">161</span></a>                <span class="p">)</span>
-</span><span id="Publication.init_attributes-162"><a href="#Publication.init_attributes-162"><span class="linenos">162</span></a>                <span class="bp">self</span><span class="o">.</span><span class="n">_citation_count</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">citations</span><span class="p">)</span>
-</span><span id="Publication.init_attributes-163"><a href="#Publication.init_attributes-163"><span class="linenos">163</span></a>
-</span><span id="Publication.init_attributes-164"><a href="#Publication.init_attributes-164"><span class="linenos">164</span></a>        <span class="c1">######################################################################</span>
-</span><span id="Publication.init_attributes-165"><a href="#Publication.init_attributes-165"><span class="linenos">165</span></a>        <span class="c1"># Other attributes</span>
-</span><span id="Publication.init_attributes-166"><a href="#Publication.init_attributes-166"><span class="linenos">166</span></a>        <span class="c1">######################################################################</span>
-</span><span id="Publication.init_attributes-167"><a href="#Publication.init_attributes-167"><span class="linenos">167</span></a>
-</span><span id="Publication.init_attributes-168"><a href="#Publication.init_attributes-168"><span class="linenos">168</span></a>        <span class="n">data_copy</span> <span class="o">=</span> <span class="p">{</span><span class="n">k</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">data</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span> <span class="n">k</span> <span class="ow">in</span> <span class="n">ADDITIONAL_FIELDS</span><span class="p">}</span>
-</span><span id="Publication.init_attributes-169"><a href="#Publication.init_attributes-169"><span class="linenos">169</span></a>        <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">data_copy</span><span class="p">)</span>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="Publication.init_attributes-118"><a href="#Publication.init_attributes-118"><span class="linenos">118</span></a>    <span class="k">def</span> <span class="nf">init_attributes</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">data</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Publication.init_attributes-119"><a href="#Publication.init_attributes-119"><span class="linenos">119</span></a>        <span class="n">verbose</span> <span class="o">=</span> <span class="n">get_verbose</span><span class="p">(</span><span class="n">kwargs</span><span class="p">)</span>
+</span><span id="Publication.init_attributes-120"><a href="#Publication.init_attributes-120"><span class="linenos">120</span></a>
+</span><span id="Publication.init_attributes-121"><a href="#Publication.init_attributes-121"><span class="linenos">121</span></a>        <span class="k">if</span> <span class="s2">&quot;identifier&quot;</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
+</span><span id="Publication.init_attributes-122"><a href="#Publication.init_attributes-122"><span class="linenos">122</span></a>            <span class="n">val</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;identifier&quot;</span><span class="p">]</span>
+</span><span id="Publication.init_attributes-123"><a href="#Publication.init_attributes-123"><span class="linenos">123</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+</span><span id="Publication.init_attributes-124"><a href="#Publication.init_attributes-124"><span class="linenos">124</span></a>                <span class="k">raise</span> <span class="ne">ValueError</span>
+</span><span id="Publication.init_attributes-125"><a href="#Publication.init_attributes-125"><span class="linenos">125</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_identifier</span> <span class="o">=</span> <span class="n">val</span>
+</span><span id="Publication.init_attributes-126"><a href="#Publication.init_attributes-126"><span class="linenos">126</span></a>
+</span><span id="Publication.init_attributes-127"><a href="#Publication.init_attributes-127"><span class="linenos">127</span></a>        <span class="k">if</span> <span class="s2">&quot;abstract&quot;</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
+</span><span id="Publication.init_attributes-128"><a href="#Publication.init_attributes-128"><span class="linenos">128</span></a>            <span class="n">val</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;abstract&quot;</span><span class="p">]</span>
+</span><span id="Publication.init_attributes-129"><a href="#Publication.init_attributes-129"><span class="linenos">129</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+</span><span id="Publication.init_attributes-130"><a href="#Publication.init_attributes-130"><span class="linenos">130</span></a>                <span class="k">raise</span> <span class="ne">ValueError</span>
+</span><span id="Publication.init_attributes-131"><a href="#Publication.init_attributes-131"><span class="linenos">131</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_abstract</span> <span class="o">=</span> <span class="n">val</span>
+</span><span id="Publication.init_attributes-132"><a href="#Publication.init_attributes-132"><span class="linenos">132</span></a>
+</span><span id="Publication.init_attributes-133"><a href="#Publication.init_attributes-133"><span class="linenos">133</span></a>        <span class="k">if</span> <span class="s2">&quot;publication_date&quot;</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
+</span><span id="Publication.init_attributes-134"><a href="#Publication.init_attributes-134"><span class="linenos">134</span></a>            <span class="n">val</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;publication_date&quot;</span><span class="p">]</span>
+</span><span id="Publication.init_attributes-135"><a href="#Publication.init_attributes-135"><span class="linenos">135</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="n">date</span><span class="p">):</span>
+</span><span id="Publication.init_attributes-136"><a href="#Publication.init_attributes-136"><span class="linenos">136</span></a>                <span class="k">raise</span> <span class="ne">ValueError</span>
+</span><span id="Publication.init_attributes-137"><a href="#Publication.init_attributes-137"><span class="linenos">137</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_publication_date</span> <span class="o">=</span> <span class="n">val</span>
+</span><span id="Publication.init_attributes-138"><a href="#Publication.init_attributes-138"><span class="linenos">138</span></a>
+</span><span id="Publication.init_attributes-139"><a href="#Publication.init_attributes-139"><span class="linenos">139</span></a>        <span class="k">if</span> <span class="s2">&quot;citations&quot;</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
+</span><span id="Publication.init_attributes-140"><a href="#Publication.init_attributes-140"><span class="linenos">140</span></a>            <span class="n">val</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;citations&quot;</span><span class="p">]</span>
+</span><span id="Publication.init_attributes-141"><a href="#Publication.init_attributes-141"><span class="linenos">141</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="nb">list</span><span class="p">):</span>
+</span><span id="Publication.init_attributes-142"><a href="#Publication.init_attributes-142"><span class="linenos">142</span></a>                <span class="k">raise</span> <span class="ne">ValueError</span>
+</span><span id="Publication.init_attributes-143"><a href="#Publication.init_attributes-143"><span class="linenos">143</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_citations</span> <span class="o">=</span> <span class="n">val</span>
+</span><span id="Publication.init_attributes-144"><a href="#Publication.init_attributes-144"><span class="linenos">144</span></a>        <span class="k">else</span><span class="p">:</span>
+</span><span id="Publication.init_attributes-145"><a href="#Publication.init_attributes-145"><span class="linenos">145</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_citations</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="Publication.init_attributes-146"><a href="#Publication.init_attributes-146"><span class="linenos">146</span></a>
+</span><span id="Publication.init_attributes-147"><a href="#Publication.init_attributes-147"><span class="linenos">147</span></a>        <span class="k">if</span> <span class="s2">&quot;references&quot;</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
+</span><span id="Publication.init_attributes-148"><a href="#Publication.init_attributes-148"><span class="linenos">148</span></a>            <span class="n">val</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;references&quot;</span><span class="p">]</span>
+</span><span id="Publication.init_attributes-149"><a href="#Publication.init_attributes-149"><span class="linenos">149</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="nb">list</span><span class="p">):</span>
+</span><span id="Publication.init_attributes-150"><a href="#Publication.init_attributes-150"><span class="linenos">150</span></a>                <span class="k">raise</span> <span class="ne">ValueError</span>
+</span><span id="Publication.init_attributes-151"><a href="#Publication.init_attributes-151"><span class="linenos">151</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_references</span> <span class="o">=</span> <span class="n">val</span>
+</span><span id="Publication.init_attributes-152"><a href="#Publication.init_attributes-152"><span class="linenos">152</span></a>        <span class="k">else</span><span class="p">:</span>
+</span><span id="Publication.init_attributes-153"><a href="#Publication.init_attributes-153"><span class="linenos">153</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_references</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="Publication.init_attributes-154"><a href="#Publication.init_attributes-154"><span class="linenos">154</span></a>
+</span><span id="Publication.init_attributes-155"><a href="#Publication.init_attributes-155"><span class="linenos">155</span></a>        <span class="k">if</span> <span class="s2">&quot;citation_count&quot;</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
+</span><span id="Publication.init_attributes-156"><a href="#Publication.init_attributes-156"><span class="linenos">156</span></a>            <span class="n">val</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;citation_count&quot;</span><span class="p">]</span>
+</span><span id="Publication.init_attributes-157"><a href="#Publication.init_attributes-157"><span class="linenos">157</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="nb">int</span><span class="p">):</span>
+</span><span id="Publication.init_attributes-158"><a href="#Publication.init_attributes-158"><span class="linenos">158</span></a>                <span class="k">raise</span> <span class="ne">ValueError</span>
+</span><span id="Publication.init_attributes-159"><a href="#Publication.init_attributes-159"><span class="linenos">159</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">_citation_count</span> <span class="o">=</span> <span class="n">val</span>
+</span><span id="Publication.init_attributes-160"><a href="#Publication.init_attributes-160"><span class="linenos">160</span></a>
+</span><span id="Publication.init_attributes-161"><a href="#Publication.init_attributes-161"><span class="linenos">161</span></a>        <span class="k">else</span><span class="p">:</span>
+</span><span id="Publication.init_attributes-162"><a href="#Publication.init_attributes-162"><span class="linenos">162</span></a>            <span class="c1"># we can use citations, but this is unexpected, so raise a warning.</span>
+</span><span id="Publication.init_attributes-163"><a href="#Publication.init_attributes-163"><span class="linenos">163</span></a>            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">citations</span> <span class="ow">and</span> <span class="n">verbose</span><span class="p">:</span>
+</span><span id="Publication.init_attributes-164"><a href="#Publication.init_attributes-164"><span class="linenos">164</span></a>                <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+</span><span id="Publication.init_attributes-165"><a href="#Publication.init_attributes-165"><span class="linenos">165</span></a>                    <span class="s2">&quot;Found an entry for &#39;citations&#39; but no entry for citation_count; this is unexpected. Inferring value from citation_count.&quot;</span>
+</span><span id="Publication.init_attributes-166"><a href="#Publication.init_attributes-166"><span class="linenos">166</span></a>                <span class="p">)</span>
+</span><span id="Publication.init_attributes-167"><a href="#Publication.init_attributes-167"><span class="linenos">167</span></a>                <span class="bp">self</span><span class="o">.</span><span class="n">_citation_count</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">citations</span><span class="p">)</span>
+</span><span id="Publication.init_attributes-168"><a href="#Publication.init_attributes-168"><span class="linenos">168</span></a>
+</span><span id="Publication.init_attributes-169"><a href="#Publication.init_attributes-169"><span class="linenos">169</span></a>        <span class="c1">######################################################################</span>
+</span><span id="Publication.init_attributes-170"><a href="#Publication.init_attributes-170"><span class="linenos">170</span></a>        <span class="c1"># Other attributes</span>
+</span><span id="Publication.init_attributes-171"><a href="#Publication.init_attributes-171"><span class="linenos">171</span></a>        <span class="c1">######################################################################</span>
+</span><span id="Publication.init_attributes-172"><a href="#Publication.init_attributes-172"><span class="linenos">172</span></a>
+</span><span id="Publication.init_attributes-173"><a href="#Publication.init_attributes-173"><span class="linenos">173</span></a>        <span class="n">data_copy</span> <span class="o">=</span> <span class="p">{</span><span class="n">k</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">data</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span> <span class="n">k</span> <span class="ow">in</span> <span class="n">ADDITIONAL_FIELDS</span><span class="p">}</span>
+</span><span id="Publication.init_attributes-174"><a href="#Publication.init_attributes-174"><span class="linenos">174</span></a>        <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">data_copy</span><span class="p">)</span>
 </span></pre></div>
 
 
diff --git a/docs/sciterra/mapping/topography.html b/docs/sciterra/mapping/topography.html
new file mode 100644
index 0000000..ddce0d6
--- /dev/null
+++ b/docs/sciterra/mapping/topography.html
@@ -0,0 +1,741 @@
+<!doctype html>
+<html lang="en">
+<head>
+    <meta charset="utf-8">
+    <meta name="viewport" content="width=device-width, initial-scale=1">
+    <meta name="generator" content="pdoc 14.0.0"/>
+    <title>sciterra.mapping.topography API documentation</title>
+
+    <style>/*! * Bootstrap Reboot v5.0.0 (https://getbootstrap.com/) * Copyright 2011-2021 The Bootstrap Authors * Copyright 2011-2021 Twitter, Inc. * Licensed under MIT (https://github.com/twbs/bootstrap/blob/main/LICENSE) * Forked from Normalize.css, licensed MIT (https://github.com/necolas/normalize.css/blob/master/LICENSE.md) */*,::after,::before{box-sizing:border-box}@media (prefers-reduced-motion:no-preference){:root{scroll-behavior:smooth}}body{margin:0;font-family:system-ui,-apple-system,"Segoe UI",Roboto,"Helvetica Neue",Arial,"Noto Sans","Liberation Sans",sans-serif,"Apple Color Emoji","Segoe UI Emoji","Segoe UI Symbol","Noto Color Emoji";font-size:1rem;font-weight:400;line-height:1.5;color:#212529;background-color:#fff;-webkit-text-size-adjust:100%;-webkit-tap-highlight-color:transparent}hr{margin:1rem 0;color:inherit;background-color:currentColor;border:0;opacity:.25}hr:not([size]){height:1px}h1,h2,h3,h4,h5,h6{margin-top:0;margin-bottom:.5rem;font-weight:500;line-height:1.2}h1{font-size:calc(1.375rem + 1.5vw)}@media (min-width:1200px){h1{font-size:2.5rem}}h2{font-size:calc(1.325rem + .9vw)}@media (min-width:1200px){h2{font-size:2rem}}h3{font-size:calc(1.3rem + .6vw)}@media (min-width:1200px){h3{font-size:1.75rem}}h4{font-size:calc(1.275rem + .3vw)}@media (min-width:1200px){h4{font-size:1.5rem}}h5{font-size:1.25rem}h6{font-size:1rem}p{margin-top:0;margin-bottom:1rem}abbr[data-bs-original-title],abbr[title]{-webkit-text-decoration:underline dotted;text-decoration:underline dotted;cursor:help;-webkit-text-decoration-skip-ink:none;text-decoration-skip-ink:none}address{margin-bottom:1rem;font-style:normal;line-height:inherit}ol,ul{padding-left:2rem}dl,ol,ul{margin-top:0;margin-bottom:1rem}ol ol,ol ul,ul ol,ul ul{margin-bottom:0}dt{font-weight:700}dd{margin-bottom:.5rem;margin-left:0}blockquote{margin:0 0 1rem}b,strong{font-weight:bolder}small{font-size:.875em}mark{padding:.2em;background-color:#fcf8e3}sub,sup{position:relative;font-size:.75em;line-height:0;vertical-align:baseline}sub{bottom:-.25em}sup{top:-.5em}a{color:#0d6efd;text-decoration:underline}a:hover{color:#0a58ca}a:not([href]):not([class]),a:not([href]):not([class]):hover{color:inherit;text-decoration:none}code,kbd,pre,samp{font-family:SFMono-Regular,Menlo,Monaco,Consolas,"Liberation Mono","Courier New",monospace;font-size:1em;direction:ltr;unicode-bidi:bidi-override}pre{display:block;margin-top:0;margin-bottom:1rem;overflow:auto;font-size:.875em}pre code{font-size:inherit;color:inherit;word-break:normal}code{font-size:.875em;color:#d63384;word-wrap:break-word}a>code{color:inherit}kbd{padding:.2rem .4rem;font-size:.875em;color:#fff;background-color:#212529;border-radius:.2rem}kbd kbd{padding:0;font-size:1em;font-weight:700}figure{margin:0 0 1rem}img,svg{vertical-align:middle}table{caption-side:bottom;border-collapse:collapse}caption{padding-top:.5rem;padding-bottom:.5rem;color:#6c757d;text-align:left}th{text-align:inherit;text-align:-webkit-match-parent}tbody,td,tfoot,th,thead,tr{border-color:inherit;border-style:solid;border-width:0}label{display:inline-block}button{border-radius:0}button:focus:not(:focus-visible){outline:0}button,input,optgroup,select,textarea{margin:0;font-family:inherit;font-size:inherit;line-height:inherit}button,select{text-transform:none}[role=button]{cursor:pointer}select{word-wrap:normal}select:disabled{opacity:1}[list]::-webkit-calendar-picker-indicator{display:none}[type=button],[type=reset],[type=submit],button{-webkit-appearance:button}[type=button]:not(:disabled),[type=reset]:not(:disabled),[type=submit]:not(:disabled),button:not(:disabled){cursor:pointer}::-moz-focus-inner{padding:0;border-style:none}textarea{resize:vertical}fieldset{min-width:0;padding:0;margin:0;border:0}legend{float:left;width:100%;padding:0;margin-bottom:.5rem;font-size:calc(1.275rem + .3vw);line-height:inherit}@media (min-width:1200px){legend{font-size:1.5rem}}legend+*{clear:left}::-webkit-datetime-edit-day-field,::-webkit-datetime-edit-fields-wrapper,::-webkit-datetime-edit-hour-field,::-webkit-datetime-edit-minute,::-webkit-datetime-edit-month-field,::-webkit-datetime-edit-text,::-webkit-datetime-edit-year-field{padding:0}::-webkit-inner-spin-button{height:auto}[type=search]{outline-offset:-2px;-webkit-appearance:textfield}::-webkit-search-decoration{-webkit-appearance:none}::-webkit-color-swatch-wrapper{padding:0}::file-selector-button{font:inherit}::-webkit-file-upload-button{font:inherit;-webkit-appearance:button}output{display:inline-block}iframe{border:0}summary{display:list-item;cursor:pointer}progress{vertical-align:baseline}[hidden]{display:none!important}</style>
+    <style>/*! syntax-highlighting.css */pre{line-height:125%;}span.linenos{color:inherit; background-color:transparent; padding-left:5px; padding-right:20px;}.pdoc-code .hll{background-color:#ffffcc}.pdoc-code{background:#f8f8f8;}.pdoc-code .c{color:#3D7B7B; font-style:italic}.pdoc-code .err{border:1px solid #FF0000}.pdoc-code .k{color:#008000; font-weight:bold}.pdoc-code .o{color:#666666}.pdoc-code .ch{color:#3D7B7B; font-style:italic}.pdoc-code .cm{color:#3D7B7B; font-style:italic}.pdoc-code .cp{color:#9C6500}.pdoc-code .cpf{color:#3D7B7B; font-style:italic}.pdoc-code .c1{color:#3D7B7B; font-style:italic}.pdoc-code .cs{color:#3D7B7B; font-style:italic}.pdoc-code .gd{color:#A00000}.pdoc-code .ge{font-style:italic}.pdoc-code .gr{color:#E40000}.pdoc-code .gh{color:#000080; font-weight:bold}.pdoc-code .gi{color:#008400}.pdoc-code .go{color:#717171}.pdoc-code .gp{color:#000080; font-weight:bold}.pdoc-code .gs{font-weight:bold}.pdoc-code .gu{color:#800080; font-weight:bold}.pdoc-code .gt{color:#0044DD}.pdoc-code .kc{color:#008000; font-weight:bold}.pdoc-code .kd{color:#008000; font-weight:bold}.pdoc-code .kn{color:#008000; font-weight:bold}.pdoc-code .kp{color:#008000}.pdoc-code .kr{color:#008000; font-weight:bold}.pdoc-code .kt{color:#B00040}.pdoc-code .m{color:#666666}.pdoc-code .s{color:#BA2121}.pdoc-code .na{color:#687822}.pdoc-code .nb{color:#008000}.pdoc-code .nc{color:#0000FF; font-weight:bold}.pdoc-code .no{color:#880000}.pdoc-code .nd{color:#AA22FF}.pdoc-code .ni{color:#717171; font-weight:bold}.pdoc-code .ne{color:#CB3F38; font-weight:bold}.pdoc-code .nf{color:#0000FF}.pdoc-code .nl{color:#767600}.pdoc-code .nn{color:#0000FF; font-weight:bold}.pdoc-code .nt{color:#008000; font-weight:bold}.pdoc-code .nv{color:#19177C}.pdoc-code .ow{color:#AA22FF; font-weight:bold}.pdoc-code .w{color:#bbbbbb}.pdoc-code .mb{color:#666666}.pdoc-code .mf{color:#666666}.pdoc-code .mh{color:#666666}.pdoc-code .mi{color:#666666}.pdoc-code .mo{color:#666666}.pdoc-code .sa{color:#BA2121}.pdoc-code .sb{color:#BA2121}.pdoc-code .sc{color:#BA2121}.pdoc-code .dl{color:#BA2121}.pdoc-code .sd{color:#BA2121; font-style:italic}.pdoc-code .s2{color:#BA2121}.pdoc-code .se{color:#AA5D1F; font-weight:bold}.pdoc-code .sh{color:#BA2121}.pdoc-code .si{color:#A45A77; font-weight:bold}.pdoc-code .sx{color:#008000}.pdoc-code .sr{color:#A45A77}.pdoc-code .s1{color:#BA2121}.pdoc-code .ss{color:#19177C}.pdoc-code .bp{color:#008000}.pdoc-code .fm{color:#0000FF}.pdoc-code .vc{color:#19177C}.pdoc-code .vg{color:#19177C}.pdoc-code .vi{color:#19177C}.pdoc-code .vm{color:#19177C}.pdoc-code .il{color:#666666}</style>
+    <style>/*! theme.css */:root{--pdoc-background:#fff;}.pdoc{--text:#212529;--muted:#6c757d;--link:#3660a5;--link-hover:#1659c5;--code:#f8f8f8;--active:#fff598;--accent:#eee;--accent2:#c1c1c1;--nav-hover:rgba(255, 255, 255, 0.5);--name:#0066BB;--def:#008800;--annotation:#007020;}</style>
+    <style>/*! layout.css */html, body{width:100%;height:100%;}html, main{scroll-behavior:smooth;}body{background-color:var(--pdoc-background);}@media (max-width:769px){#navtoggle{cursor:pointer;position:absolute;width:50px;height:40px;top:1rem;right:1rem;border-color:var(--text);color:var(--text);display:flex;opacity:0.8;z-index:999;}#navtoggle:hover{opacity:1;}#togglestate + div{display:none;}#togglestate:checked + div{display:inherit;}main, header{padding:2rem 3vw;}header + main{margin-top:-3rem;}.git-button{display:none !important;}nav input[type="search"]{max-width:77%;}nav input[type="search"]:first-child{margin-top:-6px;}nav input[type="search"]:valid ~ *{display:none !important;}}@media (min-width:770px){:root{--sidebar-width:clamp(12.5rem, 28vw, 22rem);}nav{position:fixed;overflow:auto;height:100vh;width:var(--sidebar-width);}main, header{padding:3rem 2rem 3rem calc(var(--sidebar-width) + 3rem);width:calc(54rem + var(--sidebar-width));max-width:100%;}header + main{margin-top:-4rem;}#navtoggle{display:none;}}#togglestate{position:absolute;height:0;opacity:0;}nav.pdoc{--pad:clamp(0.5rem, 2vw, 1.75rem);--indent:1.5rem;background-color:var(--accent);border-right:1px solid var(--accent2);box-shadow:0 0 20px rgba(50, 50, 50, .2) inset;padding:0 0 0 var(--pad);overflow-wrap:anywhere;scrollbar-width:thin; scrollbar-color:var(--accent2) transparent }nav.pdoc::-webkit-scrollbar{width:.4rem; }nav.pdoc::-webkit-scrollbar-thumb{background-color:var(--accent2); }nav.pdoc > div{padding:var(--pad) 0;}nav.pdoc .module-list-button{display:inline-flex;align-items:center;color:var(--text);border-color:var(--muted);margin-bottom:1rem;}nav.pdoc .module-list-button:hover{border-color:var(--text);}nav.pdoc input[type=search]{display:block;outline-offset:0;width:calc(100% - var(--pad));}nav.pdoc .logo{max-width:calc(100% - var(--pad));max-height:35vh;display:block;margin:0 auto 1rem;transform:translate(calc(-.5 * var(--pad)), 0);}nav.pdoc ul{list-style:none;padding-left:0;}nav.pdoc > div > ul{margin-left:calc(0px - var(--pad));}nav.pdoc li a{padding:.2rem 0 .2rem calc(var(--pad) + var(--indent));}nav.pdoc > div > ul > li > a{padding-left:var(--pad);}nav.pdoc li{transition:all 100ms;}nav.pdoc li:hover{background-color:var(--nav-hover);}nav.pdoc a, nav.pdoc a:hover{color:var(--text);}nav.pdoc a{display:block;}nav.pdoc > h2:first-of-type{margin-top:1.5rem;}nav.pdoc .class:before{content:"class ";color:var(--muted);}nav.pdoc .function:after{content:"()";color:var(--muted);}nav.pdoc footer:before{content:"";display:block;width:calc(100% - var(--pad));border-top:solid var(--accent2) 1px;margin-top:1.5rem;padding-top:.5rem;}nav.pdoc footer{font-size:small;}</style>
+    <style>/*! content.css */.pdoc{color:var(--text);box-sizing:border-box;line-height:1.5;background:none;}.pdoc .pdoc-button{cursor:pointer;display:inline-block;border:solid black 1px;border-radius:2px;font-size:.75rem;padding:calc(0.5em - 1px) 1em;transition:100ms all;}.pdoc .pdoc-alert{padding:1rem 1rem 1rem calc(1.5rem + 24px);border:1px solid transparent;border-radius:.25rem;background-repeat:no-repeat;background-position:1rem center;margin-bottom:1rem;}.pdoc .pdoc-alert > *:last-child{margin-bottom:0;}.pdoc .pdoc-alert-note {color:#084298;background-color:#cfe2ff;border-color:#b6d4fe;background-image:url("data:image/svg+xml,%3Csvg%20xmlns%3D%22http%3A//www.w3.org/2000/svg%22%20width%3D%2224%22%20height%3D%2224%22%20fill%3D%22%23084298%22%20viewBox%3D%220%200%2016%2016%22%3E%3Cpath%20d%3D%22M8%2016A8%208%200%201%200%208%200a8%208%200%200%200%200%2016zm.93-9.412-1%204.705c-.07.34.029.533.304.533.194%200%20.487-.07.686-.246l-.088.416c-.287.346-.92.598-1.465.598-.703%200-1.002-.422-.808-1.319l.738-3.468c.064-.293.006-.399-.287-.47l-.451-.081.082-.381%202.29-.287zM8%205.5a1%201%200%201%201%200-2%201%201%200%200%201%200%202z%22/%3E%3C/svg%3E");}.pdoc .pdoc-alert-warning{color:#664d03;background-color:#fff3cd;border-color:#ffecb5;background-image:url("data:image/svg+xml,%3Csvg%20xmlns%3D%22http%3A//www.w3.org/2000/svg%22%20width%3D%2224%22%20height%3D%2224%22%20fill%3D%22%23664d03%22%20viewBox%3D%220%200%2016%2016%22%3E%3Cpath%20d%3D%22M8.982%201.566a1.13%201.13%200%200%200-1.96%200L.165%2013.233c-.457.778.091%201.767.98%201.767h13.713c.889%200%201.438-.99.98-1.767L8.982%201.566zM8%205c.535%200%20.954.462.9.995l-.35%203.507a.552.552%200%200%201-1.1%200L7.1%205.995A.905.905%200%200%201%208%205zm.002%206a1%201%200%201%201%200%202%201%201%200%200%201%200-2z%22/%3E%3C/svg%3E");}.pdoc .pdoc-alert-danger{color:#842029;background-color:#f8d7da;border-color:#f5c2c7;background-image:url("data:image/svg+xml,%3Csvg%20xmlns%3D%22http%3A//www.w3.org/2000/svg%22%20width%3D%2224%22%20height%3D%2224%22%20fill%3D%22%23842029%22%20viewBox%3D%220%200%2016%2016%22%3E%3Cpath%20d%3D%22M5.52.359A.5.5%200%200%201%206%200h4a.5.5%200%200%201%20.474.658L8.694%206H12.5a.5.5%200%200%201%20.395.807l-7%209a.5.5%200%200%201-.873-.454L6.823%209.5H3.5a.5.5%200%200%201-.48-.641l2.5-8.5z%22/%3E%3C/svg%3E");}.pdoc .visually-hidden{position:absolute !important;width:1px !important;height:1px !important;padding:0 !important;margin:-1px !important;overflow:hidden !important;clip:rect(0, 0, 0, 0) !important;white-space:nowrap !important;border:0 !important;}.pdoc h1, .pdoc h2, .pdoc h3{font-weight:300;margin:.3em 0;padding:.2em 0;}.pdoc > section:not(.module-info) h1{font-size:1.5rem;font-weight:500;}.pdoc > section:not(.module-info) h2{font-size:1.4rem;font-weight:500;}.pdoc > section:not(.module-info) h3{font-size:1.3rem;font-weight:500;}.pdoc > section:not(.module-info) h4{font-size:1.2rem;}.pdoc > section:not(.module-info) h5{font-size:1.1rem;}.pdoc a{text-decoration:none;color:var(--link);}.pdoc a:hover{color:var(--link-hover);}.pdoc blockquote{margin-left:2rem;}.pdoc pre{border-top:1px solid var(--accent2);border-bottom:1px solid var(--accent2);margin-top:0;margin-bottom:1em;padding:.5rem 0 .5rem .5rem;overflow-x:auto;background-color:var(--code);}.pdoc code{color:var(--text);padding:.2em .4em;margin:0;font-size:85%;background-color:var(--code);border-radius:6px;}.pdoc a > code{color:inherit;}.pdoc pre > code{display:inline-block;font-size:inherit;background:none;border:none;padding:0;}.pdoc > section:not(.module-info){margin-bottom:1.5rem;}.pdoc .modulename{margin-top:0;font-weight:bold;}.pdoc .modulename a{color:var(--link);transition:100ms all;}.pdoc .git-button{float:right;border:solid var(--link) 1px;}.pdoc .git-button:hover{background-color:var(--link);color:var(--pdoc-background);}.view-source-toggle-state,.view-source-toggle-state ~ .pdoc-code{display:none;}.view-source-toggle-state:checked ~ .pdoc-code{display:block;}.view-source-button{display:inline-block;float:right;font-size:.75rem;line-height:1.5rem;color:var(--muted);padding:0 .4rem 0 1.3rem;cursor:pointer;text-indent:-2px;}.view-source-button > span{visibility:hidden;}.module-info .view-source-button{float:none;display:flex;justify-content:flex-end;margin:-1.2rem .4rem -.2rem 0;}.view-source-button::before{position:absolute;content:"View Source";display:list-item;list-style-type:disclosure-closed;}.view-source-toggle-state:checked ~ .attr .view-source-button::before,.view-source-toggle-state:checked ~ .view-source-button::before{list-style-type:disclosure-open;}.pdoc .docstring{margin-bottom:1.5rem;}.pdoc section:not(.module-info) .docstring{margin-left:clamp(0rem, 5vw - 2rem, 1rem);}.pdoc .docstring .pdoc-code{margin-left:1em;margin-right:1em;}.pdoc h1:target,.pdoc h2:target,.pdoc h3:target,.pdoc h4:target,.pdoc h5:target,.pdoc h6:target,.pdoc .pdoc-code > pre > span:target{background-color:var(--active);box-shadow:-1rem 0 0 0 var(--active);}.pdoc .pdoc-code > pre > span:target{display:block;}.pdoc div:target > .attr,.pdoc section:target > .attr,.pdoc dd:target > a{background-color:var(--active);}.pdoc *{scroll-margin:2rem;}.pdoc .pdoc-code .linenos{user-select:none;}.pdoc .attr:hover{filter:contrast(0.95);}.pdoc section, .pdoc .classattr{position:relative;}.pdoc .headerlink{--width:clamp(1rem, 3vw, 2rem);position:absolute;top:0;left:calc(0rem - var(--width));transition:all 100ms ease-in-out;opacity:0;}.pdoc .headerlink::before{content:"#";display:block;text-align:center;width:var(--width);height:2.3rem;line-height:2.3rem;font-size:1.5rem;}.pdoc .attr:hover ~ .headerlink,.pdoc *:target > .headerlink,.pdoc .headerlink:hover{opacity:1;}.pdoc .attr{display:block;margin:.5rem 0 .5rem;padding:.4rem .4rem .4rem 1rem;background-color:var(--accent);overflow-x:auto;}.pdoc .classattr{margin-left:2rem;}.pdoc .name{color:var(--name);font-weight:bold;}.pdoc .def{color:var(--def);font-weight:bold;}.pdoc .signature{background-color:transparent;}.pdoc .param, .pdoc .return-annotation{white-space:pre;}.pdoc .signature.multiline .param{display:block;}.pdoc .signature.condensed .param{display:inline-block;}.pdoc .annotation{color:var(--annotation);}.pdoc .view-value-toggle-state,.pdoc .view-value-toggle-state ~ .default_value{display:none;}.pdoc .view-value-toggle-state:checked ~ .default_value{display:inherit;}.pdoc .view-value-button{font-size:.5rem;vertical-align:middle;border-style:dashed;margin-top:-0.1rem;}.pdoc .view-value-button:hover{background:white;}.pdoc .view-value-button::before{content:"show";text-align:center;width:2.2em;display:inline-block;}.pdoc .view-value-toggle-state:checked ~ .view-value-button::before{content:"hide";}.pdoc .inherited{margin-left:2rem;}.pdoc .inherited dt{font-weight:700;}.pdoc .inherited dt, .pdoc .inherited dd{display:inline;margin-left:0;margin-bottom:.5rem;}.pdoc .inherited dd:not(:last-child):after{content:", ";}.pdoc .inherited .class:before{content:"class ";}.pdoc .inherited .function a:after{content:"()";}.pdoc .search-result .docstring{overflow:auto;max-height:25vh;}.pdoc .search-result.focused > .attr{background-color:var(--active);}.pdoc .attribution{margin-top:2rem;display:block;opacity:0.5;transition:all 200ms;filter:grayscale(100%);}.pdoc .attribution:hover{opacity:1;filter:grayscale(0%);}.pdoc .attribution img{margin-left:5px;height:35px;vertical-align:middle;width:70px;transition:all 200ms;}.pdoc table{display:block;width:max-content;max-width:100%;overflow:auto;margin-bottom:1rem;}.pdoc table th{font-weight:600;}.pdoc table th, .pdoc table td{padding:6px 13px;border:1px solid var(--accent2);}</style>
+    <style>/*! custom.css */</style><script>
+    window.MathJax = {
+        tex: {
+            inlineMath: [['$', '$'], ['\\(', '\\)']]
+        }
+    };
+</script>
+<script src="https://polyfill.io/v3/polyfill.min.js?features=es6"></script>
+<script id="MathJax-script" async src="https://cdn.jsdelivr.net/npm/mathjax@3/es5/tex-mml-chtml.js"></script>
+<script>
+    /* Re-invoke MathJax when DOM content changes, for example during search. */
+    document.addEventListener("DOMContentLoaded", () => {
+        new MutationObserver(() => MathJax.typeset()).observe(
+            document.querySelector("main.pdoc").parentNode,
+            {childList: true}
+        );
+    })
+</script>
+<style>
+    mjx-container {
+        overflow-x: auto;
+    }
+</style></head>
+<body>
+    <nav class="pdoc">
+        <label id="navtoggle" for="togglestate" class="pdoc-button"><svg xmlns='http://www.w3.org/2000/svg' viewBox='0 0 30 30'><path stroke-linecap='round' stroke="currentColor" stroke-miterlimit='10' stroke-width='2' d='M4 7h22M4 15h22M4 23h22'/></svg></label>
+        <input id="togglestate" type="checkbox" aria-hidden="true" tabindex="-1">
+        <div>            <a class="pdoc-button module-list-button" href="../mapping.html">
+<svg xmlns="http://www.w3.org/2000/svg" width="16" height="16" fill="currentColor" class="bi bi-box-arrow-in-left" viewBox="0 0 16 16">
+  <path fill-rule="evenodd" d="M10 3.5a.5.5 0 0 0-.5-.5h-8a.5.5 0 0 0-.5.5v9a.5.5 0 0 0 .5.5h8a.5.5 0 0 0 .5-.5v-2a.5.5 0 0 1 1 0v2A1.5 1.5 0 0 1 9.5 14h-8A1.5 1.5 0 0 1 0 12.5v-9A1.5 1.5 0 0 1 1.5 2h8A1.5 1.5 0 0 1 11 3.5v2a.5.5 0 0 1-1 0v-2z"/>
+  <path fill-rule="evenodd" d="M4.146 8.354a.5.5 0 0 1 0-.708l3-3a.5.5 0 1 1 .708.708L5.707 7.5H14.5a.5.5 0 0 1 0 1H5.707l2.147 2.146a.5.5 0 0 1-.708.708l-3-3z"/>
+</svg>                &nbsp;sciterra.mapping</a>
+
+
+            <input type="search" placeholder="Search..." role="searchbox" aria-label="search"
+                   pattern=".+" required>
+
+
+
+            <h2>API Documentation</h2>
+                <ul class="memberlist">
+            <li>
+                    <a class="function" href="#smoothing_length_metric">smoothing_length_metric</a>
+            </li>
+            <li>
+                    <a class="function" href="#density_metric">density_metric</a>
+            </li>
+            <li>
+                    <a class="function" href="#edginess_metric">edginess_metric</a>
+            </li>
+            <li>
+                    <a class="function" href="#kernel_constant_asymmetry_metric">kernel_constant_asymmetry_metric</a>
+            </li>
+    </ul>
+
+
+
+        <a class="attribution" title="pdoc: Python API documentation generator" href="https://pdoc.dev" target="_blank">
+            built with <span class="visually-hidden">pdoc</span><img
+                alt="pdoc logo"
+                src="data:image/svg+xml,%3Csvg%20xmlns%3D%22http%3A//www.w3.org/2000/svg%22%20role%3D%22img%22%20aria-label%3D%22pdoc%20logo%22%20width%3D%22300%22%20height%3D%22150%22%20viewBox%3D%22-1%200%2060%2030%22%3E%3Ctitle%3Epdoc%3C/title%3E%3Cpath%20d%3D%22M29.621%2021.293c-.011-.273-.214-.475-.511-.481a.5.5%200%200%200-.489.503l-.044%201.393c-.097.551-.695%201.215-1.566%201.704-.577.428-1.306.486-2.193.182-1.426-.617-2.467-1.654-3.304-2.487l-.173-.172a3.43%203.43%200%200%200-.365-.306.49.49%200%200%200-.286-.196c-1.718-1.06-4.931-1.47-7.353.191l-.219.15c-1.707%201.187-3.413%202.131-4.328%201.03-.02-.027-.49-.685-.141-1.763.233-.721.546-2.408.772-4.076.042-.09.067-.187.046-.288.166-1.347.277-2.625.241-3.351%201.378-1.008%202.271-2.586%202.271-4.362%200-.976-.272-1.935-.788-2.774-.057-.094-.122-.18-.184-.268.033-.167.052-.339.052-.516%200-1.477-1.202-2.679-2.679-2.679-.791%200-1.496.352-1.987.9a6.3%206.3%200%200%200-1.001.029c-.492-.564-1.207-.929-2.012-.929-1.477%200-2.679%201.202-2.679%202.679A2.65%202.65%200%200%200%20.97%206.554c-.383.747-.595%201.572-.595%202.41%200%202.311%201.507%204.29%203.635%205.107-.037.699-.147%202.27-.423%203.294l-.137.461c-.622%202.042-2.515%208.257%201.727%2010.643%201.614.908%203.06%201.248%204.317%201.248%202.665%200%204.492-1.524%205.322-2.401%201.476-1.559%202.886-1.854%206.491.82%201.877%201.393%203.514%201.753%204.861%201.068%202.223-1.713%202.811-3.867%203.399-6.374.077-.846.056-1.469.054-1.537zm-4.835%204.313c-.054.305-.156.586-.242.629-.034-.007-.131-.022-.307-.157-.145-.111-.314-.478-.456-.908.221.121.432.25.675.355.115.039.219.051.33.081zm-2.251-1.238c-.05.33-.158.648-.252.694-.022.001-.125-.018-.307-.157-.217-.166-.488-.906-.639-1.573.358.344.754.693%201.198%201.036zm-3.887-2.337c-.006-.116-.018-.231-.041-.342.635.145%201.189.368%201.599.625.097.231.166.481.174.642-.03.049-.055.101-.067.158-.046.013-.128.026-.298.004-.278-.037-.901-.57-1.367-1.087zm-1.127-.497c.116.306.176.625.12.71-.019.014-.117.045-.345.016-.206-.027-.604-.332-.986-.695.41-.051.816-.056%201.211-.031zm-4.535%201.535c.209.22.379.47.358.598-.006.041-.088.138-.351.234-.144.055-.539-.063-.979-.259a11.66%2011.66%200%200%200%20.972-.573zm.983-.664c.359-.237.738-.418%201.126-.554.25.237.479.548.457.694-.006.042-.087.138-.351.235-.174.064-.694-.105-1.232-.375zm-3.381%201.794c-.022.145-.061.29-.149.401-.133.166-.358.248-.69.251h-.002c-.133%200-.306-.26-.45-.621.417.091.854.07%201.291-.031zm-2.066-8.077a4.78%204.78%200%200%201-.775-.584c.172-.115.505-.254.88-.378l-.105.962zm-.331%202.302a10.32%2010.32%200%200%201-.828-.502c.202-.143.576-.328.984-.49l-.156.992zm-.45%202.157l-.701-.403c.214-.115.536-.249.891-.376a11.57%2011.57%200%200%201-.19.779zm-.181%201.716c.064.398.194.702.298.893-.194-.051-.435-.162-.736-.398.061-.119.224-.3.438-.495zM8.87%204.141c0%20.152-.123.276-.276.276s-.275-.124-.275-.276.123-.276.276-.276.275.124.275.276zm-.735-.389a1.15%201.15%200%200%200-.314.783%201.16%201.16%200%200%200%201.162%201.162c.457%200%20.842-.27%201.032-.653.026.117.042.238.042.362a1.68%201.68%200%200%201-1.679%201.679%201.68%201.68%200%200%201-1.679-1.679c0-.843.626-1.535%201.436-1.654zM5.059%205.406A1.68%201.68%200%200%201%203.38%207.085a1.68%201.68%200%200%201-1.679-1.679c0-.037.009-.072.011-.109.21.3.541.508.935.508a1.16%201.16%200%200%200%201.162-1.162%201.14%201.14%200%200%200-.474-.912c.015%200%20.03-.005.045-.005.926.001%201.679.754%201.679%201.68zM3.198%204.141c0%20.152-.123.276-.276.276s-.275-.124-.275-.276.123-.276.276-.276.275.124.275.276zM1.375%208.964c0-.52.103-1.035.288-1.52.466.394%201.06.64%201.717.64%201.144%200%202.116-.725%202.499-1.738.383%201.012%201.355%201.738%202.499%201.738.867%200%201.631-.421%202.121-1.062.307.605.478%201.267.478%201.942%200%202.486-2.153%204.51-4.801%204.51s-4.801-2.023-4.801-4.51zm24.342%2019.349c-.985.498-2.267.168-3.813-.979-3.073-2.281-5.453-3.199-7.813-.705-1.315%201.391-4.163%203.365-8.423.97-3.174-1.786-2.239-6.266-1.261-9.479l.146-.492c.276-1.02.395-2.457.444-3.268a6.11%206.11%200%200%200%201.18.115%206.01%206.01%200%200%200%202.536-.562l-.006.175c-.802.215-1.848.612-2.021%201.25-.079.295.021.601.274.837.219.203.415.364.598.501-.667.304-1.243.698-1.311%201.179-.02.144-.022.507.393.787.213.144.395.26.564.365-1.285.521-1.361.96-1.381%201.126-.018.142-.011.496.427.746l.854.489c-.473.389-.971.914-.999%201.429-.018.278.095.532.316.713.675.556%201.231.721%201.653.721.059%200%20.104-.014.158-.02.207.707.641%201.64%201.513%201.64h.013c.8-.008%201.236-.345%201.462-.626.173-.216.268-.457.325-.692.424.195.93.374%201.372.374.151%200%20.294-.021.423-.068.732-.27.944-.704.993-1.021.009-.061.003-.119.002-.179.266.086.538.147.789.147.15%200%20.294-.021.423-.069.542-.2.797-.489.914-.754.237.147.478.258.704.288.106.014.205.021.296.021.356%200%20.595-.101.767-.229.438.435%201.094.992%201.656%201.067.106.014.205.021.296.021a1.56%201.56%200%200%200%20.323-.035c.17.575.453%201.289.866%201.605.358.273.665.362.914.362a.99.99%200%200%200%20.421-.093%201.03%201.03%200%200%200%20.245-.164c.168.428.39.846.68%201.068.358.273.665.362.913.362a.99.99%200%200%200%20.421-.093c.317-.148.512-.448.639-.762.251.157.495.257.726.257.127%200%20.25-.024.37-.071.427-.17.706-.617.841-1.314.022-.015.047-.022.068-.038.067-.051.133-.104.196-.159-.443%201.486-1.107%202.761-2.086%203.257zM8.66%209.925a.5.5%200%201%200-1%200c0%20.653-.818%201.205-1.787%201.205s-1.787-.552-1.787-1.205a.5.5%200%201%200-1%200c0%201.216%201.25%202.205%202.787%202.205s2.787-.989%202.787-2.205zm4.4%2015.965l-.208.097c-2.661%201.258-4.708%201.436-6.086.527-1.542-1.017-1.88-3.19-1.844-4.198a.4.4%200%200%200-.385-.414c-.242-.029-.406.164-.414.385-.046%201.249.367%203.686%202.202%204.896.708.467%201.547.7%202.51.7%201.248%200%202.706-.392%204.362-1.174l.185-.086a.4.4%200%200%200%20.205-.527c-.089-.204-.326-.291-.527-.206zM9.547%202.292c.093.077.205.114.317.114a.5.5%200%200%200%20.318-.886L8.817.397a.5.5%200%200%200-.703.068.5.5%200%200%200%20.069.703l1.364%201.124zm-7.661-.065c.086%200%20.173-.022.253-.068l1.523-.893a.5.5%200%200%200-.506-.863l-1.523.892a.5.5%200%200%200-.179.685c.094.158.261.247.432.247z%22%20transform%3D%22matrix%28-1%200%200%201%2058%200%29%22%20fill%3D%22%233bb300%22/%3E%3Cpath%20d%3D%22M.3%2021.86V10.18q0-.46.02-.68.04-.22.18-.5.28-.54%201.34-.54%201.06%200%201.42.28.38.26.44.78.76-1.04%202.38-1.04%201.64%200%203.1%201.54%201.46%201.54%201.46%203.58%200%202.04-1.46%203.58-1.44%201.54-3.08%201.54-1.64%200-2.38-.92v4.04q0%20.46-.04.68-.02.22-.18.5-.14.3-.5.42-.36.12-.98.12-.62%200-1-.12-.36-.12-.52-.4-.14-.28-.18-.5-.02-.22-.02-.68zm3.96-9.42q-.46.54-.46%201.18%200%20.64.46%201.18.48.52%201.2.52.74%200%201.24-.52.52-.52.52-1.18%200-.66-.48-1.18-.48-.54-1.26-.54-.76%200-1.22.54zm14.741-8.36q.16-.3.54-.42.38-.12%201-.12.64%200%201.02.12.38.12.52.42.16.3.18.54.04.22.04.68v11.94q0%20.46-.04.7-.02.22-.18.5-.3.54-1.7.54-1.38%200-1.54-.98-.84.96-2.34.96-1.8%200-3.28-1.56-1.48-1.58-1.48-3.66%200-2.1%201.48-3.68%201.5-1.58%203.28-1.58%201.48%200%202.3%201v-4.2q0-.46.02-.68.04-.24.18-.52zm-3.24%2010.86q.52.54%201.26.54.74%200%201.22-.54.5-.54.5-1.18%200-.66-.48-1.22-.46-.56-1.26-.56-.8%200-1.28.56-.48.54-.48%201.2%200%20.66.52%201.2zm7.833-1.2q0-2.4%201.68-3.96%201.68-1.56%203.84-1.56%202.16%200%203.82%201.56%201.66%201.54%201.66%203.94%200%201.66-.86%202.96-.86%201.28-2.1%201.9-1.22.6-2.54.6-1.32%200-2.56-.64-1.24-.66-2.1-1.92-.84-1.28-.84-2.88zm4.18%201.44q.64.48%201.3.48.66%200%201.32-.5.66-.5.66-1.48%200-.98-.62-1.46-.62-.48-1.34-.48-.72%200-1.34.5-.62.5-.62%201.48%200%20.96.64%201.46zm11.412-1.44q0%20.84.56%201.32.56.46%201.18.46.64%200%201.18-.36.56-.38.9-.38.6%200%201.46%201.06.46.58.46%201.04%200%20.76-1.1%201.42-1.14.8-2.8.8-1.86%200-3.58-1.34-.82-.64-1.34-1.7-.52-1.08-.52-2.36%200-1.3.52-2.34.52-1.06%201.34-1.7%201.66-1.32%203.54-1.32.76%200%201.48.22.72.2%201.06.4l.32.2q.36.24.56.38.52.4.52.92%200%20.5-.42%201.14-.72%201.1-1.38%201.1-.38%200-1.08-.44-.36-.34-1.04-.34-.66%200-1.24.48-.58.48-.58%201.34z%22%20fill%3D%22green%22/%3E%3C/svg%3E"/>
+        </a>
+</div>
+    </nav>
+    <main class="pdoc">
+            <section class="module-info">
+                    <h1 class="modulename">
+<a href="./../../sciterra.html">sciterra</a><wbr>.<a href="./../mapping.html">mapping</a><wbr>.topography    </h1>
+
+                        <div class="docstring"><p>Functions for measuring topographic properties of (the semantic feature space of publications inside) an Atlas.</p>
+</div>
+
+                        <input id="mod-topography-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
+
+                        <label class="view-source-button" for="mod-topography-view-source"><span>View Source</span></label>
+
+                        <div class="pdoc-code codehilite"><pre><span></span><span id="L-1"><a href="#L-1"><span class="linenos">  1</span></a><span class="sd">&quot;&quot;&quot;Functions for measuring topographic properties of (the semantic feature space of publications inside) an Atlas.&quot;&quot;&quot;</span>
+</span><span id="L-2"><a href="#L-2"><span class="linenos">  2</span></a>
+</span><span id="L-3"><a href="#L-3"><span class="linenos">  3</span></a><span class="kn">import</span> <span class="nn">inspect</span>
+</span><span id="L-4"><a href="#L-4"><span class="linenos">  4</span></a><span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
+</span><span id="L-5"><a href="#L-5"><span class="linenos">  5</span></a>
+</span><span id="L-6"><a href="#L-6"><span class="linenos">  6</span></a>
+</span><span id="L-7"><a href="#L-7"><span class="linenos">  7</span></a><span class="c1">########################################################################</span>
+</span><span id="L-8"><a href="#L-8"><span class="linenos">  8</span></a><span class="c1"># Density metrics</span>
+</span><span id="L-9"><a href="#L-9"><span class="linenos">  9</span></a><span class="c1">########################################################################</span>
+</span><span id="L-10"><a href="#L-10"><span class="linenos"> 10</span></a>
+</span><span id="L-11"><a href="#L-11"><span class="linenos"> 11</span></a>
+</span><span id="L-12"><a href="#L-12"><span class="linenos"> 12</span></a><span class="k">def</span> <span class="nf">smoothing_length_metric</span><span class="p">(</span>
+</span><span id="L-13"><a href="#L-13"><span class="linenos"> 13</span></a>    <span class="n">idx</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+</span><span id="L-14"><a href="#L-14"><span class="linenos"> 14</span></a>    <span class="n">cospsi_matrix</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span>
+</span><span id="L-15"><a href="#L-15"><span class="linenos"> 15</span></a>    <span class="n">valid_indices</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span>
+</span><span id="L-16"><a href="#L-16"><span class="linenos"> 16</span></a>    <span class="n">kernel_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">16</span><span class="p">,</span>
+</span><span id="L-17"><a href="#L-17"><span class="linenos"> 17</span></a><span class="p">):</span>
+</span><span id="L-18"><a href="#L-18"><span class="linenos"> 18</span></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Proxy for the density of a publication defined as the minimum</span>
+</span><span id="L-19"><a href="#L-19"><span class="linenos"> 19</span></a><span class="sd">    arc length that encloses kernel_size other publications.</span>
+</span><span id="L-20"><a href="#L-20"><span class="linenos"> 20</span></a>
+</span><span id="L-21"><a href="#L-21"><span class="linenos"> 21</span></a><span class="sd">    Args:</span>
+</span><span id="L-22"><a href="#L-22"><span class="linenos"> 22</span></a><span class="sd">        idx: the index of the vector to calculate the measurement for.</span>
+</span><span id="L-23"><a href="#L-23"><span class="linenos"> 23</span></a>
+</span><span id="L-24"><a href="#L-24"><span class="linenos"> 24</span></a><span class="sd">        cospsi_matrix: a 2D matrix of pairwise cosine similarity scores for publication embeddings.</span>
+</span><span id="L-25"><a href="#L-25"><span class="linenos"> 25</span></a>
+</span><span id="L-26"><a href="#L-26"><span class="linenos"> 26</span></a><span class="sd">        valid_indices: Indices of the other publication used when calculating the measurements.</span>
+</span><span id="L-27"><a href="#L-27"><span class="linenos"> 27</span></a>
+</span><span id="L-28"><a href="#L-28"><span class="linenos"> 28</span></a><span class="sd">        kernel_size: number of K nearest neighbors to calculate the measurement on.</span>
+</span><span id="L-29"><a href="#L-29"><span class="linenos"> 29</span></a>
+</span><span id="L-30"><a href="#L-30"><span class="linenos"> 30</span></a><span class="sd">    Returns:</span>
+</span><span id="L-31"><a href="#L-31"><span class="linenos"> 31</span></a><span class="sd">        h: float representing arc length containing `kernel_size` other publications. (Assumes normalized to a radius of 1.)</span>
+</span><span id="L-32"><a href="#L-32"><span class="linenos"> 32</span></a><span class="sd">    &quot;&quot;&quot;</span>
+</span><span id="L-33"><a href="#L-33"><span class="linenos"> 33</span></a>
+</span><span id="L-34"><a href="#L-34"><span class="linenos"> 34</span></a>    <span class="c1"># We can&#39;t have the kernel larger than the number of valid publications</span>
+</span><span id="L-35"><a href="#L-35"><span class="linenos"> 35</span></a>    <span class="k">if</span> <span class="n">kernel_size</span> <span class="o">&gt;</span> <span class="nb">len</span><span class="p">(</span><span class="n">valid_indices</span><span class="p">):</span>
+</span><span id="L-36"><a href="#L-36"><span class="linenos"> 36</span></a>        <span class="k">return</span> <span class="n">np</span><span class="o">.</span><span class="n">nan</span>
+</span><span id="L-37"><a href="#L-37"><span class="linenos"> 37</span></a>
+</span><span id="L-38"><a href="#L-38"><span class="linenos"> 38</span></a>    <span class="c1"># Get 1D array of similarity scores to idx vector</span>
+</span><span id="L-39"><a href="#L-39"><span class="linenos"> 39</span></a>    <span class="k">try</span><span class="p">:</span>
+</span><span id="L-40"><a href="#L-40"><span class="linenos"> 40</span></a>        <span class="n">cospsi</span> <span class="o">=</span> <span class="n">cospsi_matrix</span><span class="p">[</span><span class="n">idx</span><span class="p">][</span><span class="n">valid_indices</span><span class="p">]</span>
+</span><span id="L-41"><a href="#L-41"><span class="linenos"> 41</span></a>    <span class="k">except</span> <span class="ne">IndexError</span><span class="p">:</span>
+</span><span id="L-42"><a href="#L-42"><span class="linenos"> 42</span></a>        <span class="nb">breakpoint</span><span class="p">()</span>
+</span><span id="L-43"><a href="#L-43"><span class="linenos"> 43</span></a>
+</span><span id="L-44"><a href="#L-44"><span class="linenos"> 44</span></a>    <span class="c1"># Get cosine distance to the least similar vector</span>
+</span><span id="L-45"><a href="#L-45"><span class="linenos"> 45</span></a>    <span class="c1"># np.sort orders from least to greatest similarity, so reverse after</span>
+</span><span id="L-46"><a href="#L-46"><span class="linenos"> 46</span></a>    <span class="n">cospsi_max</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">sort</span><span class="p">(</span><span class="n">cospsi</span><span class="p">)[::</span><span class="o">-</span><span class="mi">1</span><span class="p">][</span><span class="n">kernel_size</span> <span class="o">-</span> <span class="mi">1</span><span class="p">]</span>
+</span><span id="L-47"><a href="#L-47"><span class="linenos"> 47</span></a>
+</span><span id="L-48"><a href="#L-48"><span class="linenos"> 48</span></a>    <span class="c1"># Compute arclength to furthest vector</span>
+</span><span id="L-49"><a href="#L-49"><span class="linenos"> 49</span></a>    <span class="k">return</span> <span class="n">np</span><span class="o">.</span><span class="n">arccos</span><span class="p">(</span><span class="n">cospsi_max</span><span class="p">)</span>
+</span><span id="L-50"><a href="#L-50"><span class="linenos"> 50</span></a>
+</span><span id="L-51"><a href="#L-51"><span class="linenos"> 51</span></a>
+</span><span id="L-52"><a href="#L-52"><span class="linenos"> 52</span></a><span class="k">def</span> <span class="nf">density_metric</span><span class="p">(</span>
+</span><span id="L-53"><a href="#L-53"><span class="linenos"> 53</span></a>    <span class="n">idx</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+</span><span id="L-54"><a href="#L-54"><span class="linenos"> 54</span></a>    <span class="n">cospsi_matrix</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span>
+</span><span id="L-55"><a href="#L-55"><span class="linenos"> 55</span></a>    <span class="n">valid_indices</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span>
+</span><span id="L-56"><a href="#L-56"><span class="linenos"> 56</span></a>    <span class="n">kernel_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">16</span><span class="p">,</span>
+</span><span id="L-57"><a href="#L-57"><span class="linenos"> 57</span></a><span class="p">):</span>
+</span><span id="L-58"><a href="#L-58"><span class="linenos"> 58</span></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Estimate the density of a publication by calculating the</span>
+</span><span id="L-59"><a href="#L-59"><span class="linenos"> 59</span></a><span class="sd">    smoothing length that encloses kernel_size other publications.</span>
+</span><span id="L-60"><a href="#L-60"><span class="linenos"> 60</span></a>
+</span><span id="L-61"><a href="#L-61"><span class="linenos"> 61</span></a><span class="sd">    Args:</span>
+</span><span id="L-62"><a href="#L-62"><span class="linenos"> 62</span></a><span class="sd">        idx: the index of the vector to calculate the measurement for.</span>
+</span><span id="L-63"><a href="#L-63"><span class="linenos"> 63</span></a>
+</span><span id="L-64"><a href="#L-64"><span class="linenos"> 64</span></a><span class="sd">        cospsi_matrix: a 2D matrix of pairwise cosine similarity scores for publication embeddings.</span>
+</span><span id="L-65"><a href="#L-65"><span class="linenos"> 65</span></a>
+</span><span id="L-66"><a href="#L-66"><span class="linenos"> 66</span></a><span class="sd">        valid_indices: Indices of the other publication used when calculating the measurements.</span>
+</span><span id="L-67"><a href="#L-67"><span class="linenos"> 67</span></a>
+</span><span id="L-68"><a href="#L-68"><span class="linenos"> 68</span></a><span class="sd">        kernel_size: number of K nearest neighbors to calculate the measurement on.</span>
+</span><span id="L-69"><a href="#L-69"><span class="linenos"> 69</span></a>
+</span><span id="L-70"><a href="#L-70"><span class="linenos"> 70</span></a><span class="sd">    Returns:</span>
+</span><span id="L-71"><a href="#L-71"><span class="linenos"> 71</span></a><span class="sd">        density: a float representing `kernel_size` divided by arc length containing `kernel_size` other publications.</span>
+</span><span id="L-72"><a href="#L-72"><span class="linenos"> 72</span></a><span class="sd">    &quot;&quot;&quot;</span>
+</span><span id="L-73"><a href="#L-73"><span class="linenos"> 73</span></a>
+</span><span id="L-74"><a href="#L-74"><span class="linenos"> 74</span></a>    <span class="n">h</span> <span class="o">=</span> <span class="n">smoothing_length_metric</span><span class="p">(</span><span class="n">idx</span><span class="p">,</span> <span class="n">cospsi_matrix</span><span class="p">,</span> <span class="n">valid_indices</span><span class="p">,</span> <span class="n">kernel_size</span><span class="p">)</span>
+</span><span id="L-75"><a href="#L-75"><span class="linenos"> 75</span></a>    <span class="n">density</span> <span class="o">=</span> <span class="n">kernel_size</span> <span class="o">/</span> <span class="n">h</span>
+</span><span id="L-76"><a href="#L-76"><span class="linenos"> 76</span></a>
+</span><span id="L-77"><a href="#L-77"><span class="linenos"> 77</span></a>    <span class="k">return</span> <span class="n">density</span>
+</span><span id="L-78"><a href="#L-78"><span class="linenos"> 78</span></a>
+</span><span id="L-79"><a href="#L-79"><span class="linenos"> 79</span></a>
+</span><span id="L-80"><a href="#L-80"><span class="linenos"> 80</span></a><span class="c1">########################################################################</span>
+</span><span id="L-81"><a href="#L-81"><span class="linenos"> 81</span></a><span class="c1"># Asymmetry metrics</span>
+</span><span id="L-82"><a href="#L-82"><span class="linenos"> 82</span></a><span class="c1">########################################################################</span>
+</span><span id="L-83"><a href="#L-83"><span class="linenos"> 83</span></a>
+</span><span id="L-84"><a href="#L-84"><span class="linenos"> 84</span></a>
+</span><span id="L-85"><a href="#L-85"><span class="linenos"> 85</span></a><span class="k">def</span> <span class="nf">edginess_metric</span><span class="p">(</span>
+</span><span id="L-86"><a href="#L-86"><span class="linenos"> 86</span></a>    <span class="n">idx</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+</span><span id="L-87"><a href="#L-87"><span class="linenos"> 87</span></a>    <span class="n">cospsi_matrix</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span>
+</span><span id="L-88"><a href="#L-88"><span class="linenos"> 88</span></a>    <span class="n">valid_indices</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span>
+</span><span id="L-89"><a href="#L-89"><span class="linenos"> 89</span></a>    <span class="n">publication_indices</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span>
+</span><span id="L-90"><a href="#L-90"><span class="linenos"> 90</span></a>    <span class="n">embeddings</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span>
+</span><span id="L-91"><a href="#L-91"><span class="linenos"> 91</span></a>    <span class="n">kernel_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">16</span><span class="p">,</span>
+</span><span id="L-92"><a href="#L-92"><span class="linenos"> 92</span></a><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">float</span><span class="p">:</span>
+</span><span id="L-93"><a href="#L-93"><span class="linenos"> 93</span></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Estimate the asymmetry of a publication by calculating the difference between that publication&#39;s projection and the other publications within the kernel. Normalized to between 0 and 1.</span>
+</span><span id="L-94"><a href="#L-94"><span class="linenos"> 94</span></a>
+</span><span id="L-95"><a href="#L-95"><span class="linenos"> 95</span></a><span class="sd">    Args:</span>
+</span><span id="L-96"><a href="#L-96"><span class="linenos"> 96</span></a><span class="sd">        idx: the index of the vector to calculate the measurement for.</span>
+</span><span id="L-97"><a href="#L-97"><span class="linenos"> 97</span></a>
+</span><span id="L-98"><a href="#L-98"><span class="linenos"> 98</span></a><span class="sd">        cospsi_matrix: an np.ndarray of shape `(num_pubs, num_pubs)` representing pairwise cosine similarity scores for publication embeddings.</span>
+</span><span id="L-99"><a href="#L-99"><span class="linenos"> 99</span></a>
+</span><span id="L-100"><a href="#L-100"><span class="linenos">100</span></a><span class="sd">        valid_indices: an np.ndarray of shape `(num_valid_pubs)` representing indices of the other publications used when calculating the measurements, i.e. num_valid_pubs &lt;= num_pubs.</span>
+</span><span id="L-101"><a href="#L-101"><span class="linenos">101</span></a>
+</span><span id="L-102"><a href="#L-102"><span class="linenos">102</span></a><span class="sd">        publication_indices: an np.ndarray of shape `(num_pubs,)` representing indices of all publications in the atlas projection</span>
+</span><span id="L-103"><a href="#L-103"><span class="linenos">103</span></a>
+</span><span id="L-104"><a href="#L-104"><span class="linenos">104</span></a><span class="sd">        embeddings: an np.ndarray of shape `(num_pubs, embedding_dim)` vectors for all publications in the atlas projection</span>
+</span><span id="L-105"><a href="#L-105"><span class="linenos">105</span></a>
+</span><span id="L-106"><a href="#L-106"><span class="linenos">106</span></a><span class="sd">        kernel_size: number of K nearest neighbors to calculate the measurement on.</span>
+</span><span id="L-107"><a href="#L-107"><span class="linenos">107</span></a>
+</span><span id="L-108"><a href="#L-108"><span class="linenos">108</span></a><span class="sd">    Returns:</span>
+</span><span id="L-109"><a href="#L-109"><span class="linenos">109</span></a><span class="sd">        a float representing the normalized magnitude of the asymmetry metric.</span>
+</span><span id="L-110"><a href="#L-110"><span class="linenos">110</span></a>
+</span><span id="L-111"><a href="#L-111"><span class="linenos">111</span></a><span class="sd">    &quot;&quot;&quot;</span>
+</span><span id="L-112"><a href="#L-112"><span class="linenos">112</span></a>    <span class="k">return</span> <span class="p">(</span>
+</span><span id="L-113"><a href="#L-113"><span class="linenos">113</span></a>        <span class="n">kernel_constant_asymmetry_metric</span><span class="p">(</span>
+</span><span id="L-114"><a href="#L-114"><span class="linenos">114</span></a>            <span class="n">idx</span><span class="p">,</span>
+</span><span id="L-115"><a href="#L-115"><span class="linenos">115</span></a>            <span class="n">cospsi_matrix</span><span class="p">,</span>
+</span><span id="L-116"><a href="#L-116"><span class="linenos">116</span></a>            <span class="n">valid_indices</span><span class="p">,</span>
+</span><span id="L-117"><a href="#L-117"><span class="linenos">117</span></a>            <span class="n">publication_indices</span><span class="p">,</span>
+</span><span id="L-118"><a href="#L-118"><span class="linenos">118</span></a>            <span class="n">embeddings</span><span class="p">,</span>
+</span><span id="L-119"><a href="#L-119"><span class="linenos">119</span></a>            <span class="n">kernel_size</span><span class="o">=</span><span class="n">kernel_size</span><span class="p">,</span>
+</span><span id="L-120"><a href="#L-120"><span class="linenos">120</span></a>        <span class="p">)</span>
+</span><span id="L-121"><a href="#L-121"><span class="linenos">121</span></a>        <span class="o">/</span> <span class="n">kernel_size</span>
+</span><span id="L-122"><a href="#L-122"><span class="linenos">122</span></a>    <span class="p">)</span>
+</span><span id="L-123"><a href="#L-123"><span class="linenos">123</span></a>
+</span><span id="L-124"><a href="#L-124"><span class="linenos">124</span></a>
+</span><span id="L-125"><a href="#L-125"><span class="linenos">125</span></a><span class="k">def</span> <span class="nf">kernel_constant_asymmetry_metric</span><span class="p">(</span>
+</span><span id="L-126"><a href="#L-126"><span class="linenos">126</span></a>    <span class="n">idx</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+</span><span id="L-127"><a href="#L-127"><span class="linenos">127</span></a>    <span class="n">cospsi_matrix</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span>
+</span><span id="L-128"><a href="#L-128"><span class="linenos">128</span></a>    <span class="n">valid_indices</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span>
+</span><span id="L-129"><a href="#L-129"><span class="linenos">129</span></a>    <span class="n">publication_indices</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span>
+</span><span id="L-130"><a href="#L-130"><span class="linenos">130</span></a>    <span class="n">embeddings</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span>
+</span><span id="L-131"><a href="#L-131"><span class="linenos">131</span></a>    <span class="n">kernel_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">16</span><span class="p">,</span>
+</span><span id="L-132"><a href="#L-132"><span class="linenos">132</span></a><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">float</span><span class="p">:</span>
+</span><span id="L-133"><a href="#L-133"><span class="linenos">133</span></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Estimate the asymmetry of a publication by calculating the difference</span>
+</span><span id="L-134"><a href="#L-134"><span class="linenos">134</span></a><span class="sd">    between that publication&#39;s projection and the other publications within</span>
+</span><span id="L-135"><a href="#L-135"><span class="linenos">135</span></a><span class="sd">    the kernel.</span>
+</span><span id="L-136"><a href="#L-136"><span class="linenos">136</span></a>
+</span><span id="L-137"><a href="#L-137"><span class="linenos">137</span></a><span class="sd">    Args:</span>
+</span><span id="L-138"><a href="#L-138"><span class="linenos">138</span></a><span class="sd">        idx: an int representing the index of the vector to calculate the measurement for.</span>
+</span><span id="L-139"><a href="#L-139"><span class="linenos">139</span></a>
+</span><span id="L-140"><a href="#L-140"><span class="linenos">140</span></a><span class="sd">        cospsi_matrix: an np.ndarray of shape `(num_pubs, num_pubs)` representing pairwise cosine similarity scores for publication embeddings.</span>
+</span><span id="L-141"><a href="#L-141"><span class="linenos">141</span></a>
+</span><span id="L-142"><a href="#L-142"><span class="linenos">142</span></a><span class="sd">        valid_indices: an np.ndarray of shape `(num_valid_pubs)` representing indices of the other publications used when calculating the measurements, i.e. num_valid_pubs &lt;= num_pubs.</span>
+</span><span id="L-143"><a href="#L-143"><span class="linenos">143</span></a>
+</span><span id="L-144"><a href="#L-144"><span class="linenos">144</span></a><span class="sd">        publication_indices: an np.ndarray of shape `(num_pubs,)` representing indices of all publications in the atlas projection</span>
+</span><span id="L-145"><a href="#L-145"><span class="linenos">145</span></a>
+</span><span id="L-146"><a href="#L-146"><span class="linenos">146</span></a><span class="sd">        embeddings: an np.ndarray of shape `(num_pubs, embedding_dim)` vectors for all publications in the atlas projection</span>
+</span><span id="L-147"><a href="#L-147"><span class="linenos">147</span></a>
+</span><span id="L-148"><a href="#L-148"><span class="linenos">148</span></a><span class="sd">        kernel_size: an int representing the number of K nearest neighbors to calculate the measurement on.</span>
+</span><span id="L-149"><a href="#L-149"><span class="linenos">149</span></a>
+</span><span id="L-150"><a href="#L-150"><span class="linenos">150</span></a><span class="sd">    Returns:</span>
+</span><span id="L-151"><a href="#L-151"><span class="linenos">151</span></a><span class="sd">        mag: a float representing the magnitude of the asymmetry metric.</span>
+</span><span id="L-152"><a href="#L-152"><span class="linenos">152</span></a><span class="sd">    &quot;&quot;&quot;</span>
+</span><span id="L-153"><a href="#L-153"><span class="linenos">153</span></a>
+</span><span id="L-154"><a href="#L-154"><span class="linenos">154</span></a>    <span class="c1"># We can&#39;t have the kernel larger than the number of valid publications</span>
+</span><span id="L-155"><a href="#L-155"><span class="linenos">155</span></a>    <span class="k">if</span> <span class="n">kernel_size</span> <span class="o">&gt;</span> <span class="nb">len</span><span class="p">(</span><span class="n">valid_indices</span><span class="p">):</span>
+</span><span id="L-156"><a href="#L-156"><span class="linenos">156</span></a>        <span class="k">return</span> <span class="n">np</span><span class="o">.</span><span class="n">nan</span>
+</span><span id="L-157"><a href="#L-157"><span class="linenos">157</span></a>
+</span><span id="L-158"><a href="#L-158"><span class="linenos">158</span></a>    <span class="c1"># Input</span>
+</span><span id="L-159"><a href="#L-159"><span class="linenos">159</span></a>    <span class="n">cospsi</span> <span class="o">=</span> <span class="n">cospsi_matrix</span><span class="p">[</span><span class="n">idx</span><span class="p">][</span><span class="n">valid_indices</span><span class="p">]</span>
+</span><span id="L-160"><a href="#L-160"><span class="linenos">160</span></a>    <span class="n">sorted_inds</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">argsort</span><span class="p">(</span><span class="n">cospsi</span><span class="p">)[::</span><span class="o">-</span><span class="mi">1</span><span class="p">][:</span><span class="n">kernel_size</span><span class="p">]</span>
+</span><span id="L-161"><a href="#L-161"><span class="linenos">161</span></a>    <span class="n">other_inds</span> <span class="o">=</span> <span class="n">publication_indices</span><span class="p">[</span><span class="n">valid_indices</span><span class="p">][</span><span class="n">sorted_inds</span><span class="p">]</span>
+</span><span id="L-162"><a href="#L-162"><span class="linenos">162</span></a>    <span class="n">embedding</span> <span class="o">=</span> <span class="n">embeddings</span><span class="p">[</span><span class="n">idx</span><span class="p">]</span>
+</span><span id="L-163"><a href="#L-163"><span class="linenos">163</span></a>    <span class="n">other_embeddings</span> <span class="o">=</span> <span class="n">embeddings</span><span class="p">[</span><span class="n">other_inds</span><span class="p">]</span>
+</span><span id="L-164"><a href="#L-164"><span class="linenos">164</span></a>
+</span><span id="L-165"><a href="#L-165"><span class="linenos">165</span></a>    <span class="c1"># Differences</span>
+</span><span id="L-166"><a href="#L-166"><span class="linenos">166</span></a>    <span class="n">diff</span> <span class="o">=</span> <span class="n">embedding</span> <span class="o">-</span> <span class="n">other_embeddings</span>
+</span><span id="L-167"><a href="#L-167"><span class="linenos">167</span></a>    <span class="n">diff_mag</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">linalg</span><span class="o">.</span><span class="n">norm</span><span class="p">(</span><span class="n">diff</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
+</span><span id="L-168"><a href="#L-168"><span class="linenos">168</span></a>    <span class="n">result</span> <span class="o">=</span> <span class="p">(</span><span class="n">diff</span> <span class="o">/</span> <span class="n">diff_mag</span><span class="p">[:,</span> <span class="n">np</span><span class="o">.</span><span class="n">newaxis</span><span class="p">])</span><span class="o">.</span><span class="n">sum</span><span class="p">(</span><span class="n">axis</span><span class="o">=</span><span class="mi">0</span><span class="p">)</span>
+</span><span id="L-169"><a href="#L-169"><span class="linenos">169</span></a>    <span class="n">mag</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">linalg</span><span class="o">.</span><span class="n">norm</span><span class="p">(</span><span class="n">result</span><span class="p">)</span>
+</span><span id="L-170"><a href="#L-170"><span class="linenos">170</span></a>
+</span><span id="L-171"><a href="#L-171"><span class="linenos">171</span></a>    <span class="k">return</span> <span class="n">mag</span>
+</span></pre></div>
+
+
+            </section>
+                <section id="smoothing_length_metric">
+                            <input id="smoothing_length_metric-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
+<div class="attr function">
+            
+        <span class="def">def</span>
+        <span class="name">smoothing_length_metric</span><span class="signature pdoc-code multiline">(<span class="param">	<span class="n">idx</span><span class="p">:</span> <span class="nb">int</span>,</span><span class="param">	<span class="n">cospsi_matrix</span><span class="p">:</span> <span class="n">numpy</span><span class="o">.</span><span class="n">ndarray</span>,</span><span class="param">	<span class="n">valid_indices</span><span class="p">:</span> <span class="n">numpy</span><span class="o">.</span><span class="n">ndarray</span>,</span><span class="param">	<span class="n">kernel_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">16</span></span><span class="return-annotation">):</span></span>
+
+                <label class="view-source-button" for="smoothing_length_metric-view-source"><span>View Source</span></label>
+
+    </div>
+    <a class="headerlink" href="#smoothing_length_metric"></a>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="smoothing_length_metric-13"><a href="#smoothing_length_metric-13"><span class="linenos">13</span></a><span class="k">def</span> <span class="nf">smoothing_length_metric</span><span class="p">(</span>
+</span><span id="smoothing_length_metric-14"><a href="#smoothing_length_metric-14"><span class="linenos">14</span></a>    <span class="n">idx</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+</span><span id="smoothing_length_metric-15"><a href="#smoothing_length_metric-15"><span class="linenos">15</span></a>    <span class="n">cospsi_matrix</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span>
+</span><span id="smoothing_length_metric-16"><a href="#smoothing_length_metric-16"><span class="linenos">16</span></a>    <span class="n">valid_indices</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span>
+</span><span id="smoothing_length_metric-17"><a href="#smoothing_length_metric-17"><span class="linenos">17</span></a>    <span class="n">kernel_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">16</span><span class="p">,</span>
+</span><span id="smoothing_length_metric-18"><a href="#smoothing_length_metric-18"><span class="linenos">18</span></a><span class="p">):</span>
+</span><span id="smoothing_length_metric-19"><a href="#smoothing_length_metric-19"><span class="linenos">19</span></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Proxy for the density of a publication defined as the minimum</span>
+</span><span id="smoothing_length_metric-20"><a href="#smoothing_length_metric-20"><span class="linenos">20</span></a><span class="sd">    arc length that encloses kernel_size other publications.</span>
+</span><span id="smoothing_length_metric-21"><a href="#smoothing_length_metric-21"><span class="linenos">21</span></a>
+</span><span id="smoothing_length_metric-22"><a href="#smoothing_length_metric-22"><span class="linenos">22</span></a><span class="sd">    Args:</span>
+</span><span id="smoothing_length_metric-23"><a href="#smoothing_length_metric-23"><span class="linenos">23</span></a><span class="sd">        idx: the index of the vector to calculate the measurement for.</span>
+</span><span id="smoothing_length_metric-24"><a href="#smoothing_length_metric-24"><span class="linenos">24</span></a>
+</span><span id="smoothing_length_metric-25"><a href="#smoothing_length_metric-25"><span class="linenos">25</span></a><span class="sd">        cospsi_matrix: a 2D matrix of pairwise cosine similarity scores for publication embeddings.</span>
+</span><span id="smoothing_length_metric-26"><a href="#smoothing_length_metric-26"><span class="linenos">26</span></a>
+</span><span id="smoothing_length_metric-27"><a href="#smoothing_length_metric-27"><span class="linenos">27</span></a><span class="sd">        valid_indices: Indices of the other publication used when calculating the measurements.</span>
+</span><span id="smoothing_length_metric-28"><a href="#smoothing_length_metric-28"><span class="linenos">28</span></a>
+</span><span id="smoothing_length_metric-29"><a href="#smoothing_length_metric-29"><span class="linenos">29</span></a><span class="sd">        kernel_size: number of K nearest neighbors to calculate the measurement on.</span>
+</span><span id="smoothing_length_metric-30"><a href="#smoothing_length_metric-30"><span class="linenos">30</span></a>
+</span><span id="smoothing_length_metric-31"><a href="#smoothing_length_metric-31"><span class="linenos">31</span></a><span class="sd">    Returns:</span>
+</span><span id="smoothing_length_metric-32"><a href="#smoothing_length_metric-32"><span class="linenos">32</span></a><span class="sd">        h: float representing arc length containing `kernel_size` other publications. (Assumes normalized to a radius of 1.)</span>
+</span><span id="smoothing_length_metric-33"><a href="#smoothing_length_metric-33"><span class="linenos">33</span></a><span class="sd">    &quot;&quot;&quot;</span>
+</span><span id="smoothing_length_metric-34"><a href="#smoothing_length_metric-34"><span class="linenos">34</span></a>
+</span><span id="smoothing_length_metric-35"><a href="#smoothing_length_metric-35"><span class="linenos">35</span></a>    <span class="c1"># We can&#39;t have the kernel larger than the number of valid publications</span>
+</span><span id="smoothing_length_metric-36"><a href="#smoothing_length_metric-36"><span class="linenos">36</span></a>    <span class="k">if</span> <span class="n">kernel_size</span> <span class="o">&gt;</span> <span class="nb">len</span><span class="p">(</span><span class="n">valid_indices</span><span class="p">):</span>
+</span><span id="smoothing_length_metric-37"><a href="#smoothing_length_metric-37"><span class="linenos">37</span></a>        <span class="k">return</span> <span class="n">np</span><span class="o">.</span><span class="n">nan</span>
+</span><span id="smoothing_length_metric-38"><a href="#smoothing_length_metric-38"><span class="linenos">38</span></a>
+</span><span id="smoothing_length_metric-39"><a href="#smoothing_length_metric-39"><span class="linenos">39</span></a>    <span class="c1"># Get 1D array of similarity scores to idx vector</span>
+</span><span id="smoothing_length_metric-40"><a href="#smoothing_length_metric-40"><span class="linenos">40</span></a>    <span class="k">try</span><span class="p">:</span>
+</span><span id="smoothing_length_metric-41"><a href="#smoothing_length_metric-41"><span class="linenos">41</span></a>        <span class="n">cospsi</span> <span class="o">=</span> <span class="n">cospsi_matrix</span><span class="p">[</span><span class="n">idx</span><span class="p">][</span><span class="n">valid_indices</span><span class="p">]</span>
+</span><span id="smoothing_length_metric-42"><a href="#smoothing_length_metric-42"><span class="linenos">42</span></a>    <span class="k">except</span> <span class="ne">IndexError</span><span class="p">:</span>
+</span><span id="smoothing_length_metric-43"><a href="#smoothing_length_metric-43"><span class="linenos">43</span></a>        <span class="nb">breakpoint</span><span class="p">()</span>
+</span><span id="smoothing_length_metric-44"><a href="#smoothing_length_metric-44"><span class="linenos">44</span></a>
+</span><span id="smoothing_length_metric-45"><a href="#smoothing_length_metric-45"><span class="linenos">45</span></a>    <span class="c1"># Get cosine distance to the least similar vector</span>
+</span><span id="smoothing_length_metric-46"><a href="#smoothing_length_metric-46"><span class="linenos">46</span></a>    <span class="c1"># np.sort orders from least to greatest similarity, so reverse after</span>
+</span><span id="smoothing_length_metric-47"><a href="#smoothing_length_metric-47"><span class="linenos">47</span></a>    <span class="n">cospsi_max</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">sort</span><span class="p">(</span><span class="n">cospsi</span><span class="p">)[::</span><span class="o">-</span><span class="mi">1</span><span class="p">][</span><span class="n">kernel_size</span> <span class="o">-</span> <span class="mi">1</span><span class="p">]</span>
+</span><span id="smoothing_length_metric-48"><a href="#smoothing_length_metric-48"><span class="linenos">48</span></a>
+</span><span id="smoothing_length_metric-49"><a href="#smoothing_length_metric-49"><span class="linenos">49</span></a>    <span class="c1"># Compute arclength to furthest vector</span>
+</span><span id="smoothing_length_metric-50"><a href="#smoothing_length_metric-50"><span class="linenos">50</span></a>    <span class="k">return</span> <span class="n">np</span><span class="o">.</span><span class="n">arccos</span><span class="p">(</span><span class="n">cospsi_max</span><span class="p">)</span>
+</span></pre></div>
+
+
+            <div class="docstring"><p>Proxy for the density of a publication defined as the minimum
+arc length that encloses kernel_size other publications.</p>
+
+<h6 id="arguments">Arguments:</h6>
+
+<ul>
+<li><strong>idx:</strong>  the index of the vector to calculate the measurement for.</li>
+<li><strong>cospsi_matrix:</strong>  a 2D matrix of pairwise cosine similarity scores for publication embeddings.</li>
+<li><strong>valid_indices:</strong>  Indices of the other publication used when calculating the measurements.</li>
+<li><strong>kernel_size:</strong>  number of K nearest neighbors to calculate the measurement on.</li>
+</ul>
+
+<h6 id="returns">Returns:</h6>
+
+<blockquote>
+  <p>h: float representing arc length containing <code>kernel_size</code> other publications. (Assumes normalized to a radius of 1.)</p>
+</blockquote>
+</div>
+
+
+                </section>
+                <section id="density_metric">
+                            <input id="density_metric-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
+<div class="attr function">
+            
+        <span class="def">def</span>
+        <span class="name">density_metric</span><span class="signature pdoc-code multiline">(<span class="param">	<span class="n">idx</span><span class="p">:</span> <span class="nb">int</span>,</span><span class="param">	<span class="n">cospsi_matrix</span><span class="p">:</span> <span class="n">numpy</span><span class="o">.</span><span class="n">ndarray</span>,</span><span class="param">	<span class="n">valid_indices</span><span class="p">:</span> <span class="n">numpy</span><span class="o">.</span><span class="n">ndarray</span>,</span><span class="param">	<span class="n">kernel_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">16</span></span><span class="return-annotation">):</span></span>
+
+                <label class="view-source-button" for="density_metric-view-source"><span>View Source</span></label>
+
+    </div>
+    <a class="headerlink" href="#density_metric"></a>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="density_metric-53"><a href="#density_metric-53"><span class="linenos">53</span></a><span class="k">def</span> <span class="nf">density_metric</span><span class="p">(</span>
+</span><span id="density_metric-54"><a href="#density_metric-54"><span class="linenos">54</span></a>    <span class="n">idx</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+</span><span id="density_metric-55"><a href="#density_metric-55"><span class="linenos">55</span></a>    <span class="n">cospsi_matrix</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span>
+</span><span id="density_metric-56"><a href="#density_metric-56"><span class="linenos">56</span></a>    <span class="n">valid_indices</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span>
+</span><span id="density_metric-57"><a href="#density_metric-57"><span class="linenos">57</span></a>    <span class="n">kernel_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">16</span><span class="p">,</span>
+</span><span id="density_metric-58"><a href="#density_metric-58"><span class="linenos">58</span></a><span class="p">):</span>
+</span><span id="density_metric-59"><a href="#density_metric-59"><span class="linenos">59</span></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Estimate the density of a publication by calculating the</span>
+</span><span id="density_metric-60"><a href="#density_metric-60"><span class="linenos">60</span></a><span class="sd">    smoothing length that encloses kernel_size other publications.</span>
+</span><span id="density_metric-61"><a href="#density_metric-61"><span class="linenos">61</span></a>
+</span><span id="density_metric-62"><a href="#density_metric-62"><span class="linenos">62</span></a><span class="sd">    Args:</span>
+</span><span id="density_metric-63"><a href="#density_metric-63"><span class="linenos">63</span></a><span class="sd">        idx: the index of the vector to calculate the measurement for.</span>
+</span><span id="density_metric-64"><a href="#density_metric-64"><span class="linenos">64</span></a>
+</span><span id="density_metric-65"><a href="#density_metric-65"><span class="linenos">65</span></a><span class="sd">        cospsi_matrix: a 2D matrix of pairwise cosine similarity scores for publication embeddings.</span>
+</span><span id="density_metric-66"><a href="#density_metric-66"><span class="linenos">66</span></a>
+</span><span id="density_metric-67"><a href="#density_metric-67"><span class="linenos">67</span></a><span class="sd">        valid_indices: Indices of the other publication used when calculating the measurements.</span>
+</span><span id="density_metric-68"><a href="#density_metric-68"><span class="linenos">68</span></a>
+</span><span id="density_metric-69"><a href="#density_metric-69"><span class="linenos">69</span></a><span class="sd">        kernel_size: number of K nearest neighbors to calculate the measurement on.</span>
+</span><span id="density_metric-70"><a href="#density_metric-70"><span class="linenos">70</span></a>
+</span><span id="density_metric-71"><a href="#density_metric-71"><span class="linenos">71</span></a><span class="sd">    Returns:</span>
+</span><span id="density_metric-72"><a href="#density_metric-72"><span class="linenos">72</span></a><span class="sd">        density: a float representing `kernel_size` divided by arc length containing `kernel_size` other publications.</span>
+</span><span id="density_metric-73"><a href="#density_metric-73"><span class="linenos">73</span></a><span class="sd">    &quot;&quot;&quot;</span>
+</span><span id="density_metric-74"><a href="#density_metric-74"><span class="linenos">74</span></a>
+</span><span id="density_metric-75"><a href="#density_metric-75"><span class="linenos">75</span></a>    <span class="n">h</span> <span class="o">=</span> <span class="n">smoothing_length_metric</span><span class="p">(</span><span class="n">idx</span><span class="p">,</span> <span class="n">cospsi_matrix</span><span class="p">,</span> <span class="n">valid_indices</span><span class="p">,</span> <span class="n">kernel_size</span><span class="p">)</span>
+</span><span id="density_metric-76"><a href="#density_metric-76"><span class="linenos">76</span></a>    <span class="n">density</span> <span class="o">=</span> <span class="n">kernel_size</span> <span class="o">/</span> <span class="n">h</span>
+</span><span id="density_metric-77"><a href="#density_metric-77"><span class="linenos">77</span></a>
+</span><span id="density_metric-78"><a href="#density_metric-78"><span class="linenos">78</span></a>    <span class="k">return</span> <span class="n">density</span>
+</span></pre></div>
+
+
+            <div class="docstring"><p>Estimate the density of a publication by calculating the
+smoothing length that encloses kernel_size other publications.</p>
+
+<h6 id="arguments">Arguments:</h6>
+
+<ul>
+<li><strong>idx:</strong>  the index of the vector to calculate the measurement for.</li>
+<li><strong>cospsi_matrix:</strong>  a 2D matrix of pairwise cosine similarity scores for publication embeddings.</li>
+<li><strong>valid_indices:</strong>  Indices of the other publication used when calculating the measurements.</li>
+<li><strong>kernel_size:</strong>  number of K nearest neighbors to calculate the measurement on.</li>
+</ul>
+
+<h6 id="returns">Returns:</h6>
+
+<blockquote>
+  <p>density: a float representing <code>kernel_size</code> divided by arc length containing <code>kernel_size</code> other publications.</p>
+</blockquote>
+</div>
+
+
+                </section>
+                <section id="edginess_metric">
+                            <input id="edginess_metric-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
+<div class="attr function">
+            
+        <span class="def">def</span>
+        <span class="name">edginess_metric</span><span class="signature pdoc-code multiline">(<span class="param">	<span class="n">idx</span><span class="p">:</span> <span class="nb">int</span>,</span><span class="param">	<span class="n">cospsi_matrix</span><span class="p">:</span> <span class="n">numpy</span><span class="o">.</span><span class="n">ndarray</span>,</span><span class="param">	<span class="n">valid_indices</span><span class="p">:</span> <span class="n">numpy</span><span class="o">.</span><span class="n">ndarray</span>,</span><span class="param">	<span class="n">publication_indices</span><span class="p">:</span> <span class="n">numpy</span><span class="o">.</span><span class="n">ndarray</span>,</span><span class="param">	<span class="n">embeddings</span><span class="p">:</span> <span class="n">numpy</span><span class="o">.</span><span class="n">ndarray</span>,</span><span class="param">	<span class="n">kernel_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">16</span></span><span class="return-annotation">) -> <span class="nb">float</span>:</span></span>
+
+                <label class="view-source-button" for="edginess_metric-view-source"><span>View Source</span></label>
+
+    </div>
+    <a class="headerlink" href="#edginess_metric"></a>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="edginess_metric-86"><a href="#edginess_metric-86"><span class="linenos"> 86</span></a><span class="k">def</span> <span class="nf">edginess_metric</span><span class="p">(</span>
+</span><span id="edginess_metric-87"><a href="#edginess_metric-87"><span class="linenos"> 87</span></a>    <span class="n">idx</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+</span><span id="edginess_metric-88"><a href="#edginess_metric-88"><span class="linenos"> 88</span></a>    <span class="n">cospsi_matrix</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span>
+</span><span id="edginess_metric-89"><a href="#edginess_metric-89"><span class="linenos"> 89</span></a>    <span class="n">valid_indices</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span>
+</span><span id="edginess_metric-90"><a href="#edginess_metric-90"><span class="linenos"> 90</span></a>    <span class="n">publication_indices</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span>
+</span><span id="edginess_metric-91"><a href="#edginess_metric-91"><span class="linenos"> 91</span></a>    <span class="n">embeddings</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span>
+</span><span id="edginess_metric-92"><a href="#edginess_metric-92"><span class="linenos"> 92</span></a>    <span class="n">kernel_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">16</span><span class="p">,</span>
+</span><span id="edginess_metric-93"><a href="#edginess_metric-93"><span class="linenos"> 93</span></a><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">float</span><span class="p">:</span>
+</span><span id="edginess_metric-94"><a href="#edginess_metric-94"><span class="linenos"> 94</span></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Estimate the asymmetry of a publication by calculating the difference between that publication&#39;s projection and the other publications within the kernel. Normalized to between 0 and 1.</span>
+</span><span id="edginess_metric-95"><a href="#edginess_metric-95"><span class="linenos"> 95</span></a>
+</span><span id="edginess_metric-96"><a href="#edginess_metric-96"><span class="linenos"> 96</span></a><span class="sd">    Args:</span>
+</span><span id="edginess_metric-97"><a href="#edginess_metric-97"><span class="linenos"> 97</span></a><span class="sd">        idx: the index of the vector to calculate the measurement for.</span>
+</span><span id="edginess_metric-98"><a href="#edginess_metric-98"><span class="linenos"> 98</span></a>
+</span><span id="edginess_metric-99"><a href="#edginess_metric-99"><span class="linenos"> 99</span></a><span class="sd">        cospsi_matrix: an np.ndarray of shape `(num_pubs, num_pubs)` representing pairwise cosine similarity scores for publication embeddings.</span>
+</span><span id="edginess_metric-100"><a href="#edginess_metric-100"><span class="linenos">100</span></a>
+</span><span id="edginess_metric-101"><a href="#edginess_metric-101"><span class="linenos">101</span></a><span class="sd">        valid_indices: an np.ndarray of shape `(num_valid_pubs)` representing indices of the other publications used when calculating the measurements, i.e. num_valid_pubs &lt;= num_pubs.</span>
+</span><span id="edginess_metric-102"><a href="#edginess_metric-102"><span class="linenos">102</span></a>
+</span><span id="edginess_metric-103"><a href="#edginess_metric-103"><span class="linenos">103</span></a><span class="sd">        publication_indices: an np.ndarray of shape `(num_pubs,)` representing indices of all publications in the atlas projection</span>
+</span><span id="edginess_metric-104"><a href="#edginess_metric-104"><span class="linenos">104</span></a>
+</span><span id="edginess_metric-105"><a href="#edginess_metric-105"><span class="linenos">105</span></a><span class="sd">        embeddings: an np.ndarray of shape `(num_pubs, embedding_dim)` vectors for all publications in the atlas projection</span>
+</span><span id="edginess_metric-106"><a href="#edginess_metric-106"><span class="linenos">106</span></a>
+</span><span id="edginess_metric-107"><a href="#edginess_metric-107"><span class="linenos">107</span></a><span class="sd">        kernel_size: number of K nearest neighbors to calculate the measurement on.</span>
+</span><span id="edginess_metric-108"><a href="#edginess_metric-108"><span class="linenos">108</span></a>
+</span><span id="edginess_metric-109"><a href="#edginess_metric-109"><span class="linenos">109</span></a><span class="sd">    Returns:</span>
+</span><span id="edginess_metric-110"><a href="#edginess_metric-110"><span class="linenos">110</span></a><span class="sd">        a float representing the normalized magnitude of the asymmetry metric.</span>
+</span><span id="edginess_metric-111"><a href="#edginess_metric-111"><span class="linenos">111</span></a>
+</span><span id="edginess_metric-112"><a href="#edginess_metric-112"><span class="linenos">112</span></a><span class="sd">    &quot;&quot;&quot;</span>
+</span><span id="edginess_metric-113"><a href="#edginess_metric-113"><span class="linenos">113</span></a>    <span class="k">return</span> <span class="p">(</span>
+</span><span id="edginess_metric-114"><a href="#edginess_metric-114"><span class="linenos">114</span></a>        <span class="n">kernel_constant_asymmetry_metric</span><span class="p">(</span>
+</span><span id="edginess_metric-115"><a href="#edginess_metric-115"><span class="linenos">115</span></a>            <span class="n">idx</span><span class="p">,</span>
+</span><span id="edginess_metric-116"><a href="#edginess_metric-116"><span class="linenos">116</span></a>            <span class="n">cospsi_matrix</span><span class="p">,</span>
+</span><span id="edginess_metric-117"><a href="#edginess_metric-117"><span class="linenos">117</span></a>            <span class="n">valid_indices</span><span class="p">,</span>
+</span><span id="edginess_metric-118"><a href="#edginess_metric-118"><span class="linenos">118</span></a>            <span class="n">publication_indices</span><span class="p">,</span>
+</span><span id="edginess_metric-119"><a href="#edginess_metric-119"><span class="linenos">119</span></a>            <span class="n">embeddings</span><span class="p">,</span>
+</span><span id="edginess_metric-120"><a href="#edginess_metric-120"><span class="linenos">120</span></a>            <span class="n">kernel_size</span><span class="o">=</span><span class="n">kernel_size</span><span class="p">,</span>
+</span><span id="edginess_metric-121"><a href="#edginess_metric-121"><span class="linenos">121</span></a>        <span class="p">)</span>
+</span><span id="edginess_metric-122"><a href="#edginess_metric-122"><span class="linenos">122</span></a>        <span class="o">/</span> <span class="n">kernel_size</span>
+</span><span id="edginess_metric-123"><a href="#edginess_metric-123"><span class="linenos">123</span></a>    <span class="p">)</span>
+</span></pre></div>
+
+
+            <div class="docstring"><p>Estimate the asymmetry of a publication by calculating the difference between that publication's projection and the other publications within the kernel. Normalized to between 0 and 1.</p>
+
+<h6 id="arguments">Arguments:</h6>
+
+<ul>
+<li><strong>idx:</strong>  the index of the vector to calculate the measurement for.</li>
+<li><strong>cospsi_matrix:</strong>  an np.ndarray of shape <code>(num_pubs, num_pubs)</code> representing pairwise cosine similarity scores for publication embeddings.</li>
+<li><strong>valid_indices:</strong>  an np.ndarray of shape <code>(num_valid_pubs)</code> representing indices of the other publications used when calculating the measurements, i.e. num_valid_pubs &lt;= num_pubs.</li>
+<li><strong>publication_indices:</strong>  an np.ndarray of shape <code>(num_pubs,)</code> representing indices of all publications in the atlas projection</li>
+<li><strong>embeddings:</strong>  an np.ndarray of shape <code>(num_pubs, embedding_dim)</code> vectors for all publications in the atlas projection</li>
+<li><strong>kernel_size:</strong>  number of K nearest neighbors to calculate the measurement on.</li>
+</ul>
+
+<h6 id="returns">Returns:</h6>
+
+<blockquote>
+  <p>a float representing the normalized magnitude of the asymmetry metric.</p>
+</blockquote>
+</div>
+
+
+                </section>
+                <section id="kernel_constant_asymmetry_metric">
+                            <input id="kernel_constant_asymmetry_metric-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
+<div class="attr function">
+            
+        <span class="def">def</span>
+        <span class="name">kernel_constant_asymmetry_metric</span><span class="signature pdoc-code multiline">(<span class="param">	<span class="n">idx</span><span class="p">:</span> <span class="nb">int</span>,</span><span class="param">	<span class="n">cospsi_matrix</span><span class="p">:</span> <span class="n">numpy</span><span class="o">.</span><span class="n">ndarray</span>,</span><span class="param">	<span class="n">valid_indices</span><span class="p">:</span> <span class="n">numpy</span><span class="o">.</span><span class="n">ndarray</span>,</span><span class="param">	<span class="n">publication_indices</span><span class="p">:</span> <span class="n">numpy</span><span class="o">.</span><span class="n">ndarray</span>,</span><span class="param">	<span class="n">embeddings</span><span class="p">:</span> <span class="n">numpy</span><span class="o">.</span><span class="n">ndarray</span>,</span><span class="param">	<span class="n">kernel_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">16</span></span><span class="return-annotation">) -> <span class="nb">float</span>:</span></span>
+
+                <label class="view-source-button" for="kernel_constant_asymmetry_metric-view-source"><span>View Source</span></label>
+
+    </div>
+    <a class="headerlink" href="#kernel_constant_asymmetry_metric"></a>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="kernel_constant_asymmetry_metric-126"><a href="#kernel_constant_asymmetry_metric-126"><span class="linenos">126</span></a><span class="k">def</span> <span class="nf">kernel_constant_asymmetry_metric</span><span class="p">(</span>
+</span><span id="kernel_constant_asymmetry_metric-127"><a href="#kernel_constant_asymmetry_metric-127"><span class="linenos">127</span></a>    <span class="n">idx</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+</span><span id="kernel_constant_asymmetry_metric-128"><a href="#kernel_constant_asymmetry_metric-128"><span class="linenos">128</span></a>    <span class="n">cospsi_matrix</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span>
+</span><span id="kernel_constant_asymmetry_metric-129"><a href="#kernel_constant_asymmetry_metric-129"><span class="linenos">129</span></a>    <span class="n">valid_indices</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span>
+</span><span id="kernel_constant_asymmetry_metric-130"><a href="#kernel_constant_asymmetry_metric-130"><span class="linenos">130</span></a>    <span class="n">publication_indices</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span>
+</span><span id="kernel_constant_asymmetry_metric-131"><a href="#kernel_constant_asymmetry_metric-131"><span class="linenos">131</span></a>    <span class="n">embeddings</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span>
+</span><span id="kernel_constant_asymmetry_metric-132"><a href="#kernel_constant_asymmetry_metric-132"><span class="linenos">132</span></a>    <span class="n">kernel_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">16</span><span class="p">,</span>
+</span><span id="kernel_constant_asymmetry_metric-133"><a href="#kernel_constant_asymmetry_metric-133"><span class="linenos">133</span></a><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">float</span><span class="p">:</span>
+</span><span id="kernel_constant_asymmetry_metric-134"><a href="#kernel_constant_asymmetry_metric-134"><span class="linenos">134</span></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Estimate the asymmetry of a publication by calculating the difference</span>
+</span><span id="kernel_constant_asymmetry_metric-135"><a href="#kernel_constant_asymmetry_metric-135"><span class="linenos">135</span></a><span class="sd">    between that publication&#39;s projection and the other publications within</span>
+</span><span id="kernel_constant_asymmetry_metric-136"><a href="#kernel_constant_asymmetry_metric-136"><span class="linenos">136</span></a><span class="sd">    the kernel.</span>
+</span><span id="kernel_constant_asymmetry_metric-137"><a href="#kernel_constant_asymmetry_metric-137"><span class="linenos">137</span></a>
+</span><span id="kernel_constant_asymmetry_metric-138"><a href="#kernel_constant_asymmetry_metric-138"><span class="linenos">138</span></a><span class="sd">    Args:</span>
+</span><span id="kernel_constant_asymmetry_metric-139"><a href="#kernel_constant_asymmetry_metric-139"><span class="linenos">139</span></a><span class="sd">        idx: an int representing the index of the vector to calculate the measurement for.</span>
+</span><span id="kernel_constant_asymmetry_metric-140"><a href="#kernel_constant_asymmetry_metric-140"><span class="linenos">140</span></a>
+</span><span id="kernel_constant_asymmetry_metric-141"><a href="#kernel_constant_asymmetry_metric-141"><span class="linenos">141</span></a><span class="sd">        cospsi_matrix: an np.ndarray of shape `(num_pubs, num_pubs)` representing pairwise cosine similarity scores for publication embeddings.</span>
+</span><span id="kernel_constant_asymmetry_metric-142"><a href="#kernel_constant_asymmetry_metric-142"><span class="linenos">142</span></a>
+</span><span id="kernel_constant_asymmetry_metric-143"><a href="#kernel_constant_asymmetry_metric-143"><span class="linenos">143</span></a><span class="sd">        valid_indices: an np.ndarray of shape `(num_valid_pubs)` representing indices of the other publications used when calculating the measurements, i.e. num_valid_pubs &lt;= num_pubs.</span>
+</span><span id="kernel_constant_asymmetry_metric-144"><a href="#kernel_constant_asymmetry_metric-144"><span class="linenos">144</span></a>
+</span><span id="kernel_constant_asymmetry_metric-145"><a href="#kernel_constant_asymmetry_metric-145"><span class="linenos">145</span></a><span class="sd">        publication_indices: an np.ndarray of shape `(num_pubs,)` representing indices of all publications in the atlas projection</span>
+</span><span id="kernel_constant_asymmetry_metric-146"><a href="#kernel_constant_asymmetry_metric-146"><span class="linenos">146</span></a>
+</span><span id="kernel_constant_asymmetry_metric-147"><a href="#kernel_constant_asymmetry_metric-147"><span class="linenos">147</span></a><span class="sd">        embeddings: an np.ndarray of shape `(num_pubs, embedding_dim)` vectors for all publications in the atlas projection</span>
+</span><span id="kernel_constant_asymmetry_metric-148"><a href="#kernel_constant_asymmetry_metric-148"><span class="linenos">148</span></a>
+</span><span id="kernel_constant_asymmetry_metric-149"><a href="#kernel_constant_asymmetry_metric-149"><span class="linenos">149</span></a><span class="sd">        kernel_size: an int representing the number of K nearest neighbors to calculate the measurement on.</span>
+</span><span id="kernel_constant_asymmetry_metric-150"><a href="#kernel_constant_asymmetry_metric-150"><span class="linenos">150</span></a>
+</span><span id="kernel_constant_asymmetry_metric-151"><a href="#kernel_constant_asymmetry_metric-151"><span class="linenos">151</span></a><span class="sd">    Returns:</span>
+</span><span id="kernel_constant_asymmetry_metric-152"><a href="#kernel_constant_asymmetry_metric-152"><span class="linenos">152</span></a><span class="sd">        mag: a float representing the magnitude of the asymmetry metric.</span>
+</span><span id="kernel_constant_asymmetry_metric-153"><a href="#kernel_constant_asymmetry_metric-153"><span class="linenos">153</span></a><span class="sd">    &quot;&quot;&quot;</span>
+</span><span id="kernel_constant_asymmetry_metric-154"><a href="#kernel_constant_asymmetry_metric-154"><span class="linenos">154</span></a>
+</span><span id="kernel_constant_asymmetry_metric-155"><a href="#kernel_constant_asymmetry_metric-155"><span class="linenos">155</span></a>    <span class="c1"># We can&#39;t have the kernel larger than the number of valid publications</span>
+</span><span id="kernel_constant_asymmetry_metric-156"><a href="#kernel_constant_asymmetry_metric-156"><span class="linenos">156</span></a>    <span class="k">if</span> <span class="n">kernel_size</span> <span class="o">&gt;</span> <span class="nb">len</span><span class="p">(</span><span class="n">valid_indices</span><span class="p">):</span>
+</span><span id="kernel_constant_asymmetry_metric-157"><a href="#kernel_constant_asymmetry_metric-157"><span class="linenos">157</span></a>        <span class="k">return</span> <span class="n">np</span><span class="o">.</span><span class="n">nan</span>
+</span><span id="kernel_constant_asymmetry_metric-158"><a href="#kernel_constant_asymmetry_metric-158"><span class="linenos">158</span></a>
+</span><span id="kernel_constant_asymmetry_metric-159"><a href="#kernel_constant_asymmetry_metric-159"><span class="linenos">159</span></a>    <span class="c1"># Input</span>
+</span><span id="kernel_constant_asymmetry_metric-160"><a href="#kernel_constant_asymmetry_metric-160"><span class="linenos">160</span></a>    <span class="n">cospsi</span> <span class="o">=</span> <span class="n">cospsi_matrix</span><span class="p">[</span><span class="n">idx</span><span class="p">][</span><span class="n">valid_indices</span><span class="p">]</span>
+</span><span id="kernel_constant_asymmetry_metric-161"><a href="#kernel_constant_asymmetry_metric-161"><span class="linenos">161</span></a>    <span class="n">sorted_inds</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">argsort</span><span class="p">(</span><span class="n">cospsi</span><span class="p">)[::</span><span class="o">-</span><span class="mi">1</span><span class="p">][:</span><span class="n">kernel_size</span><span class="p">]</span>
+</span><span id="kernel_constant_asymmetry_metric-162"><a href="#kernel_constant_asymmetry_metric-162"><span class="linenos">162</span></a>    <span class="n">other_inds</span> <span class="o">=</span> <span class="n">publication_indices</span><span class="p">[</span><span class="n">valid_indices</span><span class="p">][</span><span class="n">sorted_inds</span><span class="p">]</span>
+</span><span id="kernel_constant_asymmetry_metric-163"><a href="#kernel_constant_asymmetry_metric-163"><span class="linenos">163</span></a>    <span class="n">embedding</span> <span class="o">=</span> <span class="n">embeddings</span><span class="p">[</span><span class="n">idx</span><span class="p">]</span>
+</span><span id="kernel_constant_asymmetry_metric-164"><a href="#kernel_constant_asymmetry_metric-164"><span class="linenos">164</span></a>    <span class="n">other_embeddings</span> <span class="o">=</span> <span class="n">embeddings</span><span class="p">[</span><span class="n">other_inds</span><span class="p">]</span>
+</span><span id="kernel_constant_asymmetry_metric-165"><a href="#kernel_constant_asymmetry_metric-165"><span class="linenos">165</span></a>
+</span><span id="kernel_constant_asymmetry_metric-166"><a href="#kernel_constant_asymmetry_metric-166"><span class="linenos">166</span></a>    <span class="c1"># Differences</span>
+</span><span id="kernel_constant_asymmetry_metric-167"><a href="#kernel_constant_asymmetry_metric-167"><span class="linenos">167</span></a>    <span class="n">diff</span> <span class="o">=</span> <span class="n">embedding</span> <span class="o">-</span> <span class="n">other_embeddings</span>
+</span><span id="kernel_constant_asymmetry_metric-168"><a href="#kernel_constant_asymmetry_metric-168"><span class="linenos">168</span></a>    <span class="n">diff_mag</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">linalg</span><span class="o">.</span><span class="n">norm</span><span class="p">(</span><span class="n">diff</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
+</span><span id="kernel_constant_asymmetry_metric-169"><a href="#kernel_constant_asymmetry_metric-169"><span class="linenos">169</span></a>    <span class="n">result</span> <span class="o">=</span> <span class="p">(</span><span class="n">diff</span> <span class="o">/</span> <span class="n">diff_mag</span><span class="p">[:,</span> <span class="n">np</span><span class="o">.</span><span class="n">newaxis</span><span class="p">])</span><span class="o">.</span><span class="n">sum</span><span class="p">(</span><span class="n">axis</span><span class="o">=</span><span class="mi">0</span><span class="p">)</span>
+</span><span id="kernel_constant_asymmetry_metric-170"><a href="#kernel_constant_asymmetry_metric-170"><span class="linenos">170</span></a>    <span class="n">mag</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">linalg</span><span class="o">.</span><span class="n">norm</span><span class="p">(</span><span class="n">result</span><span class="p">)</span>
+</span><span id="kernel_constant_asymmetry_metric-171"><a href="#kernel_constant_asymmetry_metric-171"><span class="linenos">171</span></a>
+</span><span id="kernel_constant_asymmetry_metric-172"><a href="#kernel_constant_asymmetry_metric-172"><span class="linenos">172</span></a>    <span class="k">return</span> <span class="n">mag</span>
+</span></pre></div>
+
+
+            <div class="docstring"><p>Estimate the asymmetry of a publication by calculating the difference
+between that publication's projection and the other publications within
+the kernel.</p>
+
+<h6 id="arguments">Arguments:</h6>
+
+<ul>
+<li><strong>idx:</strong>  an int representing the index of the vector to calculate the measurement for.</li>
+<li><strong>cospsi_matrix:</strong>  an np.ndarray of shape <code>(num_pubs, num_pubs)</code> representing pairwise cosine similarity scores for publication embeddings.</li>
+<li><strong>valid_indices:</strong>  an np.ndarray of shape <code>(num_valid_pubs)</code> representing indices of the other publications used when calculating the measurements, i.e. num_valid_pubs &lt;= num_pubs.</li>
+<li><strong>publication_indices:</strong>  an np.ndarray of shape <code>(num_pubs,)</code> representing indices of all publications in the atlas projection</li>
+<li><strong>embeddings:</strong>  an np.ndarray of shape <code>(num_pubs, embedding_dim)</code> vectors for all publications in the atlas projection</li>
+<li><strong>kernel_size:</strong>  an int representing the number of K nearest neighbors to calculate the measurement on.</li>
+</ul>
+
+<h6 id="returns">Returns:</h6>
+
+<blockquote>
+  <p>mag: a float representing the magnitude of the asymmetry metric.</p>
+</blockquote>
+</div>
+
+
+                </section>
+    </main>
+<script>
+    function escapeHTML(html) {
+        return document.createElement('div').appendChild(document.createTextNode(html)).parentNode.innerHTML;
+    }
+
+    const originalContent = document.querySelector("main.pdoc");
+    let currentContent = originalContent;
+
+    function setContent(innerHTML) {
+        let elem;
+        if (innerHTML) {
+            elem = document.createElement("main");
+            elem.classList.add("pdoc");
+            elem.innerHTML = innerHTML;
+        } else {
+            elem = originalContent;
+        }
+        if (currentContent !== elem) {
+            currentContent.replaceWith(elem);
+            currentContent = elem;
+        }
+    }
+
+    function getSearchTerm() {
+        return (new URL(window.location)).searchParams.get("search");
+    }
+
+    const searchBox = document.querySelector(".pdoc input[type=search]");
+    searchBox.addEventListener("input", function () {
+        let url = new URL(window.location);
+        if (searchBox.value.trim()) {
+            url.hash = "";
+            url.searchParams.set("search", searchBox.value);
+        } else {
+            url.searchParams.delete("search");
+        }
+        history.replaceState("", "", url.toString());
+        onInput();
+    });
+    window.addEventListener("popstate", onInput);
+
+
+    let search, searchErr;
+
+    async function initialize() {
+        try {
+            search = await new Promise((resolve, reject) => {
+                const script = document.createElement("script");
+                script.type = "text/javascript";
+                script.async = true;
+                script.onload = () => resolve(window.pdocSearch);
+                script.onerror = (e) => reject(e);
+                script.src = "../../search.js";
+                document.getElementsByTagName("head")[0].appendChild(script);
+            });
+        } catch (e) {
+            console.error("Cannot fetch pdoc search index");
+            searchErr = "Cannot fetch search index.";
+        }
+        onInput();
+
+        document.querySelector("nav.pdoc").addEventListener("click", e => {
+            if (e.target.hash) {
+                searchBox.value = "";
+                searchBox.dispatchEvent(new Event("input"));
+            }
+        });
+    }
+
+    function onInput() {
+        setContent((() => {
+            const term = getSearchTerm();
+            if (!term) {
+                return null
+            }
+            if (searchErr) {
+                return `<h3>Error: ${searchErr}</h3>`
+            }
+            if (!search) {
+                return "<h3>Searching...</h3>"
+            }
+
+            window.scrollTo({top: 0, left: 0, behavior: 'auto'});
+
+            const results = search(term);
+
+            let html;
+            if (results.length === 0) {
+                html = `No search results for '${escapeHTML(term)}'.`
+            } else {
+                html = `<h4>${results.length} search result${results.length > 1 ? "s" : ""} for '${escapeHTML(term)}'.</h4>`;
+            }
+            for (let result of results.slice(0, 10)) {
+                let doc = result.doc;
+                let url = `../../${doc.modulename.replaceAll(".", "/")}.html`;
+                if (doc.qualname) {
+                    url += `#${doc.qualname}`;
+                }
+
+                let heading;
+                switch (result.doc.kind) {
+                    case "function":
+                        if (doc.fullname.endsWith(".__init__")) {
+                            heading = `<span class="name">${doc.fullname.replace(/\.__init__$/, "")}</span>${doc.signature}`;
+                        } else {
+                            heading = `<span class="def">${doc.funcdef}</span> <span class="name">${doc.fullname}</span>${doc.signature}`;
+                        }
+                        break;
+                    case "class":
+                        heading = `<span class="def">class</span> <span class="name">${doc.fullname}</span>`;
+                        if (doc.bases)
+                            heading += `<wbr>(<span class="base">${doc.bases}</span>)`;
+                        heading += `:`;
+                        break;
+                    case "variable":
+                        heading = `<span class="name">${doc.fullname}</span>`;
+                        if (doc.annotation)
+                            heading += `<span class="annotation">${doc.annotation}</span>`;
+                        if (doc.default_value)
+                            heading += `<span class="default_value"> = ${doc.default_value}</span>`;
+                        break;
+                    default:
+                        heading = `<span class="name">${doc.fullname}</span>`;
+                        break;
+                }
+                html += `
+                        <section class="search-result">
+                        <a href="${url}" class="attr ${doc.kind}">${heading}</a>
+                        <div class="docstring">${doc.doc}</div>
+                        </section>
+                    `;
+
+            }
+            return html;
+        })());
+    }
+
+    if (getSearchTerm()) {
+        initialize();
+        searchBox.value = getSearchTerm();
+        onInput();
+    } else {
+        searchBox.addEventListener("focus", initialize, {once: true});
+    }
+
+    searchBox.addEventListener("keydown", e => {
+        if (["ArrowDown", "ArrowUp", "Enter"].includes(e.key)) {
+            let focused = currentContent.querySelector(".search-result.focused");
+            if (!focused) {
+                currentContent.querySelector(".search-result").classList.add("focused");
+            } else if (
+                e.key === "ArrowDown"
+                && focused.nextElementSibling
+                && focused.nextElementSibling.classList.contains("search-result")
+            ) {
+                focused.classList.remove("focused");
+                focused.nextElementSibling.classList.add("focused");
+                focused.nextElementSibling.scrollIntoView({
+                    behavior: "smooth",
+                    block: "nearest",
+                    inline: "nearest"
+                });
+            } else if (
+                e.key === "ArrowUp"
+                && focused.previousElementSibling
+                && focused.previousElementSibling.classList.contains("search-result")
+            ) {
+                focused.classList.remove("focused");
+                focused.previousElementSibling.classList.add("focused");
+                focused.previousElementSibling.scrollIntoView({
+                    behavior: "smooth",
+                    block: "nearest",
+                    inline: "nearest"
+                });
+            } else if (
+                e.key === "Enter"
+            ) {
+                focused.querySelector("a").click();
+            }
+        }
+    });
+</script></body>
+</html>
\ No newline at end of file
diff --git a/docs/sciterra/misc/utils.html b/docs/sciterra/misc/utils.html
index 70aed76..86d6d4a 100644
--- a/docs/sciterra/misc/utils.html
+++ b/docs/sciterra/misc/utils.html
@@ -67,6 +67,12 @@ <h2>API Documentation</h2>
             <li>
                     <a class="function" href="#read_pickle">read_pickle</a>
             </li>
+            <li>
+                    <a class="function" href="#get_verbose">get_verbose</a>
+            </li>
+            <li>
+                    <a class="function" href="#custom_formatwarning">custom_formatwarning</a>
+            </li>
     </ul>
 
 
@@ -199,7 +205,7 @@ <h1 class="modulename">
 </span><span id="L-107"><a href="#L-107"><span class="linenos">107</span></a>    <span class="k">return</span> <span class="n">_keep_trying</span>
 </span><span id="L-108"><a href="#L-108"><span class="linenos">108</span></a>
 </span><span id="L-109"><a href="#L-109"><span class="linenos">109</span></a>
-</span><span id="L-110"><a href="#L-110"><span class="linenos">110</span></a><span class="k">def</span> <span class="nf">chunk_ids</span><span class="p">(</span><span class="n">ids</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="n">call_size</span><span class="o">=</span><span class="mi">2000</span><span class="p">):</span>
+</span><span id="L-110"><a href="#L-110"><span class="linenos">110</span></a><span class="k">def</span> <span class="nf">chunk_ids</span><span class="p">(</span><span class="n">ids</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="n">call_size</span><span class="p">):</span>
 </span><span id="L-111"><a href="#L-111"><span class="linenos">111</span></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Helper function to chunk bibcodes or paperIds into smaller sublists if appropriate.&quot;&quot;&quot;</span>
 </span><span id="L-112"><a href="#L-112"><span class="linenos">112</span></a>    <span class="c1"># Break into chunks</span>
 </span><span id="L-113"><a href="#L-113"><span class="linenos">113</span></a>    <span class="k">assert</span> <span class="p">(</span>  <span class="c1"># TODO: this seems like an irrelevant copypasta since we use SearchQuery</span>
@@ -225,6 +231,18 @@ <h1 class="modulename">
 </span><span id="L-133"><a href="#L-133"><span class="linenos">133</span></a>    <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">fn</span><span class="p">,</span> <span class="s2">&quot;rb&quot;</span><span class="p">)</span> <span class="k">as</span> <span class="n">f</span><span class="p">:</span>
 </span><span id="L-134"><a href="#L-134"><span class="linenos">134</span></a>        <span class="n">data</span> <span class="o">=</span> <span class="n">pickle</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">f</span><span class="p">)</span>
 </span><span id="L-135"><a href="#L-135"><span class="linenos">135</span></a>    <span class="k">return</span> <span class="n">data</span>
+</span><span id="L-136"><a href="#L-136"><span class="linenos">136</span></a>
+</span><span id="L-137"><a href="#L-137"><span class="linenos">137</span></a>
+</span><span id="L-138"><a href="#L-138"><span class="linenos">138</span></a><span class="c1"># various helper functions</span>
+</span><span id="L-139"><a href="#L-139"><span class="linenos">139</span></a>
+</span><span id="L-140"><a href="#L-140"><span class="linenos">140</span></a>
+</span><span id="L-141"><a href="#L-141"><span class="linenos">141</span></a><span class="k">def</span> <span class="nf">get_verbose</span><span class="p">(</span><span class="n">kwargs</span><span class="p">:</span> <span class="nb">dict</span><span class="p">):</span>
+</span><span id="L-142"><a href="#L-142"><span class="linenos">142</span></a>    <span class="k">return</span> <span class="n">kwargs</span><span class="p">[</span><span class="s2">&quot;verbose&quot;</span><span class="p">]</span> <span class="k">if</span> <span class="s2">&quot;verbose&quot;</span> <span class="ow">in</span> <span class="n">kwargs</span> <span class="k">else</span> <span class="kc">False</span>
+</span><span id="L-143"><a href="#L-143"><span class="linenos">143</span></a>
+</span><span id="L-144"><a href="#L-144"><span class="linenos">144</span></a>
+</span><span id="L-145"><a href="#L-145"><span class="linenos">145</span></a><span class="k">def</span> <span class="nf">custom_formatwarning</span><span class="p">(</span><span class="n">msg</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+</span><span id="L-146"><a href="#L-146"><span class="linenos">146</span></a>    <span class="c1"># ignore everything except the message</span>
+</span><span id="L-147"><a href="#L-147"><span class="linenos">147</span></a>    <span class="k">return</span> <span class="nb">str</span><span class="p">(</span><span class="n">msg</span><span class="p">)</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
 </span></pre></div>
 
 
@@ -385,13 +403,13 @@ <h6 id="example-usage">Example Usage:</h6>
 <div class="attr function">
             
         <span class="def">def</span>
-        <span class="name">chunk_ids</span><span class="signature pdoc-code condensed">(<span class="param"><span class="n">ids</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span>, </span><span class="param"><span class="n">call_size</span><span class="o">=</span><span class="mi">2000</span></span><span class="return-annotation">):</span></span>
+        <span class="name">chunk_ids</span><span class="signature pdoc-code condensed">(<span class="param"><span class="n">ids</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span>, </span><span class="param"><span class="n">call_size</span></span><span class="return-annotation">):</span></span>
 
                 <label class="view-source-button" for="chunk_ids-view-source"><span>View Source</span></label>
 
     </div>
     <a class="headerlink" href="#chunk_ids"></a>
-            <div class="pdoc-code codehilite"><pre><span></span><span id="chunk_ids-111"><a href="#chunk_ids-111"><span class="linenos">111</span></a><span class="k">def</span> <span class="nf">chunk_ids</span><span class="p">(</span><span class="n">ids</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="n">call_size</span><span class="o">=</span><span class="mi">2000</span><span class="p">):</span>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="chunk_ids-111"><a href="#chunk_ids-111"><span class="linenos">111</span></a><span class="k">def</span> <span class="nf">chunk_ids</span><span class="p">(</span><span class="n">ids</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="n">call_size</span><span class="p">):</span>
 </span><span id="chunk_ids-112"><a href="#chunk_ids-112"><span class="linenos">112</span></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Helper function to chunk bibcodes or paperIds into smaller sublists if appropriate.&quot;&quot;&quot;</span>
 </span><span id="chunk_ids-113"><a href="#chunk_ids-113"><span class="linenos">113</span></a>    <span class="c1"># Break into chunks</span>
 </span><span id="chunk_ids-114"><a href="#chunk_ids-114"><span class="linenos">114</span></a>    <span class="k">assert</span> <span class="p">(</span>  <span class="c1"># TODO: this seems like an irrelevant copypasta since we use SearchQuery</span>
@@ -453,6 +471,45 @@ <h6 id="example-usage">Example Usage:</h6>
 
     
 
+                </section>
+                <section id="get_verbose">
+                            <input id="get_verbose-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
+<div class="attr function">
+            
+        <span class="def">def</span>
+        <span class="name">get_verbose</span><span class="signature pdoc-code condensed">(<span class="param"><span class="n">kwargs</span><span class="p">:</span> <span class="nb">dict</span></span><span class="return-annotation">):</span></span>
+
+                <label class="view-source-button" for="get_verbose-view-source"><span>View Source</span></label>
+
+    </div>
+    <a class="headerlink" href="#get_verbose"></a>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="get_verbose-142"><a href="#get_verbose-142"><span class="linenos">142</span></a><span class="k">def</span> <span class="nf">get_verbose</span><span class="p">(</span><span class="n">kwargs</span><span class="p">:</span> <span class="nb">dict</span><span class="p">):</span>
+</span><span id="get_verbose-143"><a href="#get_verbose-143"><span class="linenos">143</span></a>    <span class="k">return</span> <span class="n">kwargs</span><span class="p">[</span><span class="s2">&quot;verbose&quot;</span><span class="p">]</span> <span class="k">if</span> <span class="s2">&quot;verbose&quot;</span> <span class="ow">in</span> <span class="n">kwargs</span> <span class="k">else</span> <span class="kc">False</span>
+</span></pre></div>
+
+
+    
+
+                </section>
+                <section id="custom_formatwarning">
+                            <input id="custom_formatwarning-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
+<div class="attr function">
+            
+        <span class="def">def</span>
+        <span class="name">custom_formatwarning</span><span class="signature pdoc-code condensed">(<span class="param"><span class="n">msg</span>, </span><span class="param"><span class="o">*</span><span class="n">args</span>, </span><span class="param"><span class="o">**</span><span class="n">kwargs</span></span><span class="return-annotation">):</span></span>
+
+                <label class="view-source-button" for="custom_formatwarning-view-source"><span>View Source</span></label>
+
+    </div>
+    <a class="headerlink" href="#custom_formatwarning"></a>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="custom_formatwarning-146"><a href="#custom_formatwarning-146"><span class="linenos">146</span></a><span class="k">def</span> <span class="nf">custom_formatwarning</span><span class="p">(</span><span class="n">msg</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+</span><span id="custom_formatwarning-147"><a href="#custom_formatwarning-147"><span class="linenos">147</span></a>    <span class="c1"># ignore everything except the message</span>
+</span><span id="custom_formatwarning-148"><a href="#custom_formatwarning-148"><span class="linenos">148</span></a>    <span class="k">return</span> <span class="nb">str</span><span class="p">(</span><span class="n">msg</span><span class="p">)</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+</span></pre></div>
+
+
+    
+
                 </section>
     </main>
 <script>
diff --git a/docs/sciterra/vectorization.html b/docs/sciterra/vectorization.html
index e975832..621cb33 100644
--- a/docs/sciterra/vectorization.html
+++ b/docs/sciterra/vectorization.html
@@ -51,11 +51,21 @@
 
             <h2>Submodules</h2>
             <ul>
+                    <li><a href="vectorization/preprocessing.html">preprocessing</a></li>
                     <li><a href="vectorization/projection.html">projection</a></li>
+                    <li><a href="vectorization/sbert.html">sbert</a></li>
                     <li><a href="vectorization/scibert.html">scibert</a></li>
                     <li><a href="vectorization/vectorizer.html">vectorizer</a></li>
+                    <li><a href="vectorization/word2vec.html">word2vec</a></li>
             </ul>
 
+            <h2>API Documentation</h2>
+                <ul class="memberlist">
+            <li>
+                    <a class="variable" href="#vectorizers">vectorizers</a>
+            </li>
+    </ul>
+
 
 
         <a class="attribution" title="pdoc: Python API documentation generator" href="https://pdoc.dev" target="_blank">
@@ -71,10 +81,36 @@ <h1 class="modulename">
 <a href="./../sciterra.html">sciterra</a><wbr>.vectorization    </h1>
 
                 
-                
-                
-                
+                        <input id="mod-vectorization-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
+
+                        <label class="view-source-button" for="mod-vectorization-view-source"><span>View Source</span></label>
+
+                        <div class="pdoc-code codehilite"><pre><span></span><span id="L-1"><a href="#L-1"><span class="linenos">1</span></a><span class="kn">from</span> <span class="nn">.scibert</span> <span class="kn">import</span> <span class="n">SciBERTVectorizer</span>
+</span><span id="L-2"><a href="#L-2"><span class="linenos">2</span></a><span class="kn">from</span> <span class="nn">.sbert</span> <span class="kn">import</span> <span class="n">SBERTVectorizer</span>
+</span><span id="L-3"><a href="#L-3"><span class="linenos">3</span></a><span class="kn">from</span> <span class="nn">.word2vec</span> <span class="kn">import</span> <span class="n">Word2VecVectorizer</span>
+</span><span id="L-4"><a href="#L-4"><span class="linenos">4</span></a>
+</span><span id="L-5"><a href="#L-5"><span class="linenos">5</span></a><span class="n">vectorizers</span> <span class="o">=</span> <span class="p">{</span>
+</span><span id="L-6"><a href="#L-6"><span class="linenos">6</span></a>    <span class="s2">&quot;SciBERT&quot;</span><span class="p">:</span> <span class="n">SciBERTVectorizer</span><span class="p">,</span>
+</span><span id="L-7"><a href="#L-7"><span class="linenos">7</span></a>    <span class="s2">&quot;SBERT&quot;</span><span class="p">:</span> <span class="n">SBERTVectorizer</span><span class="p">,</span>
+</span><span id="L-8"><a href="#L-8"><span class="linenos">8</span></a>    <span class="s2">&quot;Word2Vec&quot;</span><span class="p">:</span> <span class="n">Word2VecVectorizer</span><span class="p">,</span>
+</span><span id="L-9"><a href="#L-9"><span class="linenos">9</span></a><span class="p">}</span>
+</span></pre></div>
+
+
             </section>
+                <section id="vectorizers">
+                    <div class="attr variable">
+            <span class="name">vectorizers</span>        =
+<input id="vectorizers-view-value" class="view-value-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
+            <label class="view-value-button pdoc-button" for="vectorizers-view-value"></label><span class="default_value">{&#39;SciBERT&#39;: &lt;class &#39;<a href="vectorization/scibert.html#SciBERTVectorizer">sciterra.vectorization.scibert.SciBERTVectorizer</a>&#39;&gt;, &#39;SBERT&#39;: &lt;class &#39;<a href="vectorization/sbert.html#SBERTVectorizer">sciterra.vectorization.sbert.SBERTVectorizer</a>&#39;&gt;, &#39;Word2Vec&#39;: &lt;class &#39;<a href="vectorization/word2vec.html#Word2VecVectorizer">sciterra.vectorization.word2vec.Word2VecVectorizer</a>&#39;&gt;}</span>
+
+        
+    </div>
+    <a class="headerlink" href="#vectorizers"></a>
+    
+    
+
+                </section>
     </main>
 <script>
     function escapeHTML(html) {
diff --git a/docs/sciterra/vectorization/preprocessing.html b/docs/sciterra/vectorization/preprocessing.html
new file mode 100644
index 0000000..086b38d
--- /dev/null
+++ b/docs/sciterra/vectorization/preprocessing.html
@@ -0,0 +1,377 @@
+<!doctype html>
+<html lang="en">
+<head>
+    <meta charset="utf-8">
+    <meta name="viewport" content="width=device-width, initial-scale=1">
+    <meta name="generator" content="pdoc 14.0.0"/>
+    <title>sciterra.vectorization.preprocessing API documentation</title>
+
+    <style>/*! * Bootstrap Reboot v5.0.0 (https://getbootstrap.com/) * Copyright 2011-2021 The Bootstrap Authors * Copyright 2011-2021 Twitter, Inc. * Licensed under MIT (https://github.com/twbs/bootstrap/blob/main/LICENSE) * Forked from Normalize.css, licensed MIT (https://github.com/necolas/normalize.css/blob/master/LICENSE.md) */*,::after,::before{box-sizing:border-box}@media (prefers-reduced-motion:no-preference){:root{scroll-behavior:smooth}}body{margin:0;font-family:system-ui,-apple-system,"Segoe UI",Roboto,"Helvetica Neue",Arial,"Noto Sans","Liberation Sans",sans-serif,"Apple Color Emoji","Segoe UI Emoji","Segoe UI Symbol","Noto Color Emoji";font-size:1rem;font-weight:400;line-height:1.5;color:#212529;background-color:#fff;-webkit-text-size-adjust:100%;-webkit-tap-highlight-color:transparent}hr{margin:1rem 0;color:inherit;background-color:currentColor;border:0;opacity:.25}hr:not([size]){height:1px}h1,h2,h3,h4,h5,h6{margin-top:0;margin-bottom:.5rem;font-weight:500;line-height:1.2}h1{font-size:calc(1.375rem + 1.5vw)}@media (min-width:1200px){h1{font-size:2.5rem}}h2{font-size:calc(1.325rem + .9vw)}@media (min-width:1200px){h2{font-size:2rem}}h3{font-size:calc(1.3rem + .6vw)}@media (min-width:1200px){h3{font-size:1.75rem}}h4{font-size:calc(1.275rem + .3vw)}@media (min-width:1200px){h4{font-size:1.5rem}}h5{font-size:1.25rem}h6{font-size:1rem}p{margin-top:0;margin-bottom:1rem}abbr[data-bs-original-title],abbr[title]{-webkit-text-decoration:underline dotted;text-decoration:underline dotted;cursor:help;-webkit-text-decoration-skip-ink:none;text-decoration-skip-ink:none}address{margin-bottom:1rem;font-style:normal;line-height:inherit}ol,ul{padding-left:2rem}dl,ol,ul{margin-top:0;margin-bottom:1rem}ol ol,ol ul,ul ol,ul ul{margin-bottom:0}dt{font-weight:700}dd{margin-bottom:.5rem;margin-left:0}blockquote{margin:0 0 1rem}b,strong{font-weight:bolder}small{font-size:.875em}mark{padding:.2em;background-color:#fcf8e3}sub,sup{position:relative;font-size:.75em;line-height:0;vertical-align:baseline}sub{bottom:-.25em}sup{top:-.5em}a{color:#0d6efd;text-decoration:underline}a:hover{color:#0a58ca}a:not([href]):not([class]),a:not([href]):not([class]):hover{color:inherit;text-decoration:none}code,kbd,pre,samp{font-family:SFMono-Regular,Menlo,Monaco,Consolas,"Liberation Mono","Courier New",monospace;font-size:1em;direction:ltr;unicode-bidi:bidi-override}pre{display:block;margin-top:0;margin-bottom:1rem;overflow:auto;font-size:.875em}pre code{font-size:inherit;color:inherit;word-break:normal}code{font-size:.875em;color:#d63384;word-wrap:break-word}a>code{color:inherit}kbd{padding:.2rem .4rem;font-size:.875em;color:#fff;background-color:#212529;border-radius:.2rem}kbd kbd{padding:0;font-size:1em;font-weight:700}figure{margin:0 0 1rem}img,svg{vertical-align:middle}table{caption-side:bottom;border-collapse:collapse}caption{padding-top:.5rem;padding-bottom:.5rem;color:#6c757d;text-align:left}th{text-align:inherit;text-align:-webkit-match-parent}tbody,td,tfoot,th,thead,tr{border-color:inherit;border-style:solid;border-width:0}label{display:inline-block}button{border-radius:0}button:focus:not(:focus-visible){outline:0}button,input,optgroup,select,textarea{margin:0;font-family:inherit;font-size:inherit;line-height:inherit}button,select{text-transform:none}[role=button]{cursor:pointer}select{word-wrap:normal}select:disabled{opacity:1}[list]::-webkit-calendar-picker-indicator{display:none}[type=button],[type=reset],[type=submit],button{-webkit-appearance:button}[type=button]:not(:disabled),[type=reset]:not(:disabled),[type=submit]:not(:disabled),button:not(:disabled){cursor:pointer}::-moz-focus-inner{padding:0;border-style:none}textarea{resize:vertical}fieldset{min-width:0;padding:0;margin:0;border:0}legend{float:left;width:100%;padding:0;margin-bottom:.5rem;font-size:calc(1.275rem + .3vw);line-height:inherit}@media (min-width:1200px){legend{font-size:1.5rem}}legend+*{clear:left}::-webkit-datetime-edit-day-field,::-webkit-datetime-edit-fields-wrapper,::-webkit-datetime-edit-hour-field,::-webkit-datetime-edit-minute,::-webkit-datetime-edit-month-field,::-webkit-datetime-edit-text,::-webkit-datetime-edit-year-field{padding:0}::-webkit-inner-spin-button{height:auto}[type=search]{outline-offset:-2px;-webkit-appearance:textfield}::-webkit-search-decoration{-webkit-appearance:none}::-webkit-color-swatch-wrapper{padding:0}::file-selector-button{font:inherit}::-webkit-file-upload-button{font:inherit;-webkit-appearance:button}output{display:inline-block}iframe{border:0}summary{display:list-item;cursor:pointer}progress{vertical-align:baseline}[hidden]{display:none!important}</style>
+    <style>/*! syntax-highlighting.css */pre{line-height:125%;}span.linenos{color:inherit; background-color:transparent; padding-left:5px; padding-right:20px;}.pdoc-code .hll{background-color:#ffffcc}.pdoc-code{background:#f8f8f8;}.pdoc-code .c{color:#3D7B7B; font-style:italic}.pdoc-code .err{border:1px solid #FF0000}.pdoc-code .k{color:#008000; font-weight:bold}.pdoc-code .o{color:#666666}.pdoc-code .ch{color:#3D7B7B; font-style:italic}.pdoc-code .cm{color:#3D7B7B; font-style:italic}.pdoc-code .cp{color:#9C6500}.pdoc-code .cpf{color:#3D7B7B; font-style:italic}.pdoc-code .c1{color:#3D7B7B; font-style:italic}.pdoc-code .cs{color:#3D7B7B; font-style:italic}.pdoc-code .gd{color:#A00000}.pdoc-code .ge{font-style:italic}.pdoc-code .gr{color:#E40000}.pdoc-code .gh{color:#000080; font-weight:bold}.pdoc-code .gi{color:#008400}.pdoc-code .go{color:#717171}.pdoc-code .gp{color:#000080; font-weight:bold}.pdoc-code .gs{font-weight:bold}.pdoc-code .gu{color:#800080; font-weight:bold}.pdoc-code .gt{color:#0044DD}.pdoc-code .kc{color:#008000; font-weight:bold}.pdoc-code .kd{color:#008000; font-weight:bold}.pdoc-code .kn{color:#008000; font-weight:bold}.pdoc-code .kp{color:#008000}.pdoc-code .kr{color:#008000; font-weight:bold}.pdoc-code .kt{color:#B00040}.pdoc-code .m{color:#666666}.pdoc-code .s{color:#BA2121}.pdoc-code .na{color:#687822}.pdoc-code .nb{color:#008000}.pdoc-code .nc{color:#0000FF; font-weight:bold}.pdoc-code .no{color:#880000}.pdoc-code .nd{color:#AA22FF}.pdoc-code .ni{color:#717171; font-weight:bold}.pdoc-code .ne{color:#CB3F38; font-weight:bold}.pdoc-code .nf{color:#0000FF}.pdoc-code .nl{color:#767600}.pdoc-code .nn{color:#0000FF; font-weight:bold}.pdoc-code .nt{color:#008000; font-weight:bold}.pdoc-code .nv{color:#19177C}.pdoc-code .ow{color:#AA22FF; font-weight:bold}.pdoc-code .w{color:#bbbbbb}.pdoc-code .mb{color:#666666}.pdoc-code .mf{color:#666666}.pdoc-code .mh{color:#666666}.pdoc-code .mi{color:#666666}.pdoc-code .mo{color:#666666}.pdoc-code .sa{color:#BA2121}.pdoc-code .sb{color:#BA2121}.pdoc-code .sc{color:#BA2121}.pdoc-code .dl{color:#BA2121}.pdoc-code .sd{color:#BA2121; font-style:italic}.pdoc-code .s2{color:#BA2121}.pdoc-code .se{color:#AA5D1F; font-weight:bold}.pdoc-code .sh{color:#BA2121}.pdoc-code .si{color:#A45A77; font-weight:bold}.pdoc-code .sx{color:#008000}.pdoc-code .sr{color:#A45A77}.pdoc-code .s1{color:#BA2121}.pdoc-code .ss{color:#19177C}.pdoc-code .bp{color:#008000}.pdoc-code .fm{color:#0000FF}.pdoc-code .vc{color:#19177C}.pdoc-code .vg{color:#19177C}.pdoc-code .vi{color:#19177C}.pdoc-code .vm{color:#19177C}.pdoc-code .il{color:#666666}</style>
+    <style>/*! theme.css */:root{--pdoc-background:#fff;}.pdoc{--text:#212529;--muted:#6c757d;--link:#3660a5;--link-hover:#1659c5;--code:#f8f8f8;--active:#fff598;--accent:#eee;--accent2:#c1c1c1;--nav-hover:rgba(255, 255, 255, 0.5);--name:#0066BB;--def:#008800;--annotation:#007020;}</style>
+    <style>/*! layout.css */html, body{width:100%;height:100%;}html, main{scroll-behavior:smooth;}body{background-color:var(--pdoc-background);}@media (max-width:769px){#navtoggle{cursor:pointer;position:absolute;width:50px;height:40px;top:1rem;right:1rem;border-color:var(--text);color:var(--text);display:flex;opacity:0.8;z-index:999;}#navtoggle:hover{opacity:1;}#togglestate + div{display:none;}#togglestate:checked + div{display:inherit;}main, header{padding:2rem 3vw;}header + main{margin-top:-3rem;}.git-button{display:none !important;}nav input[type="search"]{max-width:77%;}nav input[type="search"]:first-child{margin-top:-6px;}nav input[type="search"]:valid ~ *{display:none !important;}}@media (min-width:770px){:root{--sidebar-width:clamp(12.5rem, 28vw, 22rem);}nav{position:fixed;overflow:auto;height:100vh;width:var(--sidebar-width);}main, header{padding:3rem 2rem 3rem calc(var(--sidebar-width) + 3rem);width:calc(54rem + var(--sidebar-width));max-width:100%;}header + main{margin-top:-4rem;}#navtoggle{display:none;}}#togglestate{position:absolute;height:0;opacity:0;}nav.pdoc{--pad:clamp(0.5rem, 2vw, 1.75rem);--indent:1.5rem;background-color:var(--accent);border-right:1px solid var(--accent2);box-shadow:0 0 20px rgba(50, 50, 50, .2) inset;padding:0 0 0 var(--pad);overflow-wrap:anywhere;scrollbar-width:thin; scrollbar-color:var(--accent2) transparent }nav.pdoc::-webkit-scrollbar{width:.4rem; }nav.pdoc::-webkit-scrollbar-thumb{background-color:var(--accent2); }nav.pdoc > div{padding:var(--pad) 0;}nav.pdoc .module-list-button{display:inline-flex;align-items:center;color:var(--text);border-color:var(--muted);margin-bottom:1rem;}nav.pdoc .module-list-button:hover{border-color:var(--text);}nav.pdoc input[type=search]{display:block;outline-offset:0;width:calc(100% - var(--pad));}nav.pdoc .logo{max-width:calc(100% - var(--pad));max-height:35vh;display:block;margin:0 auto 1rem;transform:translate(calc(-.5 * var(--pad)), 0);}nav.pdoc ul{list-style:none;padding-left:0;}nav.pdoc > div > ul{margin-left:calc(0px - var(--pad));}nav.pdoc li a{padding:.2rem 0 .2rem calc(var(--pad) + var(--indent));}nav.pdoc > div > ul > li > a{padding-left:var(--pad);}nav.pdoc li{transition:all 100ms;}nav.pdoc li:hover{background-color:var(--nav-hover);}nav.pdoc a, nav.pdoc a:hover{color:var(--text);}nav.pdoc a{display:block;}nav.pdoc > h2:first-of-type{margin-top:1.5rem;}nav.pdoc .class:before{content:"class ";color:var(--muted);}nav.pdoc .function:after{content:"()";color:var(--muted);}nav.pdoc footer:before{content:"";display:block;width:calc(100% - var(--pad));border-top:solid var(--accent2) 1px;margin-top:1.5rem;padding-top:.5rem;}nav.pdoc footer{font-size:small;}</style>
+    <style>/*! content.css */.pdoc{color:var(--text);box-sizing:border-box;line-height:1.5;background:none;}.pdoc .pdoc-button{cursor:pointer;display:inline-block;border:solid black 1px;border-radius:2px;font-size:.75rem;padding:calc(0.5em - 1px) 1em;transition:100ms all;}.pdoc .pdoc-alert{padding:1rem 1rem 1rem calc(1.5rem + 24px);border:1px solid transparent;border-radius:.25rem;background-repeat:no-repeat;background-position:1rem center;margin-bottom:1rem;}.pdoc .pdoc-alert > *:last-child{margin-bottom:0;}.pdoc .pdoc-alert-note {color:#084298;background-color:#cfe2ff;border-color:#b6d4fe;background-image:url("data:image/svg+xml,%3Csvg%20xmlns%3D%22http%3A//www.w3.org/2000/svg%22%20width%3D%2224%22%20height%3D%2224%22%20fill%3D%22%23084298%22%20viewBox%3D%220%200%2016%2016%22%3E%3Cpath%20d%3D%22M8%2016A8%208%200%201%200%208%200a8%208%200%200%200%200%2016zm.93-9.412-1%204.705c-.07.34.029.533.304.533.194%200%20.487-.07.686-.246l-.088.416c-.287.346-.92.598-1.465.598-.703%200-1.002-.422-.808-1.319l.738-3.468c.064-.293.006-.399-.287-.47l-.451-.081.082-.381%202.29-.287zM8%205.5a1%201%200%201%201%200-2%201%201%200%200%201%200%202z%22/%3E%3C/svg%3E");}.pdoc .pdoc-alert-warning{color:#664d03;background-color:#fff3cd;border-color:#ffecb5;background-image:url("data:image/svg+xml,%3Csvg%20xmlns%3D%22http%3A//www.w3.org/2000/svg%22%20width%3D%2224%22%20height%3D%2224%22%20fill%3D%22%23664d03%22%20viewBox%3D%220%200%2016%2016%22%3E%3Cpath%20d%3D%22M8.982%201.566a1.13%201.13%200%200%200-1.96%200L.165%2013.233c-.457.778.091%201.767.98%201.767h13.713c.889%200%201.438-.99.98-1.767L8.982%201.566zM8%205c.535%200%20.954.462.9.995l-.35%203.507a.552.552%200%200%201-1.1%200L7.1%205.995A.905.905%200%200%201%208%205zm.002%206a1%201%200%201%201%200%202%201%201%200%200%201%200-2z%22/%3E%3C/svg%3E");}.pdoc .pdoc-alert-danger{color:#842029;background-color:#f8d7da;border-color:#f5c2c7;background-image:url("data:image/svg+xml,%3Csvg%20xmlns%3D%22http%3A//www.w3.org/2000/svg%22%20width%3D%2224%22%20height%3D%2224%22%20fill%3D%22%23842029%22%20viewBox%3D%220%200%2016%2016%22%3E%3Cpath%20d%3D%22M5.52.359A.5.5%200%200%201%206%200h4a.5.5%200%200%201%20.474.658L8.694%206H12.5a.5.5%200%200%201%20.395.807l-7%209a.5.5%200%200%201-.873-.454L6.823%209.5H3.5a.5.5%200%200%201-.48-.641l2.5-8.5z%22/%3E%3C/svg%3E");}.pdoc .visually-hidden{position:absolute !important;width:1px !important;height:1px !important;padding:0 !important;margin:-1px !important;overflow:hidden !important;clip:rect(0, 0, 0, 0) !important;white-space:nowrap !important;border:0 !important;}.pdoc h1, .pdoc h2, .pdoc h3{font-weight:300;margin:.3em 0;padding:.2em 0;}.pdoc > section:not(.module-info) h1{font-size:1.5rem;font-weight:500;}.pdoc > section:not(.module-info) h2{font-size:1.4rem;font-weight:500;}.pdoc > section:not(.module-info) h3{font-size:1.3rem;font-weight:500;}.pdoc > section:not(.module-info) h4{font-size:1.2rem;}.pdoc > section:not(.module-info) h5{font-size:1.1rem;}.pdoc a{text-decoration:none;color:var(--link);}.pdoc a:hover{color:var(--link-hover);}.pdoc blockquote{margin-left:2rem;}.pdoc pre{border-top:1px solid var(--accent2);border-bottom:1px solid var(--accent2);margin-top:0;margin-bottom:1em;padding:.5rem 0 .5rem .5rem;overflow-x:auto;background-color:var(--code);}.pdoc code{color:var(--text);padding:.2em .4em;margin:0;font-size:85%;background-color:var(--code);border-radius:6px;}.pdoc a > code{color:inherit;}.pdoc pre > code{display:inline-block;font-size:inherit;background:none;border:none;padding:0;}.pdoc > section:not(.module-info){margin-bottom:1.5rem;}.pdoc .modulename{margin-top:0;font-weight:bold;}.pdoc .modulename a{color:var(--link);transition:100ms all;}.pdoc .git-button{float:right;border:solid var(--link) 1px;}.pdoc .git-button:hover{background-color:var(--link);color:var(--pdoc-background);}.view-source-toggle-state,.view-source-toggle-state ~ .pdoc-code{display:none;}.view-source-toggle-state:checked ~ .pdoc-code{display:block;}.view-source-button{display:inline-block;float:right;font-size:.75rem;line-height:1.5rem;color:var(--muted);padding:0 .4rem 0 1.3rem;cursor:pointer;text-indent:-2px;}.view-source-button > span{visibility:hidden;}.module-info .view-source-button{float:none;display:flex;justify-content:flex-end;margin:-1.2rem .4rem -.2rem 0;}.view-source-button::before{position:absolute;content:"View Source";display:list-item;list-style-type:disclosure-closed;}.view-source-toggle-state:checked ~ .attr .view-source-button::before,.view-source-toggle-state:checked ~ .view-source-button::before{list-style-type:disclosure-open;}.pdoc .docstring{margin-bottom:1.5rem;}.pdoc section:not(.module-info) .docstring{margin-left:clamp(0rem, 5vw - 2rem, 1rem);}.pdoc .docstring .pdoc-code{margin-left:1em;margin-right:1em;}.pdoc h1:target,.pdoc h2:target,.pdoc h3:target,.pdoc h4:target,.pdoc h5:target,.pdoc h6:target,.pdoc .pdoc-code > pre > span:target{background-color:var(--active);box-shadow:-1rem 0 0 0 var(--active);}.pdoc .pdoc-code > pre > span:target{display:block;}.pdoc div:target > .attr,.pdoc section:target > .attr,.pdoc dd:target > a{background-color:var(--active);}.pdoc *{scroll-margin:2rem;}.pdoc .pdoc-code .linenos{user-select:none;}.pdoc .attr:hover{filter:contrast(0.95);}.pdoc section, .pdoc .classattr{position:relative;}.pdoc .headerlink{--width:clamp(1rem, 3vw, 2rem);position:absolute;top:0;left:calc(0rem - var(--width));transition:all 100ms ease-in-out;opacity:0;}.pdoc .headerlink::before{content:"#";display:block;text-align:center;width:var(--width);height:2.3rem;line-height:2.3rem;font-size:1.5rem;}.pdoc .attr:hover ~ .headerlink,.pdoc *:target > .headerlink,.pdoc .headerlink:hover{opacity:1;}.pdoc .attr{display:block;margin:.5rem 0 .5rem;padding:.4rem .4rem .4rem 1rem;background-color:var(--accent);overflow-x:auto;}.pdoc .classattr{margin-left:2rem;}.pdoc .name{color:var(--name);font-weight:bold;}.pdoc .def{color:var(--def);font-weight:bold;}.pdoc .signature{background-color:transparent;}.pdoc .param, .pdoc .return-annotation{white-space:pre;}.pdoc .signature.multiline .param{display:block;}.pdoc .signature.condensed .param{display:inline-block;}.pdoc .annotation{color:var(--annotation);}.pdoc .view-value-toggle-state,.pdoc .view-value-toggle-state ~ .default_value{display:none;}.pdoc .view-value-toggle-state:checked ~ .default_value{display:inherit;}.pdoc .view-value-button{font-size:.5rem;vertical-align:middle;border-style:dashed;margin-top:-0.1rem;}.pdoc .view-value-button:hover{background:white;}.pdoc .view-value-button::before{content:"show";text-align:center;width:2.2em;display:inline-block;}.pdoc .view-value-toggle-state:checked ~ .view-value-button::before{content:"hide";}.pdoc .inherited{margin-left:2rem;}.pdoc .inherited dt{font-weight:700;}.pdoc .inherited dt, .pdoc .inherited dd{display:inline;margin-left:0;margin-bottom:.5rem;}.pdoc .inherited dd:not(:last-child):after{content:", ";}.pdoc .inherited .class:before{content:"class ";}.pdoc .inherited .function a:after{content:"()";}.pdoc .search-result .docstring{overflow:auto;max-height:25vh;}.pdoc .search-result.focused > .attr{background-color:var(--active);}.pdoc .attribution{margin-top:2rem;display:block;opacity:0.5;transition:all 200ms;filter:grayscale(100%);}.pdoc .attribution:hover{opacity:1;filter:grayscale(0%);}.pdoc .attribution img{margin-left:5px;height:35px;vertical-align:middle;width:70px;transition:all 200ms;}.pdoc table{display:block;width:max-content;max-width:100%;overflow:auto;margin-bottom:1rem;}.pdoc table th{font-weight:600;}.pdoc table th, .pdoc table td{padding:6px 13px;border:1px solid var(--accent2);}</style>
+    <style>/*! custom.css */</style><script>
+    window.MathJax = {
+        tex: {
+            inlineMath: [['$', '$'], ['\\(', '\\)']]
+        }
+    };
+</script>
+<script src="https://polyfill.io/v3/polyfill.min.js?features=es6"></script>
+<script id="MathJax-script" async src="https://cdn.jsdelivr.net/npm/mathjax@3/es5/tex-mml-chtml.js"></script>
+<script>
+    /* Re-invoke MathJax when DOM content changes, for example during search. */
+    document.addEventListener("DOMContentLoaded", () => {
+        new MutationObserver(() => MathJax.typeset()).observe(
+            document.querySelector("main.pdoc").parentNode,
+            {childList: true}
+        );
+    })
+</script>
+<style>
+    mjx-container {
+        overflow-x: auto;
+    }
+</style></head>
+<body>
+    <nav class="pdoc">
+        <label id="navtoggle" for="togglestate" class="pdoc-button"><svg xmlns='http://www.w3.org/2000/svg' viewBox='0 0 30 30'><path stroke-linecap='round' stroke="currentColor" stroke-miterlimit='10' stroke-width='2' d='M4 7h22M4 15h22M4 23h22'/></svg></label>
+        <input id="togglestate" type="checkbox" aria-hidden="true" tabindex="-1">
+        <div>            <a class="pdoc-button module-list-button" href="../vectorization.html">
+<svg xmlns="http://www.w3.org/2000/svg" width="16" height="16" fill="currentColor" class="bi bi-box-arrow-in-left" viewBox="0 0 16 16">
+  <path fill-rule="evenodd" d="M10 3.5a.5.5 0 0 0-.5-.5h-8a.5.5 0 0 0-.5.5v9a.5.5 0 0 0 .5.5h8a.5.5 0 0 0 .5-.5v-2a.5.5 0 0 1 1 0v2A1.5 1.5 0 0 1 9.5 14h-8A1.5 1.5 0 0 1 0 12.5v-9A1.5 1.5 0 0 1 1.5 2h8A1.5 1.5 0 0 1 11 3.5v2a.5.5 0 0 1-1 0v-2z"/>
+  <path fill-rule="evenodd" d="M4.146 8.354a.5.5 0 0 1 0-.708l3-3a.5.5 0 1 1 .708.708L5.707 7.5H14.5a.5.5 0 0 1 0 1H5.707l2.147 2.146a.5.5 0 0 1-.708.708l-3-3z"/>
+</svg>                &nbsp;sciterra.vectorization</a>
+
+
+            <input type="search" placeholder="Search..." role="searchbox" aria-label="search"
+                   pattern=".+" required>
+
+
+
+            <h2>API Documentation</h2>
+                <ul class="memberlist">
+            <li>
+                    <a class="variable" href="#nlp">nlp</a>
+            </li>
+            <li>
+                    <a class="function" href="#custom_preprocess">custom_preprocess</a>
+            </li>
+    </ul>
+
+
+
+        <a class="attribution" title="pdoc: Python API documentation generator" href="https://pdoc.dev" target="_blank">
+            built with <span class="visually-hidden">pdoc</span><img
+                alt="pdoc logo"
+                src="data:image/svg+xml,%3Csvg%20xmlns%3D%22http%3A//www.w3.org/2000/svg%22%20role%3D%22img%22%20aria-label%3D%22pdoc%20logo%22%20width%3D%22300%22%20height%3D%22150%22%20viewBox%3D%22-1%200%2060%2030%22%3E%3Ctitle%3Epdoc%3C/title%3E%3Cpath%20d%3D%22M29.621%2021.293c-.011-.273-.214-.475-.511-.481a.5.5%200%200%200-.489.503l-.044%201.393c-.097.551-.695%201.215-1.566%201.704-.577.428-1.306.486-2.193.182-1.426-.617-2.467-1.654-3.304-2.487l-.173-.172a3.43%203.43%200%200%200-.365-.306.49.49%200%200%200-.286-.196c-1.718-1.06-4.931-1.47-7.353.191l-.219.15c-1.707%201.187-3.413%202.131-4.328%201.03-.02-.027-.49-.685-.141-1.763.233-.721.546-2.408.772-4.076.042-.09.067-.187.046-.288.166-1.347.277-2.625.241-3.351%201.378-1.008%202.271-2.586%202.271-4.362%200-.976-.272-1.935-.788-2.774-.057-.094-.122-.18-.184-.268.033-.167.052-.339.052-.516%200-1.477-1.202-2.679-2.679-2.679-.791%200-1.496.352-1.987.9a6.3%206.3%200%200%200-1.001.029c-.492-.564-1.207-.929-2.012-.929-1.477%200-2.679%201.202-2.679%202.679A2.65%202.65%200%200%200%20.97%206.554c-.383.747-.595%201.572-.595%202.41%200%202.311%201.507%204.29%203.635%205.107-.037.699-.147%202.27-.423%203.294l-.137.461c-.622%202.042-2.515%208.257%201.727%2010.643%201.614.908%203.06%201.248%204.317%201.248%202.665%200%204.492-1.524%205.322-2.401%201.476-1.559%202.886-1.854%206.491.82%201.877%201.393%203.514%201.753%204.861%201.068%202.223-1.713%202.811-3.867%203.399-6.374.077-.846.056-1.469.054-1.537zm-4.835%204.313c-.054.305-.156.586-.242.629-.034-.007-.131-.022-.307-.157-.145-.111-.314-.478-.456-.908.221.121.432.25.675.355.115.039.219.051.33.081zm-2.251-1.238c-.05.33-.158.648-.252.694-.022.001-.125-.018-.307-.157-.217-.166-.488-.906-.639-1.573.358.344.754.693%201.198%201.036zm-3.887-2.337c-.006-.116-.018-.231-.041-.342.635.145%201.189.368%201.599.625.097.231.166.481.174.642-.03.049-.055.101-.067.158-.046.013-.128.026-.298.004-.278-.037-.901-.57-1.367-1.087zm-1.127-.497c.116.306.176.625.12.71-.019.014-.117.045-.345.016-.206-.027-.604-.332-.986-.695.41-.051.816-.056%201.211-.031zm-4.535%201.535c.209.22.379.47.358.598-.006.041-.088.138-.351.234-.144.055-.539-.063-.979-.259a11.66%2011.66%200%200%200%20.972-.573zm.983-.664c.359-.237.738-.418%201.126-.554.25.237.479.548.457.694-.006.042-.087.138-.351.235-.174.064-.694-.105-1.232-.375zm-3.381%201.794c-.022.145-.061.29-.149.401-.133.166-.358.248-.69.251h-.002c-.133%200-.306-.26-.45-.621.417.091.854.07%201.291-.031zm-2.066-8.077a4.78%204.78%200%200%201-.775-.584c.172-.115.505-.254.88-.378l-.105.962zm-.331%202.302a10.32%2010.32%200%200%201-.828-.502c.202-.143.576-.328.984-.49l-.156.992zm-.45%202.157l-.701-.403c.214-.115.536-.249.891-.376a11.57%2011.57%200%200%201-.19.779zm-.181%201.716c.064.398.194.702.298.893-.194-.051-.435-.162-.736-.398.061-.119.224-.3.438-.495zM8.87%204.141c0%20.152-.123.276-.276.276s-.275-.124-.275-.276.123-.276.276-.276.275.124.275.276zm-.735-.389a1.15%201.15%200%200%200-.314.783%201.16%201.16%200%200%200%201.162%201.162c.457%200%20.842-.27%201.032-.653.026.117.042.238.042.362a1.68%201.68%200%200%201-1.679%201.679%201.68%201.68%200%200%201-1.679-1.679c0-.843.626-1.535%201.436-1.654zM5.059%205.406A1.68%201.68%200%200%201%203.38%207.085a1.68%201.68%200%200%201-1.679-1.679c0-.037.009-.072.011-.109.21.3.541.508.935.508a1.16%201.16%200%200%200%201.162-1.162%201.14%201.14%200%200%200-.474-.912c.015%200%20.03-.005.045-.005.926.001%201.679.754%201.679%201.68zM3.198%204.141c0%20.152-.123.276-.276.276s-.275-.124-.275-.276.123-.276.276-.276.275.124.275.276zM1.375%208.964c0-.52.103-1.035.288-1.52.466.394%201.06.64%201.717.64%201.144%200%202.116-.725%202.499-1.738.383%201.012%201.355%201.738%202.499%201.738.867%200%201.631-.421%202.121-1.062.307.605.478%201.267.478%201.942%200%202.486-2.153%204.51-4.801%204.51s-4.801-2.023-4.801-4.51zm24.342%2019.349c-.985.498-2.267.168-3.813-.979-3.073-2.281-5.453-3.199-7.813-.705-1.315%201.391-4.163%203.365-8.423.97-3.174-1.786-2.239-6.266-1.261-9.479l.146-.492c.276-1.02.395-2.457.444-3.268a6.11%206.11%200%200%200%201.18.115%206.01%206.01%200%200%200%202.536-.562l-.006.175c-.802.215-1.848.612-2.021%201.25-.079.295.021.601.274.837.219.203.415.364.598.501-.667.304-1.243.698-1.311%201.179-.02.144-.022.507.393.787.213.144.395.26.564.365-1.285.521-1.361.96-1.381%201.126-.018.142-.011.496.427.746l.854.489c-.473.389-.971.914-.999%201.429-.018.278.095.532.316.713.675.556%201.231.721%201.653.721.059%200%20.104-.014.158-.02.207.707.641%201.64%201.513%201.64h.013c.8-.008%201.236-.345%201.462-.626.173-.216.268-.457.325-.692.424.195.93.374%201.372.374.151%200%20.294-.021.423-.068.732-.27.944-.704.993-1.021.009-.061.003-.119.002-.179.266.086.538.147.789.147.15%200%20.294-.021.423-.069.542-.2.797-.489.914-.754.237.147.478.258.704.288.106.014.205.021.296.021.356%200%20.595-.101.767-.229.438.435%201.094.992%201.656%201.067.106.014.205.021.296.021a1.56%201.56%200%200%200%20.323-.035c.17.575.453%201.289.866%201.605.358.273.665.362.914.362a.99.99%200%200%200%20.421-.093%201.03%201.03%200%200%200%20.245-.164c.168.428.39.846.68%201.068.358.273.665.362.913.362a.99.99%200%200%200%20.421-.093c.317-.148.512-.448.639-.762.251.157.495.257.726.257.127%200%20.25-.024.37-.071.427-.17.706-.617.841-1.314.022-.015.047-.022.068-.038.067-.051.133-.104.196-.159-.443%201.486-1.107%202.761-2.086%203.257zM8.66%209.925a.5.5%200%201%200-1%200c0%20.653-.818%201.205-1.787%201.205s-1.787-.552-1.787-1.205a.5.5%200%201%200-1%200c0%201.216%201.25%202.205%202.787%202.205s2.787-.989%202.787-2.205zm4.4%2015.965l-.208.097c-2.661%201.258-4.708%201.436-6.086.527-1.542-1.017-1.88-3.19-1.844-4.198a.4.4%200%200%200-.385-.414c-.242-.029-.406.164-.414.385-.046%201.249.367%203.686%202.202%204.896.708.467%201.547.7%202.51.7%201.248%200%202.706-.392%204.362-1.174l.185-.086a.4.4%200%200%200%20.205-.527c-.089-.204-.326-.291-.527-.206zM9.547%202.292c.093.077.205.114.317.114a.5.5%200%200%200%20.318-.886L8.817.397a.5.5%200%200%200-.703.068.5.5%200%200%200%20.069.703l1.364%201.124zm-7.661-.065c.086%200%20.173-.022.253-.068l1.523-.893a.5.5%200%200%200-.506-.863l-1.523.892a.5.5%200%200%200-.179.685c.094.158.261.247.432.247z%22%20transform%3D%22matrix%28-1%200%200%201%2058%200%29%22%20fill%3D%22%233bb300%22/%3E%3Cpath%20d%3D%22M.3%2021.86V10.18q0-.46.02-.68.04-.22.18-.5.28-.54%201.34-.54%201.06%200%201.42.28.38.26.44.78.76-1.04%202.38-1.04%201.64%200%203.1%201.54%201.46%201.54%201.46%203.58%200%202.04-1.46%203.58-1.44%201.54-3.08%201.54-1.64%200-2.38-.92v4.04q0%20.46-.04.68-.02.22-.18.5-.14.3-.5.42-.36.12-.98.12-.62%200-1-.12-.36-.12-.52-.4-.14-.28-.18-.5-.02-.22-.02-.68zm3.96-9.42q-.46.54-.46%201.18%200%20.64.46%201.18.48.52%201.2.52.74%200%201.24-.52.52-.52.52-1.18%200-.66-.48-1.18-.48-.54-1.26-.54-.76%200-1.22.54zm14.741-8.36q.16-.3.54-.42.38-.12%201-.12.64%200%201.02.12.38.12.52.42.16.3.18.54.04.22.04.68v11.94q0%20.46-.04.7-.02.22-.18.5-.3.54-1.7.54-1.38%200-1.54-.98-.84.96-2.34.96-1.8%200-3.28-1.56-1.48-1.58-1.48-3.66%200-2.1%201.48-3.68%201.5-1.58%203.28-1.58%201.48%200%202.3%201v-4.2q0-.46.02-.68.04-.24.18-.52zm-3.24%2010.86q.52.54%201.26.54.74%200%201.22-.54.5-.54.5-1.18%200-.66-.48-1.22-.46-.56-1.26-.56-.8%200-1.28.56-.48.54-.48%201.2%200%20.66.52%201.2zm7.833-1.2q0-2.4%201.68-3.96%201.68-1.56%203.84-1.56%202.16%200%203.82%201.56%201.66%201.54%201.66%203.94%200%201.66-.86%202.96-.86%201.28-2.1%201.9-1.22.6-2.54.6-1.32%200-2.56-.64-1.24-.66-2.1-1.92-.84-1.28-.84-2.88zm4.18%201.44q.64.48%201.3.48.66%200%201.32-.5.66-.5.66-1.48%200-.98-.62-1.46-.62-.48-1.34-.48-.72%200-1.34.5-.62.5-.62%201.48%200%20.96.64%201.46zm11.412-1.44q0%20.84.56%201.32.56.46%201.18.46.64%200%201.18-.36.56-.38.9-.38.6%200%201.46%201.06.46.58.46%201.04%200%20.76-1.1%201.42-1.14.8-2.8.8-1.86%200-3.58-1.34-.82-.64-1.34-1.7-.52-1.08-.52-2.36%200-1.3.52-2.34.52-1.06%201.34-1.7%201.66-1.32%203.54-1.32.76%200%201.48.22.72.2%201.06.4l.32.2q.36.24.56.38.52.4.52.92%200%20.5-.42%201.14-.72%201.1-1.38%201.1-.38%200-1.08-.44-.36-.34-1.04-.34-.66%200-1.24.48-.58.48-.58%201.34z%22%20fill%3D%22green%22/%3E%3C/svg%3E"/>
+        </a>
+</div>
+    </nav>
+    <main class="pdoc">
+            <section class="module-info">
+                    <h1 class="modulename">
+<a href="./../../sciterra.html">sciterra</a><wbr>.<a href="./../vectorization.html">vectorization</a><wbr>.preprocessing    </h1>
+
+                        <div class="docstring"><p>Simple preprocessing of scientific abstracts prior to vectorization.</p>
+</div>
+
+                        <input id="mod-preprocessing-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
+
+                        <label class="view-source-button" for="mod-preprocessing-view-source"><span>View Source</span></label>
+
+                        <div class="pdoc-code codehilite"><pre><span></span><span id="L-1"><a href="#L-1"><span class="linenos"> 1</span></a><span class="sd">&quot;&quot;&quot;Simple preprocessing of scientific abstracts prior to vectorization.&quot;&quot;&quot;</span>
+</span><span id="L-2"><a href="#L-2"><span class="linenos"> 2</span></a>
+</span><span id="L-3"><a href="#L-3"><span class="linenos"> 3</span></a><span class="kn">import</span> <span class="nn">spacy</span>
+</span><span id="L-4"><a href="#L-4"><span class="linenos"> 4</span></a>
+</span><span id="L-5"><a href="#L-5"><span class="linenos"> 5</span></a><span class="n">nlp</span> <span class="o">=</span> <span class="n">spacy</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="s2">&quot;en_core_web_sm&quot;</span><span class="p">)</span>
+</span><span id="L-6"><a href="#L-6"><span class="linenos"> 6</span></a>
+</span><span id="L-7"><a href="#L-7"><span class="linenos"> 7</span></a><span class="c1"># Another off the shelf simple tokenizer</span>
+</span><span id="L-8"><a href="#L-8"><span class="linenos"> 8</span></a><span class="kn">from</span> <span class="nn">gensim.utils</span> <span class="kn">import</span> <span class="n">simple_preprocess</span>
+</span><span id="L-9"><a href="#L-9"><span class="linenos"> 9</span></a>
+</span><span id="L-10"><a href="#L-10"><span class="linenos">10</span></a>
+</span><span id="L-11"><a href="#L-11"><span class="linenos">11</span></a><span class="k">def</span> <span class="nf">custom_preprocess</span><span class="p">(</span>
+</span><span id="L-12"><a href="#L-12"><span class="linenos">12</span></a>    <span class="n">document</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+</span><span id="L-13"><a href="#L-13"><span class="linenos">13</span></a>    <span class="n">allowed_pos_tags</span><span class="p">:</span> <span class="nb">set</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;NOUN&quot;</span><span class="p">,</span> <span class="s2">&quot;VERB&quot;</span><span class="p">,</span> <span class="s2">&quot;ADJ&quot;</span><span class="p">},</span>
+</span><span id="L-14"><a href="#L-14"><span class="linenos">14</span></a><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]:</span>
+</span><span id="L-15"><a href="#L-15"><span class="linenos">15</span></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get all of the lemmas of the words in a document, filtering by POS.</span>
+</span><span id="L-16"><a href="#L-16"><span class="linenos">16</span></a>
+</span><span id="L-17"><a href="#L-17"><span class="linenos">17</span></a><span class="sd">    Args:</span>
+</span><span id="L-18"><a href="#L-18"><span class="linenos">18</span></a><span class="sd">        document: a multi-sentence string</span>
+</span><span id="L-19"><a href="#L-19"><span class="linenos">19</span></a>
+</span><span id="L-20"><a href="#L-20"><span class="linenos">20</span></a><span class="sd">        allowed_pos_tags: keep and lemmatize words that are tagged as one of these POS categories.</span>
+</span><span id="L-21"><a href="#L-21"><span class="linenos">21</span></a>
+</span><span id="L-22"><a href="#L-22"><span class="linenos">22</span></a><span class="sd">    Returns:</span>
+</span><span id="L-23"><a href="#L-23"><span class="linenos">23</span></a><span class="sd">        a list of the lemmatized, filtered words in the document</span>
+</span><span id="L-24"><a href="#L-24"><span class="linenos">24</span></a>
+</span><span id="L-25"><a href="#L-25"><span class="linenos">25</span></a><span class="sd">    Given the domain-specificity, we choose to heuristically stem instead of performing full, linguistically precise lemmatization that would require detailed vocabulary rules. That said, the nltk WordNet lemmatizer doesn&#39;t immediately seem to do better than basic stemming</span>
+</span><span id="L-26"><a href="#L-26"><span class="linenos">26</span></a>
+</span><span id="L-27"><a href="#L-27"><span class="linenos">27</span></a><span class="sd">    See https://github.com/zhafen/cc/blob/master/cc/utils.py#L173.</span>
+</span><span id="L-28"><a href="#L-28"><span class="linenos">28</span></a><span class="sd">    &quot;&quot;&quot;</span>
+</span><span id="L-29"><a href="#L-29"><span class="linenos">29</span></a>    <span class="k">return</span> <span class="p">[</span>
+</span><span id="L-30"><a href="#L-30"><span class="linenos">30</span></a>        <span class="n">token</span><span class="o">.</span><span class="n">lemma_</span>
+</span><span id="L-31"><a href="#L-31"><span class="linenos">31</span></a>        <span class="k">for</span> <span class="n">sent</span> <span class="ow">in</span> <span class="n">nlp</span><span class="p">(</span><span class="n">document</span><span class="p">)</span><span class="o">.</span><span class="n">sents</span>
+</span><span id="L-32"><a href="#L-32"><span class="linenos">32</span></a>        <span class="k">for</span> <span class="n">token</span> <span class="ow">in</span> <span class="n">sent</span>
+</span><span id="L-33"><a href="#L-33"><span class="linenos">33</span></a>        <span class="k">if</span> <span class="n">token</span><span class="o">.</span><span class="n">pos_</span> <span class="ow">in</span> <span class="n">allowed_pos_tags</span>
+</span><span id="L-34"><a href="#L-34"><span class="linenos">34</span></a>    <span class="p">]</span>
+</span></pre></div>
+
+
+            </section>
+                <section id="nlp">
+                    <div class="attr variable">
+            <span class="name">nlp</span>        =
+<span class="default_value">&lt;spacy.lang.en.English object&gt;</span>
+
+        
+    </div>
+    <a class="headerlink" href="#nlp"></a>
+    
+    
+
+                </section>
+                <section id="custom_preprocess">
+                            <input id="custom_preprocess-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
+<div class="attr function">
+            
+        <span class="def">def</span>
+        <span class="name">custom_preprocess</span><span class="signature pdoc-code multiline">(<span class="param">	<span class="n">document</span><span class="p">:</span> <span class="nb">str</span>,</span><span class="param">	<span class="n">allowed_pos_tags</span><span class="p">:</span> <span class="nb">set</span> <span class="o">=</span> <span class="p">{</span><span class="s1">&#39;VERB&#39;</span><span class="p">,</span> <span class="s1">&#39;NOUN&#39;</span><span class="p">,</span> <span class="s1">&#39;ADJ&#39;</span><span class="p">}</span></span><span class="return-annotation">) -> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span>:</span></span>
+
+                <label class="view-source-button" for="custom_preprocess-view-source"><span>View Source</span></label>
+
+    </div>
+    <a class="headerlink" href="#custom_preprocess"></a>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="custom_preprocess-12"><a href="#custom_preprocess-12"><span class="linenos">12</span></a><span class="k">def</span> <span class="nf">custom_preprocess</span><span class="p">(</span>
+</span><span id="custom_preprocess-13"><a href="#custom_preprocess-13"><span class="linenos">13</span></a>    <span class="n">document</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+</span><span id="custom_preprocess-14"><a href="#custom_preprocess-14"><span class="linenos">14</span></a>    <span class="n">allowed_pos_tags</span><span class="p">:</span> <span class="nb">set</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;NOUN&quot;</span><span class="p">,</span> <span class="s2">&quot;VERB&quot;</span><span class="p">,</span> <span class="s2">&quot;ADJ&quot;</span><span class="p">},</span>
+</span><span id="custom_preprocess-15"><a href="#custom_preprocess-15"><span class="linenos">15</span></a><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]:</span>
+</span><span id="custom_preprocess-16"><a href="#custom_preprocess-16"><span class="linenos">16</span></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get all of the lemmas of the words in a document, filtering by POS.</span>
+</span><span id="custom_preprocess-17"><a href="#custom_preprocess-17"><span class="linenos">17</span></a>
+</span><span id="custom_preprocess-18"><a href="#custom_preprocess-18"><span class="linenos">18</span></a><span class="sd">    Args:</span>
+</span><span id="custom_preprocess-19"><a href="#custom_preprocess-19"><span class="linenos">19</span></a><span class="sd">        document: a multi-sentence string</span>
+</span><span id="custom_preprocess-20"><a href="#custom_preprocess-20"><span class="linenos">20</span></a>
+</span><span id="custom_preprocess-21"><a href="#custom_preprocess-21"><span class="linenos">21</span></a><span class="sd">        allowed_pos_tags: keep and lemmatize words that are tagged as one of these POS categories.</span>
+</span><span id="custom_preprocess-22"><a href="#custom_preprocess-22"><span class="linenos">22</span></a>
+</span><span id="custom_preprocess-23"><a href="#custom_preprocess-23"><span class="linenos">23</span></a><span class="sd">    Returns:</span>
+</span><span id="custom_preprocess-24"><a href="#custom_preprocess-24"><span class="linenos">24</span></a><span class="sd">        a list of the lemmatized, filtered words in the document</span>
+</span><span id="custom_preprocess-25"><a href="#custom_preprocess-25"><span class="linenos">25</span></a>
+</span><span id="custom_preprocess-26"><a href="#custom_preprocess-26"><span class="linenos">26</span></a><span class="sd">    Given the domain-specificity, we choose to heuristically stem instead of performing full, linguistically precise lemmatization that would require detailed vocabulary rules. That said, the nltk WordNet lemmatizer doesn&#39;t immediately seem to do better than basic stemming</span>
+</span><span id="custom_preprocess-27"><a href="#custom_preprocess-27"><span class="linenos">27</span></a>
+</span><span id="custom_preprocess-28"><a href="#custom_preprocess-28"><span class="linenos">28</span></a><span class="sd">    See https://github.com/zhafen/cc/blob/master/cc/utils.py#L173.</span>
+</span><span id="custom_preprocess-29"><a href="#custom_preprocess-29"><span class="linenos">29</span></a><span class="sd">    &quot;&quot;&quot;</span>
+</span><span id="custom_preprocess-30"><a href="#custom_preprocess-30"><span class="linenos">30</span></a>    <span class="k">return</span> <span class="p">[</span>
+</span><span id="custom_preprocess-31"><a href="#custom_preprocess-31"><span class="linenos">31</span></a>        <span class="n">token</span><span class="o">.</span><span class="n">lemma_</span>
+</span><span id="custom_preprocess-32"><a href="#custom_preprocess-32"><span class="linenos">32</span></a>        <span class="k">for</span> <span class="n">sent</span> <span class="ow">in</span> <span class="n">nlp</span><span class="p">(</span><span class="n">document</span><span class="p">)</span><span class="o">.</span><span class="n">sents</span>
+</span><span id="custom_preprocess-33"><a href="#custom_preprocess-33"><span class="linenos">33</span></a>        <span class="k">for</span> <span class="n">token</span> <span class="ow">in</span> <span class="n">sent</span>
+</span><span id="custom_preprocess-34"><a href="#custom_preprocess-34"><span class="linenos">34</span></a>        <span class="k">if</span> <span class="n">token</span><span class="o">.</span><span class="n">pos_</span> <span class="ow">in</span> <span class="n">allowed_pos_tags</span>
+</span><span id="custom_preprocess-35"><a href="#custom_preprocess-35"><span class="linenos">35</span></a>    <span class="p">]</span>
+</span></pre></div>
+
+
+            <div class="docstring"><p>Get all of the lemmas of the words in a document, filtering by POS.</p>
+
+<h6 id="arguments">Arguments:</h6>
+
+<ul>
+<li><strong>document:</strong>  a multi-sentence string</li>
+<li><strong>allowed_pos_tags:</strong>  keep and lemmatize words that are tagged as one of these POS categories.</li>
+</ul>
+
+<h6 id="returns">Returns:</h6>
+
+<blockquote>
+  <p>a list of the lemmatized, filtered words in the document</p>
+</blockquote>
+
+<p>Given the domain-specificity, we choose to heuristically stem instead of performing full, linguistically precise lemmatization that would require detailed vocabulary rules. That said, the nltk WordNet lemmatizer doesn't immediately seem to do better than basic stemming</p>
+
+<p>See <a href="https://github.com/zhafen/cc/blob/master/cc/utils.py#L173">https://github.com/zhafen/cc/blob/master/cc/utils.py#L173</a>.</p>
+</div>
+
+
+                </section>
+    </main>
+<script>
+    function escapeHTML(html) {
+        return document.createElement('div').appendChild(document.createTextNode(html)).parentNode.innerHTML;
+    }
+
+    const originalContent = document.querySelector("main.pdoc");
+    let currentContent = originalContent;
+
+    function setContent(innerHTML) {
+        let elem;
+        if (innerHTML) {
+            elem = document.createElement("main");
+            elem.classList.add("pdoc");
+            elem.innerHTML = innerHTML;
+        } else {
+            elem = originalContent;
+        }
+        if (currentContent !== elem) {
+            currentContent.replaceWith(elem);
+            currentContent = elem;
+        }
+    }
+
+    function getSearchTerm() {
+        return (new URL(window.location)).searchParams.get("search");
+    }
+
+    const searchBox = document.querySelector(".pdoc input[type=search]");
+    searchBox.addEventListener("input", function () {
+        let url = new URL(window.location);
+        if (searchBox.value.trim()) {
+            url.hash = "";
+            url.searchParams.set("search", searchBox.value);
+        } else {
+            url.searchParams.delete("search");
+        }
+        history.replaceState("", "", url.toString());
+        onInput();
+    });
+    window.addEventListener("popstate", onInput);
+
+
+    let search, searchErr;
+
+    async function initialize() {
+        try {
+            search = await new Promise((resolve, reject) => {
+                const script = document.createElement("script");
+                script.type = "text/javascript";
+                script.async = true;
+                script.onload = () => resolve(window.pdocSearch);
+                script.onerror = (e) => reject(e);
+                script.src = "../../search.js";
+                document.getElementsByTagName("head")[0].appendChild(script);
+            });
+        } catch (e) {
+            console.error("Cannot fetch pdoc search index");
+            searchErr = "Cannot fetch search index.";
+        }
+        onInput();
+
+        document.querySelector("nav.pdoc").addEventListener("click", e => {
+            if (e.target.hash) {
+                searchBox.value = "";
+                searchBox.dispatchEvent(new Event("input"));
+            }
+        });
+    }
+
+    function onInput() {
+        setContent((() => {
+            const term = getSearchTerm();
+            if (!term) {
+                return null
+            }
+            if (searchErr) {
+                return `<h3>Error: ${searchErr}</h3>`
+            }
+            if (!search) {
+                return "<h3>Searching...</h3>"
+            }
+
+            window.scrollTo({top: 0, left: 0, behavior: 'auto'});
+
+            const results = search(term);
+
+            let html;
+            if (results.length === 0) {
+                html = `No search results for '${escapeHTML(term)}'.`
+            } else {
+                html = `<h4>${results.length} search result${results.length > 1 ? "s" : ""} for '${escapeHTML(term)}'.</h4>`;
+            }
+            for (let result of results.slice(0, 10)) {
+                let doc = result.doc;
+                let url = `../../${doc.modulename.replaceAll(".", "/")}.html`;
+                if (doc.qualname) {
+                    url += `#${doc.qualname}`;
+                }
+
+                let heading;
+                switch (result.doc.kind) {
+                    case "function":
+                        if (doc.fullname.endsWith(".__init__")) {
+                            heading = `<span class="name">${doc.fullname.replace(/\.__init__$/, "")}</span>${doc.signature}`;
+                        } else {
+                            heading = `<span class="def">${doc.funcdef}</span> <span class="name">${doc.fullname}</span>${doc.signature}`;
+                        }
+                        break;
+                    case "class":
+                        heading = `<span class="def">class</span> <span class="name">${doc.fullname}</span>`;
+                        if (doc.bases)
+                            heading += `<wbr>(<span class="base">${doc.bases}</span>)`;
+                        heading += `:`;
+                        break;
+                    case "variable":
+                        heading = `<span class="name">${doc.fullname}</span>`;
+                        if (doc.annotation)
+                            heading += `<span class="annotation">${doc.annotation}</span>`;
+                        if (doc.default_value)
+                            heading += `<span class="default_value"> = ${doc.default_value}</span>`;
+                        break;
+                    default:
+                        heading = `<span class="name">${doc.fullname}</span>`;
+                        break;
+                }
+                html += `
+                        <section class="search-result">
+                        <a href="${url}" class="attr ${doc.kind}">${heading}</a>
+                        <div class="docstring">${doc.doc}</div>
+                        </section>
+                    `;
+
+            }
+            return html;
+        })());
+    }
+
+    if (getSearchTerm()) {
+        initialize();
+        searchBox.value = getSearchTerm();
+        onInput();
+    } else {
+        searchBox.addEventListener("focus", initialize, {once: true});
+    }
+
+    searchBox.addEventListener("keydown", e => {
+        if (["ArrowDown", "ArrowUp", "Enter"].includes(e.key)) {
+            let focused = currentContent.querySelector(".search-result.focused");
+            if (!focused) {
+                currentContent.querySelector(".search-result").classList.add("focused");
+            } else if (
+                e.key === "ArrowDown"
+                && focused.nextElementSibling
+                && focused.nextElementSibling.classList.contains("search-result")
+            ) {
+                focused.classList.remove("focused");
+                focused.nextElementSibling.classList.add("focused");
+                focused.nextElementSibling.scrollIntoView({
+                    behavior: "smooth",
+                    block: "nearest",
+                    inline: "nearest"
+                });
+            } else if (
+                e.key === "ArrowUp"
+                && focused.previousElementSibling
+                && focused.previousElementSibling.classList.contains("search-result")
+            ) {
+                focused.classList.remove("focused");
+                focused.previousElementSibling.classList.add("focused");
+                focused.previousElementSibling.scrollIntoView({
+                    behavior: "smooth",
+                    block: "nearest",
+                    inline: "nearest"
+                });
+            } else if (
+                e.key === "Enter"
+            ) {
+                focused.querySelector("a").click();
+            }
+        }
+    });
+</script></body>
+</html>
\ No newline at end of file
diff --git a/docs/sciterra/vectorization/projection.html b/docs/sciterra/vectorization/projection.html
index 9aa33d3..862cae8 100644
--- a/docs/sciterra/vectorization/projection.html
+++ b/docs/sciterra/vectorization/projection.html
@@ -74,7 +74,7 @@ <h2>API Documentation</h2>
                                 <a class="function" href="#Projection.identifiers_to_embeddings">identifiers_to_embeddings</a>
                         </li>
                         <li>
-                                <a class="function" href="#Projection.identifier_to_embedding">identifier_to_embedding</a>
+                                <a class="function" href="#Projection.identifiers_to_indices">identifiers_to_indices</a>
                         </li>
                 </ul>
 
@@ -82,6 +82,9 @@ <h2>API Documentation</h2>
             <li>
                     <a class="function" href="#merge">merge</a>
             </li>
+            <li>
+                    <a class="function" href="#get_empty_projection">get_empty_projection</a>
+            </li>
     </ul>
 
 
@@ -103,97 +106,108 @@ <h1 class="modulename">
 
                         <label class="view-source-button" for="mod-projection-view-source"><span>View Source</span></label>
 
-                        <div class="pdoc-code codehilite"><pre><span></span><span id="L-1"><a href="#L-1"><span class="linenos"> 1</span></a><span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
-</span><span id="L-2"><a href="#L-2"><span class="linenos"> 2</span></a>
-</span><span id="L-3"><a href="#L-3"><span class="linenos"> 3</span></a>
-</span><span id="L-4"><a href="#L-4"><span class="linenos"> 4</span></a><span class="k">class</span> <span class="nc">Projection</span><span class="p">:</span>
-</span><span id="L-5"><a href="#L-5"><span class="linenos"> 5</span></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Basic wrapper for document embeddings and helper methods.&quot;&quot;&quot;</span>
-</span><span id="L-6"><a href="#L-6"><span class="linenos"> 6</span></a>
-</span><span id="L-7"><a href="#L-7"><span class="linenos"> 7</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
-</span><span id="L-8"><a href="#L-8"><span class="linenos"> 8</span></a>        <span class="bp">self</span><span class="p">,</span>
-</span><span id="L-9"><a href="#L-9"><span class="linenos"> 9</span></a>        <span class="n">identifier_to_index</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">int</span><span class="p">],</span>
-</span><span id="L-10"><a href="#L-10"><span class="linenos">10</span></a>        <span class="n">index_to_identifier</span><span class="p">:</span> <span class="nb">tuple</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span>
-</span><span id="L-11"><a href="#L-11"><span class="linenos">11</span></a>        <span class="n">embeddings</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span>
-</span><span id="L-12"><a href="#L-12"><span class="linenos">12</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="L-13"><a href="#L-13"><span class="linenos">13</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Construct a Projection object, a bidirectional mapping from identifiers to document embeddings.</span>
-</span><span id="L-14"><a href="#L-14"><span class="linenos">14</span></a>
-</span><span id="L-15"><a href="#L-15"><span class="linenos">15</span></a><span class="sd">        Args:</span>
-</span><span id="L-16"><a href="#L-16"><span class="linenos">16</span></a><span class="sd">            identifiers_to_indices: a map from Publication identifiers to indices in the embedding matrix.</span>
-</span><span id="L-17"><a href="#L-17"><span class="linenos">17</span></a>
-</span><span id="L-18"><a href="#L-18"><span class="linenos">18</span></a><span class="sd">            indices_to_identifiers: a map from embedding indices to Publication identifiers.</span>
-</span><span id="L-19"><a href="#L-19"><span class="linenos">19</span></a>
-</span><span id="L-20"><a href="#L-20"><span class="linenos">20</span></a><span class="sd">            embeddings: ndarray of document embeddings of shape `(num_pubs, embedding_dim)`</span>
-</span><span id="L-21"><a href="#L-21"><span class="linenos">21</span></a><span class="sd">        &quot;&quot;&quot;</span>
-</span><span id="L-22"><a href="#L-22"><span class="linenos">22</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">identifier_to_index</span> <span class="o">=</span> <span class="n">identifier_to_index</span>
-</span><span id="L-23"><a href="#L-23"><span class="linenos">23</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">index_to_identifier</span> <span class="o">=</span> <span class="n">index_to_identifier</span>
-</span><span id="L-24"><a href="#L-24"><span class="linenos">24</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">embeddings</span> <span class="o">=</span> <span class="n">embeddings</span>
-</span><span id="L-25"><a href="#L-25"><span class="linenos">25</span></a>
-</span><span id="L-26"><a href="#L-26"><span class="linenos">26</span></a>    <span class="k">def</span> <span class="nf">indices_to_identifiers</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">indices</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]:</span>
-</span><span id="L-27"><a href="#L-27"><span class="linenos">27</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Retrieve the identifiers for a list of embedding matrix indices.&quot;&quot;&quot;</span>
-</span><span id="L-28"><a href="#L-28"><span class="linenos">28</span></a>        <span class="k">return</span> <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">index_to_identifier</span><span class="p">[</span><span class="n">index</span><span class="p">]</span> <span class="k">for</span> <span class="n">index</span> <span class="ow">in</span> <span class="n">indices</span><span class="p">]</span>
-</span><span id="L-29"><a href="#L-29"><span class="linenos">29</span></a>
-</span><span id="L-30"><a href="#L-30"><span class="linenos">30</span></a>    <span class="k">def</span> <span class="nf">identifiers_to_embeddings</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">identifiers</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">])</span> <span class="o">-&gt;</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
-</span><span id="L-31"><a href="#L-31"><span class="linenos">31</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Retrieve the document embeddings for a list of identifiers.&quot;&quot;&quot;</span>
-</span><span id="L-32"><a href="#L-32"><span class="linenos">32</span></a>        <span class="k">return</span> <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">identifier_to_embedding</span><span class="p">(</span><span class="n">identifier</span><span class="p">)</span> <span class="k">for</span> <span class="n">identifier</span> <span class="ow">in</span> <span class="n">identifiers</span><span class="p">]</span>
-</span><span id="L-33"><a href="#L-33"><span class="linenos">33</span></a>
-</span><span id="L-34"><a href="#L-34"><span class="linenos">34</span></a>    <span class="k">def</span> <span class="nf">identifier_to_embedding</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">identifier</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
-</span><span id="L-35"><a href="#L-35"><span class="linenos">35</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Retrieve the document embedding of a Publication.&quot;&quot;&quot;</span>
-</span><span id="L-36"><a href="#L-36"><span class="linenos">36</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">embeddings</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">identifier_to_index</span><span class="p">[</span><span class="n">identifier</span><span class="p">]]</span>
-</span><span id="L-37"><a href="#L-37"><span class="linenos">37</span></a>
-</span><span id="L-38"><a href="#L-38"><span class="linenos">38</span></a>    <span class="k">def</span> <span class="fm">__len__</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">int</span><span class="p">:</span>
-</span><span id="L-39"><a href="#L-39"><span class="linenos">39</span></a>        <span class="k">return</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">identifier_to_index</span><span class="p">)</span>
-</span><span id="L-40"><a href="#L-40"><span class="linenos">40</span></a>
-</span><span id="L-41"><a href="#L-41"><span class="linenos">41</span></a>    <span class="k">def</span> <span class="fm">__eq__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">__value</span><span class="p">:</span> <span class="nb">object</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
-</span><span id="L-42"><a href="#L-42"><span class="linenos">42</span></a>        <span class="k">return</span> <span class="p">(</span>
-</span><span id="L-43"><a href="#L-43"><span class="linenos">43</span></a>            <span class="n">np</span><span class="o">.</span><span class="n">array_equal</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">embeddings</span><span class="p">,</span> <span class="n">__value</span><span class="o">.</span><span class="n">embeddings</span><span class="p">)</span>
-</span><span id="L-44"><a href="#L-44"><span class="linenos">44</span></a>            <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">identifier_to_index</span> <span class="o">==</span> <span class="n">__value</span><span class="o">.</span><span class="n">identifier_to_index</span>
-</span><span id="L-45"><a href="#L-45"><span class="linenos">45</span></a>            <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">index_to_identifier</span> <span class="o">==</span> <span class="n">__value</span><span class="o">.</span><span class="n">index_to_identifier</span>
-</span><span id="L-46"><a href="#L-46"><span class="linenos">46</span></a>        <span class="p">)</span>
-</span><span id="L-47"><a href="#L-47"><span class="linenos">47</span></a>
-</span><span id="L-48"><a href="#L-48"><span class="linenos">48</span></a>
-</span><span id="L-49"><a href="#L-49"><span class="linenos">49</span></a><span class="c1">######################################################################</span>
-</span><span id="L-50"><a href="#L-50"><span class="linenos">50</span></a><span class="c1"># Merge projections</span>
-</span><span id="L-51"><a href="#L-51"><span class="linenos">51</span></a><span class="c1">######################################################################</span>
-</span><span id="L-52"><a href="#L-52"><span class="linenos">52</span></a>
-</span><span id="L-53"><a href="#L-53"><span class="linenos">53</span></a>
-</span><span id="L-54"><a href="#L-54"><span class="linenos">54</span></a><span class="k">def</span> <span class="nf">merge</span><span class="p">(</span><span class="n">proj_a</span><span class="p">:</span> <span class="n">Projection</span><span class="p">,</span> <span class="n">proj_b</span><span class="p">:</span> <span class="n">Projection</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Projection</span><span class="p">:</span>
-</span><span id="L-55"><a href="#L-55"><span class="linenos">55</span></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Return the result of merging projection `proj_a` with projection `proj_b`.</span>
-</span><span id="L-56"><a href="#L-56"><span class="linenos">56</span></a>
-</span><span id="L-57"><a href="#L-57"><span class="linenos">57</span></a><span class="sd">    NOTE: This is not a symmetric operation: it adds all embedding data contained in proj_a that is missing from proj_b. This means that the resulting projection can only be greater or equal in size to proj_a.</span>
-</span><span id="L-58"><a href="#L-58"><span class="linenos">58</span></a><span class="sd">    &quot;&quot;&quot;</span>
-</span><span id="L-59"><a href="#L-59"><span class="linenos">59</span></a>    <span class="k">if</span> <span class="n">proj_b</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="ow">not</span> <span class="nb">len</span><span class="p">(</span><span class="n">proj_b</span><span class="p">):</span>
-</span><span id="L-60"><a href="#L-60"><span class="linenos">60</span></a>        <span class="k">return</span> <span class="n">proj_a</span>
-</span><span id="L-61"><a href="#L-61"><span class="linenos">61</span></a>
-</span><span id="L-62"><a href="#L-62"><span class="linenos">62</span></a>    <span class="c1"># Get the data in the new projection missing from the old</span>
-</span><span id="L-63"><a href="#L-63"><span class="linenos">63</span></a>    <span class="n">indices_missing</span> <span class="o">=</span> <span class="p">[]</span>
-</span><span id="L-64"><a href="#L-64"><span class="linenos">64</span></a>    <span class="n">identifiers_missing</span> <span class="o">=</span> <span class="p">[]</span>
-</span><span id="L-65"><a href="#L-65"><span class="linenos">65</span></a>    <span class="k">for</span> <span class="nb">id</span><span class="p">,</span> <span class="n">idx</span> <span class="ow">in</span> <span class="n">proj_b</span><span class="o">.</span><span class="n">identifier_to_index</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
-</span><span id="L-66"><a href="#L-66"><span class="linenos">66</span></a>        <span class="k">if</span> <span class="n">proj_a</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="nb">id</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">proj_a</span><span class="o">.</span><span class="n">identifier_to_index</span><span class="p">:</span>
-</span><span id="L-67"><a href="#L-67"><span class="linenos">67</span></a>            <span class="n">indices_missing</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">idx</span><span class="p">)</span>
-</span><span id="L-68"><a href="#L-68"><span class="linenos">68</span></a>            <span class="n">identifiers_missing</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="nb">id</span><span class="p">)</span>
-</span><span id="L-69"><a href="#L-69"><span class="linenos">69</span></a>
-</span><span id="L-70"><a href="#L-70"><span class="linenos">70</span></a>    <span class="c1"># Get just the missing embeddings</span>
-</span><span id="L-71"><a href="#L-71"><span class="linenos">71</span></a>    <span class="n">embeddings_missing</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
-</span><span id="L-72"><a href="#L-72"><span class="linenos">72</span></a>        <span class="p">[</span>
-</span><span id="L-73"><a href="#L-73"><span class="linenos">73</span></a>            <span class="n">embedding</span>
-</span><span id="L-74"><a href="#L-74"><span class="linenos">74</span></a>            <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">embedding</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">proj_b</span><span class="o">.</span><span class="n">embeddings</span><span class="p">)</span>
-</span><span id="L-75"><a href="#L-75"><span class="linenos">75</span></a>            <span class="k">if</span> <span class="n">idx</span> <span class="ow">in</span> <span class="nb">set</span><span class="p">(</span><span class="n">indices_missing</span><span class="p">)</span>
-</span><span id="L-76"><a href="#L-76"><span class="linenos">76</span></a>        <span class="p">]</span>
-</span><span id="L-77"><a href="#L-77"><span class="linenos">77</span></a>    <span class="p">)</span>
-</span><span id="L-78"><a href="#L-78"><span class="linenos">78</span></a>
-</span><span id="L-79"><a href="#L-79"><span class="linenos">79</span></a>    <span class="c1"># Concatenate index mapping and embeddings</span>
-</span><span id="L-80"><a href="#L-80"><span class="linenos">80</span></a>    <span class="n">idx_to_ids_new</span> <span class="o">=</span> <span class="n">identifiers_missing</span>
-</span><span id="L-81"><a href="#L-81"><span class="linenos">81</span></a>    <span class="n">embeddings_new</span> <span class="o">=</span> <span class="n">embeddings_missing</span>
-</span><span id="L-82"><a href="#L-82"><span class="linenos">82</span></a>    <span class="k">if</span> <span class="n">proj_a</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="L-83"><a href="#L-83"><span class="linenos">83</span></a>        <span class="n">idx_to_ids_new</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">proj_a</span><span class="o">.</span><span class="n">index_to_identifier</span><span class="p">)</span> <span class="o">+</span> <span class="n">idx_to_ids_new</span>
-</span><span id="L-84"><a href="#L-84"><span class="linenos">84</span></a>        <span class="n">embeddings_new</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span><span class="n">proj_a</span><span class="o">.</span><span class="n">embeddings</span><span class="p">,</span> <span class="n">embeddings_new</span><span class="p">)</span>
-</span><span id="L-85"><a href="#L-85"><span class="linenos">85</span></a>
-</span><span id="L-86"><a href="#L-86"><span class="linenos">86</span></a>    <span class="c1"># Return a new projection</span>
-</span><span id="L-87"><a href="#L-87"><span class="linenos">87</span></a>    <span class="k">return</span> <span class="n">Projection</span><span class="p">(</span>
-</span><span id="L-88"><a href="#L-88"><span class="linenos">88</span></a>        <span class="n">identifier_to_index</span><span class="o">=</span><span class="p">{</span><span class="nb">id</span><span class="p">:</span> <span class="n">idx</span> <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="nb">id</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">idx_to_ids_new</span><span class="p">)},</span>
-</span><span id="L-89"><a href="#L-89"><span class="linenos">89</span></a>        <span class="n">index_to_identifier</span><span class="o">=</span><span class="nb">tuple</span><span class="p">(</span><span class="n">idx_to_ids_new</span><span class="p">),</span>
-</span><span id="L-90"><a href="#L-90"><span class="linenos">90</span></a>        <span class="n">embeddings</span><span class="o">=</span><span class="n">embeddings_new</span><span class="p">,</span>
-</span><span id="L-91"><a href="#L-91"><span class="linenos">91</span></a>    <span class="p">)</span>
+                        <div class="pdoc-code codehilite"><pre><span></span><span id="L-1"><a href="#L-1"><span class="linenos">  1</span></a><span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
+</span><span id="L-2"><a href="#L-2"><span class="linenos">  2</span></a>
+</span><span id="L-3"><a href="#L-3"><span class="linenos">  3</span></a>
+</span><span id="L-4"><a href="#L-4"><span class="linenos">  4</span></a><span class="k">class</span> <span class="nc">Projection</span><span class="p">:</span>
+</span><span id="L-5"><a href="#L-5"><span class="linenos">  5</span></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Basic wrapper for document embeddings and helper methods.&quot;&quot;&quot;</span>
+</span><span id="L-6"><a href="#L-6"><span class="linenos">  6</span></a>
+</span><span id="L-7"><a href="#L-7"><span class="linenos">  7</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+</span><span id="L-8"><a href="#L-8"><span class="linenos">  8</span></a>        <span class="bp">self</span><span class="p">,</span>
+</span><span id="L-9"><a href="#L-9"><span class="linenos">  9</span></a>        <span class="n">identifier_to_index</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">int</span><span class="p">],</span>
+</span><span id="L-10"><a href="#L-10"><span class="linenos"> 10</span></a>        <span class="n">index_to_identifier</span><span class="p">:</span> <span class="nb">tuple</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span>
+</span><span id="L-11"><a href="#L-11"><span class="linenos"> 11</span></a>        <span class="n">embeddings</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span>
+</span><span id="L-12"><a href="#L-12"><span class="linenos"> 12</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="L-13"><a href="#L-13"><span class="linenos"> 13</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Construct a Projection object, a bidirectional mapping from identifiers to document embeddings.</span>
+</span><span id="L-14"><a href="#L-14"><span class="linenos"> 14</span></a>
+</span><span id="L-15"><a href="#L-15"><span class="linenos"> 15</span></a><span class="sd">        Args:</span>
+</span><span id="L-16"><a href="#L-16"><span class="linenos"> 16</span></a><span class="sd">            identifier_to_index: a dict mapping Publication identifiers to indices in the embedding matrix.</span>
+</span><span id="L-17"><a href="#L-17"><span class="linenos"> 17</span></a>
+</span><span id="L-18"><a href="#L-18"><span class="linenos"> 18</span></a><span class="sd">            index_to_identifier: a tuple mapping embedding indices to Publication identifiers.</span>
+</span><span id="L-19"><a href="#L-19"><span class="linenos"> 19</span></a>
+</span><span id="L-20"><a href="#L-20"><span class="linenos"> 20</span></a><span class="sd">            embeddings: ndarray of document embeddings of shape `(num_pubs, embedding_dim)`</span>
+</span><span id="L-21"><a href="#L-21"><span class="linenos"> 21</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="L-22"><a href="#L-22"><span class="linenos"> 22</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">identifier_to_index</span> <span class="o">=</span> <span class="n">identifier_to_index</span>
+</span><span id="L-23"><a href="#L-23"><span class="linenos"> 23</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">index_to_identifier</span> <span class="o">=</span> <span class="n">index_to_identifier</span>
+</span><span id="L-24"><a href="#L-24"><span class="linenos"> 24</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">embeddings</span> <span class="o">=</span> <span class="n">embeddings</span>
+</span><span id="L-25"><a href="#L-25"><span class="linenos"> 25</span></a>
+</span><span id="L-26"><a href="#L-26"><span class="linenos"> 26</span></a>    <span class="k">def</span> <span class="nf">indices_to_identifiers</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">indices</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]:</span>
+</span><span id="L-27"><a href="#L-27"><span class="linenos"> 27</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Retrieve the identifiers for a list of embedding matrix indices.&quot;&quot;&quot;</span>
+</span><span id="L-28"><a href="#L-28"><span class="linenos"> 28</span></a>        <span class="k">return</span> <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">index_to_identifier</span><span class="p">[</span><span class="n">index</span><span class="p">]</span> <span class="k">for</span> <span class="n">index</span> <span class="ow">in</span> <span class="n">indices</span><span class="p">]</span>
+</span><span id="L-29"><a href="#L-29"><span class="linenos"> 29</span></a>
+</span><span id="L-30"><a href="#L-30"><span class="linenos"> 30</span></a>    <span class="k">def</span> <span class="nf">identifiers_to_embeddings</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">identifiers</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">])</span> <span class="o">-&gt;</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+</span><span id="L-31"><a href="#L-31"><span class="linenos"> 31</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Retrieve the document embeddings for a list of identifiers.&quot;&quot;&quot;</span>
+</span><span id="L-32"><a href="#L-32"><span class="linenos"> 32</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">embeddings</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">identifiers_to_indices</span><span class="p">(</span><span class="n">identifiers</span><span class="p">)]</span>
+</span><span id="L-33"><a href="#L-33"><span class="linenos"> 33</span></a>
+</span><span id="L-34"><a href="#L-34"><span class="linenos"> 34</span></a>    <span class="k">def</span> <span class="nf">identifiers_to_indices</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">identifiers</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">])</span> <span class="o">-&gt;</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+</span><span id="L-35"><a href="#L-35"><span class="linenos"> 35</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Retrieve the embedding indices for a list of identifiers.&quot;&quot;&quot;</span>
+</span><span id="L-36"><a href="#L-36"><span class="linenos"> 36</span></a>        <span class="k">return</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+</span><span id="L-37"><a href="#L-37"><span class="linenos"> 37</span></a>            <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">identifier_to_index</span><span class="p">[</span><span class="n">identifier</span><span class="p">]</span> <span class="k">for</span> <span class="n">identifier</span> <span class="ow">in</span> <span class="n">identifiers</span><span class="p">]</span>
+</span><span id="L-38"><a href="#L-38"><span class="linenos"> 38</span></a>        <span class="p">)</span>
+</span><span id="L-39"><a href="#L-39"><span class="linenos"> 39</span></a>
+</span><span id="L-40"><a href="#L-40"><span class="linenos"> 40</span></a>    <span class="k">def</span> <span class="fm">__len__</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">int</span><span class="p">:</span>
+</span><span id="L-41"><a href="#L-41"><span class="linenos"> 41</span></a>        <span class="k">return</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">identifier_to_index</span><span class="p">)</span>
+</span><span id="L-42"><a href="#L-42"><span class="linenos"> 42</span></a>
+</span><span id="L-43"><a href="#L-43"><span class="linenos"> 43</span></a>    <span class="k">def</span> <span class="fm">__eq__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">__value</span><span class="p">:</span> <span class="nb">object</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
+</span><span id="L-44"><a href="#L-44"><span class="linenos"> 44</span></a>        <span class="k">return</span> <span class="p">(</span>
+</span><span id="L-45"><a href="#L-45"><span class="linenos"> 45</span></a>            <span class="n">np</span><span class="o">.</span><span class="n">array_equal</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">embeddings</span><span class="p">,</span> <span class="n">__value</span><span class="o">.</span><span class="n">embeddings</span><span class="p">)</span>
+</span><span id="L-46"><a href="#L-46"><span class="linenos"> 46</span></a>            <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">identifier_to_index</span> <span class="o">==</span> <span class="n">__value</span><span class="o">.</span><span class="n">identifier_to_index</span>
+</span><span id="L-47"><a href="#L-47"><span class="linenos"> 47</span></a>            <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">index_to_identifier</span> <span class="o">==</span> <span class="n">__value</span><span class="o">.</span><span class="n">index_to_identifier</span>
+</span><span id="L-48"><a href="#L-48"><span class="linenos"> 48</span></a>        <span class="p">)</span>
+</span><span id="L-49"><a href="#L-49"><span class="linenos"> 49</span></a>
+</span><span id="L-50"><a href="#L-50"><span class="linenos"> 50</span></a>
+</span><span id="L-51"><a href="#L-51"><span class="linenos"> 51</span></a><span class="c1">######################################################################</span>
+</span><span id="L-52"><a href="#L-52"><span class="linenos"> 52</span></a><span class="c1"># Merge projections</span>
+</span><span id="L-53"><a href="#L-53"><span class="linenos"> 53</span></a><span class="c1">######################################################################</span>
+</span><span id="L-54"><a href="#L-54"><span class="linenos"> 54</span></a>
+</span><span id="L-55"><a href="#L-55"><span class="linenos"> 55</span></a>
+</span><span id="L-56"><a href="#L-56"><span class="linenos"> 56</span></a><span class="k">def</span> <span class="nf">merge</span><span class="p">(</span><span class="n">proj_a</span><span class="p">:</span> <span class="n">Projection</span><span class="p">,</span> <span class="n">proj_b</span><span class="p">:</span> <span class="n">Projection</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Projection</span><span class="p">:</span>
+</span><span id="L-57"><a href="#L-57"><span class="linenos"> 57</span></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Return the result of merging projection `proj_a` with projection `proj_b`.</span>
+</span><span id="L-58"><a href="#L-58"><span class="linenos"> 58</span></a>
+</span><span id="L-59"><a href="#L-59"><span class="linenos"> 59</span></a><span class="sd">    This adds to proj_a all embedding data contained in proj_b that is missing from proj_a. This means that the resulting projection can only be greater or equal in size to proj_a.</span>
+</span><span id="L-60"><a href="#L-60"><span class="linenos"> 60</span></a><span class="sd">    &quot;&quot;&quot;</span>
+</span><span id="L-61"><a href="#L-61"><span class="linenos"> 61</span></a>    <span class="k">if</span> <span class="n">proj_b</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="ow">not</span> <span class="nb">len</span><span class="p">(</span><span class="n">proj_b</span><span class="p">):</span>
+</span><span id="L-62"><a href="#L-62"><span class="linenos"> 62</span></a>        <span class="k">return</span> <span class="n">proj_a</span>
+</span><span id="L-63"><a href="#L-63"><span class="linenos"> 63</span></a>
+</span><span id="L-64"><a href="#L-64"><span class="linenos"> 64</span></a>    <span class="c1"># Get the data in the new projection missing from the old</span>
+</span><span id="L-65"><a href="#L-65"><span class="linenos"> 65</span></a>    <span class="n">indices_missing</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="L-66"><a href="#L-66"><span class="linenos"> 66</span></a>    <span class="n">identifiers_missing</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="L-67"><a href="#L-67"><span class="linenos"> 67</span></a>    <span class="k">for</span> <span class="nb">id</span><span class="p">,</span> <span class="n">idx</span> <span class="ow">in</span> <span class="n">proj_b</span><span class="o">.</span><span class="n">identifier_to_index</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+</span><span id="L-68"><a href="#L-68"><span class="linenos"> 68</span></a>        <span class="k">if</span> <span class="n">proj_a</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="nb">id</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">proj_a</span><span class="o">.</span><span class="n">identifier_to_index</span><span class="p">:</span>
+</span><span id="L-69"><a href="#L-69"><span class="linenos"> 69</span></a>            <span class="n">indices_missing</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">idx</span><span class="p">)</span>
+</span><span id="L-70"><a href="#L-70"><span class="linenos"> 70</span></a>            <span class="n">identifiers_missing</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="nb">id</span><span class="p">)</span>
+</span><span id="L-71"><a href="#L-71"><span class="linenos"> 71</span></a>
+</span><span id="L-72"><a href="#L-72"><span class="linenos"> 72</span></a>    <span class="c1"># Get just the missing embeddings</span>
+</span><span id="L-73"><a href="#L-73"><span class="linenos"> 73</span></a>    <span class="n">embeddings_missing</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+</span><span id="L-74"><a href="#L-74"><span class="linenos"> 74</span></a>        <span class="p">[</span>
+</span><span id="L-75"><a href="#L-75"><span class="linenos"> 75</span></a>            <span class="n">embedding</span>
+</span><span id="L-76"><a href="#L-76"><span class="linenos"> 76</span></a>            <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">embedding</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">proj_b</span><span class="o">.</span><span class="n">embeddings</span><span class="p">)</span>
+</span><span id="L-77"><a href="#L-77"><span class="linenos"> 77</span></a>            <span class="k">if</span> <span class="n">idx</span> <span class="ow">in</span> <span class="nb">set</span><span class="p">(</span><span class="n">indices_missing</span><span class="p">)</span>
+</span><span id="L-78"><a href="#L-78"><span class="linenos"> 78</span></a>        <span class="p">]</span>
+</span><span id="L-79"><a href="#L-79"><span class="linenos"> 79</span></a>    <span class="p">)</span>
+</span><span id="L-80"><a href="#L-80"><span class="linenos"> 80</span></a>
+</span><span id="L-81"><a href="#L-81"><span class="linenos"> 81</span></a>    <span class="c1"># Concatenate index mapping and embeddings</span>
+</span><span id="L-82"><a href="#L-82"><span class="linenos"> 82</span></a>    <span class="n">idx_to_ids_new</span> <span class="o">=</span> <span class="n">identifiers_missing</span>
+</span><span id="L-83"><a href="#L-83"><span class="linenos"> 83</span></a>    <span class="n">embeddings_new</span> <span class="o">=</span> <span class="n">embeddings_missing</span>
+</span><span id="L-84"><a href="#L-84"><span class="linenos"> 84</span></a>    <span class="k">if</span> <span class="n">proj_a</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="L-85"><a href="#L-85"><span class="linenos"> 85</span></a>        <span class="n">idx_to_ids_new</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">proj_a</span><span class="o">.</span><span class="n">index_to_identifier</span><span class="p">)</span> <span class="o">+</span> <span class="n">idx_to_ids_new</span>
+</span><span id="L-86"><a href="#L-86"><span class="linenos"> 86</span></a>        <span class="n">embeddings_new</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">concatenate</span><span class="p">([</span><span class="n">proj_a</span><span class="o">.</span><span class="n">embeddings</span><span class="p">,</span> <span class="n">embeddings_new</span><span class="p">])</span>
+</span><span id="L-87"><a href="#L-87"><span class="linenos"> 87</span></a>
+</span><span id="L-88"><a href="#L-88"><span class="linenos"> 88</span></a>    <span class="c1"># Return a new projection</span>
+</span><span id="L-89"><a href="#L-89"><span class="linenos"> 89</span></a>    <span class="k">return</span> <span class="n">Projection</span><span class="p">(</span>
+</span><span id="L-90"><a href="#L-90"><span class="linenos"> 90</span></a>        <span class="n">identifier_to_index</span><span class="o">=</span><span class="p">{</span><span class="nb">id</span><span class="p">:</span> <span class="n">idx</span> <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="nb">id</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">idx_to_ids_new</span><span class="p">)},</span>
+</span><span id="L-91"><a href="#L-91"><span class="linenos"> 91</span></a>        <span class="n">index_to_identifier</span><span class="o">=</span><span class="nb">tuple</span><span class="p">(</span><span class="n">idx_to_ids_new</span><span class="p">),</span>
+</span><span id="L-92"><a href="#L-92"><span class="linenos"> 92</span></a>        <span class="n">embeddings</span><span class="o">=</span><span class="n">embeddings_new</span><span class="p">,</span>
+</span><span id="L-93"><a href="#L-93"><span class="linenos"> 93</span></a>    <span class="p">)</span>
+</span><span id="L-94"><a href="#L-94"><span class="linenos"> 94</span></a>
+</span><span id="L-95"><a href="#L-95"><span class="linenos"> 95</span></a>
+</span><span id="L-96"><a href="#L-96"><span class="linenos"> 96</span></a><span class="k">def</span> <span class="nf">get_empty_projection</span><span class="p">()</span> <span class="o">-&gt;</span> <span class="n">Projection</span><span class="p">:</span>
+</span><span id="L-97"><a href="#L-97"><span class="linenos"> 97</span></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Construct a Projection with no data (but is not None).&quot;&quot;&quot;</span>
+</span><span id="L-98"><a href="#L-98"><span class="linenos"> 98</span></a>    <span class="k">return</span> <span class="n">Projection</span><span class="p">(</span>
+</span><span id="L-99"><a href="#L-99"><span class="linenos"> 99</span></a>        <span class="n">identifier_to_index</span><span class="o">=</span><span class="p">{},</span>
+</span><span id="L-100"><a href="#L-100"><span class="linenos">100</span></a>        <span class="n">index_to_identifier</span><span class="o">=</span><span class="p">(),</span>
+</span><span id="L-101"><a href="#L-101"><span class="linenos">101</span></a>        <span class="n">embeddings</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([[]]),</span>  <span class="c1"># 2D</span>
+</span><span id="L-102"><a href="#L-102"><span class="linenos">102</span></a>    <span class="p">)</span>
 </span></pre></div>
 
 
@@ -221,9 +235,9 @@ <h1 class="modulename">
 </span><span id="Projection-14"><a href="#Projection-14"><span class="linenos">14</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Construct a Projection object, a bidirectional mapping from identifiers to document embeddings.</span>
 </span><span id="Projection-15"><a href="#Projection-15"><span class="linenos">15</span></a>
 </span><span id="Projection-16"><a href="#Projection-16"><span class="linenos">16</span></a><span class="sd">        Args:</span>
-</span><span id="Projection-17"><a href="#Projection-17"><span class="linenos">17</span></a><span class="sd">            identifiers_to_indices: a map from Publication identifiers to indices in the embedding matrix.</span>
+</span><span id="Projection-17"><a href="#Projection-17"><span class="linenos">17</span></a><span class="sd">            identifier_to_index: a dict mapping Publication identifiers to indices in the embedding matrix.</span>
 </span><span id="Projection-18"><a href="#Projection-18"><span class="linenos">18</span></a>
-</span><span id="Projection-19"><a href="#Projection-19"><span class="linenos">19</span></a><span class="sd">            indices_to_identifiers: a map from embedding indices to Publication identifiers.</span>
+</span><span id="Projection-19"><a href="#Projection-19"><span class="linenos">19</span></a><span class="sd">            index_to_identifier: a tuple mapping embedding indices to Publication identifiers.</span>
 </span><span id="Projection-20"><a href="#Projection-20"><span class="linenos">20</span></a>
 </span><span id="Projection-21"><a href="#Projection-21"><span class="linenos">21</span></a><span class="sd">            embeddings: ndarray of document embeddings of shape `(num_pubs, embedding_dim)`</span>
 </span><span id="Projection-22"><a href="#Projection-22"><span class="linenos">22</span></a><span class="sd">        &quot;&quot;&quot;</span>
@@ -237,21 +251,23 @@ <h1 class="modulename">
 </span><span id="Projection-30"><a href="#Projection-30"><span class="linenos">30</span></a>
 </span><span id="Projection-31"><a href="#Projection-31"><span class="linenos">31</span></a>    <span class="k">def</span> <span class="nf">identifiers_to_embeddings</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">identifiers</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">])</span> <span class="o">-&gt;</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
 </span><span id="Projection-32"><a href="#Projection-32"><span class="linenos">32</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Retrieve the document embeddings for a list of identifiers.&quot;&quot;&quot;</span>
-</span><span id="Projection-33"><a href="#Projection-33"><span class="linenos">33</span></a>        <span class="k">return</span> <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">identifier_to_embedding</span><span class="p">(</span><span class="n">identifier</span><span class="p">)</span> <span class="k">for</span> <span class="n">identifier</span> <span class="ow">in</span> <span class="n">identifiers</span><span class="p">]</span>
+</span><span id="Projection-33"><a href="#Projection-33"><span class="linenos">33</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">embeddings</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">identifiers_to_indices</span><span class="p">(</span><span class="n">identifiers</span><span class="p">)]</span>
 </span><span id="Projection-34"><a href="#Projection-34"><span class="linenos">34</span></a>
-</span><span id="Projection-35"><a href="#Projection-35"><span class="linenos">35</span></a>    <span class="k">def</span> <span class="nf">identifier_to_embedding</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">identifier</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
-</span><span id="Projection-36"><a href="#Projection-36"><span class="linenos">36</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Retrieve the document embedding of a Publication.&quot;&quot;&quot;</span>
-</span><span id="Projection-37"><a href="#Projection-37"><span class="linenos">37</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">embeddings</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">identifier_to_index</span><span class="p">[</span><span class="n">identifier</span><span class="p">]]</span>
-</span><span id="Projection-38"><a href="#Projection-38"><span class="linenos">38</span></a>
-</span><span id="Projection-39"><a href="#Projection-39"><span class="linenos">39</span></a>    <span class="k">def</span> <span class="fm">__len__</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">int</span><span class="p">:</span>
-</span><span id="Projection-40"><a href="#Projection-40"><span class="linenos">40</span></a>        <span class="k">return</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">identifier_to_index</span><span class="p">)</span>
-</span><span id="Projection-41"><a href="#Projection-41"><span class="linenos">41</span></a>
-</span><span id="Projection-42"><a href="#Projection-42"><span class="linenos">42</span></a>    <span class="k">def</span> <span class="fm">__eq__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">__value</span><span class="p">:</span> <span class="nb">object</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
-</span><span id="Projection-43"><a href="#Projection-43"><span class="linenos">43</span></a>        <span class="k">return</span> <span class="p">(</span>
-</span><span id="Projection-44"><a href="#Projection-44"><span class="linenos">44</span></a>            <span class="n">np</span><span class="o">.</span><span class="n">array_equal</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">embeddings</span><span class="p">,</span> <span class="n">__value</span><span class="o">.</span><span class="n">embeddings</span><span class="p">)</span>
-</span><span id="Projection-45"><a href="#Projection-45"><span class="linenos">45</span></a>            <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">identifier_to_index</span> <span class="o">==</span> <span class="n">__value</span><span class="o">.</span><span class="n">identifier_to_index</span>
-</span><span id="Projection-46"><a href="#Projection-46"><span class="linenos">46</span></a>            <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">index_to_identifier</span> <span class="o">==</span> <span class="n">__value</span><span class="o">.</span><span class="n">index_to_identifier</span>
-</span><span id="Projection-47"><a href="#Projection-47"><span class="linenos">47</span></a>        <span class="p">)</span>
+</span><span id="Projection-35"><a href="#Projection-35"><span class="linenos">35</span></a>    <span class="k">def</span> <span class="nf">identifiers_to_indices</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">identifiers</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">])</span> <span class="o">-&gt;</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+</span><span id="Projection-36"><a href="#Projection-36"><span class="linenos">36</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Retrieve the embedding indices for a list of identifiers.&quot;&quot;&quot;</span>
+</span><span id="Projection-37"><a href="#Projection-37"><span class="linenos">37</span></a>        <span class="k">return</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+</span><span id="Projection-38"><a href="#Projection-38"><span class="linenos">38</span></a>            <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">identifier_to_index</span><span class="p">[</span><span class="n">identifier</span><span class="p">]</span> <span class="k">for</span> <span class="n">identifier</span> <span class="ow">in</span> <span class="n">identifiers</span><span class="p">]</span>
+</span><span id="Projection-39"><a href="#Projection-39"><span class="linenos">39</span></a>        <span class="p">)</span>
+</span><span id="Projection-40"><a href="#Projection-40"><span class="linenos">40</span></a>
+</span><span id="Projection-41"><a href="#Projection-41"><span class="linenos">41</span></a>    <span class="k">def</span> <span class="fm">__len__</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">int</span><span class="p">:</span>
+</span><span id="Projection-42"><a href="#Projection-42"><span class="linenos">42</span></a>        <span class="k">return</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">identifier_to_index</span><span class="p">)</span>
+</span><span id="Projection-43"><a href="#Projection-43"><span class="linenos">43</span></a>
+</span><span id="Projection-44"><a href="#Projection-44"><span class="linenos">44</span></a>    <span class="k">def</span> <span class="fm">__eq__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">__value</span><span class="p">:</span> <span class="nb">object</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
+</span><span id="Projection-45"><a href="#Projection-45"><span class="linenos">45</span></a>        <span class="k">return</span> <span class="p">(</span>
+</span><span id="Projection-46"><a href="#Projection-46"><span class="linenos">46</span></a>            <span class="n">np</span><span class="o">.</span><span class="n">array_equal</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">embeddings</span><span class="p">,</span> <span class="n">__value</span><span class="o">.</span><span class="n">embeddings</span><span class="p">)</span>
+</span><span id="Projection-47"><a href="#Projection-47"><span class="linenos">47</span></a>            <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">identifier_to_index</span> <span class="o">==</span> <span class="n">__value</span><span class="o">.</span><span class="n">identifier_to_index</span>
+</span><span id="Projection-48"><a href="#Projection-48"><span class="linenos">48</span></a>            <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">index_to_identifier</span> <span class="o">==</span> <span class="n">__value</span><span class="o">.</span><span class="n">index_to_identifier</span>
+</span><span id="Projection-49"><a href="#Projection-49"><span class="linenos">49</span></a>        <span class="p">)</span>
 </span></pre></div>
 
 
@@ -278,9 +294,9 @@ <h1 class="modulename">
 </span><span id="Projection.__init__-14"><a href="#Projection.__init__-14"><span class="linenos">14</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Construct a Projection object, a bidirectional mapping from identifiers to document embeddings.</span>
 </span><span id="Projection.__init__-15"><a href="#Projection.__init__-15"><span class="linenos">15</span></a>
 </span><span id="Projection.__init__-16"><a href="#Projection.__init__-16"><span class="linenos">16</span></a><span class="sd">        Args:</span>
-</span><span id="Projection.__init__-17"><a href="#Projection.__init__-17"><span class="linenos">17</span></a><span class="sd">            identifiers_to_indices: a map from Publication identifiers to indices in the embedding matrix.</span>
+</span><span id="Projection.__init__-17"><a href="#Projection.__init__-17"><span class="linenos">17</span></a><span class="sd">            identifier_to_index: a dict mapping Publication identifiers to indices in the embedding matrix.</span>
 </span><span id="Projection.__init__-18"><a href="#Projection.__init__-18"><span class="linenos">18</span></a>
-</span><span id="Projection.__init__-19"><a href="#Projection.__init__-19"><span class="linenos">19</span></a><span class="sd">            indices_to_identifiers: a map from embedding indices to Publication identifiers.</span>
+</span><span id="Projection.__init__-19"><a href="#Projection.__init__-19"><span class="linenos">19</span></a><span class="sd">            index_to_identifier: a tuple mapping embedding indices to Publication identifiers.</span>
 </span><span id="Projection.__init__-20"><a href="#Projection.__init__-20"><span class="linenos">20</span></a>
 </span><span id="Projection.__init__-21"><a href="#Projection.__init__-21"><span class="linenos">21</span></a><span class="sd">            embeddings: ndarray of document embeddings of shape `(num_pubs, embedding_dim)`</span>
 </span><span id="Projection.__init__-22"><a href="#Projection.__init__-22"><span class="linenos">22</span></a><span class="sd">        &quot;&quot;&quot;</span>
@@ -295,8 +311,8 @@ <h1 class="modulename">
 <h6 id="arguments">Arguments:</h6>
 
 <ul>
-<li><strong>identifiers_to_indices:</strong>  a map from Publication identifiers to indices in the embedding matrix.</li>
-<li><strong>indices_to_identifiers:</strong>  a map from embedding indices to Publication identifiers.</li>
+<li><strong>identifier_to_index:</strong>  a dict mapping Publication identifiers to indices in the embedding matrix.</li>
+<li><strong>index_to_identifier:</strong>  a tuple mapping embedding indices to Publication identifiers.</li>
 <li><strong>embeddings:</strong>  ndarray of document embeddings of shape <code>(num_pubs, embedding_dim)</code></li>
 </ul>
 </div>
@@ -371,7 +387,7 @@ <h6 id="arguments">Arguments:</h6>
     <a class="headerlink" href="#Projection.identifiers_to_embeddings"></a>
             <div class="pdoc-code codehilite"><pre><span></span><span id="Projection.identifiers_to_embeddings-31"><a href="#Projection.identifiers_to_embeddings-31"><span class="linenos">31</span></a>    <span class="k">def</span> <span class="nf">identifiers_to_embeddings</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">identifiers</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">])</span> <span class="o">-&gt;</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
 </span><span id="Projection.identifiers_to_embeddings-32"><a href="#Projection.identifiers_to_embeddings-32"><span class="linenos">32</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Retrieve the document embeddings for a list of identifiers.&quot;&quot;&quot;</span>
-</span><span id="Projection.identifiers_to_embeddings-33"><a href="#Projection.identifiers_to_embeddings-33"><span class="linenos">33</span></a>        <span class="k">return</span> <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">identifier_to_embedding</span><span class="p">(</span><span class="n">identifier</span><span class="p">)</span> <span class="k">for</span> <span class="n">identifier</span> <span class="ow">in</span> <span class="n">identifiers</span><span class="p">]</span>
+</span><span id="Projection.identifiers_to_embeddings-33"><a href="#Projection.identifiers_to_embeddings-33"><span class="linenos">33</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">embeddings</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">identifiers_to_indices</span><span class="p">(</span><span class="n">identifiers</span><span class="p">)]</span>
 </span></pre></div>
 
 
@@ -380,24 +396,26 @@ <h6 id="arguments">Arguments:</h6>
 
 
                             </div>
-                            <div id="Projection.identifier_to_embedding" class="classattr">
-                                        <input id="Projection.identifier_to_embedding-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
+                            <div id="Projection.identifiers_to_indices" class="classattr">
+                                        <input id="Projection.identifiers_to_indices-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
 <div class="attr function">
             
         <span class="def">def</span>
-        <span class="name">identifier_to_embedding</span><span class="signature pdoc-code condensed">(<span class="param"><span class="bp">self</span>, </span><span class="param"><span class="n">identifier</span><span class="p">:</span> <span class="nb">str</span></span><span class="return-annotation">) -> <span class="n">numpy</span><span class="o">.</span><span class="n">ndarray</span>:</span></span>
+        <span class="name">identifiers_to_indices</span><span class="signature pdoc-code condensed">(<span class="param"><span class="bp">self</span>, </span><span class="param"><span class="n">identifiers</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span></span><span class="return-annotation">) -> <span class="n">numpy</span><span class="o">.</span><span class="n">ndarray</span>:</span></span>
 
-                <label class="view-source-button" for="Projection.identifier_to_embedding-view-source"><span>View Source</span></label>
+                <label class="view-source-button" for="Projection.identifiers_to_indices-view-source"><span>View Source</span></label>
 
     </div>
-    <a class="headerlink" href="#Projection.identifier_to_embedding"></a>
-            <div class="pdoc-code codehilite"><pre><span></span><span id="Projection.identifier_to_embedding-35"><a href="#Projection.identifier_to_embedding-35"><span class="linenos">35</span></a>    <span class="k">def</span> <span class="nf">identifier_to_embedding</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">identifier</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
-</span><span id="Projection.identifier_to_embedding-36"><a href="#Projection.identifier_to_embedding-36"><span class="linenos">36</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Retrieve the document embedding of a Publication.&quot;&quot;&quot;</span>
-</span><span id="Projection.identifier_to_embedding-37"><a href="#Projection.identifier_to_embedding-37"><span class="linenos">37</span></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">embeddings</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">identifier_to_index</span><span class="p">[</span><span class="n">identifier</span><span class="p">]]</span>
+    <a class="headerlink" href="#Projection.identifiers_to_indices"></a>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="Projection.identifiers_to_indices-35"><a href="#Projection.identifiers_to_indices-35"><span class="linenos">35</span></a>    <span class="k">def</span> <span class="nf">identifiers_to_indices</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">identifiers</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">])</span> <span class="o">-&gt;</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+</span><span id="Projection.identifiers_to_indices-36"><a href="#Projection.identifiers_to_indices-36"><span class="linenos">36</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Retrieve the embedding indices for a list of identifiers.&quot;&quot;&quot;</span>
+</span><span id="Projection.identifiers_to_indices-37"><a href="#Projection.identifiers_to_indices-37"><span class="linenos">37</span></a>        <span class="k">return</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+</span><span id="Projection.identifiers_to_indices-38"><a href="#Projection.identifiers_to_indices-38"><span class="linenos">38</span></a>            <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">identifier_to_index</span><span class="p">[</span><span class="n">identifier</span><span class="p">]</span> <span class="k">for</span> <span class="n">identifier</span> <span class="ow">in</span> <span class="n">identifiers</span><span class="p">]</span>
+</span><span id="Projection.identifiers_to_indices-39"><a href="#Projection.identifiers_to_indices-39"><span class="linenos">39</span></a>        <span class="p">)</span>
 </span></pre></div>
 
 
-            <div class="docstring"><p>Retrieve the document embedding of a Publication.</p>
+            <div class="docstring"><p>Retrieve the embedding indices for a list of identifiers.</p>
 </div>
 
 
@@ -414,50 +432,76 @@ <h6 id="arguments">Arguments:</h6>
 
     </div>
     <a class="headerlink" href="#merge"></a>
-            <div class="pdoc-code codehilite"><pre><span></span><span id="merge-55"><a href="#merge-55"><span class="linenos">55</span></a><span class="k">def</span> <span class="nf">merge</span><span class="p">(</span><span class="n">proj_a</span><span class="p">:</span> <span class="n">Projection</span><span class="p">,</span> <span class="n">proj_b</span><span class="p">:</span> <span class="n">Projection</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Projection</span><span class="p">:</span>
-</span><span id="merge-56"><a href="#merge-56"><span class="linenos">56</span></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Return the result of merging projection `proj_a` with projection `proj_b`.</span>
-</span><span id="merge-57"><a href="#merge-57"><span class="linenos">57</span></a>
-</span><span id="merge-58"><a href="#merge-58"><span class="linenos">58</span></a><span class="sd">    NOTE: This is not a symmetric operation: it adds all embedding data contained in proj_a that is missing from proj_b. This means that the resulting projection can only be greater or equal in size to proj_a.</span>
-</span><span id="merge-59"><a href="#merge-59"><span class="linenos">59</span></a><span class="sd">    &quot;&quot;&quot;</span>
-</span><span id="merge-60"><a href="#merge-60"><span class="linenos">60</span></a>    <span class="k">if</span> <span class="n">proj_b</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="ow">not</span> <span class="nb">len</span><span class="p">(</span><span class="n">proj_b</span><span class="p">):</span>
-</span><span id="merge-61"><a href="#merge-61"><span class="linenos">61</span></a>        <span class="k">return</span> <span class="n">proj_a</span>
-</span><span id="merge-62"><a href="#merge-62"><span class="linenos">62</span></a>
-</span><span id="merge-63"><a href="#merge-63"><span class="linenos">63</span></a>    <span class="c1"># Get the data in the new projection missing from the old</span>
-</span><span id="merge-64"><a href="#merge-64"><span class="linenos">64</span></a>    <span class="n">indices_missing</span> <span class="o">=</span> <span class="p">[]</span>
-</span><span id="merge-65"><a href="#merge-65"><span class="linenos">65</span></a>    <span class="n">identifiers_missing</span> <span class="o">=</span> <span class="p">[]</span>
-</span><span id="merge-66"><a href="#merge-66"><span class="linenos">66</span></a>    <span class="k">for</span> <span class="nb">id</span><span class="p">,</span> <span class="n">idx</span> <span class="ow">in</span> <span class="n">proj_b</span><span class="o">.</span><span class="n">identifier_to_index</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
-</span><span id="merge-67"><a href="#merge-67"><span class="linenos">67</span></a>        <span class="k">if</span> <span class="n">proj_a</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="nb">id</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">proj_a</span><span class="o">.</span><span class="n">identifier_to_index</span><span class="p">:</span>
-</span><span id="merge-68"><a href="#merge-68"><span class="linenos">68</span></a>            <span class="n">indices_missing</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">idx</span><span class="p">)</span>
-</span><span id="merge-69"><a href="#merge-69"><span class="linenos">69</span></a>            <span class="n">identifiers_missing</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="nb">id</span><span class="p">)</span>
-</span><span id="merge-70"><a href="#merge-70"><span class="linenos">70</span></a>
-</span><span id="merge-71"><a href="#merge-71"><span class="linenos">71</span></a>    <span class="c1"># Get just the missing embeddings</span>
-</span><span id="merge-72"><a href="#merge-72"><span class="linenos">72</span></a>    <span class="n">embeddings_missing</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
-</span><span id="merge-73"><a href="#merge-73"><span class="linenos">73</span></a>        <span class="p">[</span>
-</span><span id="merge-74"><a href="#merge-74"><span class="linenos">74</span></a>            <span class="n">embedding</span>
-</span><span id="merge-75"><a href="#merge-75"><span class="linenos">75</span></a>            <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">embedding</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">proj_b</span><span class="o">.</span><span class="n">embeddings</span><span class="p">)</span>
-</span><span id="merge-76"><a href="#merge-76"><span class="linenos">76</span></a>            <span class="k">if</span> <span class="n">idx</span> <span class="ow">in</span> <span class="nb">set</span><span class="p">(</span><span class="n">indices_missing</span><span class="p">)</span>
-</span><span id="merge-77"><a href="#merge-77"><span class="linenos">77</span></a>        <span class="p">]</span>
-</span><span id="merge-78"><a href="#merge-78"><span class="linenos">78</span></a>    <span class="p">)</span>
-</span><span id="merge-79"><a href="#merge-79"><span class="linenos">79</span></a>
-</span><span id="merge-80"><a href="#merge-80"><span class="linenos">80</span></a>    <span class="c1"># Concatenate index mapping and embeddings</span>
-</span><span id="merge-81"><a href="#merge-81"><span class="linenos">81</span></a>    <span class="n">idx_to_ids_new</span> <span class="o">=</span> <span class="n">identifiers_missing</span>
-</span><span id="merge-82"><a href="#merge-82"><span class="linenos">82</span></a>    <span class="n">embeddings_new</span> <span class="o">=</span> <span class="n">embeddings_missing</span>
-</span><span id="merge-83"><a href="#merge-83"><span class="linenos">83</span></a>    <span class="k">if</span> <span class="n">proj_a</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="merge-84"><a href="#merge-84"><span class="linenos">84</span></a>        <span class="n">idx_to_ids_new</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">proj_a</span><span class="o">.</span><span class="n">index_to_identifier</span><span class="p">)</span> <span class="o">+</span> <span class="n">idx_to_ids_new</span>
-</span><span id="merge-85"><a href="#merge-85"><span class="linenos">85</span></a>        <span class="n">embeddings_new</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span><span class="n">proj_a</span><span class="o">.</span><span class="n">embeddings</span><span class="p">,</span> <span class="n">embeddings_new</span><span class="p">)</span>
-</span><span id="merge-86"><a href="#merge-86"><span class="linenos">86</span></a>
-</span><span id="merge-87"><a href="#merge-87"><span class="linenos">87</span></a>    <span class="c1"># Return a new projection</span>
-</span><span id="merge-88"><a href="#merge-88"><span class="linenos">88</span></a>    <span class="k">return</span> <span class="n">Projection</span><span class="p">(</span>
-</span><span id="merge-89"><a href="#merge-89"><span class="linenos">89</span></a>        <span class="n">identifier_to_index</span><span class="o">=</span><span class="p">{</span><span class="nb">id</span><span class="p">:</span> <span class="n">idx</span> <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="nb">id</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">idx_to_ids_new</span><span class="p">)},</span>
-</span><span id="merge-90"><a href="#merge-90"><span class="linenos">90</span></a>        <span class="n">index_to_identifier</span><span class="o">=</span><span class="nb">tuple</span><span class="p">(</span><span class="n">idx_to_ids_new</span><span class="p">),</span>
-</span><span id="merge-91"><a href="#merge-91"><span class="linenos">91</span></a>        <span class="n">embeddings</span><span class="o">=</span><span class="n">embeddings_new</span><span class="p">,</span>
-</span><span id="merge-92"><a href="#merge-92"><span class="linenos">92</span></a>    <span class="p">)</span>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="merge-57"><a href="#merge-57"><span class="linenos">57</span></a><span class="k">def</span> <span class="nf">merge</span><span class="p">(</span><span class="n">proj_a</span><span class="p">:</span> <span class="n">Projection</span><span class="p">,</span> <span class="n">proj_b</span><span class="p">:</span> <span class="n">Projection</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Projection</span><span class="p">:</span>
+</span><span id="merge-58"><a href="#merge-58"><span class="linenos">58</span></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Return the result of merging projection `proj_a` with projection `proj_b`.</span>
+</span><span id="merge-59"><a href="#merge-59"><span class="linenos">59</span></a>
+</span><span id="merge-60"><a href="#merge-60"><span class="linenos">60</span></a><span class="sd">    This adds to proj_a all embedding data contained in proj_b that is missing from proj_a. This means that the resulting projection can only be greater or equal in size to proj_a.</span>
+</span><span id="merge-61"><a href="#merge-61"><span class="linenos">61</span></a><span class="sd">    &quot;&quot;&quot;</span>
+</span><span id="merge-62"><a href="#merge-62"><span class="linenos">62</span></a>    <span class="k">if</span> <span class="n">proj_b</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="ow">not</span> <span class="nb">len</span><span class="p">(</span><span class="n">proj_b</span><span class="p">):</span>
+</span><span id="merge-63"><a href="#merge-63"><span class="linenos">63</span></a>        <span class="k">return</span> <span class="n">proj_a</span>
+</span><span id="merge-64"><a href="#merge-64"><span class="linenos">64</span></a>
+</span><span id="merge-65"><a href="#merge-65"><span class="linenos">65</span></a>    <span class="c1"># Get the data in the new projection missing from the old</span>
+</span><span id="merge-66"><a href="#merge-66"><span class="linenos">66</span></a>    <span class="n">indices_missing</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="merge-67"><a href="#merge-67"><span class="linenos">67</span></a>    <span class="n">identifiers_missing</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="merge-68"><a href="#merge-68"><span class="linenos">68</span></a>    <span class="k">for</span> <span class="nb">id</span><span class="p">,</span> <span class="n">idx</span> <span class="ow">in</span> <span class="n">proj_b</span><span class="o">.</span><span class="n">identifier_to_index</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+</span><span id="merge-69"><a href="#merge-69"><span class="linenos">69</span></a>        <span class="k">if</span> <span class="n">proj_a</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="nb">id</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">proj_a</span><span class="o">.</span><span class="n">identifier_to_index</span><span class="p">:</span>
+</span><span id="merge-70"><a href="#merge-70"><span class="linenos">70</span></a>            <span class="n">indices_missing</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">idx</span><span class="p">)</span>
+</span><span id="merge-71"><a href="#merge-71"><span class="linenos">71</span></a>            <span class="n">identifiers_missing</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="nb">id</span><span class="p">)</span>
+</span><span id="merge-72"><a href="#merge-72"><span class="linenos">72</span></a>
+</span><span id="merge-73"><a href="#merge-73"><span class="linenos">73</span></a>    <span class="c1"># Get just the missing embeddings</span>
+</span><span id="merge-74"><a href="#merge-74"><span class="linenos">74</span></a>    <span class="n">embeddings_missing</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+</span><span id="merge-75"><a href="#merge-75"><span class="linenos">75</span></a>        <span class="p">[</span>
+</span><span id="merge-76"><a href="#merge-76"><span class="linenos">76</span></a>            <span class="n">embedding</span>
+</span><span id="merge-77"><a href="#merge-77"><span class="linenos">77</span></a>            <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">embedding</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">proj_b</span><span class="o">.</span><span class="n">embeddings</span><span class="p">)</span>
+</span><span id="merge-78"><a href="#merge-78"><span class="linenos">78</span></a>            <span class="k">if</span> <span class="n">idx</span> <span class="ow">in</span> <span class="nb">set</span><span class="p">(</span><span class="n">indices_missing</span><span class="p">)</span>
+</span><span id="merge-79"><a href="#merge-79"><span class="linenos">79</span></a>        <span class="p">]</span>
+</span><span id="merge-80"><a href="#merge-80"><span class="linenos">80</span></a>    <span class="p">)</span>
+</span><span id="merge-81"><a href="#merge-81"><span class="linenos">81</span></a>
+</span><span id="merge-82"><a href="#merge-82"><span class="linenos">82</span></a>    <span class="c1"># Concatenate index mapping and embeddings</span>
+</span><span id="merge-83"><a href="#merge-83"><span class="linenos">83</span></a>    <span class="n">idx_to_ids_new</span> <span class="o">=</span> <span class="n">identifiers_missing</span>
+</span><span id="merge-84"><a href="#merge-84"><span class="linenos">84</span></a>    <span class="n">embeddings_new</span> <span class="o">=</span> <span class="n">embeddings_missing</span>
+</span><span id="merge-85"><a href="#merge-85"><span class="linenos">85</span></a>    <span class="k">if</span> <span class="n">proj_a</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="merge-86"><a href="#merge-86"><span class="linenos">86</span></a>        <span class="n">idx_to_ids_new</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">proj_a</span><span class="o">.</span><span class="n">index_to_identifier</span><span class="p">)</span> <span class="o">+</span> <span class="n">idx_to_ids_new</span>
+</span><span id="merge-87"><a href="#merge-87"><span class="linenos">87</span></a>        <span class="n">embeddings_new</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">concatenate</span><span class="p">([</span><span class="n">proj_a</span><span class="o">.</span><span class="n">embeddings</span><span class="p">,</span> <span class="n">embeddings_new</span><span class="p">])</span>
+</span><span id="merge-88"><a href="#merge-88"><span class="linenos">88</span></a>
+</span><span id="merge-89"><a href="#merge-89"><span class="linenos">89</span></a>    <span class="c1"># Return a new projection</span>
+</span><span id="merge-90"><a href="#merge-90"><span class="linenos">90</span></a>    <span class="k">return</span> <span class="n">Projection</span><span class="p">(</span>
+</span><span id="merge-91"><a href="#merge-91"><span class="linenos">91</span></a>        <span class="n">identifier_to_index</span><span class="o">=</span><span class="p">{</span><span class="nb">id</span><span class="p">:</span> <span class="n">idx</span> <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="nb">id</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">idx_to_ids_new</span><span class="p">)},</span>
+</span><span id="merge-92"><a href="#merge-92"><span class="linenos">92</span></a>        <span class="n">index_to_identifier</span><span class="o">=</span><span class="nb">tuple</span><span class="p">(</span><span class="n">idx_to_ids_new</span><span class="p">),</span>
+</span><span id="merge-93"><a href="#merge-93"><span class="linenos">93</span></a>        <span class="n">embeddings</span><span class="o">=</span><span class="n">embeddings_new</span><span class="p">,</span>
+</span><span id="merge-94"><a href="#merge-94"><span class="linenos">94</span></a>    <span class="p">)</span>
 </span></pre></div>
 
 
             <div class="docstring"><p>Return the result of merging projection <code>proj_a</code> with projection <code>proj_b</code>.</p>
 
-<p>NOTE: This is not a symmetric operation: it adds all embedding data contained in proj_a that is missing from proj_b. This means that the resulting projection can only be greater or equal in size to proj_a.</p>
+<p>This adds to proj_a all embedding data contained in proj_b that is missing from proj_a. This means that the resulting projection can only be greater or equal in size to proj_a.</p>
+</div>
+
+
+                </section>
+                <section id="get_empty_projection">
+                            <input id="get_empty_projection-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
+<div class="attr function">
+            
+        <span class="def">def</span>
+        <span class="name">get_empty_projection</span><span class="signature pdoc-code condensed">(<span class="return-annotation">) -> <span class="n"><a href="#Projection">sciterra.vectorization.projection.Projection</a></span>:</span></span>
+
+                <label class="view-source-button" for="get_empty_projection-view-source"><span>View Source</span></label>
+
+    </div>
+    <a class="headerlink" href="#get_empty_projection"></a>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="get_empty_projection-97"><a href="#get_empty_projection-97"><span class="linenos"> 97</span></a><span class="k">def</span> <span class="nf">get_empty_projection</span><span class="p">()</span> <span class="o">-&gt;</span> <span class="n">Projection</span><span class="p">:</span>
+</span><span id="get_empty_projection-98"><a href="#get_empty_projection-98"><span class="linenos"> 98</span></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Construct a Projection with no data (but is not None).&quot;&quot;&quot;</span>
+</span><span id="get_empty_projection-99"><a href="#get_empty_projection-99"><span class="linenos"> 99</span></a>    <span class="k">return</span> <span class="n">Projection</span><span class="p">(</span>
+</span><span id="get_empty_projection-100"><a href="#get_empty_projection-100"><span class="linenos">100</span></a>        <span class="n">identifier_to_index</span><span class="o">=</span><span class="p">{},</span>
+</span><span id="get_empty_projection-101"><a href="#get_empty_projection-101"><span class="linenos">101</span></a>        <span class="n">index_to_identifier</span><span class="o">=</span><span class="p">(),</span>
+</span><span id="get_empty_projection-102"><a href="#get_empty_projection-102"><span class="linenos">102</span></a>        <span class="n">embeddings</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([[]]),</span>  <span class="c1"># 2D</span>
+</span><span id="get_empty_projection-103"><a href="#get_empty_projection-103"><span class="linenos">103</span></a>    <span class="p">)</span>
+</span></pre></div>
+
+
+            <div class="docstring"><p>Construct a Projection with no data (but is not None).</p>
 </div>
 
 
diff --git a/docs/sciterra/vectorization/sbert.html b/docs/sciterra/vectorization/sbert.html
new file mode 100644
index 0000000..e29fc20
--- /dev/null
+++ b/docs/sciterra/vectorization/sbert.html
@@ -0,0 +1,601 @@
+<!doctype html>
+<html lang="en">
+<head>
+    <meta charset="utf-8">
+    <meta name="viewport" content="width=device-width, initial-scale=1">
+    <meta name="generator" content="pdoc 14.0.0"/>
+    <title>sciterra.vectorization.sbert API documentation</title>
+
+    <style>/*! * Bootstrap Reboot v5.0.0 (https://getbootstrap.com/) * Copyright 2011-2021 The Bootstrap Authors * Copyright 2011-2021 Twitter, Inc. * Licensed under MIT (https://github.com/twbs/bootstrap/blob/main/LICENSE) * Forked from Normalize.css, licensed MIT (https://github.com/necolas/normalize.css/blob/master/LICENSE.md) */*,::after,::before{box-sizing:border-box}@media (prefers-reduced-motion:no-preference){:root{scroll-behavior:smooth}}body{margin:0;font-family:system-ui,-apple-system,"Segoe UI",Roboto,"Helvetica Neue",Arial,"Noto Sans","Liberation Sans",sans-serif,"Apple Color Emoji","Segoe UI Emoji","Segoe UI Symbol","Noto Color Emoji";font-size:1rem;font-weight:400;line-height:1.5;color:#212529;background-color:#fff;-webkit-text-size-adjust:100%;-webkit-tap-highlight-color:transparent}hr{margin:1rem 0;color:inherit;background-color:currentColor;border:0;opacity:.25}hr:not([size]){height:1px}h1,h2,h3,h4,h5,h6{margin-top:0;margin-bottom:.5rem;font-weight:500;line-height:1.2}h1{font-size:calc(1.375rem + 1.5vw)}@media (min-width:1200px){h1{font-size:2.5rem}}h2{font-size:calc(1.325rem + .9vw)}@media (min-width:1200px){h2{font-size:2rem}}h3{font-size:calc(1.3rem + .6vw)}@media (min-width:1200px){h3{font-size:1.75rem}}h4{font-size:calc(1.275rem + .3vw)}@media (min-width:1200px){h4{font-size:1.5rem}}h5{font-size:1.25rem}h6{font-size:1rem}p{margin-top:0;margin-bottom:1rem}abbr[data-bs-original-title],abbr[title]{-webkit-text-decoration:underline dotted;text-decoration:underline dotted;cursor:help;-webkit-text-decoration-skip-ink:none;text-decoration-skip-ink:none}address{margin-bottom:1rem;font-style:normal;line-height:inherit}ol,ul{padding-left:2rem}dl,ol,ul{margin-top:0;margin-bottom:1rem}ol ol,ol ul,ul ol,ul ul{margin-bottom:0}dt{font-weight:700}dd{margin-bottom:.5rem;margin-left:0}blockquote{margin:0 0 1rem}b,strong{font-weight:bolder}small{font-size:.875em}mark{padding:.2em;background-color:#fcf8e3}sub,sup{position:relative;font-size:.75em;line-height:0;vertical-align:baseline}sub{bottom:-.25em}sup{top:-.5em}a{color:#0d6efd;text-decoration:underline}a:hover{color:#0a58ca}a:not([href]):not([class]),a:not([href]):not([class]):hover{color:inherit;text-decoration:none}code,kbd,pre,samp{font-family:SFMono-Regular,Menlo,Monaco,Consolas,"Liberation Mono","Courier New",monospace;font-size:1em;direction:ltr;unicode-bidi:bidi-override}pre{display:block;margin-top:0;margin-bottom:1rem;overflow:auto;font-size:.875em}pre code{font-size:inherit;color:inherit;word-break:normal}code{font-size:.875em;color:#d63384;word-wrap:break-word}a>code{color:inherit}kbd{padding:.2rem .4rem;font-size:.875em;color:#fff;background-color:#212529;border-radius:.2rem}kbd kbd{padding:0;font-size:1em;font-weight:700}figure{margin:0 0 1rem}img,svg{vertical-align:middle}table{caption-side:bottom;border-collapse:collapse}caption{padding-top:.5rem;padding-bottom:.5rem;color:#6c757d;text-align:left}th{text-align:inherit;text-align:-webkit-match-parent}tbody,td,tfoot,th,thead,tr{border-color:inherit;border-style:solid;border-width:0}label{display:inline-block}button{border-radius:0}button:focus:not(:focus-visible){outline:0}button,input,optgroup,select,textarea{margin:0;font-family:inherit;font-size:inherit;line-height:inherit}button,select{text-transform:none}[role=button]{cursor:pointer}select{word-wrap:normal}select:disabled{opacity:1}[list]::-webkit-calendar-picker-indicator{display:none}[type=button],[type=reset],[type=submit],button{-webkit-appearance:button}[type=button]:not(:disabled),[type=reset]:not(:disabled),[type=submit]:not(:disabled),button:not(:disabled){cursor:pointer}::-moz-focus-inner{padding:0;border-style:none}textarea{resize:vertical}fieldset{min-width:0;padding:0;margin:0;border:0}legend{float:left;width:100%;padding:0;margin-bottom:.5rem;font-size:calc(1.275rem + .3vw);line-height:inherit}@media (min-width:1200px){legend{font-size:1.5rem}}legend+*{clear:left}::-webkit-datetime-edit-day-field,::-webkit-datetime-edit-fields-wrapper,::-webkit-datetime-edit-hour-field,::-webkit-datetime-edit-minute,::-webkit-datetime-edit-month-field,::-webkit-datetime-edit-text,::-webkit-datetime-edit-year-field{padding:0}::-webkit-inner-spin-button{height:auto}[type=search]{outline-offset:-2px;-webkit-appearance:textfield}::-webkit-search-decoration{-webkit-appearance:none}::-webkit-color-swatch-wrapper{padding:0}::file-selector-button{font:inherit}::-webkit-file-upload-button{font:inherit;-webkit-appearance:button}output{display:inline-block}iframe{border:0}summary{display:list-item;cursor:pointer}progress{vertical-align:baseline}[hidden]{display:none!important}</style>
+    <style>/*! syntax-highlighting.css */pre{line-height:125%;}span.linenos{color:inherit; background-color:transparent; padding-left:5px; padding-right:20px;}.pdoc-code .hll{background-color:#ffffcc}.pdoc-code{background:#f8f8f8;}.pdoc-code .c{color:#3D7B7B; font-style:italic}.pdoc-code .err{border:1px solid #FF0000}.pdoc-code .k{color:#008000; font-weight:bold}.pdoc-code .o{color:#666666}.pdoc-code .ch{color:#3D7B7B; font-style:italic}.pdoc-code .cm{color:#3D7B7B; font-style:italic}.pdoc-code .cp{color:#9C6500}.pdoc-code .cpf{color:#3D7B7B; font-style:italic}.pdoc-code .c1{color:#3D7B7B; font-style:italic}.pdoc-code .cs{color:#3D7B7B; font-style:italic}.pdoc-code .gd{color:#A00000}.pdoc-code .ge{font-style:italic}.pdoc-code .gr{color:#E40000}.pdoc-code .gh{color:#000080; font-weight:bold}.pdoc-code .gi{color:#008400}.pdoc-code .go{color:#717171}.pdoc-code .gp{color:#000080; font-weight:bold}.pdoc-code .gs{font-weight:bold}.pdoc-code .gu{color:#800080; font-weight:bold}.pdoc-code .gt{color:#0044DD}.pdoc-code .kc{color:#008000; font-weight:bold}.pdoc-code .kd{color:#008000; font-weight:bold}.pdoc-code .kn{color:#008000; font-weight:bold}.pdoc-code .kp{color:#008000}.pdoc-code .kr{color:#008000; font-weight:bold}.pdoc-code .kt{color:#B00040}.pdoc-code .m{color:#666666}.pdoc-code .s{color:#BA2121}.pdoc-code .na{color:#687822}.pdoc-code .nb{color:#008000}.pdoc-code .nc{color:#0000FF; font-weight:bold}.pdoc-code .no{color:#880000}.pdoc-code .nd{color:#AA22FF}.pdoc-code .ni{color:#717171; font-weight:bold}.pdoc-code .ne{color:#CB3F38; font-weight:bold}.pdoc-code .nf{color:#0000FF}.pdoc-code .nl{color:#767600}.pdoc-code .nn{color:#0000FF; font-weight:bold}.pdoc-code .nt{color:#008000; font-weight:bold}.pdoc-code .nv{color:#19177C}.pdoc-code .ow{color:#AA22FF; font-weight:bold}.pdoc-code .w{color:#bbbbbb}.pdoc-code .mb{color:#666666}.pdoc-code .mf{color:#666666}.pdoc-code .mh{color:#666666}.pdoc-code .mi{color:#666666}.pdoc-code .mo{color:#666666}.pdoc-code .sa{color:#BA2121}.pdoc-code .sb{color:#BA2121}.pdoc-code .sc{color:#BA2121}.pdoc-code .dl{color:#BA2121}.pdoc-code .sd{color:#BA2121; font-style:italic}.pdoc-code .s2{color:#BA2121}.pdoc-code .se{color:#AA5D1F; font-weight:bold}.pdoc-code .sh{color:#BA2121}.pdoc-code .si{color:#A45A77; font-weight:bold}.pdoc-code .sx{color:#008000}.pdoc-code .sr{color:#A45A77}.pdoc-code .s1{color:#BA2121}.pdoc-code .ss{color:#19177C}.pdoc-code .bp{color:#008000}.pdoc-code .fm{color:#0000FF}.pdoc-code .vc{color:#19177C}.pdoc-code .vg{color:#19177C}.pdoc-code .vi{color:#19177C}.pdoc-code .vm{color:#19177C}.pdoc-code .il{color:#666666}</style>
+    <style>/*! theme.css */:root{--pdoc-background:#fff;}.pdoc{--text:#212529;--muted:#6c757d;--link:#3660a5;--link-hover:#1659c5;--code:#f8f8f8;--active:#fff598;--accent:#eee;--accent2:#c1c1c1;--nav-hover:rgba(255, 255, 255, 0.5);--name:#0066BB;--def:#008800;--annotation:#007020;}</style>
+    <style>/*! layout.css */html, body{width:100%;height:100%;}html, main{scroll-behavior:smooth;}body{background-color:var(--pdoc-background);}@media (max-width:769px){#navtoggle{cursor:pointer;position:absolute;width:50px;height:40px;top:1rem;right:1rem;border-color:var(--text);color:var(--text);display:flex;opacity:0.8;z-index:999;}#navtoggle:hover{opacity:1;}#togglestate + div{display:none;}#togglestate:checked + div{display:inherit;}main, header{padding:2rem 3vw;}header + main{margin-top:-3rem;}.git-button{display:none !important;}nav input[type="search"]{max-width:77%;}nav input[type="search"]:first-child{margin-top:-6px;}nav input[type="search"]:valid ~ *{display:none !important;}}@media (min-width:770px){:root{--sidebar-width:clamp(12.5rem, 28vw, 22rem);}nav{position:fixed;overflow:auto;height:100vh;width:var(--sidebar-width);}main, header{padding:3rem 2rem 3rem calc(var(--sidebar-width) + 3rem);width:calc(54rem + var(--sidebar-width));max-width:100%;}header + main{margin-top:-4rem;}#navtoggle{display:none;}}#togglestate{position:absolute;height:0;opacity:0;}nav.pdoc{--pad:clamp(0.5rem, 2vw, 1.75rem);--indent:1.5rem;background-color:var(--accent);border-right:1px solid var(--accent2);box-shadow:0 0 20px rgba(50, 50, 50, .2) inset;padding:0 0 0 var(--pad);overflow-wrap:anywhere;scrollbar-width:thin; scrollbar-color:var(--accent2) transparent }nav.pdoc::-webkit-scrollbar{width:.4rem; }nav.pdoc::-webkit-scrollbar-thumb{background-color:var(--accent2); }nav.pdoc > div{padding:var(--pad) 0;}nav.pdoc .module-list-button{display:inline-flex;align-items:center;color:var(--text);border-color:var(--muted);margin-bottom:1rem;}nav.pdoc .module-list-button:hover{border-color:var(--text);}nav.pdoc input[type=search]{display:block;outline-offset:0;width:calc(100% - var(--pad));}nav.pdoc .logo{max-width:calc(100% - var(--pad));max-height:35vh;display:block;margin:0 auto 1rem;transform:translate(calc(-.5 * var(--pad)), 0);}nav.pdoc ul{list-style:none;padding-left:0;}nav.pdoc > div > ul{margin-left:calc(0px - var(--pad));}nav.pdoc li a{padding:.2rem 0 .2rem calc(var(--pad) + var(--indent));}nav.pdoc > div > ul > li > a{padding-left:var(--pad);}nav.pdoc li{transition:all 100ms;}nav.pdoc li:hover{background-color:var(--nav-hover);}nav.pdoc a, nav.pdoc a:hover{color:var(--text);}nav.pdoc a{display:block;}nav.pdoc > h2:first-of-type{margin-top:1.5rem;}nav.pdoc .class:before{content:"class ";color:var(--muted);}nav.pdoc .function:after{content:"()";color:var(--muted);}nav.pdoc footer:before{content:"";display:block;width:calc(100% - var(--pad));border-top:solid var(--accent2) 1px;margin-top:1.5rem;padding-top:.5rem;}nav.pdoc footer{font-size:small;}</style>
+    <style>/*! content.css */.pdoc{color:var(--text);box-sizing:border-box;line-height:1.5;background:none;}.pdoc .pdoc-button{cursor:pointer;display:inline-block;border:solid black 1px;border-radius:2px;font-size:.75rem;padding:calc(0.5em - 1px) 1em;transition:100ms all;}.pdoc .pdoc-alert{padding:1rem 1rem 1rem calc(1.5rem + 24px);border:1px solid transparent;border-radius:.25rem;background-repeat:no-repeat;background-position:1rem center;margin-bottom:1rem;}.pdoc .pdoc-alert > *:last-child{margin-bottom:0;}.pdoc .pdoc-alert-note {color:#084298;background-color:#cfe2ff;border-color:#b6d4fe;background-image:url("data:image/svg+xml,%3Csvg%20xmlns%3D%22http%3A//www.w3.org/2000/svg%22%20width%3D%2224%22%20height%3D%2224%22%20fill%3D%22%23084298%22%20viewBox%3D%220%200%2016%2016%22%3E%3Cpath%20d%3D%22M8%2016A8%208%200%201%200%208%200a8%208%200%200%200%200%2016zm.93-9.412-1%204.705c-.07.34.029.533.304.533.194%200%20.487-.07.686-.246l-.088.416c-.287.346-.92.598-1.465.598-.703%200-1.002-.422-.808-1.319l.738-3.468c.064-.293.006-.399-.287-.47l-.451-.081.082-.381%202.29-.287zM8%205.5a1%201%200%201%201%200-2%201%201%200%200%201%200%202z%22/%3E%3C/svg%3E");}.pdoc .pdoc-alert-warning{color:#664d03;background-color:#fff3cd;border-color:#ffecb5;background-image:url("data:image/svg+xml,%3Csvg%20xmlns%3D%22http%3A//www.w3.org/2000/svg%22%20width%3D%2224%22%20height%3D%2224%22%20fill%3D%22%23664d03%22%20viewBox%3D%220%200%2016%2016%22%3E%3Cpath%20d%3D%22M8.982%201.566a1.13%201.13%200%200%200-1.96%200L.165%2013.233c-.457.778.091%201.767.98%201.767h13.713c.889%200%201.438-.99.98-1.767L8.982%201.566zM8%205c.535%200%20.954.462.9.995l-.35%203.507a.552.552%200%200%201-1.1%200L7.1%205.995A.905.905%200%200%201%208%205zm.002%206a1%201%200%201%201%200%202%201%201%200%200%201%200-2z%22/%3E%3C/svg%3E");}.pdoc .pdoc-alert-danger{color:#842029;background-color:#f8d7da;border-color:#f5c2c7;background-image:url("data:image/svg+xml,%3Csvg%20xmlns%3D%22http%3A//www.w3.org/2000/svg%22%20width%3D%2224%22%20height%3D%2224%22%20fill%3D%22%23842029%22%20viewBox%3D%220%200%2016%2016%22%3E%3Cpath%20d%3D%22M5.52.359A.5.5%200%200%201%206%200h4a.5.5%200%200%201%20.474.658L8.694%206H12.5a.5.5%200%200%201%20.395.807l-7%209a.5.5%200%200%201-.873-.454L6.823%209.5H3.5a.5.5%200%200%201-.48-.641l2.5-8.5z%22/%3E%3C/svg%3E");}.pdoc .visually-hidden{position:absolute !important;width:1px !important;height:1px !important;padding:0 !important;margin:-1px !important;overflow:hidden !important;clip:rect(0, 0, 0, 0) !important;white-space:nowrap !important;border:0 !important;}.pdoc h1, .pdoc h2, .pdoc h3{font-weight:300;margin:.3em 0;padding:.2em 0;}.pdoc > section:not(.module-info) h1{font-size:1.5rem;font-weight:500;}.pdoc > section:not(.module-info) h2{font-size:1.4rem;font-weight:500;}.pdoc > section:not(.module-info) h3{font-size:1.3rem;font-weight:500;}.pdoc > section:not(.module-info) h4{font-size:1.2rem;}.pdoc > section:not(.module-info) h5{font-size:1.1rem;}.pdoc a{text-decoration:none;color:var(--link);}.pdoc a:hover{color:var(--link-hover);}.pdoc blockquote{margin-left:2rem;}.pdoc pre{border-top:1px solid var(--accent2);border-bottom:1px solid var(--accent2);margin-top:0;margin-bottom:1em;padding:.5rem 0 .5rem .5rem;overflow-x:auto;background-color:var(--code);}.pdoc code{color:var(--text);padding:.2em .4em;margin:0;font-size:85%;background-color:var(--code);border-radius:6px;}.pdoc a > code{color:inherit;}.pdoc pre > code{display:inline-block;font-size:inherit;background:none;border:none;padding:0;}.pdoc > section:not(.module-info){margin-bottom:1.5rem;}.pdoc .modulename{margin-top:0;font-weight:bold;}.pdoc .modulename a{color:var(--link);transition:100ms all;}.pdoc .git-button{float:right;border:solid var(--link) 1px;}.pdoc .git-button:hover{background-color:var(--link);color:var(--pdoc-background);}.view-source-toggle-state,.view-source-toggle-state ~ .pdoc-code{display:none;}.view-source-toggle-state:checked ~ .pdoc-code{display:block;}.view-source-button{display:inline-block;float:right;font-size:.75rem;line-height:1.5rem;color:var(--muted);padding:0 .4rem 0 1.3rem;cursor:pointer;text-indent:-2px;}.view-source-button > span{visibility:hidden;}.module-info .view-source-button{float:none;display:flex;justify-content:flex-end;margin:-1.2rem .4rem -.2rem 0;}.view-source-button::before{position:absolute;content:"View Source";display:list-item;list-style-type:disclosure-closed;}.view-source-toggle-state:checked ~ .attr .view-source-button::before,.view-source-toggle-state:checked ~ .view-source-button::before{list-style-type:disclosure-open;}.pdoc .docstring{margin-bottom:1.5rem;}.pdoc section:not(.module-info) .docstring{margin-left:clamp(0rem, 5vw - 2rem, 1rem);}.pdoc .docstring .pdoc-code{margin-left:1em;margin-right:1em;}.pdoc h1:target,.pdoc h2:target,.pdoc h3:target,.pdoc h4:target,.pdoc h5:target,.pdoc h6:target,.pdoc .pdoc-code > pre > span:target{background-color:var(--active);box-shadow:-1rem 0 0 0 var(--active);}.pdoc .pdoc-code > pre > span:target{display:block;}.pdoc div:target > .attr,.pdoc section:target > .attr,.pdoc dd:target > a{background-color:var(--active);}.pdoc *{scroll-margin:2rem;}.pdoc .pdoc-code .linenos{user-select:none;}.pdoc .attr:hover{filter:contrast(0.95);}.pdoc section, .pdoc .classattr{position:relative;}.pdoc .headerlink{--width:clamp(1rem, 3vw, 2rem);position:absolute;top:0;left:calc(0rem - var(--width));transition:all 100ms ease-in-out;opacity:0;}.pdoc .headerlink::before{content:"#";display:block;text-align:center;width:var(--width);height:2.3rem;line-height:2.3rem;font-size:1.5rem;}.pdoc .attr:hover ~ .headerlink,.pdoc *:target > .headerlink,.pdoc .headerlink:hover{opacity:1;}.pdoc .attr{display:block;margin:.5rem 0 .5rem;padding:.4rem .4rem .4rem 1rem;background-color:var(--accent);overflow-x:auto;}.pdoc .classattr{margin-left:2rem;}.pdoc .name{color:var(--name);font-weight:bold;}.pdoc .def{color:var(--def);font-weight:bold;}.pdoc .signature{background-color:transparent;}.pdoc .param, .pdoc .return-annotation{white-space:pre;}.pdoc .signature.multiline .param{display:block;}.pdoc .signature.condensed .param{display:inline-block;}.pdoc .annotation{color:var(--annotation);}.pdoc .view-value-toggle-state,.pdoc .view-value-toggle-state ~ .default_value{display:none;}.pdoc .view-value-toggle-state:checked ~ .default_value{display:inherit;}.pdoc .view-value-button{font-size:.5rem;vertical-align:middle;border-style:dashed;margin-top:-0.1rem;}.pdoc .view-value-button:hover{background:white;}.pdoc .view-value-button::before{content:"show";text-align:center;width:2.2em;display:inline-block;}.pdoc .view-value-toggle-state:checked ~ .view-value-button::before{content:"hide";}.pdoc .inherited{margin-left:2rem;}.pdoc .inherited dt{font-weight:700;}.pdoc .inherited dt, .pdoc .inherited dd{display:inline;margin-left:0;margin-bottom:.5rem;}.pdoc .inherited dd:not(:last-child):after{content:", ";}.pdoc .inherited .class:before{content:"class ";}.pdoc .inherited .function a:after{content:"()";}.pdoc .search-result .docstring{overflow:auto;max-height:25vh;}.pdoc .search-result.focused > .attr{background-color:var(--active);}.pdoc .attribution{margin-top:2rem;display:block;opacity:0.5;transition:all 200ms;filter:grayscale(100%);}.pdoc .attribution:hover{opacity:1;filter:grayscale(0%);}.pdoc .attribution img{margin-left:5px;height:35px;vertical-align:middle;width:70px;transition:all 200ms;}.pdoc table{display:block;width:max-content;max-width:100%;overflow:auto;margin-bottom:1rem;}.pdoc table th{font-weight:600;}.pdoc table th, .pdoc table td{padding:6px 13px;border:1px solid var(--accent2);}</style>
+    <style>/*! custom.css */</style><script>
+    window.MathJax = {
+        tex: {
+            inlineMath: [['$', '$'], ['\\(', '\\)']]
+        }
+    };
+</script>
+<script src="https://polyfill.io/v3/polyfill.min.js?features=es6"></script>
+<script id="MathJax-script" async src="https://cdn.jsdelivr.net/npm/mathjax@3/es5/tex-mml-chtml.js"></script>
+<script>
+    /* Re-invoke MathJax when DOM content changes, for example during search. */
+    document.addEventListener("DOMContentLoaded", () => {
+        new MutationObserver(() => MathJax.typeset()).observe(
+            document.querySelector("main.pdoc").parentNode,
+            {childList: true}
+        );
+    })
+</script>
+<style>
+    mjx-container {
+        overflow-x: auto;
+    }
+</style></head>
+<body>
+    <nav class="pdoc">
+        <label id="navtoggle" for="togglestate" class="pdoc-button"><svg xmlns='http://www.w3.org/2000/svg' viewBox='0 0 30 30'><path stroke-linecap='round' stroke="currentColor" stroke-miterlimit='10' stroke-width='2' d='M4 7h22M4 15h22M4 23h22'/></svg></label>
+        <input id="togglestate" type="checkbox" aria-hidden="true" tabindex="-1">
+        <div>            <a class="pdoc-button module-list-button" href="../vectorization.html">
+<svg xmlns="http://www.w3.org/2000/svg" width="16" height="16" fill="currentColor" class="bi bi-box-arrow-in-left" viewBox="0 0 16 16">
+  <path fill-rule="evenodd" d="M10 3.5a.5.5 0 0 0-.5-.5h-8a.5.5 0 0 0-.5.5v9a.5.5 0 0 0 .5.5h8a.5.5 0 0 0 .5-.5v-2a.5.5 0 0 1 1 0v2A1.5 1.5 0 0 1 9.5 14h-8A1.5 1.5 0 0 1 0 12.5v-9A1.5 1.5 0 0 1 1.5 2h8A1.5 1.5 0 0 1 11 3.5v2a.5.5 0 0 1-1 0v-2z"/>
+  <path fill-rule="evenodd" d="M4.146 8.354a.5.5 0 0 1 0-.708l3-3a.5.5 0 1 1 .708.708L5.707 7.5H14.5a.5.5 0 0 1 0 1H5.707l2.147 2.146a.5.5 0 0 1-.708.708l-3-3z"/>
+</svg>                &nbsp;sciterra.vectorization</a>
+
+
+            <input type="search" placeholder="Search..." role="searchbox" aria-label="search"
+                   pattern=".+" required>
+
+
+
+            <h2>API Documentation</h2>
+                <ul class="memberlist">
+            <li>
+                    <a class="variable" href="#MPS_DEVICE">MPS_DEVICE</a>
+            </li>
+            <li>
+                    <a class="variable" href="#MODEL_PATH">MODEL_PATH</a>
+            </li>
+            <li>
+                    <a class="variable" href="#EMBEDDING_DIM">EMBEDDING_DIM</a>
+            </li>
+            <li>
+                    <a class="variable" href="#MAX_SEQ_LENGTH">MAX_SEQ_LENGTH</a>
+            </li>
+            <li>
+                    <a class="class" href="#SBERTVectorizer">SBERTVectorizer</a>
+                            <ul class="memberlist">
+                        <li>
+                                <a class="function" href="#SBERTVectorizer.__init__">SBERTVectorizer</a>
+                        </li>
+                        <li>
+                                <a class="variable" href="#SBERTVectorizer.model">model</a>
+                        </li>
+                        <li>
+                                <a class="function" href="#SBERTVectorizer.embed_documents">embed_documents</a>
+                        </li>
+                </ul>
+
+            </li>
+    </ul>
+
+
+
+        <a class="attribution" title="pdoc: Python API documentation generator" href="https://pdoc.dev" target="_blank">
+            built with <span class="visually-hidden">pdoc</span><img
+                alt="pdoc logo"
+                src="data:image/svg+xml,%3Csvg%20xmlns%3D%22http%3A//www.w3.org/2000/svg%22%20role%3D%22img%22%20aria-label%3D%22pdoc%20logo%22%20width%3D%22300%22%20height%3D%22150%22%20viewBox%3D%22-1%200%2060%2030%22%3E%3Ctitle%3Epdoc%3C/title%3E%3Cpath%20d%3D%22M29.621%2021.293c-.011-.273-.214-.475-.511-.481a.5.5%200%200%200-.489.503l-.044%201.393c-.097.551-.695%201.215-1.566%201.704-.577.428-1.306.486-2.193.182-1.426-.617-2.467-1.654-3.304-2.487l-.173-.172a3.43%203.43%200%200%200-.365-.306.49.49%200%200%200-.286-.196c-1.718-1.06-4.931-1.47-7.353.191l-.219.15c-1.707%201.187-3.413%202.131-4.328%201.03-.02-.027-.49-.685-.141-1.763.233-.721.546-2.408.772-4.076.042-.09.067-.187.046-.288.166-1.347.277-2.625.241-3.351%201.378-1.008%202.271-2.586%202.271-4.362%200-.976-.272-1.935-.788-2.774-.057-.094-.122-.18-.184-.268.033-.167.052-.339.052-.516%200-1.477-1.202-2.679-2.679-2.679-.791%200-1.496.352-1.987.9a6.3%206.3%200%200%200-1.001.029c-.492-.564-1.207-.929-2.012-.929-1.477%200-2.679%201.202-2.679%202.679A2.65%202.65%200%200%200%20.97%206.554c-.383.747-.595%201.572-.595%202.41%200%202.311%201.507%204.29%203.635%205.107-.037.699-.147%202.27-.423%203.294l-.137.461c-.622%202.042-2.515%208.257%201.727%2010.643%201.614.908%203.06%201.248%204.317%201.248%202.665%200%204.492-1.524%205.322-2.401%201.476-1.559%202.886-1.854%206.491.82%201.877%201.393%203.514%201.753%204.861%201.068%202.223-1.713%202.811-3.867%203.399-6.374.077-.846.056-1.469.054-1.537zm-4.835%204.313c-.054.305-.156.586-.242.629-.034-.007-.131-.022-.307-.157-.145-.111-.314-.478-.456-.908.221.121.432.25.675.355.115.039.219.051.33.081zm-2.251-1.238c-.05.33-.158.648-.252.694-.022.001-.125-.018-.307-.157-.217-.166-.488-.906-.639-1.573.358.344.754.693%201.198%201.036zm-3.887-2.337c-.006-.116-.018-.231-.041-.342.635.145%201.189.368%201.599.625.097.231.166.481.174.642-.03.049-.055.101-.067.158-.046.013-.128.026-.298.004-.278-.037-.901-.57-1.367-1.087zm-1.127-.497c.116.306.176.625.12.71-.019.014-.117.045-.345.016-.206-.027-.604-.332-.986-.695.41-.051.816-.056%201.211-.031zm-4.535%201.535c.209.22.379.47.358.598-.006.041-.088.138-.351.234-.144.055-.539-.063-.979-.259a11.66%2011.66%200%200%200%20.972-.573zm.983-.664c.359-.237.738-.418%201.126-.554.25.237.479.548.457.694-.006.042-.087.138-.351.235-.174.064-.694-.105-1.232-.375zm-3.381%201.794c-.022.145-.061.29-.149.401-.133.166-.358.248-.69.251h-.002c-.133%200-.306-.26-.45-.621.417.091.854.07%201.291-.031zm-2.066-8.077a4.78%204.78%200%200%201-.775-.584c.172-.115.505-.254.88-.378l-.105.962zm-.331%202.302a10.32%2010.32%200%200%201-.828-.502c.202-.143.576-.328.984-.49l-.156.992zm-.45%202.157l-.701-.403c.214-.115.536-.249.891-.376a11.57%2011.57%200%200%201-.19.779zm-.181%201.716c.064.398.194.702.298.893-.194-.051-.435-.162-.736-.398.061-.119.224-.3.438-.495zM8.87%204.141c0%20.152-.123.276-.276.276s-.275-.124-.275-.276.123-.276.276-.276.275.124.275.276zm-.735-.389a1.15%201.15%200%200%200-.314.783%201.16%201.16%200%200%200%201.162%201.162c.457%200%20.842-.27%201.032-.653.026.117.042.238.042.362a1.68%201.68%200%200%201-1.679%201.679%201.68%201.68%200%200%201-1.679-1.679c0-.843.626-1.535%201.436-1.654zM5.059%205.406A1.68%201.68%200%200%201%203.38%207.085a1.68%201.68%200%200%201-1.679-1.679c0-.037.009-.072.011-.109.21.3.541.508.935.508a1.16%201.16%200%200%200%201.162-1.162%201.14%201.14%200%200%200-.474-.912c.015%200%20.03-.005.045-.005.926.001%201.679.754%201.679%201.68zM3.198%204.141c0%20.152-.123.276-.276.276s-.275-.124-.275-.276.123-.276.276-.276.275.124.275.276zM1.375%208.964c0-.52.103-1.035.288-1.52.466.394%201.06.64%201.717.64%201.144%200%202.116-.725%202.499-1.738.383%201.012%201.355%201.738%202.499%201.738.867%200%201.631-.421%202.121-1.062.307.605.478%201.267.478%201.942%200%202.486-2.153%204.51-4.801%204.51s-4.801-2.023-4.801-4.51zm24.342%2019.349c-.985.498-2.267.168-3.813-.979-3.073-2.281-5.453-3.199-7.813-.705-1.315%201.391-4.163%203.365-8.423.97-3.174-1.786-2.239-6.266-1.261-9.479l.146-.492c.276-1.02.395-2.457.444-3.268a6.11%206.11%200%200%200%201.18.115%206.01%206.01%200%200%200%202.536-.562l-.006.175c-.802.215-1.848.612-2.021%201.25-.079.295.021.601.274.837.219.203.415.364.598.501-.667.304-1.243.698-1.311%201.179-.02.144-.022.507.393.787.213.144.395.26.564.365-1.285.521-1.361.96-1.381%201.126-.018.142-.011.496.427.746l.854.489c-.473.389-.971.914-.999%201.429-.018.278.095.532.316.713.675.556%201.231.721%201.653.721.059%200%20.104-.014.158-.02.207.707.641%201.64%201.513%201.64h.013c.8-.008%201.236-.345%201.462-.626.173-.216.268-.457.325-.692.424.195.93.374%201.372.374.151%200%20.294-.021.423-.068.732-.27.944-.704.993-1.021.009-.061.003-.119.002-.179.266.086.538.147.789.147.15%200%20.294-.021.423-.069.542-.2.797-.489.914-.754.237.147.478.258.704.288.106.014.205.021.296.021.356%200%20.595-.101.767-.229.438.435%201.094.992%201.656%201.067.106.014.205.021.296.021a1.56%201.56%200%200%200%20.323-.035c.17.575.453%201.289.866%201.605.358.273.665.362.914.362a.99.99%200%200%200%20.421-.093%201.03%201.03%200%200%200%20.245-.164c.168.428.39.846.68%201.068.358.273.665.362.913.362a.99.99%200%200%200%20.421-.093c.317-.148.512-.448.639-.762.251.157.495.257.726.257.127%200%20.25-.024.37-.071.427-.17.706-.617.841-1.314.022-.015.047-.022.068-.038.067-.051.133-.104.196-.159-.443%201.486-1.107%202.761-2.086%203.257zM8.66%209.925a.5.5%200%201%200-1%200c0%20.653-.818%201.205-1.787%201.205s-1.787-.552-1.787-1.205a.5.5%200%201%200-1%200c0%201.216%201.25%202.205%202.787%202.205s2.787-.989%202.787-2.205zm4.4%2015.965l-.208.097c-2.661%201.258-4.708%201.436-6.086.527-1.542-1.017-1.88-3.19-1.844-4.198a.4.4%200%200%200-.385-.414c-.242-.029-.406.164-.414.385-.046%201.249.367%203.686%202.202%204.896.708.467%201.547.7%202.51.7%201.248%200%202.706-.392%204.362-1.174l.185-.086a.4.4%200%200%200%20.205-.527c-.089-.204-.326-.291-.527-.206zM9.547%202.292c.093.077.205.114.317.114a.5.5%200%200%200%20.318-.886L8.817.397a.5.5%200%200%200-.703.068.5.5%200%200%200%20.069.703l1.364%201.124zm-7.661-.065c.086%200%20.173-.022.253-.068l1.523-.893a.5.5%200%200%200-.506-.863l-1.523.892a.5.5%200%200%200-.179.685c.094.158.261.247.432.247z%22%20transform%3D%22matrix%28-1%200%200%201%2058%200%29%22%20fill%3D%22%233bb300%22/%3E%3Cpath%20d%3D%22M.3%2021.86V10.18q0-.46.02-.68.04-.22.18-.5.28-.54%201.34-.54%201.06%200%201.42.28.38.26.44.78.76-1.04%202.38-1.04%201.64%200%203.1%201.54%201.46%201.54%201.46%203.58%200%202.04-1.46%203.58-1.44%201.54-3.08%201.54-1.64%200-2.38-.92v4.04q0%20.46-.04.68-.02.22-.18.5-.14.3-.5.42-.36.12-.98.12-.62%200-1-.12-.36-.12-.52-.4-.14-.28-.18-.5-.02-.22-.02-.68zm3.96-9.42q-.46.54-.46%201.18%200%20.64.46%201.18.48.52%201.2.52.74%200%201.24-.52.52-.52.52-1.18%200-.66-.48-1.18-.48-.54-1.26-.54-.76%200-1.22.54zm14.741-8.36q.16-.3.54-.42.38-.12%201-.12.64%200%201.02.12.38.12.52.42.16.3.18.54.04.22.04.68v11.94q0%20.46-.04.7-.02.22-.18.5-.3.54-1.7.54-1.38%200-1.54-.98-.84.96-2.34.96-1.8%200-3.28-1.56-1.48-1.58-1.48-3.66%200-2.1%201.48-3.68%201.5-1.58%203.28-1.58%201.48%200%202.3%201v-4.2q0-.46.02-.68.04-.24.18-.52zm-3.24%2010.86q.52.54%201.26.54.74%200%201.22-.54.5-.54.5-1.18%200-.66-.48-1.22-.46-.56-1.26-.56-.8%200-1.28.56-.48.54-.48%201.2%200%20.66.52%201.2zm7.833-1.2q0-2.4%201.68-3.96%201.68-1.56%203.84-1.56%202.16%200%203.82%201.56%201.66%201.54%201.66%203.94%200%201.66-.86%202.96-.86%201.28-2.1%201.9-1.22.6-2.54.6-1.32%200-2.56-.64-1.24-.66-2.1-1.92-.84-1.28-.84-2.88zm4.18%201.44q.64.48%201.3.48.66%200%201.32-.5.66-.5.66-1.48%200-.98-.62-1.46-.62-.48-1.34-.48-.72%200-1.34.5-.62.5-.62%201.48%200%20.96.64%201.46zm11.412-1.44q0%20.84.56%201.32.56.46%201.18.46.64%200%201.18-.36.56-.38.9-.38.6%200%201.46%201.06.46.58.46%201.04%200%20.76-1.1%201.42-1.14.8-2.8.8-1.86%200-3.58-1.34-.82-.64-1.34-1.7-.52-1.08-.52-2.36%200-1.3.52-2.34.52-1.06%201.34-1.7%201.66-1.32%203.54-1.32.76%200%201.48.22.72.2%201.06.4l.32.2q.36.24.56.38.52.4.52.92%200%20.5-.42%201.14-.72%201.1-1.38%201.1-.38%200-1.08-.44-.36-.34-1.04-.34-.66%200-1.24.48-.58.48-.58%201.34z%22%20fill%3D%22green%22/%3E%3C/svg%3E"/>
+        </a>
+</div>
+    </nav>
+    <main class="pdoc">
+            <section class="module-info">
+                    <h1 class="modulename">
+<a href="./../../sciterra.html">sciterra</a><wbr>.<a href="./../vectorization.html">vectorization</a><wbr>.sbert    </h1>
+
+                        <div class="docstring"><p>We use the acronym SBERT as a catch-all for BERT-based sentence transformers. In particular, we use a lightweight/fast version of one the top-performing model.</p>
+
+<h6 id="links">Links:</h6>
+
+<blockquote>
+  <p>sbert: <a href="https://www.sbert.net/docs/pretrained_models.html#sentence-embedding-models">https://www.sbert.net/docs/pretrained_models.html#sentence-embedding-models</a>.
+  HF: <a href="https://huggingface.co/sentence-transformers">https://huggingface.co/sentence-transformers</a></p>
+</blockquote>
+</div>
+
+                        <input id="mod-sbert-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
+
+                        <label class="view-source-button" for="mod-sbert-view-source"><span>View Source</span></label>
+
+                        <div class="pdoc-code codehilite"><pre><span></span><span id="L-1"><a href="#L-1"><span class="linenos"> 1</span></a><span class="sd">&quot;&quot;&quot;We use the acronym SBERT as a catch-all for BERT-based sentence transformers. In particular, we use a lightweight/fast version of one the top-performing model.</span>
+</span><span id="L-2"><a href="#L-2"><span class="linenos"> 2</span></a>
+</span><span id="L-3"><a href="#L-3"><span class="linenos"> 3</span></a><span class="sd">Links:</span>
+</span><span id="L-4"><a href="#L-4"><span class="linenos"> 4</span></a><span class="sd">    sbert: https://www.sbert.net/docs/pretrained_models.html#sentence-embedding-models.</span>
+</span><span id="L-5"><a href="#L-5"><span class="linenos"> 5</span></a><span class="sd">    HF: https://huggingface.co/sentence-transformers</span>
+</span><span id="L-6"><a href="#L-6"><span class="linenos"> 6</span></a><span class="sd">&quot;&quot;&quot;</span>
+</span><span id="L-7"><a href="#L-7"><span class="linenos"> 7</span></a>
+</span><span id="L-8"><a href="#L-8"><span class="linenos"> 8</span></a><span class="kn">import</span> <span class="nn">torch</span>
+</span><span id="L-9"><a href="#L-9"><span class="linenos"> 9</span></a><span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
+</span><span id="L-10"><a href="#L-10"><span class="linenos">10</span></a><span class="kn">from</span> <span class="nn">.vectorizer</span> <span class="kn">import</span> <span class="n">Vectorizer</span>
+</span><span id="L-11"><a href="#L-11"><span class="linenos">11</span></a><span class="kn">from</span> <span class="nn">tqdm</span> <span class="kn">import</span> <span class="n">tqdm</span>
+</span><span id="L-12"><a href="#L-12"><span class="linenos">12</span></a>
+</span><span id="L-13"><a href="#L-13"><span class="linenos">13</span></a><span class="kn">from</span> <span class="nn">sentence_transformers</span> <span class="kn">import</span> <span class="n">SentenceTransformer</span>
+</span><span id="L-14"><a href="#L-14"><span class="linenos">14</span></a>
+</span><span id="L-15"><a href="#L-15"><span class="linenos">15</span></a><span class="n">MPS_DEVICE</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">device</span><span class="p">(</span><span class="s2">&quot;mps&quot;</span><span class="p">)</span>
+</span><span id="L-16"><a href="#L-16"><span class="linenos">16</span></a>
+</span><span id="L-17"><a href="#L-17"><span class="linenos">17</span></a><span class="c1"># MODEL_PATH = &quot;bert-base-nli-mean-tokens&quot; # NOTE: while Liu and Xu (2020) use this model in a metascience context, huggingface recommends a more recent sentence transformer.</span>
+</span><span id="L-18"><a href="#L-18"><span class="linenos">18</span></a><span class="n">MODEL_PATH</span> <span class="o">=</span> <span class="s2">&quot;all-MiniLM-L6-v2&quot;</span>  <span class="c1"># All-round model tuned for many use-cases. Trained on a large and diverse dataset of over 1 billion training pairs. Listed as rank 50 on https://huggingface.co/spaces/mteb/leaderboard on 10/11/2023 with an average of 56; rank 1 achieved 64, bert-base-uncased achieved 34; GPT embedding ada-002 achieved 60.</span>
+</span><span id="L-19"><a href="#L-19"><span class="linenos">19</span></a><span class="n">EMBEDDING_DIM</span> <span class="o">=</span> <span class="mi">384</span>
+</span><span id="L-20"><a href="#L-20"><span class="linenos">20</span></a><span class="n">MAX_SEQ_LENGTH</span> <span class="o">=</span> <span class="mi">256</span>
+</span><span id="L-21"><a href="#L-21"><span class="linenos">21</span></a>
+</span><span id="L-22"><a href="#L-22"><span class="linenos">22</span></a>
+</span><span id="L-23"><a href="#L-23"><span class="linenos">23</span></a><span class="k">class</span> <span class="nc">SBERTVectorizer</span><span class="p">(</span><span class="n">Vectorizer</span><span class="p">):</span>
+</span><span id="L-24"><a href="#L-24"><span class="linenos">24</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="s2">&quot;cuda&quot;</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="L-25"><a href="#L-25"><span class="linenos">25</span></a>        <span class="c1"># Get the model</span>
+</span><span id="L-26"><a href="#L-26"><span class="linenos">26</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">SentenceTransformer</span><span class="p">(</span><span class="n">MODEL_PATH</span><span class="p">)</span>
+</span><span id="L-27"><a href="#L-27"><span class="linenos">27</span></a>
+</span><span id="L-28"><a href="#L-28"><span class="linenos">28</span></a>        <span class="c1"># set device to GPU</span>
+</span><span id="L-29"><a href="#L-29"><span class="linenos">29</span></a>        <span class="k">if</span> <span class="n">device</span> <span class="o">==</span> <span class="s2">&quot;mps&quot;</span><span class="p">:</span>
+</span><span id="L-30"><a href="#L-30"><span class="linenos">30</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">device</span> <span class="o">=</span> <span class="n">MPS_DEVICE</span>
+</span><span id="L-31"><a href="#L-31"><span class="linenos">31</span></a>        <span class="k">elif</span> <span class="n">device</span> <span class="o">==</span> <span class="s2">&quot;cuda&quot;</span><span class="p">:</span>
+</span><span id="L-32"><a href="#L-32"><span class="linenos">32</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">device</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">device</span><span class="p">(</span><span class="s2">&quot;cuda&quot;</span> <span class="k">if</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">is_available</span><span class="p">()</span> <span class="k">else</span> <span class="s2">&quot;cpu&quot;</span><span class="p">)</span>
+</span><span id="L-33"><a href="#L-33"><span class="linenos">33</span></a>
+</span><span id="L-34"><a href="#L-34"><span class="linenos">34</span></a>        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Using device: </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="si">}</span><span class="s2">.&quot;</span><span class="p">)</span>
+</span><span id="L-35"><a href="#L-35"><span class="linenos">35</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+</span><span id="L-36"><a href="#L-36"><span class="linenos">36</span></a>
+</span><span id="L-37"><a href="#L-37"><span class="linenos">37</span></a>        <span class="c1"># Put the model in &quot;evaluation&quot; mode</span>
+</span><span id="L-38"><a href="#L-38"><span class="linenos">38</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span>
+</span><span id="L-39"><a href="#L-39"><span class="linenos">39</span></a>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+</span><span id="L-40"><a href="#L-40"><span class="linenos">40</span></a>
+</span><span id="L-41"><a href="#L-41"><span class="linenos">41</span></a>    <span class="k">def</span> <span class="nf">embed_documents</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">docs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="n">batch_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">64</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+</span><span id="L-42"><a href="#L-42"><span class="linenos">42</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Embed a list of documents (raw text) into SBERT vectors, by batching.</span>
+</span><span id="L-43"><a href="#L-43"><span class="linenos">43</span></a>
+</span><span id="L-44"><a href="#L-44"><span class="linenos">44</span></a><span class="sd">        Args:</span>
+</span><span id="L-45"><a href="#L-45"><span class="linenos">45</span></a><span class="sd">            docs: the documents to embed.</span>
+</span><span id="L-46"><a href="#L-46"><span class="linenos">46</span></a>
+</span><span id="L-47"><a href="#L-47"><span class="linenos">47</span></a><span class="sd">        Returns:</span>
+</span><span id="L-48"><a href="#L-48"><span class="linenos">48</span></a><span class="sd">            a numpy array of shape `(num_documents, 384)`</span>
+</span><span id="L-49"><a href="#L-49"><span class="linenos">49</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="L-50"><a href="#L-50"><span class="linenos">50</span></a>
+</span><span id="L-51"><a href="#L-51"><span class="linenos">51</span></a>        <span class="n">embeddings</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="L-52"><a href="#L-52"><span class="linenos">52</span></a>
+</span><span id="L-53"><a href="#L-53"><span class="linenos">53</span></a>        <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="p">(</span>
+</span><span id="L-54"><a href="#L-54"><span class="linenos">54</span></a>            <span class="n">total</span><span class="o">=</span><span class="nb">len</span><span class="p">(</span><span class="n">docs</span><span class="p">),</span>
+</span><span id="L-55"><a href="#L-55"><span class="linenos">55</span></a>            <span class="n">desc</span><span class="o">=</span><span class="s2">&quot;embedding documents&quot;</span><span class="p">,</span>
+</span><span id="L-56"><a href="#L-56"><span class="linenos">56</span></a>            <span class="n">leave</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+</span><span id="L-57"><a href="#L-57"><span class="linenos">57</span></a>        <span class="p">)</span>
+</span><span id="L-58"><a href="#L-58"><span class="linenos">58</span></a>
+</span><span id="L-59"><a href="#L-59"><span class="linenos">59</span></a>        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">docs</span><span class="p">),</span> <span class="n">batch_size</span><span class="p">):</span>
+</span><span id="L-60"><a href="#L-60"><span class="linenos">60</span></a>            <span class="n">batch</span> <span class="o">=</span> <span class="n">docs</span><span class="p">[</span><span class="n">i</span> <span class="p">:</span> <span class="nb">min</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">docs</span><span class="p">),</span> <span class="n">i</span> <span class="o">+</span> <span class="n">batch_size</span><span class="p">)]</span>
+</span><span id="L-61"><a href="#L-61"><span class="linenos">61</span></a>
+</span><span id="L-62"><a href="#L-62"><span class="linenos">62</span></a>            <span class="c1"># no need to convert anything or dig inside model for outputs</span>
+</span><span id="L-63"><a href="#L-63"><span class="linenos">63</span></a>            <span class="n">batched_embeddings</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="n">batch</span><span class="p">)</span>
+</span><span id="L-64"><a href="#L-64"><span class="linenos">64</span></a>
+</span><span id="L-65"><a href="#L-65"><span class="linenos">65</span></a>            <span class="c1"># Collect batched embeddings</span>
+</span><span id="L-66"><a href="#L-66"><span class="linenos">66</span></a>            <span class="n">embeddings</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">batched_embeddings</span><span class="p">)</span>
+</span><span id="L-67"><a href="#L-67"><span class="linenos">67</span></a>
+</span><span id="L-68"><a href="#L-68"><span class="linenos">68</span></a>            <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">batch_size</span><span class="p">)</span>
+</span><span id="L-69"><a href="#L-69"><span class="linenos">69</span></a>        <span class="n">pbar</span><span class="o">.</span><span class="n">close</span><span class="p">()</span>
+</span><span id="L-70"><a href="#L-70"><span class="linenos">70</span></a>
+</span><span id="L-71"><a href="#L-71"><span class="linenos">71</span></a>        <span class="c1"># We don&#39;t have to deal with OOV, so we always return full list of ids</span>
+</span><span id="L-72"><a href="#L-72"><span class="linenos">72</span></a>        <span class="k">return</span> <span class="p">{</span>
+</span><span id="L-73"><a href="#L-73"><span class="linenos">73</span></a>            <span class="s2">&quot;embeddings&quot;</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">embeddings</span><span class="p">),</span>
+</span><span id="L-74"><a href="#L-74"><span class="linenos">74</span></a>            <span class="s2">&quot;indices&quot;</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">embeddings</span><span class="p">)),</span>
+</span><span id="L-75"><a href="#L-75"><span class="linenos">75</span></a>        <span class="p">}</span>
+</span></pre></div>
+
+
+            </section>
+                <section id="MPS_DEVICE">
+                    <div class="attr variable">
+            <span class="name">MPS_DEVICE</span>        =
+<span class="default_value">device(type=&#39;mps&#39;)</span>
+
+        
+    </div>
+    <a class="headerlink" href="#MPS_DEVICE"></a>
+    
+    
+
+                </section>
+                <section id="MODEL_PATH">
+                    <div class="attr variable">
+            <span class="name">MODEL_PATH</span>        =
+<span class="default_value">&#39;all-MiniLM-L6-v2&#39;</span>
+
+        
+    </div>
+    <a class="headerlink" href="#MODEL_PATH"></a>
+    
+    
+
+                </section>
+                <section id="EMBEDDING_DIM">
+                    <div class="attr variable">
+            <span class="name">EMBEDDING_DIM</span>        =
+<span class="default_value">384</span>
+
+        
+    </div>
+    <a class="headerlink" href="#EMBEDDING_DIM"></a>
+    
+    
+
+                </section>
+                <section id="MAX_SEQ_LENGTH">
+                    <div class="attr variable">
+            <span class="name">MAX_SEQ_LENGTH</span>        =
+<span class="default_value">256</span>
+
+        
+    </div>
+    <a class="headerlink" href="#MAX_SEQ_LENGTH"></a>
+    
+    
+
+                </section>
+                <section id="SBERTVectorizer">
+                            <input id="SBERTVectorizer-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
+<div class="attr class">
+            
+    <span class="def">class</span>
+    <span class="name">SBERTVectorizer</span><wbr>(<span class="base"><a href="vectorizer.html#Vectorizer">sciterra.vectorization.vectorizer.Vectorizer</a></span>):
+
+                <label class="view-source-button" for="SBERTVectorizer-view-source"><span>View Source</span></label>
+
+    </div>
+    <a class="headerlink" href="#SBERTVectorizer"></a>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="SBERTVectorizer-24"><a href="#SBERTVectorizer-24"><span class="linenos">24</span></a><span class="k">class</span> <span class="nc">SBERTVectorizer</span><span class="p">(</span><span class="n">Vectorizer</span><span class="p">):</span>
+</span><span id="SBERTVectorizer-25"><a href="#SBERTVectorizer-25"><span class="linenos">25</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="s2">&quot;cuda&quot;</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="SBERTVectorizer-26"><a href="#SBERTVectorizer-26"><span class="linenos">26</span></a>        <span class="c1"># Get the model</span>
+</span><span id="SBERTVectorizer-27"><a href="#SBERTVectorizer-27"><span class="linenos">27</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">SentenceTransformer</span><span class="p">(</span><span class="n">MODEL_PATH</span><span class="p">)</span>
+</span><span id="SBERTVectorizer-28"><a href="#SBERTVectorizer-28"><span class="linenos">28</span></a>
+</span><span id="SBERTVectorizer-29"><a href="#SBERTVectorizer-29"><span class="linenos">29</span></a>        <span class="c1"># set device to GPU</span>
+</span><span id="SBERTVectorizer-30"><a href="#SBERTVectorizer-30"><span class="linenos">30</span></a>        <span class="k">if</span> <span class="n">device</span> <span class="o">==</span> <span class="s2">&quot;mps&quot;</span><span class="p">:</span>
+</span><span id="SBERTVectorizer-31"><a href="#SBERTVectorizer-31"><span class="linenos">31</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">device</span> <span class="o">=</span> <span class="n">MPS_DEVICE</span>
+</span><span id="SBERTVectorizer-32"><a href="#SBERTVectorizer-32"><span class="linenos">32</span></a>        <span class="k">elif</span> <span class="n">device</span> <span class="o">==</span> <span class="s2">&quot;cuda&quot;</span><span class="p">:</span>
+</span><span id="SBERTVectorizer-33"><a href="#SBERTVectorizer-33"><span class="linenos">33</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">device</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">device</span><span class="p">(</span><span class="s2">&quot;cuda&quot;</span> <span class="k">if</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">is_available</span><span class="p">()</span> <span class="k">else</span> <span class="s2">&quot;cpu&quot;</span><span class="p">)</span>
+</span><span id="SBERTVectorizer-34"><a href="#SBERTVectorizer-34"><span class="linenos">34</span></a>
+</span><span id="SBERTVectorizer-35"><a href="#SBERTVectorizer-35"><span class="linenos">35</span></a>        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Using device: </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="si">}</span><span class="s2">.&quot;</span><span class="p">)</span>
+</span><span id="SBERTVectorizer-36"><a href="#SBERTVectorizer-36"><span class="linenos">36</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+</span><span id="SBERTVectorizer-37"><a href="#SBERTVectorizer-37"><span class="linenos">37</span></a>
+</span><span id="SBERTVectorizer-38"><a href="#SBERTVectorizer-38"><span class="linenos">38</span></a>        <span class="c1"># Put the model in &quot;evaluation&quot; mode</span>
+</span><span id="SBERTVectorizer-39"><a href="#SBERTVectorizer-39"><span class="linenos">39</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span>
+</span><span id="SBERTVectorizer-40"><a href="#SBERTVectorizer-40"><span class="linenos">40</span></a>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+</span><span id="SBERTVectorizer-41"><a href="#SBERTVectorizer-41"><span class="linenos">41</span></a>
+</span><span id="SBERTVectorizer-42"><a href="#SBERTVectorizer-42"><span class="linenos">42</span></a>    <span class="k">def</span> <span class="nf">embed_documents</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">docs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="n">batch_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">64</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+</span><span id="SBERTVectorizer-43"><a href="#SBERTVectorizer-43"><span class="linenos">43</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Embed a list of documents (raw text) into SBERT vectors, by batching.</span>
+</span><span id="SBERTVectorizer-44"><a href="#SBERTVectorizer-44"><span class="linenos">44</span></a>
+</span><span id="SBERTVectorizer-45"><a href="#SBERTVectorizer-45"><span class="linenos">45</span></a><span class="sd">        Args:</span>
+</span><span id="SBERTVectorizer-46"><a href="#SBERTVectorizer-46"><span class="linenos">46</span></a><span class="sd">            docs: the documents to embed.</span>
+</span><span id="SBERTVectorizer-47"><a href="#SBERTVectorizer-47"><span class="linenos">47</span></a>
+</span><span id="SBERTVectorizer-48"><a href="#SBERTVectorizer-48"><span class="linenos">48</span></a><span class="sd">        Returns:</span>
+</span><span id="SBERTVectorizer-49"><a href="#SBERTVectorizer-49"><span class="linenos">49</span></a><span class="sd">            a numpy array of shape `(num_documents, 384)`</span>
+</span><span id="SBERTVectorizer-50"><a href="#SBERTVectorizer-50"><span class="linenos">50</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="SBERTVectorizer-51"><a href="#SBERTVectorizer-51"><span class="linenos">51</span></a>
+</span><span id="SBERTVectorizer-52"><a href="#SBERTVectorizer-52"><span class="linenos">52</span></a>        <span class="n">embeddings</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="SBERTVectorizer-53"><a href="#SBERTVectorizer-53"><span class="linenos">53</span></a>
+</span><span id="SBERTVectorizer-54"><a href="#SBERTVectorizer-54"><span class="linenos">54</span></a>        <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="p">(</span>
+</span><span id="SBERTVectorizer-55"><a href="#SBERTVectorizer-55"><span class="linenos">55</span></a>            <span class="n">total</span><span class="o">=</span><span class="nb">len</span><span class="p">(</span><span class="n">docs</span><span class="p">),</span>
+</span><span id="SBERTVectorizer-56"><a href="#SBERTVectorizer-56"><span class="linenos">56</span></a>            <span class="n">desc</span><span class="o">=</span><span class="s2">&quot;embedding documents&quot;</span><span class="p">,</span>
+</span><span id="SBERTVectorizer-57"><a href="#SBERTVectorizer-57"><span class="linenos">57</span></a>            <span class="n">leave</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+</span><span id="SBERTVectorizer-58"><a href="#SBERTVectorizer-58"><span class="linenos">58</span></a>        <span class="p">)</span>
+</span><span id="SBERTVectorizer-59"><a href="#SBERTVectorizer-59"><span class="linenos">59</span></a>
+</span><span id="SBERTVectorizer-60"><a href="#SBERTVectorizer-60"><span class="linenos">60</span></a>        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">docs</span><span class="p">),</span> <span class="n">batch_size</span><span class="p">):</span>
+</span><span id="SBERTVectorizer-61"><a href="#SBERTVectorizer-61"><span class="linenos">61</span></a>            <span class="n">batch</span> <span class="o">=</span> <span class="n">docs</span><span class="p">[</span><span class="n">i</span> <span class="p">:</span> <span class="nb">min</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">docs</span><span class="p">),</span> <span class="n">i</span> <span class="o">+</span> <span class="n">batch_size</span><span class="p">)]</span>
+</span><span id="SBERTVectorizer-62"><a href="#SBERTVectorizer-62"><span class="linenos">62</span></a>
+</span><span id="SBERTVectorizer-63"><a href="#SBERTVectorizer-63"><span class="linenos">63</span></a>            <span class="c1"># no need to convert anything or dig inside model for outputs</span>
+</span><span id="SBERTVectorizer-64"><a href="#SBERTVectorizer-64"><span class="linenos">64</span></a>            <span class="n">batched_embeddings</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="n">batch</span><span class="p">)</span>
+</span><span id="SBERTVectorizer-65"><a href="#SBERTVectorizer-65"><span class="linenos">65</span></a>
+</span><span id="SBERTVectorizer-66"><a href="#SBERTVectorizer-66"><span class="linenos">66</span></a>            <span class="c1"># Collect batched embeddings</span>
+</span><span id="SBERTVectorizer-67"><a href="#SBERTVectorizer-67"><span class="linenos">67</span></a>            <span class="n">embeddings</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">batched_embeddings</span><span class="p">)</span>
+</span><span id="SBERTVectorizer-68"><a href="#SBERTVectorizer-68"><span class="linenos">68</span></a>
+</span><span id="SBERTVectorizer-69"><a href="#SBERTVectorizer-69"><span class="linenos">69</span></a>            <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">batch_size</span><span class="p">)</span>
+</span><span id="SBERTVectorizer-70"><a href="#SBERTVectorizer-70"><span class="linenos">70</span></a>        <span class="n">pbar</span><span class="o">.</span><span class="n">close</span><span class="p">()</span>
+</span><span id="SBERTVectorizer-71"><a href="#SBERTVectorizer-71"><span class="linenos">71</span></a>
+</span><span id="SBERTVectorizer-72"><a href="#SBERTVectorizer-72"><span class="linenos">72</span></a>        <span class="c1"># We don&#39;t have to deal with OOV, so we always return full list of ids</span>
+</span><span id="SBERTVectorizer-73"><a href="#SBERTVectorizer-73"><span class="linenos">73</span></a>        <span class="k">return</span> <span class="p">{</span>
+</span><span id="SBERTVectorizer-74"><a href="#SBERTVectorizer-74"><span class="linenos">74</span></a>            <span class="s2">&quot;embeddings&quot;</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">embeddings</span><span class="p">),</span>
+</span><span id="SBERTVectorizer-75"><a href="#SBERTVectorizer-75"><span class="linenos">75</span></a>            <span class="s2">&quot;indices&quot;</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">embeddings</span><span class="p">)),</span>
+</span><span id="SBERTVectorizer-76"><a href="#SBERTVectorizer-76"><span class="linenos">76</span></a>        <span class="p">}</span>
+</span></pre></div>
+
+
+    
+
+                            <div id="SBERTVectorizer.__init__" class="classattr">
+                                        <input id="SBERTVectorizer.__init__-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
+<div class="attr function">
+            
+        <span class="name">SBERTVectorizer</span><span class="signature pdoc-code condensed">(<span class="param"><span class="n">device</span><span class="o">=</span><span class="s1">&#39;cuda&#39;</span>, </span><span class="param"><span class="o">**</span><span class="n">kwargs</span></span>)</span>
+
+                <label class="view-source-button" for="SBERTVectorizer.__init__-view-source"><span>View Source</span></label>
+
+    </div>
+    <a class="headerlink" href="#SBERTVectorizer.__init__"></a>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="SBERTVectorizer.__init__-25"><a href="#SBERTVectorizer.__init__-25"><span class="linenos">25</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="s2">&quot;cuda&quot;</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="SBERTVectorizer.__init__-26"><a href="#SBERTVectorizer.__init__-26"><span class="linenos">26</span></a>        <span class="c1"># Get the model</span>
+</span><span id="SBERTVectorizer.__init__-27"><a href="#SBERTVectorizer.__init__-27"><span class="linenos">27</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">SentenceTransformer</span><span class="p">(</span><span class="n">MODEL_PATH</span><span class="p">)</span>
+</span><span id="SBERTVectorizer.__init__-28"><a href="#SBERTVectorizer.__init__-28"><span class="linenos">28</span></a>
+</span><span id="SBERTVectorizer.__init__-29"><a href="#SBERTVectorizer.__init__-29"><span class="linenos">29</span></a>        <span class="c1"># set device to GPU</span>
+</span><span id="SBERTVectorizer.__init__-30"><a href="#SBERTVectorizer.__init__-30"><span class="linenos">30</span></a>        <span class="k">if</span> <span class="n">device</span> <span class="o">==</span> <span class="s2">&quot;mps&quot;</span><span class="p">:</span>
+</span><span id="SBERTVectorizer.__init__-31"><a href="#SBERTVectorizer.__init__-31"><span class="linenos">31</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">device</span> <span class="o">=</span> <span class="n">MPS_DEVICE</span>
+</span><span id="SBERTVectorizer.__init__-32"><a href="#SBERTVectorizer.__init__-32"><span class="linenos">32</span></a>        <span class="k">elif</span> <span class="n">device</span> <span class="o">==</span> <span class="s2">&quot;cuda&quot;</span><span class="p">:</span>
+</span><span id="SBERTVectorizer.__init__-33"><a href="#SBERTVectorizer.__init__-33"><span class="linenos">33</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">device</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">device</span><span class="p">(</span><span class="s2">&quot;cuda&quot;</span> <span class="k">if</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">is_available</span><span class="p">()</span> <span class="k">else</span> <span class="s2">&quot;cpu&quot;</span><span class="p">)</span>
+</span><span id="SBERTVectorizer.__init__-34"><a href="#SBERTVectorizer.__init__-34"><span class="linenos">34</span></a>
+</span><span id="SBERTVectorizer.__init__-35"><a href="#SBERTVectorizer.__init__-35"><span class="linenos">35</span></a>        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Using device: </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="si">}</span><span class="s2">.&quot;</span><span class="p">)</span>
+</span><span id="SBERTVectorizer.__init__-36"><a href="#SBERTVectorizer.__init__-36"><span class="linenos">36</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+</span><span id="SBERTVectorizer.__init__-37"><a href="#SBERTVectorizer.__init__-37"><span class="linenos">37</span></a>
+</span><span id="SBERTVectorizer.__init__-38"><a href="#SBERTVectorizer.__init__-38"><span class="linenos">38</span></a>        <span class="c1"># Put the model in &quot;evaluation&quot; mode</span>
+</span><span id="SBERTVectorizer.__init__-39"><a href="#SBERTVectorizer.__init__-39"><span class="linenos">39</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span>
+</span><span id="SBERTVectorizer.__init__-40"><a href="#SBERTVectorizer.__init__-40"><span class="linenos">40</span></a>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+</span></pre></div>
+
+
+    
+
+                            </div>
+                            <div id="SBERTVectorizer.model" class="classattr">
+                                <div class="attr variable">
+            <span class="name">model</span>
+
+        
+    </div>
+    <a class="headerlink" href="#SBERTVectorizer.model"></a>
+    
+    
+
+                            </div>
+                            <div id="SBERTVectorizer.embed_documents" class="classattr">
+                                        <input id="SBERTVectorizer.embed_documents-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
+<div class="attr function">
+            
+        <span class="def">def</span>
+        <span class="name">embed_documents</span><span class="signature pdoc-code condensed">(<span class="param"><span class="bp">self</span>, </span><span class="param"><span class="n">docs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span>, </span><span class="param"><span class="n">batch_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">64</span></span><span class="return-annotation">) -> <span class="n">numpy</span><span class="o">.</span><span class="n">ndarray</span>:</span></span>
+
+                <label class="view-source-button" for="SBERTVectorizer.embed_documents-view-source"><span>View Source</span></label>
+
+    </div>
+    <a class="headerlink" href="#SBERTVectorizer.embed_documents"></a>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="SBERTVectorizer.embed_documents-42"><a href="#SBERTVectorizer.embed_documents-42"><span class="linenos">42</span></a>    <span class="k">def</span> <span class="nf">embed_documents</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">docs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="n">batch_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">64</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+</span><span id="SBERTVectorizer.embed_documents-43"><a href="#SBERTVectorizer.embed_documents-43"><span class="linenos">43</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Embed a list of documents (raw text) into SBERT vectors, by batching.</span>
+</span><span id="SBERTVectorizer.embed_documents-44"><a href="#SBERTVectorizer.embed_documents-44"><span class="linenos">44</span></a>
+</span><span id="SBERTVectorizer.embed_documents-45"><a href="#SBERTVectorizer.embed_documents-45"><span class="linenos">45</span></a><span class="sd">        Args:</span>
+</span><span id="SBERTVectorizer.embed_documents-46"><a href="#SBERTVectorizer.embed_documents-46"><span class="linenos">46</span></a><span class="sd">            docs: the documents to embed.</span>
+</span><span id="SBERTVectorizer.embed_documents-47"><a href="#SBERTVectorizer.embed_documents-47"><span class="linenos">47</span></a>
+</span><span id="SBERTVectorizer.embed_documents-48"><a href="#SBERTVectorizer.embed_documents-48"><span class="linenos">48</span></a><span class="sd">        Returns:</span>
+</span><span id="SBERTVectorizer.embed_documents-49"><a href="#SBERTVectorizer.embed_documents-49"><span class="linenos">49</span></a><span class="sd">            a numpy array of shape `(num_documents, 384)`</span>
+</span><span id="SBERTVectorizer.embed_documents-50"><a href="#SBERTVectorizer.embed_documents-50"><span class="linenos">50</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="SBERTVectorizer.embed_documents-51"><a href="#SBERTVectorizer.embed_documents-51"><span class="linenos">51</span></a>
+</span><span id="SBERTVectorizer.embed_documents-52"><a href="#SBERTVectorizer.embed_documents-52"><span class="linenos">52</span></a>        <span class="n">embeddings</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="SBERTVectorizer.embed_documents-53"><a href="#SBERTVectorizer.embed_documents-53"><span class="linenos">53</span></a>
+</span><span id="SBERTVectorizer.embed_documents-54"><a href="#SBERTVectorizer.embed_documents-54"><span class="linenos">54</span></a>        <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="p">(</span>
+</span><span id="SBERTVectorizer.embed_documents-55"><a href="#SBERTVectorizer.embed_documents-55"><span class="linenos">55</span></a>            <span class="n">total</span><span class="o">=</span><span class="nb">len</span><span class="p">(</span><span class="n">docs</span><span class="p">),</span>
+</span><span id="SBERTVectorizer.embed_documents-56"><a href="#SBERTVectorizer.embed_documents-56"><span class="linenos">56</span></a>            <span class="n">desc</span><span class="o">=</span><span class="s2">&quot;embedding documents&quot;</span><span class="p">,</span>
+</span><span id="SBERTVectorizer.embed_documents-57"><a href="#SBERTVectorizer.embed_documents-57"><span class="linenos">57</span></a>            <span class="n">leave</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+</span><span id="SBERTVectorizer.embed_documents-58"><a href="#SBERTVectorizer.embed_documents-58"><span class="linenos">58</span></a>        <span class="p">)</span>
+</span><span id="SBERTVectorizer.embed_documents-59"><a href="#SBERTVectorizer.embed_documents-59"><span class="linenos">59</span></a>
+</span><span id="SBERTVectorizer.embed_documents-60"><a href="#SBERTVectorizer.embed_documents-60"><span class="linenos">60</span></a>        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">docs</span><span class="p">),</span> <span class="n">batch_size</span><span class="p">):</span>
+</span><span id="SBERTVectorizer.embed_documents-61"><a href="#SBERTVectorizer.embed_documents-61"><span class="linenos">61</span></a>            <span class="n">batch</span> <span class="o">=</span> <span class="n">docs</span><span class="p">[</span><span class="n">i</span> <span class="p">:</span> <span class="nb">min</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">docs</span><span class="p">),</span> <span class="n">i</span> <span class="o">+</span> <span class="n">batch_size</span><span class="p">)]</span>
+</span><span id="SBERTVectorizer.embed_documents-62"><a href="#SBERTVectorizer.embed_documents-62"><span class="linenos">62</span></a>
+</span><span id="SBERTVectorizer.embed_documents-63"><a href="#SBERTVectorizer.embed_documents-63"><span class="linenos">63</span></a>            <span class="c1"># no need to convert anything or dig inside model for outputs</span>
+</span><span id="SBERTVectorizer.embed_documents-64"><a href="#SBERTVectorizer.embed_documents-64"><span class="linenos">64</span></a>            <span class="n">batched_embeddings</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="n">batch</span><span class="p">)</span>
+</span><span id="SBERTVectorizer.embed_documents-65"><a href="#SBERTVectorizer.embed_documents-65"><span class="linenos">65</span></a>
+</span><span id="SBERTVectorizer.embed_documents-66"><a href="#SBERTVectorizer.embed_documents-66"><span class="linenos">66</span></a>            <span class="c1"># Collect batched embeddings</span>
+</span><span id="SBERTVectorizer.embed_documents-67"><a href="#SBERTVectorizer.embed_documents-67"><span class="linenos">67</span></a>            <span class="n">embeddings</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">batched_embeddings</span><span class="p">)</span>
+</span><span id="SBERTVectorizer.embed_documents-68"><a href="#SBERTVectorizer.embed_documents-68"><span class="linenos">68</span></a>
+</span><span id="SBERTVectorizer.embed_documents-69"><a href="#SBERTVectorizer.embed_documents-69"><span class="linenos">69</span></a>            <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">batch_size</span><span class="p">)</span>
+</span><span id="SBERTVectorizer.embed_documents-70"><a href="#SBERTVectorizer.embed_documents-70"><span class="linenos">70</span></a>        <span class="n">pbar</span><span class="o">.</span><span class="n">close</span><span class="p">()</span>
+</span><span id="SBERTVectorizer.embed_documents-71"><a href="#SBERTVectorizer.embed_documents-71"><span class="linenos">71</span></a>
+</span><span id="SBERTVectorizer.embed_documents-72"><a href="#SBERTVectorizer.embed_documents-72"><span class="linenos">72</span></a>        <span class="c1"># We don&#39;t have to deal with OOV, so we always return full list of ids</span>
+</span><span id="SBERTVectorizer.embed_documents-73"><a href="#SBERTVectorizer.embed_documents-73"><span class="linenos">73</span></a>        <span class="k">return</span> <span class="p">{</span>
+</span><span id="SBERTVectorizer.embed_documents-74"><a href="#SBERTVectorizer.embed_documents-74"><span class="linenos">74</span></a>            <span class="s2">&quot;embeddings&quot;</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">embeddings</span><span class="p">),</span>
+</span><span id="SBERTVectorizer.embed_documents-75"><a href="#SBERTVectorizer.embed_documents-75"><span class="linenos">75</span></a>            <span class="s2">&quot;indices&quot;</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">embeddings</span><span class="p">)),</span>
+</span><span id="SBERTVectorizer.embed_documents-76"><a href="#SBERTVectorizer.embed_documents-76"><span class="linenos">76</span></a>        <span class="p">}</span>
+</span></pre></div>
+
+
+            <div class="docstring"><p>Embed a list of documents (raw text) into SBERT vectors, by batching.</p>
+
+<h6 id="arguments">Arguments:</h6>
+
+<ul>
+<li><strong>docs:</strong>  the documents to embed.</li>
+</ul>
+
+<h6 id="returns">Returns:</h6>
+
+<blockquote>
+  <p>a numpy array of shape <code>(num_documents, 384)</code></p>
+</blockquote>
+</div>
+
+
+                            </div>
+                </section>
+    </main>
+<script>
+    function escapeHTML(html) {
+        return document.createElement('div').appendChild(document.createTextNode(html)).parentNode.innerHTML;
+    }
+
+    const originalContent = document.querySelector("main.pdoc");
+    let currentContent = originalContent;
+
+    function setContent(innerHTML) {
+        let elem;
+        if (innerHTML) {
+            elem = document.createElement("main");
+            elem.classList.add("pdoc");
+            elem.innerHTML = innerHTML;
+        } else {
+            elem = originalContent;
+        }
+        if (currentContent !== elem) {
+            currentContent.replaceWith(elem);
+            currentContent = elem;
+        }
+    }
+
+    function getSearchTerm() {
+        return (new URL(window.location)).searchParams.get("search");
+    }
+
+    const searchBox = document.querySelector(".pdoc input[type=search]");
+    searchBox.addEventListener("input", function () {
+        let url = new URL(window.location);
+        if (searchBox.value.trim()) {
+            url.hash = "";
+            url.searchParams.set("search", searchBox.value);
+        } else {
+            url.searchParams.delete("search");
+        }
+        history.replaceState("", "", url.toString());
+        onInput();
+    });
+    window.addEventListener("popstate", onInput);
+
+
+    let search, searchErr;
+
+    async function initialize() {
+        try {
+            search = await new Promise((resolve, reject) => {
+                const script = document.createElement("script");
+                script.type = "text/javascript";
+                script.async = true;
+                script.onload = () => resolve(window.pdocSearch);
+                script.onerror = (e) => reject(e);
+                script.src = "../../search.js";
+                document.getElementsByTagName("head")[0].appendChild(script);
+            });
+        } catch (e) {
+            console.error("Cannot fetch pdoc search index");
+            searchErr = "Cannot fetch search index.";
+        }
+        onInput();
+
+        document.querySelector("nav.pdoc").addEventListener("click", e => {
+            if (e.target.hash) {
+                searchBox.value = "";
+                searchBox.dispatchEvent(new Event("input"));
+            }
+        });
+    }
+
+    function onInput() {
+        setContent((() => {
+            const term = getSearchTerm();
+            if (!term) {
+                return null
+            }
+            if (searchErr) {
+                return `<h3>Error: ${searchErr}</h3>`
+            }
+            if (!search) {
+                return "<h3>Searching...</h3>"
+            }
+
+            window.scrollTo({top: 0, left: 0, behavior: 'auto'});
+
+            const results = search(term);
+
+            let html;
+            if (results.length === 0) {
+                html = `No search results for '${escapeHTML(term)}'.`
+            } else {
+                html = `<h4>${results.length} search result${results.length > 1 ? "s" : ""} for '${escapeHTML(term)}'.</h4>`;
+            }
+            for (let result of results.slice(0, 10)) {
+                let doc = result.doc;
+                let url = `../../${doc.modulename.replaceAll(".", "/")}.html`;
+                if (doc.qualname) {
+                    url += `#${doc.qualname}`;
+                }
+
+                let heading;
+                switch (result.doc.kind) {
+                    case "function":
+                        if (doc.fullname.endsWith(".__init__")) {
+                            heading = `<span class="name">${doc.fullname.replace(/\.__init__$/, "")}</span>${doc.signature}`;
+                        } else {
+                            heading = `<span class="def">${doc.funcdef}</span> <span class="name">${doc.fullname}</span>${doc.signature}`;
+                        }
+                        break;
+                    case "class":
+                        heading = `<span class="def">class</span> <span class="name">${doc.fullname}</span>`;
+                        if (doc.bases)
+                            heading += `<wbr>(<span class="base">${doc.bases}</span>)`;
+                        heading += `:`;
+                        break;
+                    case "variable":
+                        heading = `<span class="name">${doc.fullname}</span>`;
+                        if (doc.annotation)
+                            heading += `<span class="annotation">${doc.annotation}</span>`;
+                        if (doc.default_value)
+                            heading += `<span class="default_value"> = ${doc.default_value}</span>`;
+                        break;
+                    default:
+                        heading = `<span class="name">${doc.fullname}</span>`;
+                        break;
+                }
+                html += `
+                        <section class="search-result">
+                        <a href="${url}" class="attr ${doc.kind}">${heading}</a>
+                        <div class="docstring">${doc.doc}</div>
+                        </section>
+                    `;
+
+            }
+            return html;
+        })());
+    }
+
+    if (getSearchTerm()) {
+        initialize();
+        searchBox.value = getSearchTerm();
+        onInput();
+    } else {
+        searchBox.addEventListener("focus", initialize, {once: true});
+    }
+
+    searchBox.addEventListener("keydown", e => {
+        if (["ArrowDown", "ArrowUp", "Enter"].includes(e.key)) {
+            let focused = currentContent.querySelector(".search-result.focused");
+            if (!focused) {
+                currentContent.querySelector(".search-result").classList.add("focused");
+            } else if (
+                e.key === "ArrowDown"
+                && focused.nextElementSibling
+                && focused.nextElementSibling.classList.contains("search-result")
+            ) {
+                focused.classList.remove("focused");
+                focused.nextElementSibling.classList.add("focused");
+                focused.nextElementSibling.scrollIntoView({
+                    behavior: "smooth",
+                    block: "nearest",
+                    inline: "nearest"
+                });
+            } else if (
+                e.key === "ArrowUp"
+                && focused.previousElementSibling
+                && focused.previousElementSibling.classList.contains("search-result")
+            ) {
+                focused.classList.remove("focused");
+                focused.previousElementSibling.classList.add("focused");
+                focused.previousElementSibling.scrollIntoView({
+                    behavior: "smooth",
+                    block: "nearest",
+                    inline: "nearest"
+                });
+            } else if (
+                e.key === "Enter"
+            ) {
+                focused.querySelector("a").click();
+            }
+        }
+    });
+</script></body>
+</html>
\ No newline at end of file
diff --git a/docs/sciterra/vectorization/scibert.html b/docs/sciterra/vectorization/scibert.html
index 6f79168..43c8363 100644
--- a/docs/sciterra/vectorization/scibert.html
+++ b/docs/sciterra/vectorization/scibert.html
@@ -58,6 +58,9 @@ <h2>API Documentation</h2>
             <li>
                     <a class="variable" href="#MODEL_PATH">MODEL_PATH</a>
             </li>
+            <li>
+                    <a class="variable" href="#EMBEDDING_DIM">EMBEDDING_DIM</a>
+            </li>
             <li>
                     <a class="class" href="#SciBERTVectorizer">SciBERTVectorizer</a>
                             <ul class="memberlist">
@@ -121,96 +124,104 @@ <h6 id="links">Links:</h6>
 </span><span id="L-12"><a href="#L-12"><span class="linenos"> 12</span></a><span class="kn">from</span> <span class="nn">tqdm</span> <span class="kn">import</span> <span class="n">tqdm</span>
 </span><span id="L-13"><a href="#L-13"><span class="linenos"> 13</span></a>
 </span><span id="L-14"><a href="#L-14"><span class="linenos"> 14</span></a><span class="kn">from</span> <span class="nn">transformers</span> <span class="kn">import</span> <span class="n">BertTokenizerFast</span><span class="p">,</span> <span class="n">AutoModelForSequenceClassification</span>
-</span><span id="L-15"><a href="#L-15"><span class="linenos"> 15</span></a>
-</span><span id="L-16"><a href="#L-16"><span class="linenos"> 16</span></a><span class="n">MPS_DEVICE</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">device</span><span class="p">(</span><span class="s2">&quot;mps&quot;</span><span class="p">)</span>
-</span><span id="L-17"><a href="#L-17"><span class="linenos"> 17</span></a>
-</span><span id="L-18"><a href="#L-18"><span class="linenos"> 18</span></a><span class="c1"># the SciBERT pretrained model path from Allen AI repo</span>
-</span><span id="L-19"><a href="#L-19"><span class="linenos"> 19</span></a><span class="n">MODEL_PATH</span> <span class="o">=</span> <span class="s2">&quot;allenai/scibert_scivocab_uncased&quot;</span>
+</span><span id="L-15"><a href="#L-15"><span class="linenos"> 15</span></a><span class="kn">from</span> <span class="nn">transformers</span> <span class="kn">import</span> <span class="n">logging</span>
+</span><span id="L-16"><a href="#L-16"><span class="linenos"> 16</span></a>
+</span><span id="L-17"><a href="#L-17"><span class="linenos"> 17</span></a><span class="n">logging</span><span class="o">.</span><span class="n">set_verbosity</span><span class="p">(</span><span class="n">logging</span><span class="o">.</span><span class="n">ERROR</span><span class="p">)</span>  <span class="c1"># Silence warnings about training SCIBERT</span>
+</span><span id="L-18"><a href="#L-18"><span class="linenos"> 18</span></a>
+</span><span id="L-19"><a href="#L-19"><span class="linenos"> 19</span></a><span class="n">MPS_DEVICE</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">device</span><span class="p">(</span><span class="s2">&quot;mps&quot;</span><span class="p">)</span>
 </span><span id="L-20"><a href="#L-20"><span class="linenos"> 20</span></a>
-</span><span id="L-21"><a href="#L-21"><span class="linenos"> 21</span></a>
-</span><span id="L-22"><a href="#L-22"><span class="linenos"> 22</span></a><span class="k">class</span> <span class="nc">SciBERTVectorizer</span><span class="p">(</span><span class="n">Vectorizer</span><span class="p">):</span>
-</span><span id="L-23"><a href="#L-23"><span class="linenos"> 23</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="s2">&quot;cuda&quot;</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="L-24"><a href="#L-24"><span class="linenos"> 24</span></a>        <span class="c1"># Get tokenizer</span>
-</span><span id="L-25"><a href="#L-25"><span class="linenos"> 25</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span> <span class="o">=</span> <span class="n">BertTokenizerFast</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
-</span><span id="L-26"><a href="#L-26"><span class="linenos"> 26</span></a>            <span class="n">MODEL_PATH</span><span class="p">,</span>
-</span><span id="L-27"><a href="#L-27"><span class="linenos"> 27</span></a>            <span class="n">do_lower_case</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
-</span><span id="L-28"><a href="#L-28"><span class="linenos"> 28</span></a>            <span class="n">model_max_length</span><span class="o">=</span><span class="mi">512</span><span class="p">,</span>  <span class="c1"># I shouldn&#39;t have to pass this but I do</span>
-</span><span id="L-29"><a href="#L-29"><span class="linenos"> 29</span></a>        <span class="p">)</span>
-</span><span id="L-30"><a href="#L-30"><span class="linenos"> 30</span></a>        <span class="c1"># Get the model</span>
-</span><span id="L-31"><a href="#L-31"><span class="linenos"> 31</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">AutoModelForSequenceClassification</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
-</span><span id="L-32"><a href="#L-32"><span class="linenos"> 32</span></a>            <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">MODEL_PATH</span><span class="p">,</span>
-</span><span id="L-33"><a href="#L-33"><span class="linenos"> 33</span></a>            <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-</span><span id="L-34"><a href="#L-34"><span class="linenos"> 34</span></a>            <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
-</span><span id="L-35"><a href="#L-35"><span class="linenos"> 35</span></a>        <span class="p">)</span>
-</span><span id="L-36"><a href="#L-36"><span class="linenos"> 36</span></a>
-</span><span id="L-37"><a href="#L-37"><span class="linenos"> 37</span></a>        <span class="c1"># set device to GPU</span>
-</span><span id="L-38"><a href="#L-38"><span class="linenos"> 38</span></a>        <span class="k">if</span> <span class="n">device</span> <span class="o">==</span> <span class="s2">&quot;mps&quot;</span><span class="p">:</span>
-</span><span id="L-39"><a href="#L-39"><span class="linenos"> 39</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">device</span> <span class="o">=</span> <span class="n">MPS_DEVICE</span>
-</span><span id="L-40"><a href="#L-40"><span class="linenos"> 40</span></a>        <span class="k">elif</span> <span class="n">device</span> <span class="o">==</span> <span class="s2">&quot;cuda&quot;</span><span class="p">:</span>
-</span><span id="L-41"><a href="#L-41"><span class="linenos"> 41</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">device</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">device</span><span class="p">(</span><span class="s2">&quot;cuda&quot;</span> <span class="k">if</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">is_available</span><span class="p">()</span> <span class="k">else</span> <span class="s2">&quot;cpu&quot;</span><span class="p">)</span>
-</span><span id="L-42"><a href="#L-42"><span class="linenos"> 42</span></a>
-</span><span id="L-43"><a href="#L-43"><span class="linenos"> 43</span></a>        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Using device: </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="si">}</span><span class="s2">.&quot;</span><span class="p">)</span>
-</span><span id="L-44"><a href="#L-44"><span class="linenos"> 44</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
-</span><span id="L-45"><a href="#L-45"><span class="linenos"> 45</span></a>
-</span><span id="L-46"><a href="#L-46"><span class="linenos"> 46</span></a>        <span class="c1"># Put the model in &quot;evaluation&quot; mode</span>
-</span><span id="L-47"><a href="#L-47"><span class="linenos"> 47</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span>
-</span><span id="L-48"><a href="#L-48"><span class="linenos"> 48</span></a>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
-</span><span id="L-49"><a href="#L-49"><span class="linenos"> 49</span></a>
-</span><span id="L-50"><a href="#L-50"><span class="linenos"> 50</span></a>    <span class="k">def</span> <span class="nf">embed_documents</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">docs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="n">batch_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">64</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
-</span><span id="L-51"><a href="#L-51"><span class="linenos"> 51</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Embed a list of documents (raw text) into SciBERT vectors, by batching.</span>
-</span><span id="L-52"><a href="#L-52"><span class="linenos"> 52</span></a>
-</span><span id="L-53"><a href="#L-53"><span class="linenos"> 53</span></a><span class="sd">        Args:</span>
-</span><span id="L-54"><a href="#L-54"><span class="linenos"> 54</span></a><span class="sd">            docs: the documents to embed.</span>
-</span><span id="L-55"><a href="#L-55"><span class="linenos"> 55</span></a>
-</span><span id="L-56"><a href="#L-56"><span class="linenos"> 56</span></a><span class="sd">        Returns:</span>
-</span><span id="L-57"><a href="#L-57"><span class="linenos"> 57</span></a><span class="sd">            a numpy array of shape `(num_documents, 768)`</span>
-</span><span id="L-58"><a href="#L-58"><span class="linenos"> 58</span></a><span class="sd">        &quot;&quot;&quot;</span>
-</span><span id="L-59"><a href="#L-59"><span class="linenos"> 59</span></a>
-</span><span id="L-60"><a href="#L-60"><span class="linenos"> 60</span></a>        <span class="n">embeddings</span> <span class="o">=</span> <span class="p">[]</span>
-</span><span id="L-61"><a href="#L-61"><span class="linenos"> 61</span></a>        <span class="k">with</span> <span class="n">tqdm</span><span class="p">(</span>
+</span><span id="L-21"><a href="#L-21"><span class="linenos"> 21</span></a><span class="c1"># the SciBERT pretrained model path from Allen AI repo</span>
+</span><span id="L-22"><a href="#L-22"><span class="linenos"> 22</span></a><span class="n">MODEL_PATH</span> <span class="o">=</span> <span class="s2">&quot;allenai/scibert_scivocab_uncased&quot;</span>
+</span><span id="L-23"><a href="#L-23"><span class="linenos"> 23</span></a><span class="n">EMBEDDING_DIM</span> <span class="o">=</span> <span class="mi">768</span>
+</span><span id="L-24"><a href="#L-24"><span class="linenos"> 24</span></a>
+</span><span id="L-25"><a href="#L-25"><span class="linenos"> 25</span></a>
+</span><span id="L-26"><a href="#L-26"><span class="linenos"> 26</span></a><span class="k">class</span> <span class="nc">SciBERTVectorizer</span><span class="p">(</span><span class="n">Vectorizer</span><span class="p">):</span>
+</span><span id="L-27"><a href="#L-27"><span class="linenos"> 27</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="s2">&quot;cuda&quot;</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="L-28"><a href="#L-28"><span class="linenos"> 28</span></a>        <span class="c1"># Get tokenizer</span>
+</span><span id="L-29"><a href="#L-29"><span class="linenos"> 29</span></a>        <span class="c1"># TODO: does this include the SCIVOCAB or BASEVOCAB?</span>
+</span><span id="L-30"><a href="#L-30"><span class="linenos"> 30</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span> <span class="o">=</span> <span class="n">BertTokenizerFast</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+</span><span id="L-31"><a href="#L-31"><span class="linenos"> 31</span></a>            <span class="n">MODEL_PATH</span><span class="p">,</span>
+</span><span id="L-32"><a href="#L-32"><span class="linenos"> 32</span></a>            <span class="n">do_lower_case</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+</span><span id="L-33"><a href="#L-33"><span class="linenos"> 33</span></a>            <span class="n">model_max_length</span><span class="o">=</span><span class="mi">512</span><span class="p">,</span>  <span class="c1"># I shouldn&#39;t have to pass this but I do</span>
+</span><span id="L-34"><a href="#L-34"><span class="linenos"> 34</span></a>        <span class="p">)</span>
+</span><span id="L-35"><a href="#L-35"><span class="linenos"> 35</span></a>        <span class="c1"># Get the model</span>
+</span><span id="L-36"><a href="#L-36"><span class="linenos"> 36</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">AutoModelForSequenceClassification</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+</span><span id="L-37"><a href="#L-37"><span class="linenos"> 37</span></a>            <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">MODEL_PATH</span><span class="p">,</span>
+</span><span id="L-38"><a href="#L-38"><span class="linenos"> 38</span></a>            <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+</span><span id="L-39"><a href="#L-39"><span class="linenos"> 39</span></a>            <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+</span><span id="L-40"><a href="#L-40"><span class="linenos"> 40</span></a>        <span class="p">)</span>
+</span><span id="L-41"><a href="#L-41"><span class="linenos"> 41</span></a>
+</span><span id="L-42"><a href="#L-42"><span class="linenos"> 42</span></a>        <span class="c1"># set device to GPU</span>
+</span><span id="L-43"><a href="#L-43"><span class="linenos"> 43</span></a>        <span class="k">if</span> <span class="n">device</span> <span class="o">==</span> <span class="s2">&quot;mps&quot;</span><span class="p">:</span>
+</span><span id="L-44"><a href="#L-44"><span class="linenos"> 44</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">device</span> <span class="o">=</span> <span class="n">MPS_DEVICE</span>
+</span><span id="L-45"><a href="#L-45"><span class="linenos"> 45</span></a>        <span class="k">elif</span> <span class="n">device</span> <span class="o">==</span> <span class="s2">&quot;cuda&quot;</span><span class="p">:</span>
+</span><span id="L-46"><a href="#L-46"><span class="linenos"> 46</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">device</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">device</span><span class="p">(</span><span class="s2">&quot;cuda&quot;</span> <span class="k">if</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">is_available</span><span class="p">()</span> <span class="k">else</span> <span class="s2">&quot;cpu&quot;</span><span class="p">)</span>
+</span><span id="L-47"><a href="#L-47"><span class="linenos"> 47</span></a>
+</span><span id="L-48"><a href="#L-48"><span class="linenos"> 48</span></a>        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Using device: </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="si">}</span><span class="s2">.&quot;</span><span class="p">)</span>
+</span><span id="L-49"><a href="#L-49"><span class="linenos"> 49</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+</span><span id="L-50"><a href="#L-50"><span class="linenos"> 50</span></a>
+</span><span id="L-51"><a href="#L-51"><span class="linenos"> 51</span></a>        <span class="c1"># Put the model in &quot;evaluation&quot; mode</span>
+</span><span id="L-52"><a href="#L-52"><span class="linenos"> 52</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span>
+</span><span id="L-53"><a href="#L-53"><span class="linenos"> 53</span></a>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+</span><span id="L-54"><a href="#L-54"><span class="linenos"> 54</span></a>
+</span><span id="L-55"><a href="#L-55"><span class="linenos"> 55</span></a>    <span class="k">def</span> <span class="nf">embed_documents</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">docs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="n">batch_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">64</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">]:</span>
+</span><span id="L-56"><a href="#L-56"><span class="linenos"> 56</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Embed a list of documents (raw text) into SciBERT vectors, by batching.</span>
+</span><span id="L-57"><a href="#L-57"><span class="linenos"> 57</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="L-58"><a href="#L-58"><span class="linenos"> 58</span></a>
+</span><span id="L-59"><a href="#L-59"><span class="linenos"> 59</span></a>        <span class="n">embeddings</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="L-60"><a href="#L-60"><span class="linenos"> 60</span></a>
+</span><span id="L-61"><a href="#L-61"><span class="linenos"> 61</span></a>        <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="p">(</span>
 </span><span id="L-62"><a href="#L-62"><span class="linenos"> 62</span></a>            <span class="n">total</span><span class="o">=</span><span class="nb">len</span><span class="p">(</span><span class="n">docs</span><span class="p">),</span>
 </span><span id="L-63"><a href="#L-63"><span class="linenos"> 63</span></a>            <span class="n">desc</span><span class="o">=</span><span class="s2">&quot;embedding documents&quot;</span><span class="p">,</span>
-</span><span id="L-64"><a href="#L-64"><span class="linenos"> 64</span></a>        <span class="p">)</span> <span class="k">as</span> <span class="n">pbar</span><span class="p">:</span>
-</span><span id="L-65"><a href="#L-65"><span class="linenos"> 65</span></a>            <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">docs</span><span class="p">),</span> <span class="n">batch_size</span><span class="p">):</span>
-</span><span id="L-66"><a href="#L-66"><span class="linenos"> 66</span></a>                <span class="n">batch</span> <span class="o">=</span> <span class="n">docs</span><span class="p">[</span><span class="n">i</span> <span class="p">:</span> <span class="nb">min</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">docs</span><span class="p">),</span> <span class="n">i</span> <span class="o">+</span> <span class="n">batch_size</span><span class="p">)]</span>
-</span><span id="L-67"><a href="#L-67"><span class="linenos"> 67</span></a>
-</span><span id="L-68"><a href="#L-68"><span class="linenos"> 68</span></a>                <span class="c1"># Tokenize the batch</span>
-</span><span id="L-69"><a href="#L-69"><span class="linenos"> 69</span></a>                <span class="n">encoded</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">(</span>
-</span><span id="L-70"><a href="#L-70"><span class="linenos"> 70</span></a>                    <span class="n">batch</span><span class="p">,</span>
-</span><span id="L-71"><a href="#L-71"><span class="linenos"> 71</span></a>                    <span class="n">add_special_tokens</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
-</span><span id="L-72"><a href="#L-72"><span class="linenos"> 72</span></a>                    <span class="n">padding</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>  <span class="c1"># pad up to length of longest abstract</span>
-</span><span id="L-73"><a href="#L-73"><span class="linenos"> 73</span></a>                    <span class="n">truncation</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>  <span class="c1"># max length 512 chars, unfortunately</span>
-</span><span id="L-74"><a href="#L-74"><span class="linenos"> 74</span></a>                    <span class="n">return_tensors</span><span class="o">=</span><span class="s2">&quot;pt&quot;</span><span class="p">,</span>
-</span><span id="L-75"><a href="#L-75"><span class="linenos"> 75</span></a>                <span class="p">)</span>
-</span><span id="L-76"><a href="#L-76"><span class="linenos"> 76</span></a>                <span class="c1"># each encoded item of shape [64, 512]</span>
-</span><span id="L-77"><a href="#L-77"><span class="linenos"> 77</span></a>                <span class="k">assert</span> <span class="n">encoded</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">size</span><span class="p">()[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">&lt;=</span> <span class="mi">512</span>
-</span><span id="L-78"><a href="#L-78"><span class="linenos"> 78</span></a>
-</span><span id="L-79"><a href="#L-79"><span class="linenos"> 79</span></a>                <span class="c1"># Put data on GPU</span>
-</span><span id="L-80"><a href="#L-80"><span class="linenos"> 80</span></a>                <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">encoded</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
-</span><span id="L-81"><a href="#L-81"><span class="linenos"> 81</span></a>                    <span class="n">encoded</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="n">v</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
-</span><span id="L-82"><a href="#L-82"><span class="linenos"> 82</span></a>
-</span><span id="L-83"><a href="#L-83"><span class="linenos"> 83</span></a>                <span class="c1"># Run the text through SciBERT, and collect all of the hidden states produced</span>
-</span><span id="L-84"><a href="#L-84"><span class="linenos"> 84</span></a>                <span class="c1"># from all 12 layers.</span>
-</span><span id="L-85"><a href="#L-85"><span class="linenos"> 85</span></a>                <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
-</span><span id="L-86"><a href="#L-86"><span class="linenos"> 86</span></a>                    <span class="n">_</span><span class="p">,</span> <span class="n">encoded_layers</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span>  <span class="c1"># discard logits</span>
-</span><span id="L-87"><a href="#L-87"><span class="linenos"> 87</span></a>                        <span class="o">**</span><span class="n">encoded</span><span class="p">,</span>
-</span><span id="L-88"><a href="#L-88"><span class="linenos"> 88</span></a>                        <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-</span><span id="L-89"><a href="#L-89"><span class="linenos"> 89</span></a>                    <span class="p">)</span>
-</span><span id="L-90"><a href="#L-90"><span class="linenos"> 90</span></a>
-</span><span id="L-91"><a href="#L-91"><span class="linenos"> 91</span></a>                <span class="c1"># Extract the embeddings</span>
-</span><span id="L-92"><a href="#L-92"><span class="linenos"> 92</span></a>                <span class="c1"># index last (13th) BERT layer before the classifier</span>
-</span><span id="L-93"><a href="#L-93"><span class="linenos"> 93</span></a>                <span class="n">final_hidden_state</span> <span class="o">=</span> <span class="n">encoded_layers</span><span class="p">[</span><span class="mi">12</span><span class="p">]</span>  <span class="c1"># (batch_size, 256, 768)</span>
-</span><span id="L-94"><a href="#L-94"><span class="linenos"> 94</span></a>                <span class="c1"># index first token of sequence, [CLS], for our document embeddings</span>
-</span><span id="L-95"><a href="#L-95"><span class="linenos"> 95</span></a>                <span class="n">batched_embeddings</span> <span class="o">=</span> <span class="n">final_hidden_state</span><span class="p">[:,</span> <span class="mi">0</span><span class="p">,</span> <span class="p">:]</span>  <span class="c1"># (batch_size, 768)</span>
-</span><span id="L-96"><a href="#L-96"><span class="linenos"> 96</span></a>
-</span><span id="L-97"><a href="#L-97"><span class="linenos"> 97</span></a>                <span class="c1"># Move to the CPU and convert to numpy ndarray</span>
-</span><span id="L-98"><a href="#L-98"><span class="linenos"> 98</span></a>                <span class="n">batched_embeddings</span> <span class="o">=</span> <span class="n">batched_embeddings</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">cpu</span><span class="p">()</span><span class="o">.</span><span class="n">numpy</span><span class="p">()</span>
-</span><span id="L-99"><a href="#L-99"><span class="linenos"> 99</span></a>
-</span><span id="L-100"><a href="#L-100"><span class="linenos">100</span></a>                <span class="c1"># Collect batched embeddings</span>
-</span><span id="L-101"><a href="#L-101"><span class="linenos">101</span></a>                <span class="n">embeddings</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">batched_embeddings</span><span class="p">)</span>
-</span><span id="L-102"><a href="#L-102"><span class="linenos">102</span></a>                <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">batch_size</span><span class="p">)</span>
-</span><span id="L-103"><a href="#L-103"><span class="linenos">103</span></a>
-</span><span id="L-104"><a href="#L-104"><span class="linenos">104</span></a>        <span class="k">return</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">embeddings</span><span class="p">)</span>
+</span><span id="L-64"><a href="#L-64"><span class="linenos"> 64</span></a>            <span class="n">leave</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+</span><span id="L-65"><a href="#L-65"><span class="linenos"> 65</span></a>        <span class="p">)</span>
+</span><span id="L-66"><a href="#L-66"><span class="linenos"> 66</span></a>
+</span><span id="L-67"><a href="#L-67"><span class="linenos"> 67</span></a>        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">docs</span><span class="p">),</span> <span class="n">batch_size</span><span class="p">):</span>
+</span><span id="L-68"><a href="#L-68"><span class="linenos"> 68</span></a>            <span class="n">batch</span> <span class="o">=</span> <span class="n">docs</span><span class="p">[</span><span class="n">i</span> <span class="p">:</span> <span class="nb">min</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">docs</span><span class="p">),</span> <span class="n">i</span> <span class="o">+</span> <span class="n">batch_size</span><span class="p">)]</span>
+</span><span id="L-69"><a href="#L-69"><span class="linenos"> 69</span></a>
+</span><span id="L-70"><a href="#L-70"><span class="linenos"> 70</span></a>            <span class="c1"># Tokenize the batch</span>
+</span><span id="L-71"><a href="#L-71"><span class="linenos"> 71</span></a>            <span class="n">encoded</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">(</span>
+</span><span id="L-72"><a href="#L-72"><span class="linenos"> 72</span></a>                <span class="n">batch</span><span class="p">,</span>
+</span><span id="L-73"><a href="#L-73"><span class="linenos"> 73</span></a>                <span class="n">add_special_tokens</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+</span><span id="L-74"><a href="#L-74"><span class="linenos"> 74</span></a>                <span class="n">padding</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>  <span class="c1"># pad up to length of longest abstract</span>
+</span><span id="L-75"><a href="#L-75"><span class="linenos"> 75</span></a>                <span class="n">truncation</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>  <span class="c1"># max length 512 chars, unfortunately</span>
+</span><span id="L-76"><a href="#L-76"><span class="linenos"> 76</span></a>                <span class="n">return_tensors</span><span class="o">=</span><span class="s2">&quot;pt&quot;</span><span class="p">,</span>
+</span><span id="L-77"><a href="#L-77"><span class="linenos"> 77</span></a>            <span class="p">)</span>
+</span><span id="L-78"><a href="#L-78"><span class="linenos"> 78</span></a>            <span class="c1"># each encoded item of shape [64, 512]</span>
+</span><span id="L-79"><a href="#L-79"><span class="linenos"> 79</span></a>            <span class="k">assert</span> <span class="n">encoded</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">size</span><span class="p">()[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">&lt;=</span> <span class="mi">512</span>
+</span><span id="L-80"><a href="#L-80"><span class="linenos"> 80</span></a>
+</span><span id="L-81"><a href="#L-81"><span class="linenos"> 81</span></a>            <span class="c1"># Put data on GPU</span>
+</span><span id="L-82"><a href="#L-82"><span class="linenos"> 82</span></a>            <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">encoded</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+</span><span id="L-83"><a href="#L-83"><span class="linenos"> 83</span></a>                <span class="n">encoded</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="n">v</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+</span><span id="L-84"><a href="#L-84"><span class="linenos"> 84</span></a>
+</span><span id="L-85"><a href="#L-85"><span class="linenos"> 85</span></a>            <span class="c1"># Run the text through SciBERT,</span>
+</span><span id="L-86"><a href="#L-86"><span class="linenos"> 86</span></a>            <span class="c1"># collecting all of the hidden states produced from all 12 layers.</span>
+</span><span id="L-87"><a href="#L-87"><span class="linenos"> 87</span></a>            <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
+</span><span id="L-88"><a href="#L-88"><span class="linenos"> 88</span></a>                <span class="n">_</span><span class="p">,</span> <span class="n">encoded_layers</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span>  <span class="c1"># discard logits</span>
+</span><span id="L-89"><a href="#L-89"><span class="linenos"> 89</span></a>                    <span class="o">**</span><span class="n">encoded</span><span class="p">,</span>
+</span><span id="L-90"><a href="#L-90"><span class="linenos"> 90</span></a>                    <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+</span><span id="L-91"><a href="#L-91"><span class="linenos"> 91</span></a>                <span class="p">)</span>
+</span><span id="L-92"><a href="#L-92"><span class="linenos"> 92</span></a>
+</span><span id="L-93"><a href="#L-93"><span class="linenos"> 93</span></a>            <span class="c1"># Extract the embeddings</span>
+</span><span id="L-94"><a href="#L-94"><span class="linenos"> 94</span></a>            <span class="c1"># index last (13th) BERT layer before the classifier</span>
+</span><span id="L-95"><a href="#L-95"><span class="linenos"> 95</span></a>            <span class="n">final_hidden_state</span> <span class="o">=</span> <span class="n">encoded_layers</span><span class="p">[</span><span class="mi">12</span><span class="p">]</span>  <span class="c1"># [batch_size, 256, 768]</span>
+</span><span id="L-96"><a href="#L-96"><span class="linenos"> 96</span></a>            <span class="c1"># index first token of sequence, [CLS], for our document embeddings</span>
+</span><span id="L-97"><a href="#L-97"><span class="linenos"> 97</span></a>            <span class="n">batched_embeddings</span> <span class="o">=</span> <span class="n">final_hidden_state</span><span class="p">[:,</span> <span class="mi">0</span><span class="p">,</span> <span class="p">:]</span>  <span class="c1"># [batch_size, 768]</span>
+</span><span id="L-98"><a href="#L-98"><span class="linenos"> 98</span></a>
+</span><span id="L-99"><a href="#L-99"><span class="linenos"> 99</span></a>            <span class="c1"># Move to the CPU and convert to numpy ndarray</span>
+</span><span id="L-100"><a href="#L-100"><span class="linenos">100</span></a>            <span class="n">batched_embeddings</span> <span class="o">=</span> <span class="n">batched_embeddings</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">cpu</span><span class="p">()</span><span class="o">.</span><span class="n">numpy</span><span class="p">()</span>
+</span><span id="L-101"><a href="#L-101"><span class="linenos">101</span></a>
+</span><span id="L-102"><a href="#L-102"><span class="linenos">102</span></a>            <span class="c1"># Collect batched embeddings</span>
+</span><span id="L-103"><a href="#L-103"><span class="linenos">103</span></a>            <span class="n">embeddings</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">batched_embeddings</span><span class="p">)</span>
+</span><span id="L-104"><a href="#L-104"><span class="linenos">104</span></a>
+</span><span id="L-105"><a href="#L-105"><span class="linenos">105</span></a>            <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">batch_size</span><span class="p">)</span>
+</span><span id="L-106"><a href="#L-106"><span class="linenos">106</span></a>        <span class="n">pbar</span><span class="o">.</span><span class="n">close</span><span class="p">()</span>
+</span><span id="L-107"><a href="#L-107"><span class="linenos">107</span></a>
+</span><span id="L-108"><a href="#L-108"><span class="linenos">108</span></a>        <span class="c1"># We don&#39;t have to deal with OOV, so we always return full list of ids</span>
+</span><span id="L-109"><a href="#L-109"><span class="linenos">109</span></a>        <span class="k">return</span> <span class="p">{</span>
+</span><span id="L-110"><a href="#L-110"><span class="linenos">110</span></a>            <span class="s2">&quot;embeddings&quot;</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">embeddings</span><span class="p">),</span>
+</span><span id="L-111"><a href="#L-111"><span class="linenos">111</span></a>            <span class="s2">&quot;indices&quot;</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">embeddings</span><span class="p">)),</span>
+</span><span id="L-112"><a href="#L-112"><span class="linenos">112</span></a>        <span class="p">}</span>
 </span></pre></div>
 
 
@@ -238,6 +249,18 @@ <h6 id="links">Links:</h6>
     
     
 
+                </section>
+                <section id="EMBEDDING_DIM">
+                    <div class="attr variable">
+            <span class="name">EMBEDDING_DIM</span>        =
+<span class="default_value">768</span>
+
+        
+    </div>
+    <a class="headerlink" href="#EMBEDDING_DIM"></a>
+    
+    
+
                 </section>
                 <section id="SciBERTVectorizer">
                             <input id="SciBERTVectorizer-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
@@ -250,89 +273,93 @@ <h6 id="links">Links:</h6>
 
     </div>
     <a class="headerlink" href="#SciBERTVectorizer"></a>
-            <div class="pdoc-code codehilite"><pre><span></span><span id="SciBERTVectorizer-23"><a href="#SciBERTVectorizer-23"><span class="linenos"> 23</span></a><span class="k">class</span> <span class="nc">SciBERTVectorizer</span><span class="p">(</span><span class="n">Vectorizer</span><span class="p">):</span>
-</span><span id="SciBERTVectorizer-24"><a href="#SciBERTVectorizer-24"><span class="linenos"> 24</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="s2">&quot;cuda&quot;</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="SciBERTVectorizer-25"><a href="#SciBERTVectorizer-25"><span class="linenos"> 25</span></a>        <span class="c1"># Get tokenizer</span>
-</span><span id="SciBERTVectorizer-26"><a href="#SciBERTVectorizer-26"><span class="linenos"> 26</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span> <span class="o">=</span> <span class="n">BertTokenizerFast</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
-</span><span id="SciBERTVectorizer-27"><a href="#SciBERTVectorizer-27"><span class="linenos"> 27</span></a>            <span class="n">MODEL_PATH</span><span class="p">,</span>
-</span><span id="SciBERTVectorizer-28"><a href="#SciBERTVectorizer-28"><span class="linenos"> 28</span></a>            <span class="n">do_lower_case</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
-</span><span id="SciBERTVectorizer-29"><a href="#SciBERTVectorizer-29"><span class="linenos"> 29</span></a>            <span class="n">model_max_length</span><span class="o">=</span><span class="mi">512</span><span class="p">,</span>  <span class="c1"># I shouldn&#39;t have to pass this but I do</span>
-</span><span id="SciBERTVectorizer-30"><a href="#SciBERTVectorizer-30"><span class="linenos"> 30</span></a>        <span class="p">)</span>
-</span><span id="SciBERTVectorizer-31"><a href="#SciBERTVectorizer-31"><span class="linenos"> 31</span></a>        <span class="c1"># Get the model</span>
-</span><span id="SciBERTVectorizer-32"><a href="#SciBERTVectorizer-32"><span class="linenos"> 32</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">AutoModelForSequenceClassification</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
-</span><span id="SciBERTVectorizer-33"><a href="#SciBERTVectorizer-33"><span class="linenos"> 33</span></a>            <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">MODEL_PATH</span><span class="p">,</span>
-</span><span id="SciBERTVectorizer-34"><a href="#SciBERTVectorizer-34"><span class="linenos"> 34</span></a>            <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-</span><span id="SciBERTVectorizer-35"><a href="#SciBERTVectorizer-35"><span class="linenos"> 35</span></a>            <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
-</span><span id="SciBERTVectorizer-36"><a href="#SciBERTVectorizer-36"><span class="linenos"> 36</span></a>        <span class="p">)</span>
-</span><span id="SciBERTVectorizer-37"><a href="#SciBERTVectorizer-37"><span class="linenos"> 37</span></a>
-</span><span id="SciBERTVectorizer-38"><a href="#SciBERTVectorizer-38"><span class="linenos"> 38</span></a>        <span class="c1"># set device to GPU</span>
-</span><span id="SciBERTVectorizer-39"><a href="#SciBERTVectorizer-39"><span class="linenos"> 39</span></a>        <span class="k">if</span> <span class="n">device</span> <span class="o">==</span> <span class="s2">&quot;mps&quot;</span><span class="p">:</span>
-</span><span id="SciBERTVectorizer-40"><a href="#SciBERTVectorizer-40"><span class="linenos"> 40</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">device</span> <span class="o">=</span> <span class="n">MPS_DEVICE</span>
-</span><span id="SciBERTVectorizer-41"><a href="#SciBERTVectorizer-41"><span class="linenos"> 41</span></a>        <span class="k">elif</span> <span class="n">device</span> <span class="o">==</span> <span class="s2">&quot;cuda&quot;</span><span class="p">:</span>
-</span><span id="SciBERTVectorizer-42"><a href="#SciBERTVectorizer-42"><span class="linenos"> 42</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">device</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">device</span><span class="p">(</span><span class="s2">&quot;cuda&quot;</span> <span class="k">if</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">is_available</span><span class="p">()</span> <span class="k">else</span> <span class="s2">&quot;cpu&quot;</span><span class="p">)</span>
-</span><span id="SciBERTVectorizer-43"><a href="#SciBERTVectorizer-43"><span class="linenos"> 43</span></a>
-</span><span id="SciBERTVectorizer-44"><a href="#SciBERTVectorizer-44"><span class="linenos"> 44</span></a>        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Using device: </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="si">}</span><span class="s2">.&quot;</span><span class="p">)</span>
-</span><span id="SciBERTVectorizer-45"><a href="#SciBERTVectorizer-45"><span class="linenos"> 45</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
-</span><span id="SciBERTVectorizer-46"><a href="#SciBERTVectorizer-46"><span class="linenos"> 46</span></a>
-</span><span id="SciBERTVectorizer-47"><a href="#SciBERTVectorizer-47"><span class="linenos"> 47</span></a>        <span class="c1"># Put the model in &quot;evaluation&quot; mode</span>
-</span><span id="SciBERTVectorizer-48"><a href="#SciBERTVectorizer-48"><span class="linenos"> 48</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span>
-</span><span id="SciBERTVectorizer-49"><a href="#SciBERTVectorizer-49"><span class="linenos"> 49</span></a>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
-</span><span id="SciBERTVectorizer-50"><a href="#SciBERTVectorizer-50"><span class="linenos"> 50</span></a>
-</span><span id="SciBERTVectorizer-51"><a href="#SciBERTVectorizer-51"><span class="linenos"> 51</span></a>    <span class="k">def</span> <span class="nf">embed_documents</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">docs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="n">batch_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">64</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
-</span><span id="SciBERTVectorizer-52"><a href="#SciBERTVectorizer-52"><span class="linenos"> 52</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Embed a list of documents (raw text) into SciBERT vectors, by batching.</span>
-</span><span id="SciBERTVectorizer-53"><a href="#SciBERTVectorizer-53"><span class="linenos"> 53</span></a>
-</span><span id="SciBERTVectorizer-54"><a href="#SciBERTVectorizer-54"><span class="linenos"> 54</span></a><span class="sd">        Args:</span>
-</span><span id="SciBERTVectorizer-55"><a href="#SciBERTVectorizer-55"><span class="linenos"> 55</span></a><span class="sd">            docs: the documents to embed.</span>
-</span><span id="SciBERTVectorizer-56"><a href="#SciBERTVectorizer-56"><span class="linenos"> 56</span></a>
-</span><span id="SciBERTVectorizer-57"><a href="#SciBERTVectorizer-57"><span class="linenos"> 57</span></a><span class="sd">        Returns:</span>
-</span><span id="SciBERTVectorizer-58"><a href="#SciBERTVectorizer-58"><span class="linenos"> 58</span></a><span class="sd">            a numpy array of shape `(num_documents, 768)`</span>
-</span><span id="SciBERTVectorizer-59"><a href="#SciBERTVectorizer-59"><span class="linenos"> 59</span></a><span class="sd">        &quot;&quot;&quot;</span>
-</span><span id="SciBERTVectorizer-60"><a href="#SciBERTVectorizer-60"><span class="linenos"> 60</span></a>
-</span><span id="SciBERTVectorizer-61"><a href="#SciBERTVectorizer-61"><span class="linenos"> 61</span></a>        <span class="n">embeddings</span> <span class="o">=</span> <span class="p">[]</span>
-</span><span id="SciBERTVectorizer-62"><a href="#SciBERTVectorizer-62"><span class="linenos"> 62</span></a>        <span class="k">with</span> <span class="n">tqdm</span><span class="p">(</span>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="SciBERTVectorizer-27"><a href="#SciBERTVectorizer-27"><span class="linenos"> 27</span></a><span class="k">class</span> <span class="nc">SciBERTVectorizer</span><span class="p">(</span><span class="n">Vectorizer</span><span class="p">):</span>
+</span><span id="SciBERTVectorizer-28"><a href="#SciBERTVectorizer-28"><span class="linenos"> 28</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="s2">&quot;cuda&quot;</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="SciBERTVectorizer-29"><a href="#SciBERTVectorizer-29"><span class="linenos"> 29</span></a>        <span class="c1"># Get tokenizer</span>
+</span><span id="SciBERTVectorizer-30"><a href="#SciBERTVectorizer-30"><span class="linenos"> 30</span></a>        <span class="c1"># TODO: does this include the SCIVOCAB or BASEVOCAB?</span>
+</span><span id="SciBERTVectorizer-31"><a href="#SciBERTVectorizer-31"><span class="linenos"> 31</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span> <span class="o">=</span> <span class="n">BertTokenizerFast</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+</span><span id="SciBERTVectorizer-32"><a href="#SciBERTVectorizer-32"><span class="linenos"> 32</span></a>            <span class="n">MODEL_PATH</span><span class="p">,</span>
+</span><span id="SciBERTVectorizer-33"><a href="#SciBERTVectorizer-33"><span class="linenos"> 33</span></a>            <span class="n">do_lower_case</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+</span><span id="SciBERTVectorizer-34"><a href="#SciBERTVectorizer-34"><span class="linenos"> 34</span></a>            <span class="n">model_max_length</span><span class="o">=</span><span class="mi">512</span><span class="p">,</span>  <span class="c1"># I shouldn&#39;t have to pass this but I do</span>
+</span><span id="SciBERTVectorizer-35"><a href="#SciBERTVectorizer-35"><span class="linenos"> 35</span></a>        <span class="p">)</span>
+</span><span id="SciBERTVectorizer-36"><a href="#SciBERTVectorizer-36"><span class="linenos"> 36</span></a>        <span class="c1"># Get the model</span>
+</span><span id="SciBERTVectorizer-37"><a href="#SciBERTVectorizer-37"><span class="linenos"> 37</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">AutoModelForSequenceClassification</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+</span><span id="SciBERTVectorizer-38"><a href="#SciBERTVectorizer-38"><span class="linenos"> 38</span></a>            <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">MODEL_PATH</span><span class="p">,</span>
+</span><span id="SciBERTVectorizer-39"><a href="#SciBERTVectorizer-39"><span class="linenos"> 39</span></a>            <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+</span><span id="SciBERTVectorizer-40"><a href="#SciBERTVectorizer-40"><span class="linenos"> 40</span></a>            <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+</span><span id="SciBERTVectorizer-41"><a href="#SciBERTVectorizer-41"><span class="linenos"> 41</span></a>        <span class="p">)</span>
+</span><span id="SciBERTVectorizer-42"><a href="#SciBERTVectorizer-42"><span class="linenos"> 42</span></a>
+</span><span id="SciBERTVectorizer-43"><a href="#SciBERTVectorizer-43"><span class="linenos"> 43</span></a>        <span class="c1"># set device to GPU</span>
+</span><span id="SciBERTVectorizer-44"><a href="#SciBERTVectorizer-44"><span class="linenos"> 44</span></a>        <span class="k">if</span> <span class="n">device</span> <span class="o">==</span> <span class="s2">&quot;mps&quot;</span><span class="p">:</span>
+</span><span id="SciBERTVectorizer-45"><a href="#SciBERTVectorizer-45"><span class="linenos"> 45</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">device</span> <span class="o">=</span> <span class="n">MPS_DEVICE</span>
+</span><span id="SciBERTVectorizer-46"><a href="#SciBERTVectorizer-46"><span class="linenos"> 46</span></a>        <span class="k">elif</span> <span class="n">device</span> <span class="o">==</span> <span class="s2">&quot;cuda&quot;</span><span class="p">:</span>
+</span><span id="SciBERTVectorizer-47"><a href="#SciBERTVectorizer-47"><span class="linenos"> 47</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">device</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">device</span><span class="p">(</span><span class="s2">&quot;cuda&quot;</span> <span class="k">if</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">is_available</span><span class="p">()</span> <span class="k">else</span> <span class="s2">&quot;cpu&quot;</span><span class="p">)</span>
+</span><span id="SciBERTVectorizer-48"><a href="#SciBERTVectorizer-48"><span class="linenos"> 48</span></a>
+</span><span id="SciBERTVectorizer-49"><a href="#SciBERTVectorizer-49"><span class="linenos"> 49</span></a>        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Using device: </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="si">}</span><span class="s2">.&quot;</span><span class="p">)</span>
+</span><span id="SciBERTVectorizer-50"><a href="#SciBERTVectorizer-50"><span class="linenos"> 50</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+</span><span id="SciBERTVectorizer-51"><a href="#SciBERTVectorizer-51"><span class="linenos"> 51</span></a>
+</span><span id="SciBERTVectorizer-52"><a href="#SciBERTVectorizer-52"><span class="linenos"> 52</span></a>        <span class="c1"># Put the model in &quot;evaluation&quot; mode</span>
+</span><span id="SciBERTVectorizer-53"><a href="#SciBERTVectorizer-53"><span class="linenos"> 53</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span>
+</span><span id="SciBERTVectorizer-54"><a href="#SciBERTVectorizer-54"><span class="linenos"> 54</span></a>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+</span><span id="SciBERTVectorizer-55"><a href="#SciBERTVectorizer-55"><span class="linenos"> 55</span></a>
+</span><span id="SciBERTVectorizer-56"><a href="#SciBERTVectorizer-56"><span class="linenos"> 56</span></a>    <span class="k">def</span> <span class="nf">embed_documents</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">docs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="n">batch_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">64</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">]:</span>
+</span><span id="SciBERTVectorizer-57"><a href="#SciBERTVectorizer-57"><span class="linenos"> 57</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Embed a list of documents (raw text) into SciBERT vectors, by batching.</span>
+</span><span id="SciBERTVectorizer-58"><a href="#SciBERTVectorizer-58"><span class="linenos"> 58</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="SciBERTVectorizer-59"><a href="#SciBERTVectorizer-59"><span class="linenos"> 59</span></a>
+</span><span id="SciBERTVectorizer-60"><a href="#SciBERTVectorizer-60"><span class="linenos"> 60</span></a>        <span class="n">embeddings</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="SciBERTVectorizer-61"><a href="#SciBERTVectorizer-61"><span class="linenos"> 61</span></a>
+</span><span id="SciBERTVectorizer-62"><a href="#SciBERTVectorizer-62"><span class="linenos"> 62</span></a>        <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="p">(</span>
 </span><span id="SciBERTVectorizer-63"><a href="#SciBERTVectorizer-63"><span class="linenos"> 63</span></a>            <span class="n">total</span><span class="o">=</span><span class="nb">len</span><span class="p">(</span><span class="n">docs</span><span class="p">),</span>
 </span><span id="SciBERTVectorizer-64"><a href="#SciBERTVectorizer-64"><span class="linenos"> 64</span></a>            <span class="n">desc</span><span class="o">=</span><span class="s2">&quot;embedding documents&quot;</span><span class="p">,</span>
-</span><span id="SciBERTVectorizer-65"><a href="#SciBERTVectorizer-65"><span class="linenos"> 65</span></a>        <span class="p">)</span> <span class="k">as</span> <span class="n">pbar</span><span class="p">:</span>
-</span><span id="SciBERTVectorizer-66"><a href="#SciBERTVectorizer-66"><span class="linenos"> 66</span></a>            <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">docs</span><span class="p">),</span> <span class="n">batch_size</span><span class="p">):</span>
-</span><span id="SciBERTVectorizer-67"><a href="#SciBERTVectorizer-67"><span class="linenos"> 67</span></a>                <span class="n">batch</span> <span class="o">=</span> <span class="n">docs</span><span class="p">[</span><span class="n">i</span> <span class="p">:</span> <span class="nb">min</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">docs</span><span class="p">),</span> <span class="n">i</span> <span class="o">+</span> <span class="n">batch_size</span><span class="p">)]</span>
-</span><span id="SciBERTVectorizer-68"><a href="#SciBERTVectorizer-68"><span class="linenos"> 68</span></a>
-</span><span id="SciBERTVectorizer-69"><a href="#SciBERTVectorizer-69"><span class="linenos"> 69</span></a>                <span class="c1"># Tokenize the batch</span>
-</span><span id="SciBERTVectorizer-70"><a href="#SciBERTVectorizer-70"><span class="linenos"> 70</span></a>                <span class="n">encoded</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">(</span>
-</span><span id="SciBERTVectorizer-71"><a href="#SciBERTVectorizer-71"><span class="linenos"> 71</span></a>                    <span class="n">batch</span><span class="p">,</span>
-</span><span id="SciBERTVectorizer-72"><a href="#SciBERTVectorizer-72"><span class="linenos"> 72</span></a>                    <span class="n">add_special_tokens</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
-</span><span id="SciBERTVectorizer-73"><a href="#SciBERTVectorizer-73"><span class="linenos"> 73</span></a>                    <span class="n">padding</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>  <span class="c1"># pad up to length of longest abstract</span>
-</span><span id="SciBERTVectorizer-74"><a href="#SciBERTVectorizer-74"><span class="linenos"> 74</span></a>                    <span class="n">truncation</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>  <span class="c1"># max length 512 chars, unfortunately</span>
-</span><span id="SciBERTVectorizer-75"><a href="#SciBERTVectorizer-75"><span class="linenos"> 75</span></a>                    <span class="n">return_tensors</span><span class="o">=</span><span class="s2">&quot;pt&quot;</span><span class="p">,</span>
-</span><span id="SciBERTVectorizer-76"><a href="#SciBERTVectorizer-76"><span class="linenos"> 76</span></a>                <span class="p">)</span>
-</span><span id="SciBERTVectorizer-77"><a href="#SciBERTVectorizer-77"><span class="linenos"> 77</span></a>                <span class="c1"># each encoded item of shape [64, 512]</span>
-</span><span id="SciBERTVectorizer-78"><a href="#SciBERTVectorizer-78"><span class="linenos"> 78</span></a>                <span class="k">assert</span> <span class="n">encoded</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">size</span><span class="p">()[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">&lt;=</span> <span class="mi">512</span>
-</span><span id="SciBERTVectorizer-79"><a href="#SciBERTVectorizer-79"><span class="linenos"> 79</span></a>
-</span><span id="SciBERTVectorizer-80"><a href="#SciBERTVectorizer-80"><span class="linenos"> 80</span></a>                <span class="c1"># Put data on GPU</span>
-</span><span id="SciBERTVectorizer-81"><a href="#SciBERTVectorizer-81"><span class="linenos"> 81</span></a>                <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">encoded</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
-</span><span id="SciBERTVectorizer-82"><a href="#SciBERTVectorizer-82"><span class="linenos"> 82</span></a>                    <span class="n">encoded</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="n">v</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
-</span><span id="SciBERTVectorizer-83"><a href="#SciBERTVectorizer-83"><span class="linenos"> 83</span></a>
-</span><span id="SciBERTVectorizer-84"><a href="#SciBERTVectorizer-84"><span class="linenos"> 84</span></a>                <span class="c1"># Run the text through SciBERT, and collect all of the hidden states produced</span>
-</span><span id="SciBERTVectorizer-85"><a href="#SciBERTVectorizer-85"><span class="linenos"> 85</span></a>                <span class="c1"># from all 12 layers.</span>
-</span><span id="SciBERTVectorizer-86"><a href="#SciBERTVectorizer-86"><span class="linenos"> 86</span></a>                <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
-</span><span id="SciBERTVectorizer-87"><a href="#SciBERTVectorizer-87"><span class="linenos"> 87</span></a>                    <span class="n">_</span><span class="p">,</span> <span class="n">encoded_layers</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span>  <span class="c1"># discard logits</span>
-</span><span id="SciBERTVectorizer-88"><a href="#SciBERTVectorizer-88"><span class="linenos"> 88</span></a>                        <span class="o">**</span><span class="n">encoded</span><span class="p">,</span>
-</span><span id="SciBERTVectorizer-89"><a href="#SciBERTVectorizer-89"><span class="linenos"> 89</span></a>                        <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-</span><span id="SciBERTVectorizer-90"><a href="#SciBERTVectorizer-90"><span class="linenos"> 90</span></a>                    <span class="p">)</span>
-</span><span id="SciBERTVectorizer-91"><a href="#SciBERTVectorizer-91"><span class="linenos"> 91</span></a>
-</span><span id="SciBERTVectorizer-92"><a href="#SciBERTVectorizer-92"><span class="linenos"> 92</span></a>                <span class="c1"># Extract the embeddings</span>
-</span><span id="SciBERTVectorizer-93"><a href="#SciBERTVectorizer-93"><span class="linenos"> 93</span></a>                <span class="c1"># index last (13th) BERT layer before the classifier</span>
-</span><span id="SciBERTVectorizer-94"><a href="#SciBERTVectorizer-94"><span class="linenos"> 94</span></a>                <span class="n">final_hidden_state</span> <span class="o">=</span> <span class="n">encoded_layers</span><span class="p">[</span><span class="mi">12</span><span class="p">]</span>  <span class="c1"># (batch_size, 256, 768)</span>
-</span><span id="SciBERTVectorizer-95"><a href="#SciBERTVectorizer-95"><span class="linenos"> 95</span></a>                <span class="c1"># index first token of sequence, [CLS], for our document embeddings</span>
-</span><span id="SciBERTVectorizer-96"><a href="#SciBERTVectorizer-96"><span class="linenos"> 96</span></a>                <span class="n">batched_embeddings</span> <span class="o">=</span> <span class="n">final_hidden_state</span><span class="p">[:,</span> <span class="mi">0</span><span class="p">,</span> <span class="p">:]</span>  <span class="c1"># (batch_size, 768)</span>
-</span><span id="SciBERTVectorizer-97"><a href="#SciBERTVectorizer-97"><span class="linenos"> 97</span></a>
-</span><span id="SciBERTVectorizer-98"><a href="#SciBERTVectorizer-98"><span class="linenos"> 98</span></a>                <span class="c1"># Move to the CPU and convert to numpy ndarray</span>
-</span><span id="SciBERTVectorizer-99"><a href="#SciBERTVectorizer-99"><span class="linenos"> 99</span></a>                <span class="n">batched_embeddings</span> <span class="o">=</span> <span class="n">batched_embeddings</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">cpu</span><span class="p">()</span><span class="o">.</span><span class="n">numpy</span><span class="p">()</span>
-</span><span id="SciBERTVectorizer-100"><a href="#SciBERTVectorizer-100"><span class="linenos">100</span></a>
-</span><span id="SciBERTVectorizer-101"><a href="#SciBERTVectorizer-101"><span class="linenos">101</span></a>                <span class="c1"># Collect batched embeddings</span>
-</span><span id="SciBERTVectorizer-102"><a href="#SciBERTVectorizer-102"><span class="linenos">102</span></a>                <span class="n">embeddings</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">batched_embeddings</span><span class="p">)</span>
-</span><span id="SciBERTVectorizer-103"><a href="#SciBERTVectorizer-103"><span class="linenos">103</span></a>                <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">batch_size</span><span class="p">)</span>
-</span><span id="SciBERTVectorizer-104"><a href="#SciBERTVectorizer-104"><span class="linenos">104</span></a>
-</span><span id="SciBERTVectorizer-105"><a href="#SciBERTVectorizer-105"><span class="linenos">105</span></a>        <span class="k">return</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">embeddings</span><span class="p">)</span>
+</span><span id="SciBERTVectorizer-65"><a href="#SciBERTVectorizer-65"><span class="linenos"> 65</span></a>            <span class="n">leave</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+</span><span id="SciBERTVectorizer-66"><a href="#SciBERTVectorizer-66"><span class="linenos"> 66</span></a>        <span class="p">)</span>
+</span><span id="SciBERTVectorizer-67"><a href="#SciBERTVectorizer-67"><span class="linenos"> 67</span></a>
+</span><span id="SciBERTVectorizer-68"><a href="#SciBERTVectorizer-68"><span class="linenos"> 68</span></a>        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">docs</span><span class="p">),</span> <span class="n">batch_size</span><span class="p">):</span>
+</span><span id="SciBERTVectorizer-69"><a href="#SciBERTVectorizer-69"><span class="linenos"> 69</span></a>            <span class="n">batch</span> <span class="o">=</span> <span class="n">docs</span><span class="p">[</span><span class="n">i</span> <span class="p">:</span> <span class="nb">min</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">docs</span><span class="p">),</span> <span class="n">i</span> <span class="o">+</span> <span class="n">batch_size</span><span class="p">)]</span>
+</span><span id="SciBERTVectorizer-70"><a href="#SciBERTVectorizer-70"><span class="linenos"> 70</span></a>
+</span><span id="SciBERTVectorizer-71"><a href="#SciBERTVectorizer-71"><span class="linenos"> 71</span></a>            <span class="c1"># Tokenize the batch</span>
+</span><span id="SciBERTVectorizer-72"><a href="#SciBERTVectorizer-72"><span class="linenos"> 72</span></a>            <span class="n">encoded</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">(</span>
+</span><span id="SciBERTVectorizer-73"><a href="#SciBERTVectorizer-73"><span class="linenos"> 73</span></a>                <span class="n">batch</span><span class="p">,</span>
+</span><span id="SciBERTVectorizer-74"><a href="#SciBERTVectorizer-74"><span class="linenos"> 74</span></a>                <span class="n">add_special_tokens</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+</span><span id="SciBERTVectorizer-75"><a href="#SciBERTVectorizer-75"><span class="linenos"> 75</span></a>                <span class="n">padding</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>  <span class="c1"># pad up to length of longest abstract</span>
+</span><span id="SciBERTVectorizer-76"><a href="#SciBERTVectorizer-76"><span class="linenos"> 76</span></a>                <span class="n">truncation</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>  <span class="c1"># max length 512 chars, unfortunately</span>
+</span><span id="SciBERTVectorizer-77"><a href="#SciBERTVectorizer-77"><span class="linenos"> 77</span></a>                <span class="n">return_tensors</span><span class="o">=</span><span class="s2">&quot;pt&quot;</span><span class="p">,</span>
+</span><span id="SciBERTVectorizer-78"><a href="#SciBERTVectorizer-78"><span class="linenos"> 78</span></a>            <span class="p">)</span>
+</span><span id="SciBERTVectorizer-79"><a href="#SciBERTVectorizer-79"><span class="linenos"> 79</span></a>            <span class="c1"># each encoded item of shape [64, 512]</span>
+</span><span id="SciBERTVectorizer-80"><a href="#SciBERTVectorizer-80"><span class="linenos"> 80</span></a>            <span class="k">assert</span> <span class="n">encoded</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">size</span><span class="p">()[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">&lt;=</span> <span class="mi">512</span>
+</span><span id="SciBERTVectorizer-81"><a href="#SciBERTVectorizer-81"><span class="linenos"> 81</span></a>
+</span><span id="SciBERTVectorizer-82"><a href="#SciBERTVectorizer-82"><span class="linenos"> 82</span></a>            <span class="c1"># Put data on GPU</span>
+</span><span id="SciBERTVectorizer-83"><a href="#SciBERTVectorizer-83"><span class="linenos"> 83</span></a>            <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">encoded</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+</span><span id="SciBERTVectorizer-84"><a href="#SciBERTVectorizer-84"><span class="linenos"> 84</span></a>                <span class="n">encoded</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="n">v</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+</span><span id="SciBERTVectorizer-85"><a href="#SciBERTVectorizer-85"><span class="linenos"> 85</span></a>
+</span><span id="SciBERTVectorizer-86"><a href="#SciBERTVectorizer-86"><span class="linenos"> 86</span></a>            <span class="c1"># Run the text through SciBERT,</span>
+</span><span id="SciBERTVectorizer-87"><a href="#SciBERTVectorizer-87"><span class="linenos"> 87</span></a>            <span class="c1"># collecting all of the hidden states produced from all 12 layers.</span>
+</span><span id="SciBERTVectorizer-88"><a href="#SciBERTVectorizer-88"><span class="linenos"> 88</span></a>            <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
+</span><span id="SciBERTVectorizer-89"><a href="#SciBERTVectorizer-89"><span class="linenos"> 89</span></a>                <span class="n">_</span><span class="p">,</span> <span class="n">encoded_layers</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span>  <span class="c1"># discard logits</span>
+</span><span id="SciBERTVectorizer-90"><a href="#SciBERTVectorizer-90"><span class="linenos"> 90</span></a>                    <span class="o">**</span><span class="n">encoded</span><span class="p">,</span>
+</span><span id="SciBERTVectorizer-91"><a href="#SciBERTVectorizer-91"><span class="linenos"> 91</span></a>                    <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+</span><span id="SciBERTVectorizer-92"><a href="#SciBERTVectorizer-92"><span class="linenos"> 92</span></a>                <span class="p">)</span>
+</span><span id="SciBERTVectorizer-93"><a href="#SciBERTVectorizer-93"><span class="linenos"> 93</span></a>
+</span><span id="SciBERTVectorizer-94"><a href="#SciBERTVectorizer-94"><span class="linenos"> 94</span></a>            <span class="c1"># Extract the embeddings</span>
+</span><span id="SciBERTVectorizer-95"><a href="#SciBERTVectorizer-95"><span class="linenos"> 95</span></a>            <span class="c1"># index last (13th) BERT layer before the classifier</span>
+</span><span id="SciBERTVectorizer-96"><a href="#SciBERTVectorizer-96"><span class="linenos"> 96</span></a>            <span class="n">final_hidden_state</span> <span class="o">=</span> <span class="n">encoded_layers</span><span class="p">[</span><span class="mi">12</span><span class="p">]</span>  <span class="c1"># [batch_size, 256, 768]</span>
+</span><span id="SciBERTVectorizer-97"><a href="#SciBERTVectorizer-97"><span class="linenos"> 97</span></a>            <span class="c1"># index first token of sequence, [CLS], for our document embeddings</span>
+</span><span id="SciBERTVectorizer-98"><a href="#SciBERTVectorizer-98"><span class="linenos"> 98</span></a>            <span class="n">batched_embeddings</span> <span class="o">=</span> <span class="n">final_hidden_state</span><span class="p">[:,</span> <span class="mi">0</span><span class="p">,</span> <span class="p">:]</span>  <span class="c1"># [batch_size, 768]</span>
+</span><span id="SciBERTVectorizer-99"><a href="#SciBERTVectorizer-99"><span class="linenos"> 99</span></a>
+</span><span id="SciBERTVectorizer-100"><a href="#SciBERTVectorizer-100"><span class="linenos">100</span></a>            <span class="c1"># Move to the CPU and convert to numpy ndarray</span>
+</span><span id="SciBERTVectorizer-101"><a href="#SciBERTVectorizer-101"><span class="linenos">101</span></a>            <span class="n">batched_embeddings</span> <span class="o">=</span> <span class="n">batched_embeddings</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">cpu</span><span class="p">()</span><span class="o">.</span><span class="n">numpy</span><span class="p">()</span>
+</span><span id="SciBERTVectorizer-102"><a href="#SciBERTVectorizer-102"><span class="linenos">102</span></a>
+</span><span id="SciBERTVectorizer-103"><a href="#SciBERTVectorizer-103"><span class="linenos">103</span></a>            <span class="c1"># Collect batched embeddings</span>
+</span><span id="SciBERTVectorizer-104"><a href="#SciBERTVectorizer-104"><span class="linenos">104</span></a>            <span class="n">embeddings</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">batched_embeddings</span><span class="p">)</span>
+</span><span id="SciBERTVectorizer-105"><a href="#SciBERTVectorizer-105"><span class="linenos">105</span></a>
+</span><span id="SciBERTVectorizer-106"><a href="#SciBERTVectorizer-106"><span class="linenos">106</span></a>            <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">batch_size</span><span class="p">)</span>
+</span><span id="SciBERTVectorizer-107"><a href="#SciBERTVectorizer-107"><span class="linenos">107</span></a>        <span class="n">pbar</span><span class="o">.</span><span class="n">close</span><span class="p">()</span>
+</span><span id="SciBERTVectorizer-108"><a href="#SciBERTVectorizer-108"><span class="linenos">108</span></a>
+</span><span id="SciBERTVectorizer-109"><a href="#SciBERTVectorizer-109"><span class="linenos">109</span></a>        <span class="c1"># We don&#39;t have to deal with OOV, so we always return full list of ids</span>
+</span><span id="SciBERTVectorizer-110"><a href="#SciBERTVectorizer-110"><span class="linenos">110</span></a>        <span class="k">return</span> <span class="p">{</span>
+</span><span id="SciBERTVectorizer-111"><a href="#SciBERTVectorizer-111"><span class="linenos">111</span></a>            <span class="s2">&quot;embeddings&quot;</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">embeddings</span><span class="p">),</span>
+</span><span id="SciBERTVectorizer-112"><a href="#SciBERTVectorizer-112"><span class="linenos">112</span></a>            <span class="s2">&quot;indices&quot;</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">embeddings</span><span class="p">)),</span>
+</span><span id="SciBERTVectorizer-113"><a href="#SciBERTVectorizer-113"><span class="linenos">113</span></a>        <span class="p">}</span>
 </span></pre></div>
 
 
@@ -342,38 +369,39 @@ <h6 id="links">Links:</h6>
                                         <input id="SciBERTVectorizer.__init__-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
 <div class="attr function">
             
-        <span class="name">SciBERTVectorizer</span><span class="signature pdoc-code condensed">(<span class="param"><span class="n">device</span><span class="o">=</span><span class="s1">&#39;cuda&#39;</span></span>)</span>
+        <span class="name">SciBERTVectorizer</span><span class="signature pdoc-code condensed">(<span class="param"><span class="n">device</span><span class="o">=</span><span class="s1">&#39;cuda&#39;</span>, </span><span class="param"><span class="o">**</span><span class="n">kwargs</span></span>)</span>
 
                 <label class="view-source-button" for="SciBERTVectorizer.__init__-view-source"><span>View Source</span></label>
 
     </div>
     <a class="headerlink" href="#SciBERTVectorizer.__init__"></a>
-            <div class="pdoc-code codehilite"><pre><span></span><span id="SciBERTVectorizer.__init__-24"><a href="#SciBERTVectorizer.__init__-24"><span class="linenos">24</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="s2">&quot;cuda&quot;</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-</span><span id="SciBERTVectorizer.__init__-25"><a href="#SciBERTVectorizer.__init__-25"><span class="linenos">25</span></a>        <span class="c1"># Get tokenizer</span>
-</span><span id="SciBERTVectorizer.__init__-26"><a href="#SciBERTVectorizer.__init__-26"><span class="linenos">26</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span> <span class="o">=</span> <span class="n">BertTokenizerFast</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
-</span><span id="SciBERTVectorizer.__init__-27"><a href="#SciBERTVectorizer.__init__-27"><span class="linenos">27</span></a>            <span class="n">MODEL_PATH</span><span class="p">,</span>
-</span><span id="SciBERTVectorizer.__init__-28"><a href="#SciBERTVectorizer.__init__-28"><span class="linenos">28</span></a>            <span class="n">do_lower_case</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
-</span><span id="SciBERTVectorizer.__init__-29"><a href="#SciBERTVectorizer.__init__-29"><span class="linenos">29</span></a>            <span class="n">model_max_length</span><span class="o">=</span><span class="mi">512</span><span class="p">,</span>  <span class="c1"># I shouldn&#39;t have to pass this but I do</span>
-</span><span id="SciBERTVectorizer.__init__-30"><a href="#SciBERTVectorizer.__init__-30"><span class="linenos">30</span></a>        <span class="p">)</span>
-</span><span id="SciBERTVectorizer.__init__-31"><a href="#SciBERTVectorizer.__init__-31"><span class="linenos">31</span></a>        <span class="c1"># Get the model</span>
-</span><span id="SciBERTVectorizer.__init__-32"><a href="#SciBERTVectorizer.__init__-32"><span class="linenos">32</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">AutoModelForSequenceClassification</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
-</span><span id="SciBERTVectorizer.__init__-33"><a href="#SciBERTVectorizer.__init__-33"><span class="linenos">33</span></a>            <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">MODEL_PATH</span><span class="p">,</span>
-</span><span id="SciBERTVectorizer.__init__-34"><a href="#SciBERTVectorizer.__init__-34"><span class="linenos">34</span></a>            <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-</span><span id="SciBERTVectorizer.__init__-35"><a href="#SciBERTVectorizer.__init__-35"><span class="linenos">35</span></a>            <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
-</span><span id="SciBERTVectorizer.__init__-36"><a href="#SciBERTVectorizer.__init__-36"><span class="linenos">36</span></a>        <span class="p">)</span>
-</span><span id="SciBERTVectorizer.__init__-37"><a href="#SciBERTVectorizer.__init__-37"><span class="linenos">37</span></a>
-</span><span id="SciBERTVectorizer.__init__-38"><a href="#SciBERTVectorizer.__init__-38"><span class="linenos">38</span></a>        <span class="c1"># set device to GPU</span>
-</span><span id="SciBERTVectorizer.__init__-39"><a href="#SciBERTVectorizer.__init__-39"><span class="linenos">39</span></a>        <span class="k">if</span> <span class="n">device</span> <span class="o">==</span> <span class="s2">&quot;mps&quot;</span><span class="p">:</span>
-</span><span id="SciBERTVectorizer.__init__-40"><a href="#SciBERTVectorizer.__init__-40"><span class="linenos">40</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">device</span> <span class="o">=</span> <span class="n">MPS_DEVICE</span>
-</span><span id="SciBERTVectorizer.__init__-41"><a href="#SciBERTVectorizer.__init__-41"><span class="linenos">41</span></a>        <span class="k">elif</span> <span class="n">device</span> <span class="o">==</span> <span class="s2">&quot;cuda&quot;</span><span class="p">:</span>
-</span><span id="SciBERTVectorizer.__init__-42"><a href="#SciBERTVectorizer.__init__-42"><span class="linenos">42</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">device</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">device</span><span class="p">(</span><span class="s2">&quot;cuda&quot;</span> <span class="k">if</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">is_available</span><span class="p">()</span> <span class="k">else</span> <span class="s2">&quot;cpu&quot;</span><span class="p">)</span>
-</span><span id="SciBERTVectorizer.__init__-43"><a href="#SciBERTVectorizer.__init__-43"><span class="linenos">43</span></a>
-</span><span id="SciBERTVectorizer.__init__-44"><a href="#SciBERTVectorizer.__init__-44"><span class="linenos">44</span></a>        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Using device: </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="si">}</span><span class="s2">.&quot;</span><span class="p">)</span>
-</span><span id="SciBERTVectorizer.__init__-45"><a href="#SciBERTVectorizer.__init__-45"><span class="linenos">45</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
-</span><span id="SciBERTVectorizer.__init__-46"><a href="#SciBERTVectorizer.__init__-46"><span class="linenos">46</span></a>
-</span><span id="SciBERTVectorizer.__init__-47"><a href="#SciBERTVectorizer.__init__-47"><span class="linenos">47</span></a>        <span class="c1"># Put the model in &quot;evaluation&quot; mode</span>
-</span><span id="SciBERTVectorizer.__init__-48"><a href="#SciBERTVectorizer.__init__-48"><span class="linenos">48</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span>
-</span><span id="SciBERTVectorizer.__init__-49"><a href="#SciBERTVectorizer.__init__-49"><span class="linenos">49</span></a>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="SciBERTVectorizer.__init__-28"><a href="#SciBERTVectorizer.__init__-28"><span class="linenos">28</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="s2">&quot;cuda&quot;</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="SciBERTVectorizer.__init__-29"><a href="#SciBERTVectorizer.__init__-29"><span class="linenos">29</span></a>        <span class="c1"># Get tokenizer</span>
+</span><span id="SciBERTVectorizer.__init__-30"><a href="#SciBERTVectorizer.__init__-30"><span class="linenos">30</span></a>        <span class="c1"># TODO: does this include the SCIVOCAB or BASEVOCAB?</span>
+</span><span id="SciBERTVectorizer.__init__-31"><a href="#SciBERTVectorizer.__init__-31"><span class="linenos">31</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span> <span class="o">=</span> <span class="n">BertTokenizerFast</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+</span><span id="SciBERTVectorizer.__init__-32"><a href="#SciBERTVectorizer.__init__-32"><span class="linenos">32</span></a>            <span class="n">MODEL_PATH</span><span class="p">,</span>
+</span><span id="SciBERTVectorizer.__init__-33"><a href="#SciBERTVectorizer.__init__-33"><span class="linenos">33</span></a>            <span class="n">do_lower_case</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+</span><span id="SciBERTVectorizer.__init__-34"><a href="#SciBERTVectorizer.__init__-34"><span class="linenos">34</span></a>            <span class="n">model_max_length</span><span class="o">=</span><span class="mi">512</span><span class="p">,</span>  <span class="c1"># I shouldn&#39;t have to pass this but I do</span>
+</span><span id="SciBERTVectorizer.__init__-35"><a href="#SciBERTVectorizer.__init__-35"><span class="linenos">35</span></a>        <span class="p">)</span>
+</span><span id="SciBERTVectorizer.__init__-36"><a href="#SciBERTVectorizer.__init__-36"><span class="linenos">36</span></a>        <span class="c1"># Get the model</span>
+</span><span id="SciBERTVectorizer.__init__-37"><a href="#SciBERTVectorizer.__init__-37"><span class="linenos">37</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">AutoModelForSequenceClassification</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+</span><span id="SciBERTVectorizer.__init__-38"><a href="#SciBERTVectorizer.__init__-38"><span class="linenos">38</span></a>            <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">MODEL_PATH</span><span class="p">,</span>
+</span><span id="SciBERTVectorizer.__init__-39"><a href="#SciBERTVectorizer.__init__-39"><span class="linenos">39</span></a>            <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+</span><span id="SciBERTVectorizer.__init__-40"><a href="#SciBERTVectorizer.__init__-40"><span class="linenos">40</span></a>            <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+</span><span id="SciBERTVectorizer.__init__-41"><a href="#SciBERTVectorizer.__init__-41"><span class="linenos">41</span></a>        <span class="p">)</span>
+</span><span id="SciBERTVectorizer.__init__-42"><a href="#SciBERTVectorizer.__init__-42"><span class="linenos">42</span></a>
+</span><span id="SciBERTVectorizer.__init__-43"><a href="#SciBERTVectorizer.__init__-43"><span class="linenos">43</span></a>        <span class="c1"># set device to GPU</span>
+</span><span id="SciBERTVectorizer.__init__-44"><a href="#SciBERTVectorizer.__init__-44"><span class="linenos">44</span></a>        <span class="k">if</span> <span class="n">device</span> <span class="o">==</span> <span class="s2">&quot;mps&quot;</span><span class="p">:</span>
+</span><span id="SciBERTVectorizer.__init__-45"><a href="#SciBERTVectorizer.__init__-45"><span class="linenos">45</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">device</span> <span class="o">=</span> <span class="n">MPS_DEVICE</span>
+</span><span id="SciBERTVectorizer.__init__-46"><a href="#SciBERTVectorizer.__init__-46"><span class="linenos">46</span></a>        <span class="k">elif</span> <span class="n">device</span> <span class="o">==</span> <span class="s2">&quot;cuda&quot;</span><span class="p">:</span>
+</span><span id="SciBERTVectorizer.__init__-47"><a href="#SciBERTVectorizer.__init__-47"><span class="linenos">47</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">device</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">device</span><span class="p">(</span><span class="s2">&quot;cuda&quot;</span> <span class="k">if</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">is_available</span><span class="p">()</span> <span class="k">else</span> <span class="s2">&quot;cpu&quot;</span><span class="p">)</span>
+</span><span id="SciBERTVectorizer.__init__-48"><a href="#SciBERTVectorizer.__init__-48"><span class="linenos">48</span></a>
+</span><span id="SciBERTVectorizer.__init__-49"><a href="#SciBERTVectorizer.__init__-49"><span class="linenos">49</span></a>        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Using device: </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="si">}</span><span class="s2">.&quot;</span><span class="p">)</span>
+</span><span id="SciBERTVectorizer.__init__-50"><a href="#SciBERTVectorizer.__init__-50"><span class="linenos">50</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+</span><span id="SciBERTVectorizer.__init__-51"><a href="#SciBERTVectorizer.__init__-51"><span class="linenos">51</span></a>
+</span><span id="SciBERTVectorizer.__init__-52"><a href="#SciBERTVectorizer.__init__-52"><span class="linenos">52</span></a>        <span class="c1"># Put the model in &quot;evaluation&quot; mode</span>
+</span><span id="SciBERTVectorizer.__init__-53"><a href="#SciBERTVectorizer.__init__-53"><span class="linenos">53</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span>
+</span><span id="SciBERTVectorizer.__init__-54"><a href="#SciBERTVectorizer.__init__-54"><span class="linenos">54</span></a>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
 </span></pre></div>
 
 
@@ -407,83 +435,74 @@ <h6 id="links">Links:</h6>
 <div class="attr function">
             
         <span class="def">def</span>
-        <span class="name">embed_documents</span><span class="signature pdoc-code condensed">(<span class="param"><span class="bp">self</span>, </span><span class="param"><span class="n">docs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span>, </span><span class="param"><span class="n">batch_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">64</span></span><span class="return-annotation">) -> <span class="n">numpy</span><span class="o">.</span><span class="n">ndarray</span>:</span></span>
+        <span class="name">embed_documents</span><span class="signature pdoc-code condensed">(<span class="param"><span class="bp">self</span>, </span><span class="param"><span class="n">docs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span>, </span><span class="param"><span class="n">batch_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">64</span></span><span class="return-annotation">) -> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">numpy</span><span class="o">.</span><span class="n">ndarray</span><span class="p">]</span>:</span></span>
 
                 <label class="view-source-button" for="SciBERTVectorizer.embed_documents-view-source"><span>View Source</span></label>
 
     </div>
     <a class="headerlink" href="#SciBERTVectorizer.embed_documents"></a>
-            <div class="pdoc-code codehilite"><pre><span></span><span id="SciBERTVectorizer.embed_documents-51"><a href="#SciBERTVectorizer.embed_documents-51"><span class="linenos"> 51</span></a>    <span class="k">def</span> <span class="nf">embed_documents</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">docs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="n">batch_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">64</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
-</span><span id="SciBERTVectorizer.embed_documents-52"><a href="#SciBERTVectorizer.embed_documents-52"><span class="linenos"> 52</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Embed a list of documents (raw text) into SciBERT vectors, by batching.</span>
-</span><span id="SciBERTVectorizer.embed_documents-53"><a href="#SciBERTVectorizer.embed_documents-53"><span class="linenos"> 53</span></a>
-</span><span id="SciBERTVectorizer.embed_documents-54"><a href="#SciBERTVectorizer.embed_documents-54"><span class="linenos"> 54</span></a><span class="sd">        Args:</span>
-</span><span id="SciBERTVectorizer.embed_documents-55"><a href="#SciBERTVectorizer.embed_documents-55"><span class="linenos"> 55</span></a><span class="sd">            docs: the documents to embed.</span>
-</span><span id="SciBERTVectorizer.embed_documents-56"><a href="#SciBERTVectorizer.embed_documents-56"><span class="linenos"> 56</span></a>
-</span><span id="SciBERTVectorizer.embed_documents-57"><a href="#SciBERTVectorizer.embed_documents-57"><span class="linenos"> 57</span></a><span class="sd">        Returns:</span>
-</span><span id="SciBERTVectorizer.embed_documents-58"><a href="#SciBERTVectorizer.embed_documents-58"><span class="linenos"> 58</span></a><span class="sd">            a numpy array of shape `(num_documents, 768)`</span>
-</span><span id="SciBERTVectorizer.embed_documents-59"><a href="#SciBERTVectorizer.embed_documents-59"><span class="linenos"> 59</span></a><span class="sd">        &quot;&quot;&quot;</span>
-</span><span id="SciBERTVectorizer.embed_documents-60"><a href="#SciBERTVectorizer.embed_documents-60"><span class="linenos"> 60</span></a>
-</span><span id="SciBERTVectorizer.embed_documents-61"><a href="#SciBERTVectorizer.embed_documents-61"><span class="linenos"> 61</span></a>        <span class="n">embeddings</span> <span class="o">=</span> <span class="p">[]</span>
-</span><span id="SciBERTVectorizer.embed_documents-62"><a href="#SciBERTVectorizer.embed_documents-62"><span class="linenos"> 62</span></a>        <span class="k">with</span> <span class="n">tqdm</span><span class="p">(</span>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="SciBERTVectorizer.embed_documents-56"><a href="#SciBERTVectorizer.embed_documents-56"><span class="linenos"> 56</span></a>    <span class="k">def</span> <span class="nf">embed_documents</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">docs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="n">batch_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">64</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">]:</span>
+</span><span id="SciBERTVectorizer.embed_documents-57"><a href="#SciBERTVectorizer.embed_documents-57"><span class="linenos"> 57</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Embed a list of documents (raw text) into SciBERT vectors, by batching.</span>
+</span><span id="SciBERTVectorizer.embed_documents-58"><a href="#SciBERTVectorizer.embed_documents-58"><span class="linenos"> 58</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="SciBERTVectorizer.embed_documents-59"><a href="#SciBERTVectorizer.embed_documents-59"><span class="linenos"> 59</span></a>
+</span><span id="SciBERTVectorizer.embed_documents-60"><a href="#SciBERTVectorizer.embed_documents-60"><span class="linenos"> 60</span></a>        <span class="n">embeddings</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="SciBERTVectorizer.embed_documents-61"><a href="#SciBERTVectorizer.embed_documents-61"><span class="linenos"> 61</span></a>
+</span><span id="SciBERTVectorizer.embed_documents-62"><a href="#SciBERTVectorizer.embed_documents-62"><span class="linenos"> 62</span></a>        <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="p">(</span>
 </span><span id="SciBERTVectorizer.embed_documents-63"><a href="#SciBERTVectorizer.embed_documents-63"><span class="linenos"> 63</span></a>            <span class="n">total</span><span class="o">=</span><span class="nb">len</span><span class="p">(</span><span class="n">docs</span><span class="p">),</span>
 </span><span id="SciBERTVectorizer.embed_documents-64"><a href="#SciBERTVectorizer.embed_documents-64"><span class="linenos"> 64</span></a>            <span class="n">desc</span><span class="o">=</span><span class="s2">&quot;embedding documents&quot;</span><span class="p">,</span>
-</span><span id="SciBERTVectorizer.embed_documents-65"><a href="#SciBERTVectorizer.embed_documents-65"><span class="linenos"> 65</span></a>        <span class="p">)</span> <span class="k">as</span> <span class="n">pbar</span><span class="p">:</span>
-</span><span id="SciBERTVectorizer.embed_documents-66"><a href="#SciBERTVectorizer.embed_documents-66"><span class="linenos"> 66</span></a>            <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">docs</span><span class="p">),</span> <span class="n">batch_size</span><span class="p">):</span>
-</span><span id="SciBERTVectorizer.embed_documents-67"><a href="#SciBERTVectorizer.embed_documents-67"><span class="linenos"> 67</span></a>                <span class="n">batch</span> <span class="o">=</span> <span class="n">docs</span><span class="p">[</span><span class="n">i</span> <span class="p">:</span> <span class="nb">min</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">docs</span><span class="p">),</span> <span class="n">i</span> <span class="o">+</span> <span class="n">batch_size</span><span class="p">)]</span>
-</span><span id="SciBERTVectorizer.embed_documents-68"><a href="#SciBERTVectorizer.embed_documents-68"><span class="linenos"> 68</span></a>
-</span><span id="SciBERTVectorizer.embed_documents-69"><a href="#SciBERTVectorizer.embed_documents-69"><span class="linenos"> 69</span></a>                <span class="c1"># Tokenize the batch</span>
-</span><span id="SciBERTVectorizer.embed_documents-70"><a href="#SciBERTVectorizer.embed_documents-70"><span class="linenos"> 70</span></a>                <span class="n">encoded</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">(</span>
-</span><span id="SciBERTVectorizer.embed_documents-71"><a href="#SciBERTVectorizer.embed_documents-71"><span class="linenos"> 71</span></a>                    <span class="n">batch</span><span class="p">,</span>
-</span><span id="SciBERTVectorizer.embed_documents-72"><a href="#SciBERTVectorizer.embed_documents-72"><span class="linenos"> 72</span></a>                    <span class="n">add_special_tokens</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
-</span><span id="SciBERTVectorizer.embed_documents-73"><a href="#SciBERTVectorizer.embed_documents-73"><span class="linenos"> 73</span></a>                    <span class="n">padding</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>  <span class="c1"># pad up to length of longest abstract</span>
-</span><span id="SciBERTVectorizer.embed_documents-74"><a href="#SciBERTVectorizer.embed_documents-74"><span class="linenos"> 74</span></a>                    <span class="n">truncation</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>  <span class="c1"># max length 512 chars, unfortunately</span>
-</span><span id="SciBERTVectorizer.embed_documents-75"><a href="#SciBERTVectorizer.embed_documents-75"><span class="linenos"> 75</span></a>                    <span class="n">return_tensors</span><span class="o">=</span><span class="s2">&quot;pt&quot;</span><span class="p">,</span>
-</span><span id="SciBERTVectorizer.embed_documents-76"><a href="#SciBERTVectorizer.embed_documents-76"><span class="linenos"> 76</span></a>                <span class="p">)</span>
-</span><span id="SciBERTVectorizer.embed_documents-77"><a href="#SciBERTVectorizer.embed_documents-77"><span class="linenos"> 77</span></a>                <span class="c1"># each encoded item of shape [64, 512]</span>
-</span><span id="SciBERTVectorizer.embed_documents-78"><a href="#SciBERTVectorizer.embed_documents-78"><span class="linenos"> 78</span></a>                <span class="k">assert</span> <span class="n">encoded</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">size</span><span class="p">()[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">&lt;=</span> <span class="mi">512</span>
-</span><span id="SciBERTVectorizer.embed_documents-79"><a href="#SciBERTVectorizer.embed_documents-79"><span class="linenos"> 79</span></a>
-</span><span id="SciBERTVectorizer.embed_documents-80"><a href="#SciBERTVectorizer.embed_documents-80"><span class="linenos"> 80</span></a>                <span class="c1"># Put data on GPU</span>
-</span><span id="SciBERTVectorizer.embed_documents-81"><a href="#SciBERTVectorizer.embed_documents-81"><span class="linenos"> 81</span></a>                <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">encoded</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
-</span><span id="SciBERTVectorizer.embed_documents-82"><a href="#SciBERTVectorizer.embed_documents-82"><span class="linenos"> 82</span></a>                    <span class="n">encoded</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="n">v</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
-</span><span id="SciBERTVectorizer.embed_documents-83"><a href="#SciBERTVectorizer.embed_documents-83"><span class="linenos"> 83</span></a>
-</span><span id="SciBERTVectorizer.embed_documents-84"><a href="#SciBERTVectorizer.embed_documents-84"><span class="linenos"> 84</span></a>                <span class="c1"># Run the text through SciBERT, and collect all of the hidden states produced</span>
-</span><span id="SciBERTVectorizer.embed_documents-85"><a href="#SciBERTVectorizer.embed_documents-85"><span class="linenos"> 85</span></a>                <span class="c1"># from all 12 layers.</span>
-</span><span id="SciBERTVectorizer.embed_documents-86"><a href="#SciBERTVectorizer.embed_documents-86"><span class="linenos"> 86</span></a>                <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
-</span><span id="SciBERTVectorizer.embed_documents-87"><a href="#SciBERTVectorizer.embed_documents-87"><span class="linenos"> 87</span></a>                    <span class="n">_</span><span class="p">,</span> <span class="n">encoded_layers</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span>  <span class="c1"># discard logits</span>
-</span><span id="SciBERTVectorizer.embed_documents-88"><a href="#SciBERTVectorizer.embed_documents-88"><span class="linenos"> 88</span></a>                        <span class="o">**</span><span class="n">encoded</span><span class="p">,</span>
-</span><span id="SciBERTVectorizer.embed_documents-89"><a href="#SciBERTVectorizer.embed_documents-89"><span class="linenos"> 89</span></a>                        <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-</span><span id="SciBERTVectorizer.embed_documents-90"><a href="#SciBERTVectorizer.embed_documents-90"><span class="linenos"> 90</span></a>                    <span class="p">)</span>
-</span><span id="SciBERTVectorizer.embed_documents-91"><a href="#SciBERTVectorizer.embed_documents-91"><span class="linenos"> 91</span></a>
-</span><span id="SciBERTVectorizer.embed_documents-92"><a href="#SciBERTVectorizer.embed_documents-92"><span class="linenos"> 92</span></a>                <span class="c1"># Extract the embeddings</span>
-</span><span id="SciBERTVectorizer.embed_documents-93"><a href="#SciBERTVectorizer.embed_documents-93"><span class="linenos"> 93</span></a>                <span class="c1"># index last (13th) BERT layer before the classifier</span>
-</span><span id="SciBERTVectorizer.embed_documents-94"><a href="#SciBERTVectorizer.embed_documents-94"><span class="linenos"> 94</span></a>                <span class="n">final_hidden_state</span> <span class="o">=</span> <span class="n">encoded_layers</span><span class="p">[</span><span class="mi">12</span><span class="p">]</span>  <span class="c1"># (batch_size, 256, 768)</span>
-</span><span id="SciBERTVectorizer.embed_documents-95"><a href="#SciBERTVectorizer.embed_documents-95"><span class="linenos"> 95</span></a>                <span class="c1"># index first token of sequence, [CLS], for our document embeddings</span>
-</span><span id="SciBERTVectorizer.embed_documents-96"><a href="#SciBERTVectorizer.embed_documents-96"><span class="linenos"> 96</span></a>                <span class="n">batched_embeddings</span> <span class="o">=</span> <span class="n">final_hidden_state</span><span class="p">[:,</span> <span class="mi">0</span><span class="p">,</span> <span class="p">:]</span>  <span class="c1"># (batch_size, 768)</span>
-</span><span id="SciBERTVectorizer.embed_documents-97"><a href="#SciBERTVectorizer.embed_documents-97"><span class="linenos"> 97</span></a>
-</span><span id="SciBERTVectorizer.embed_documents-98"><a href="#SciBERTVectorizer.embed_documents-98"><span class="linenos"> 98</span></a>                <span class="c1"># Move to the CPU and convert to numpy ndarray</span>
-</span><span id="SciBERTVectorizer.embed_documents-99"><a href="#SciBERTVectorizer.embed_documents-99"><span class="linenos"> 99</span></a>                <span class="n">batched_embeddings</span> <span class="o">=</span> <span class="n">batched_embeddings</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">cpu</span><span class="p">()</span><span class="o">.</span><span class="n">numpy</span><span class="p">()</span>
-</span><span id="SciBERTVectorizer.embed_documents-100"><a href="#SciBERTVectorizer.embed_documents-100"><span class="linenos">100</span></a>
-</span><span id="SciBERTVectorizer.embed_documents-101"><a href="#SciBERTVectorizer.embed_documents-101"><span class="linenos">101</span></a>                <span class="c1"># Collect batched embeddings</span>
-</span><span id="SciBERTVectorizer.embed_documents-102"><a href="#SciBERTVectorizer.embed_documents-102"><span class="linenos">102</span></a>                <span class="n">embeddings</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">batched_embeddings</span><span class="p">)</span>
-</span><span id="SciBERTVectorizer.embed_documents-103"><a href="#SciBERTVectorizer.embed_documents-103"><span class="linenos">103</span></a>                <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">batch_size</span><span class="p">)</span>
-</span><span id="SciBERTVectorizer.embed_documents-104"><a href="#SciBERTVectorizer.embed_documents-104"><span class="linenos">104</span></a>
-</span><span id="SciBERTVectorizer.embed_documents-105"><a href="#SciBERTVectorizer.embed_documents-105"><span class="linenos">105</span></a>        <span class="k">return</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">embeddings</span><span class="p">)</span>
+</span><span id="SciBERTVectorizer.embed_documents-65"><a href="#SciBERTVectorizer.embed_documents-65"><span class="linenos"> 65</span></a>            <span class="n">leave</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+</span><span id="SciBERTVectorizer.embed_documents-66"><a href="#SciBERTVectorizer.embed_documents-66"><span class="linenos"> 66</span></a>        <span class="p">)</span>
+</span><span id="SciBERTVectorizer.embed_documents-67"><a href="#SciBERTVectorizer.embed_documents-67"><span class="linenos"> 67</span></a>
+</span><span id="SciBERTVectorizer.embed_documents-68"><a href="#SciBERTVectorizer.embed_documents-68"><span class="linenos"> 68</span></a>        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">docs</span><span class="p">),</span> <span class="n">batch_size</span><span class="p">):</span>
+</span><span id="SciBERTVectorizer.embed_documents-69"><a href="#SciBERTVectorizer.embed_documents-69"><span class="linenos"> 69</span></a>            <span class="n">batch</span> <span class="o">=</span> <span class="n">docs</span><span class="p">[</span><span class="n">i</span> <span class="p">:</span> <span class="nb">min</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">docs</span><span class="p">),</span> <span class="n">i</span> <span class="o">+</span> <span class="n">batch_size</span><span class="p">)]</span>
+</span><span id="SciBERTVectorizer.embed_documents-70"><a href="#SciBERTVectorizer.embed_documents-70"><span class="linenos"> 70</span></a>
+</span><span id="SciBERTVectorizer.embed_documents-71"><a href="#SciBERTVectorizer.embed_documents-71"><span class="linenos"> 71</span></a>            <span class="c1"># Tokenize the batch</span>
+</span><span id="SciBERTVectorizer.embed_documents-72"><a href="#SciBERTVectorizer.embed_documents-72"><span class="linenos"> 72</span></a>            <span class="n">encoded</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">(</span>
+</span><span id="SciBERTVectorizer.embed_documents-73"><a href="#SciBERTVectorizer.embed_documents-73"><span class="linenos"> 73</span></a>                <span class="n">batch</span><span class="p">,</span>
+</span><span id="SciBERTVectorizer.embed_documents-74"><a href="#SciBERTVectorizer.embed_documents-74"><span class="linenos"> 74</span></a>                <span class="n">add_special_tokens</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+</span><span id="SciBERTVectorizer.embed_documents-75"><a href="#SciBERTVectorizer.embed_documents-75"><span class="linenos"> 75</span></a>                <span class="n">padding</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>  <span class="c1"># pad up to length of longest abstract</span>
+</span><span id="SciBERTVectorizer.embed_documents-76"><a href="#SciBERTVectorizer.embed_documents-76"><span class="linenos"> 76</span></a>                <span class="n">truncation</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>  <span class="c1"># max length 512 chars, unfortunately</span>
+</span><span id="SciBERTVectorizer.embed_documents-77"><a href="#SciBERTVectorizer.embed_documents-77"><span class="linenos"> 77</span></a>                <span class="n">return_tensors</span><span class="o">=</span><span class="s2">&quot;pt&quot;</span><span class="p">,</span>
+</span><span id="SciBERTVectorizer.embed_documents-78"><a href="#SciBERTVectorizer.embed_documents-78"><span class="linenos"> 78</span></a>            <span class="p">)</span>
+</span><span id="SciBERTVectorizer.embed_documents-79"><a href="#SciBERTVectorizer.embed_documents-79"><span class="linenos"> 79</span></a>            <span class="c1"># each encoded item of shape [64, 512]</span>
+</span><span id="SciBERTVectorizer.embed_documents-80"><a href="#SciBERTVectorizer.embed_documents-80"><span class="linenos"> 80</span></a>            <span class="k">assert</span> <span class="n">encoded</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">size</span><span class="p">()[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">&lt;=</span> <span class="mi">512</span>
+</span><span id="SciBERTVectorizer.embed_documents-81"><a href="#SciBERTVectorizer.embed_documents-81"><span class="linenos"> 81</span></a>
+</span><span id="SciBERTVectorizer.embed_documents-82"><a href="#SciBERTVectorizer.embed_documents-82"><span class="linenos"> 82</span></a>            <span class="c1"># Put data on GPU</span>
+</span><span id="SciBERTVectorizer.embed_documents-83"><a href="#SciBERTVectorizer.embed_documents-83"><span class="linenos"> 83</span></a>            <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">encoded</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+</span><span id="SciBERTVectorizer.embed_documents-84"><a href="#SciBERTVectorizer.embed_documents-84"><span class="linenos"> 84</span></a>                <span class="n">encoded</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="n">v</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+</span><span id="SciBERTVectorizer.embed_documents-85"><a href="#SciBERTVectorizer.embed_documents-85"><span class="linenos"> 85</span></a>
+</span><span id="SciBERTVectorizer.embed_documents-86"><a href="#SciBERTVectorizer.embed_documents-86"><span class="linenos"> 86</span></a>            <span class="c1"># Run the text through SciBERT,</span>
+</span><span id="SciBERTVectorizer.embed_documents-87"><a href="#SciBERTVectorizer.embed_documents-87"><span class="linenos"> 87</span></a>            <span class="c1"># collecting all of the hidden states produced from all 12 layers.</span>
+</span><span id="SciBERTVectorizer.embed_documents-88"><a href="#SciBERTVectorizer.embed_documents-88"><span class="linenos"> 88</span></a>            <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
+</span><span id="SciBERTVectorizer.embed_documents-89"><a href="#SciBERTVectorizer.embed_documents-89"><span class="linenos"> 89</span></a>                <span class="n">_</span><span class="p">,</span> <span class="n">encoded_layers</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span>  <span class="c1"># discard logits</span>
+</span><span id="SciBERTVectorizer.embed_documents-90"><a href="#SciBERTVectorizer.embed_documents-90"><span class="linenos"> 90</span></a>                    <span class="o">**</span><span class="n">encoded</span><span class="p">,</span>
+</span><span id="SciBERTVectorizer.embed_documents-91"><a href="#SciBERTVectorizer.embed_documents-91"><span class="linenos"> 91</span></a>                    <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+</span><span id="SciBERTVectorizer.embed_documents-92"><a href="#SciBERTVectorizer.embed_documents-92"><span class="linenos"> 92</span></a>                <span class="p">)</span>
+</span><span id="SciBERTVectorizer.embed_documents-93"><a href="#SciBERTVectorizer.embed_documents-93"><span class="linenos"> 93</span></a>
+</span><span id="SciBERTVectorizer.embed_documents-94"><a href="#SciBERTVectorizer.embed_documents-94"><span class="linenos"> 94</span></a>            <span class="c1"># Extract the embeddings</span>
+</span><span id="SciBERTVectorizer.embed_documents-95"><a href="#SciBERTVectorizer.embed_documents-95"><span class="linenos"> 95</span></a>            <span class="c1"># index last (13th) BERT layer before the classifier</span>
+</span><span id="SciBERTVectorizer.embed_documents-96"><a href="#SciBERTVectorizer.embed_documents-96"><span class="linenos"> 96</span></a>            <span class="n">final_hidden_state</span> <span class="o">=</span> <span class="n">encoded_layers</span><span class="p">[</span><span class="mi">12</span><span class="p">]</span>  <span class="c1"># [batch_size, 256, 768]</span>
+</span><span id="SciBERTVectorizer.embed_documents-97"><a href="#SciBERTVectorizer.embed_documents-97"><span class="linenos"> 97</span></a>            <span class="c1"># index first token of sequence, [CLS], for our document embeddings</span>
+</span><span id="SciBERTVectorizer.embed_documents-98"><a href="#SciBERTVectorizer.embed_documents-98"><span class="linenos"> 98</span></a>            <span class="n">batched_embeddings</span> <span class="o">=</span> <span class="n">final_hidden_state</span><span class="p">[:,</span> <span class="mi">0</span><span class="p">,</span> <span class="p">:]</span>  <span class="c1"># [batch_size, 768]</span>
+</span><span id="SciBERTVectorizer.embed_documents-99"><a href="#SciBERTVectorizer.embed_documents-99"><span class="linenos"> 99</span></a>
+</span><span id="SciBERTVectorizer.embed_documents-100"><a href="#SciBERTVectorizer.embed_documents-100"><span class="linenos">100</span></a>            <span class="c1"># Move to the CPU and convert to numpy ndarray</span>
+</span><span id="SciBERTVectorizer.embed_documents-101"><a href="#SciBERTVectorizer.embed_documents-101"><span class="linenos">101</span></a>            <span class="n">batched_embeddings</span> <span class="o">=</span> <span class="n">batched_embeddings</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">cpu</span><span class="p">()</span><span class="o">.</span><span class="n">numpy</span><span class="p">()</span>
+</span><span id="SciBERTVectorizer.embed_documents-102"><a href="#SciBERTVectorizer.embed_documents-102"><span class="linenos">102</span></a>
+</span><span id="SciBERTVectorizer.embed_documents-103"><a href="#SciBERTVectorizer.embed_documents-103"><span class="linenos">103</span></a>            <span class="c1"># Collect batched embeddings</span>
+</span><span id="SciBERTVectorizer.embed_documents-104"><a href="#SciBERTVectorizer.embed_documents-104"><span class="linenos">104</span></a>            <span class="n">embeddings</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">batched_embeddings</span><span class="p">)</span>
+</span><span id="SciBERTVectorizer.embed_documents-105"><a href="#SciBERTVectorizer.embed_documents-105"><span class="linenos">105</span></a>
+</span><span id="SciBERTVectorizer.embed_documents-106"><a href="#SciBERTVectorizer.embed_documents-106"><span class="linenos">106</span></a>            <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">batch_size</span><span class="p">)</span>
+</span><span id="SciBERTVectorizer.embed_documents-107"><a href="#SciBERTVectorizer.embed_documents-107"><span class="linenos">107</span></a>        <span class="n">pbar</span><span class="o">.</span><span class="n">close</span><span class="p">()</span>
+</span><span id="SciBERTVectorizer.embed_documents-108"><a href="#SciBERTVectorizer.embed_documents-108"><span class="linenos">108</span></a>
+</span><span id="SciBERTVectorizer.embed_documents-109"><a href="#SciBERTVectorizer.embed_documents-109"><span class="linenos">109</span></a>        <span class="c1"># We don&#39;t have to deal with OOV, so we always return full list of ids</span>
+</span><span id="SciBERTVectorizer.embed_documents-110"><a href="#SciBERTVectorizer.embed_documents-110"><span class="linenos">110</span></a>        <span class="k">return</span> <span class="p">{</span>
+</span><span id="SciBERTVectorizer.embed_documents-111"><a href="#SciBERTVectorizer.embed_documents-111"><span class="linenos">111</span></a>            <span class="s2">&quot;embeddings&quot;</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">embeddings</span><span class="p">),</span>
+</span><span id="SciBERTVectorizer.embed_documents-112"><a href="#SciBERTVectorizer.embed_documents-112"><span class="linenos">112</span></a>            <span class="s2">&quot;indices&quot;</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">embeddings</span><span class="p">)),</span>
+</span><span id="SciBERTVectorizer.embed_documents-113"><a href="#SciBERTVectorizer.embed_documents-113"><span class="linenos">113</span></a>        <span class="p">}</span>
 </span></pre></div>
 
 
             <div class="docstring"><p>Embed a list of documents (raw text) into SciBERT vectors, by batching.</p>
-
-<h6 id="arguments">Arguments:</h6>
-
-<ul>
-<li><strong>docs:</strong>  the documents to embed.</li>
-</ul>
-
-<h6 id="returns">Returns:</h6>
-
-<blockquote>
-  <p>a numpy array of shape <code>(num_documents, 768)</code></p>
-</blockquote>
 </div>
 
 
diff --git a/docs/sciterra/vectorization/vectorizer.html b/docs/sciterra/vectorization/vectorizer.html
index 9cd9eb4..06c6a97 100644
--- a/docs/sciterra/vectorization/vectorizer.html
+++ b/docs/sciterra/vectorization/vectorizer.html
@@ -93,16 +93,23 @@ <h1 class="modulename">
 </span><span id="L-7"><a href="#L-7"><span class="linenos"> 7</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
 </span><span id="L-8"><a href="#L-8"><span class="linenos"> 8</span></a>        <span class="k">pass</span>
 </span><span id="L-9"><a href="#L-9"><span class="linenos"> 9</span></a>
-</span><span id="L-10"><a href="#L-10"><span class="linenos">10</span></a>    <span class="k">def</span> <span class="nf">embed_documents</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">docs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">])</span> <span class="o">-&gt;</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+</span><span id="L-10"><a href="#L-10"><span class="linenos">10</span></a>    <span class="k">def</span> <span class="nf">embed_documents</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">docs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">])</span> <span class="o">-&gt;</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">]:</span>
 </span><span id="L-11"><a href="#L-11"><span class="linenos">11</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Embed a list of documents into document vectors.</span>
 </span><span id="L-12"><a href="#L-12"><span class="linenos">12</span></a>
 </span><span id="L-13"><a href="#L-13"><span class="linenos">13</span></a><span class="sd">        Args:</span>
 </span><span id="L-14"><a href="#L-14"><span class="linenos">14</span></a><span class="sd">            docs: the documents to embed.</span>
 </span><span id="L-15"><a href="#L-15"><span class="linenos">15</span></a>
 </span><span id="L-16"><a href="#L-16"><span class="linenos">16</span></a><span class="sd">        Returns:</span>
-</span><span id="L-17"><a href="#L-17"><span class="linenos">17</span></a><span class="sd">            a numpy array of shape `(num_documents, embedding_dim)`</span>
-</span><span id="L-18"><a href="#L-18"><span class="linenos">18</span></a><span class="sd">        &quot;&quot;&quot;</span>
-</span><span id="L-19"><a href="#L-19"><span class="linenos">19</span></a>        <span class="k">raise</span> <span class="ne">NotImplementedError</span>
+</span><span id="L-17"><a href="#L-17"><span class="linenos">17</span></a><span class="sd">            a dict of the form </span>
+</span><span id="L-18"><a href="#L-18"><span class="linenos">18</span></a><span class="sd">            {</span>
+</span><span id="L-19"><a href="#L-19"><span class="linenos">19</span></a><span class="sd">                &quot;embeddings&quot;: a numpy array of shape `(num_successful, embedding_dim)`, containing the document embeddingss</span>
+</span><span id="L-20"><a href="#L-20"><span class="linenos">20</span></a>
+</span><span id="L-21"><a href="#L-21"><span class="linenos">21</span></a><span class="sd">                &quot;indices&quot;: a numpy array of shape `(num_successful,)`, containing the indices of all the documents for which document embeddings were successfully obtained.</span>
+</span><span id="L-22"><a href="#L-22"><span class="linenos">22</span></a><span class="sd">            }</span>
+</span><span id="L-23"><a href="#L-23"><span class="linenos">23</span></a><span class="sd">            where `num_successful` is the number of documents in `docs` that were successfully embedded.</span>
+</span><span id="L-24"><a href="#L-24"><span class="linenos">24</span></a>
+</span><span id="L-25"><a href="#L-25"><span class="linenos">25</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="L-26"><a href="#L-26"><span class="linenos">26</span></a>        <span class="k">raise</span> <span class="ne">NotImplementedError</span>
 </span></pre></div>
 
 
@@ -122,16 +129,23 @@ <h1 class="modulename">
 </span><span id="Vectorizer-8"><a href="#Vectorizer-8"><span class="linenos"> 8</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
 </span><span id="Vectorizer-9"><a href="#Vectorizer-9"><span class="linenos"> 9</span></a>        <span class="k">pass</span>
 </span><span id="Vectorizer-10"><a href="#Vectorizer-10"><span class="linenos">10</span></a>
-</span><span id="Vectorizer-11"><a href="#Vectorizer-11"><span class="linenos">11</span></a>    <span class="k">def</span> <span class="nf">embed_documents</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">docs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">])</span> <span class="o">-&gt;</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+</span><span id="Vectorizer-11"><a href="#Vectorizer-11"><span class="linenos">11</span></a>    <span class="k">def</span> <span class="nf">embed_documents</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">docs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">])</span> <span class="o">-&gt;</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">]:</span>
 </span><span id="Vectorizer-12"><a href="#Vectorizer-12"><span class="linenos">12</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Embed a list of documents into document vectors.</span>
 </span><span id="Vectorizer-13"><a href="#Vectorizer-13"><span class="linenos">13</span></a>
 </span><span id="Vectorizer-14"><a href="#Vectorizer-14"><span class="linenos">14</span></a><span class="sd">        Args:</span>
 </span><span id="Vectorizer-15"><a href="#Vectorizer-15"><span class="linenos">15</span></a><span class="sd">            docs: the documents to embed.</span>
 </span><span id="Vectorizer-16"><a href="#Vectorizer-16"><span class="linenos">16</span></a>
 </span><span id="Vectorizer-17"><a href="#Vectorizer-17"><span class="linenos">17</span></a><span class="sd">        Returns:</span>
-</span><span id="Vectorizer-18"><a href="#Vectorizer-18"><span class="linenos">18</span></a><span class="sd">            a numpy array of shape `(num_documents, embedding_dim)`</span>
-</span><span id="Vectorizer-19"><a href="#Vectorizer-19"><span class="linenos">19</span></a><span class="sd">        &quot;&quot;&quot;</span>
-</span><span id="Vectorizer-20"><a href="#Vectorizer-20"><span class="linenos">20</span></a>        <span class="k">raise</span> <span class="ne">NotImplementedError</span>
+</span><span id="Vectorizer-18"><a href="#Vectorizer-18"><span class="linenos">18</span></a><span class="sd">            a dict of the form </span>
+</span><span id="Vectorizer-19"><a href="#Vectorizer-19"><span class="linenos">19</span></a><span class="sd">            {</span>
+</span><span id="Vectorizer-20"><a href="#Vectorizer-20"><span class="linenos">20</span></a><span class="sd">                &quot;embeddings&quot;: a numpy array of shape `(num_successful, embedding_dim)`, containing the document embeddingss</span>
+</span><span id="Vectorizer-21"><a href="#Vectorizer-21"><span class="linenos">21</span></a>
+</span><span id="Vectorizer-22"><a href="#Vectorizer-22"><span class="linenos">22</span></a><span class="sd">                &quot;indices&quot;: a numpy array of shape `(num_successful,)`, containing the indices of all the documents for which document embeddings were successfully obtained.</span>
+</span><span id="Vectorizer-23"><a href="#Vectorizer-23"><span class="linenos">23</span></a><span class="sd">            }</span>
+</span><span id="Vectorizer-24"><a href="#Vectorizer-24"><span class="linenos">24</span></a><span class="sd">            where `num_successful` is the number of documents in `docs` that were successfully embedded.</span>
+</span><span id="Vectorizer-25"><a href="#Vectorizer-25"><span class="linenos">25</span></a>
+</span><span id="Vectorizer-26"><a href="#Vectorizer-26"><span class="linenos">26</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="Vectorizer-27"><a href="#Vectorizer-27"><span class="linenos">27</span></a>        <span class="k">raise</span> <span class="ne">NotImplementedError</span>
 </span></pre></div>
 
 
@@ -142,22 +156,29 @@ <h1 class="modulename">
 <div class="attr function">
             
         <span class="def">def</span>
-        <span class="name">embed_documents</span><span class="signature pdoc-code condensed">(<span class="param"><span class="bp">self</span>, </span><span class="param"><span class="n">docs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span></span><span class="return-annotation">) -> <span class="n">numpy</span><span class="o">.</span><span class="n">ndarray</span>:</span></span>
+        <span class="name">embed_documents</span><span class="signature pdoc-code condensed">(<span class="param"><span class="bp">self</span>, </span><span class="param"><span class="n">docs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span></span><span class="return-annotation">) -> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">numpy</span><span class="o">.</span><span class="n">ndarray</span><span class="p">]</span>:</span></span>
 
                 <label class="view-source-button" for="Vectorizer.embed_documents-view-source"><span>View Source</span></label>
 
     </div>
     <a class="headerlink" href="#Vectorizer.embed_documents"></a>
-            <div class="pdoc-code codehilite"><pre><span></span><span id="Vectorizer.embed_documents-11"><a href="#Vectorizer.embed_documents-11"><span class="linenos">11</span></a>    <span class="k">def</span> <span class="nf">embed_documents</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">docs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">])</span> <span class="o">-&gt;</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="Vectorizer.embed_documents-11"><a href="#Vectorizer.embed_documents-11"><span class="linenos">11</span></a>    <span class="k">def</span> <span class="nf">embed_documents</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">docs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">])</span> <span class="o">-&gt;</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">]:</span>
 </span><span id="Vectorizer.embed_documents-12"><a href="#Vectorizer.embed_documents-12"><span class="linenos">12</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Embed a list of documents into document vectors.</span>
 </span><span id="Vectorizer.embed_documents-13"><a href="#Vectorizer.embed_documents-13"><span class="linenos">13</span></a>
 </span><span id="Vectorizer.embed_documents-14"><a href="#Vectorizer.embed_documents-14"><span class="linenos">14</span></a><span class="sd">        Args:</span>
 </span><span id="Vectorizer.embed_documents-15"><a href="#Vectorizer.embed_documents-15"><span class="linenos">15</span></a><span class="sd">            docs: the documents to embed.</span>
 </span><span id="Vectorizer.embed_documents-16"><a href="#Vectorizer.embed_documents-16"><span class="linenos">16</span></a>
 </span><span id="Vectorizer.embed_documents-17"><a href="#Vectorizer.embed_documents-17"><span class="linenos">17</span></a><span class="sd">        Returns:</span>
-</span><span id="Vectorizer.embed_documents-18"><a href="#Vectorizer.embed_documents-18"><span class="linenos">18</span></a><span class="sd">            a numpy array of shape `(num_documents, embedding_dim)`</span>
-</span><span id="Vectorizer.embed_documents-19"><a href="#Vectorizer.embed_documents-19"><span class="linenos">19</span></a><span class="sd">        &quot;&quot;&quot;</span>
-</span><span id="Vectorizer.embed_documents-20"><a href="#Vectorizer.embed_documents-20"><span class="linenos">20</span></a>        <span class="k">raise</span> <span class="ne">NotImplementedError</span>
+</span><span id="Vectorizer.embed_documents-18"><a href="#Vectorizer.embed_documents-18"><span class="linenos">18</span></a><span class="sd">            a dict of the form </span>
+</span><span id="Vectorizer.embed_documents-19"><a href="#Vectorizer.embed_documents-19"><span class="linenos">19</span></a><span class="sd">            {</span>
+</span><span id="Vectorizer.embed_documents-20"><a href="#Vectorizer.embed_documents-20"><span class="linenos">20</span></a><span class="sd">                &quot;embeddings&quot;: a numpy array of shape `(num_successful, embedding_dim)`, containing the document embeddingss</span>
+</span><span id="Vectorizer.embed_documents-21"><a href="#Vectorizer.embed_documents-21"><span class="linenos">21</span></a>
+</span><span id="Vectorizer.embed_documents-22"><a href="#Vectorizer.embed_documents-22"><span class="linenos">22</span></a><span class="sd">                &quot;indices&quot;: a numpy array of shape `(num_successful,)`, containing the indices of all the documents for which document embeddings were successfully obtained.</span>
+</span><span id="Vectorizer.embed_documents-23"><a href="#Vectorizer.embed_documents-23"><span class="linenos">23</span></a><span class="sd">            }</span>
+</span><span id="Vectorizer.embed_documents-24"><a href="#Vectorizer.embed_documents-24"><span class="linenos">24</span></a><span class="sd">            where `num_successful` is the number of documents in `docs` that were successfully embedded.</span>
+</span><span id="Vectorizer.embed_documents-25"><a href="#Vectorizer.embed_documents-25"><span class="linenos">25</span></a>
+</span><span id="Vectorizer.embed_documents-26"><a href="#Vectorizer.embed_documents-26"><span class="linenos">26</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="Vectorizer.embed_documents-27"><a href="#Vectorizer.embed_documents-27"><span class="linenos">27</span></a>        <span class="k">raise</span> <span class="ne">NotImplementedError</span>
 </span></pre></div>
 
 
@@ -172,7 +193,15 @@ <h6 id="arguments">Arguments:</h6>
 <h6 id="returns">Returns:</h6>
 
 <blockquote>
-  <p>a numpy array of shape <code>(num_documents, embedding_dim)</code></p>
+  <p>a dict of the form 
+  {
+      "embeddings": a numpy array of shape <code>(num_successful, embedding_dim)</code>, containing the document embeddingss</p>
+
+<pre><code>"indices": a numpy array of shape `(num_successful,)`, containing the indices of all the documents for which document embeddings were successfully obtained.
+</code></pre>
+  
+  <p>}
+  where <code>num_successful</code> is the number of documents in <code>docs</code> that were successfully embedded.</p>
 </blockquote>
 </div>
 
diff --git a/docs/sciterra/vectorization/word2vec.html b/docs/sciterra/vectorization/word2vec.html
new file mode 100644
index 0000000..f6d022b
--- /dev/null
+++ b/docs/sciterra/vectorization/word2vec.html
@@ -0,0 +1,758 @@
+<!doctype html>
+<html lang="en">
+<head>
+    <meta charset="utf-8">
+    <meta name="viewport" content="width=device-width, initial-scale=1">
+    <meta name="generator" content="pdoc 14.0.0"/>
+    <title>sciterra.vectorization.word2vec API documentation</title>
+
+    <style>/*! * Bootstrap Reboot v5.0.0 (https://getbootstrap.com/) * Copyright 2011-2021 The Bootstrap Authors * Copyright 2011-2021 Twitter, Inc. * Licensed under MIT (https://github.com/twbs/bootstrap/blob/main/LICENSE) * Forked from Normalize.css, licensed MIT (https://github.com/necolas/normalize.css/blob/master/LICENSE.md) */*,::after,::before{box-sizing:border-box}@media (prefers-reduced-motion:no-preference){:root{scroll-behavior:smooth}}body{margin:0;font-family:system-ui,-apple-system,"Segoe UI",Roboto,"Helvetica Neue",Arial,"Noto Sans","Liberation Sans",sans-serif,"Apple Color Emoji","Segoe UI Emoji","Segoe UI Symbol","Noto Color Emoji";font-size:1rem;font-weight:400;line-height:1.5;color:#212529;background-color:#fff;-webkit-text-size-adjust:100%;-webkit-tap-highlight-color:transparent}hr{margin:1rem 0;color:inherit;background-color:currentColor;border:0;opacity:.25}hr:not([size]){height:1px}h1,h2,h3,h4,h5,h6{margin-top:0;margin-bottom:.5rem;font-weight:500;line-height:1.2}h1{font-size:calc(1.375rem + 1.5vw)}@media (min-width:1200px){h1{font-size:2.5rem}}h2{font-size:calc(1.325rem + .9vw)}@media (min-width:1200px){h2{font-size:2rem}}h3{font-size:calc(1.3rem + .6vw)}@media (min-width:1200px){h3{font-size:1.75rem}}h4{font-size:calc(1.275rem + .3vw)}@media (min-width:1200px){h4{font-size:1.5rem}}h5{font-size:1.25rem}h6{font-size:1rem}p{margin-top:0;margin-bottom:1rem}abbr[data-bs-original-title],abbr[title]{-webkit-text-decoration:underline dotted;text-decoration:underline dotted;cursor:help;-webkit-text-decoration-skip-ink:none;text-decoration-skip-ink:none}address{margin-bottom:1rem;font-style:normal;line-height:inherit}ol,ul{padding-left:2rem}dl,ol,ul{margin-top:0;margin-bottom:1rem}ol ol,ol ul,ul ol,ul ul{margin-bottom:0}dt{font-weight:700}dd{margin-bottom:.5rem;margin-left:0}blockquote{margin:0 0 1rem}b,strong{font-weight:bolder}small{font-size:.875em}mark{padding:.2em;background-color:#fcf8e3}sub,sup{position:relative;font-size:.75em;line-height:0;vertical-align:baseline}sub{bottom:-.25em}sup{top:-.5em}a{color:#0d6efd;text-decoration:underline}a:hover{color:#0a58ca}a:not([href]):not([class]),a:not([href]):not([class]):hover{color:inherit;text-decoration:none}code,kbd,pre,samp{font-family:SFMono-Regular,Menlo,Monaco,Consolas,"Liberation Mono","Courier New",monospace;font-size:1em;direction:ltr;unicode-bidi:bidi-override}pre{display:block;margin-top:0;margin-bottom:1rem;overflow:auto;font-size:.875em}pre code{font-size:inherit;color:inherit;word-break:normal}code{font-size:.875em;color:#d63384;word-wrap:break-word}a>code{color:inherit}kbd{padding:.2rem .4rem;font-size:.875em;color:#fff;background-color:#212529;border-radius:.2rem}kbd kbd{padding:0;font-size:1em;font-weight:700}figure{margin:0 0 1rem}img,svg{vertical-align:middle}table{caption-side:bottom;border-collapse:collapse}caption{padding-top:.5rem;padding-bottom:.5rem;color:#6c757d;text-align:left}th{text-align:inherit;text-align:-webkit-match-parent}tbody,td,tfoot,th,thead,tr{border-color:inherit;border-style:solid;border-width:0}label{display:inline-block}button{border-radius:0}button:focus:not(:focus-visible){outline:0}button,input,optgroup,select,textarea{margin:0;font-family:inherit;font-size:inherit;line-height:inherit}button,select{text-transform:none}[role=button]{cursor:pointer}select{word-wrap:normal}select:disabled{opacity:1}[list]::-webkit-calendar-picker-indicator{display:none}[type=button],[type=reset],[type=submit],button{-webkit-appearance:button}[type=button]:not(:disabled),[type=reset]:not(:disabled),[type=submit]:not(:disabled),button:not(:disabled){cursor:pointer}::-moz-focus-inner{padding:0;border-style:none}textarea{resize:vertical}fieldset{min-width:0;padding:0;margin:0;border:0}legend{float:left;width:100%;padding:0;margin-bottom:.5rem;font-size:calc(1.275rem + .3vw);line-height:inherit}@media (min-width:1200px){legend{font-size:1.5rem}}legend+*{clear:left}::-webkit-datetime-edit-day-field,::-webkit-datetime-edit-fields-wrapper,::-webkit-datetime-edit-hour-field,::-webkit-datetime-edit-minute,::-webkit-datetime-edit-month-field,::-webkit-datetime-edit-text,::-webkit-datetime-edit-year-field{padding:0}::-webkit-inner-spin-button{height:auto}[type=search]{outline-offset:-2px;-webkit-appearance:textfield}::-webkit-search-decoration{-webkit-appearance:none}::-webkit-color-swatch-wrapper{padding:0}::file-selector-button{font:inherit}::-webkit-file-upload-button{font:inherit;-webkit-appearance:button}output{display:inline-block}iframe{border:0}summary{display:list-item;cursor:pointer}progress{vertical-align:baseline}[hidden]{display:none!important}</style>
+    <style>/*! syntax-highlighting.css */pre{line-height:125%;}span.linenos{color:inherit; background-color:transparent; padding-left:5px; padding-right:20px;}.pdoc-code .hll{background-color:#ffffcc}.pdoc-code{background:#f8f8f8;}.pdoc-code .c{color:#3D7B7B; font-style:italic}.pdoc-code .err{border:1px solid #FF0000}.pdoc-code .k{color:#008000; font-weight:bold}.pdoc-code .o{color:#666666}.pdoc-code .ch{color:#3D7B7B; font-style:italic}.pdoc-code .cm{color:#3D7B7B; font-style:italic}.pdoc-code .cp{color:#9C6500}.pdoc-code .cpf{color:#3D7B7B; font-style:italic}.pdoc-code .c1{color:#3D7B7B; font-style:italic}.pdoc-code .cs{color:#3D7B7B; font-style:italic}.pdoc-code .gd{color:#A00000}.pdoc-code .ge{font-style:italic}.pdoc-code .gr{color:#E40000}.pdoc-code .gh{color:#000080; font-weight:bold}.pdoc-code .gi{color:#008400}.pdoc-code .go{color:#717171}.pdoc-code .gp{color:#000080; font-weight:bold}.pdoc-code .gs{font-weight:bold}.pdoc-code .gu{color:#800080; font-weight:bold}.pdoc-code .gt{color:#0044DD}.pdoc-code .kc{color:#008000; font-weight:bold}.pdoc-code .kd{color:#008000; font-weight:bold}.pdoc-code .kn{color:#008000; font-weight:bold}.pdoc-code .kp{color:#008000}.pdoc-code .kr{color:#008000; font-weight:bold}.pdoc-code .kt{color:#B00040}.pdoc-code .m{color:#666666}.pdoc-code .s{color:#BA2121}.pdoc-code .na{color:#687822}.pdoc-code .nb{color:#008000}.pdoc-code .nc{color:#0000FF; font-weight:bold}.pdoc-code .no{color:#880000}.pdoc-code .nd{color:#AA22FF}.pdoc-code .ni{color:#717171; font-weight:bold}.pdoc-code .ne{color:#CB3F38; font-weight:bold}.pdoc-code .nf{color:#0000FF}.pdoc-code .nl{color:#767600}.pdoc-code .nn{color:#0000FF; font-weight:bold}.pdoc-code .nt{color:#008000; font-weight:bold}.pdoc-code .nv{color:#19177C}.pdoc-code .ow{color:#AA22FF; font-weight:bold}.pdoc-code .w{color:#bbbbbb}.pdoc-code .mb{color:#666666}.pdoc-code .mf{color:#666666}.pdoc-code .mh{color:#666666}.pdoc-code .mi{color:#666666}.pdoc-code .mo{color:#666666}.pdoc-code .sa{color:#BA2121}.pdoc-code .sb{color:#BA2121}.pdoc-code .sc{color:#BA2121}.pdoc-code .dl{color:#BA2121}.pdoc-code .sd{color:#BA2121; font-style:italic}.pdoc-code .s2{color:#BA2121}.pdoc-code .se{color:#AA5D1F; font-weight:bold}.pdoc-code .sh{color:#BA2121}.pdoc-code .si{color:#A45A77; font-weight:bold}.pdoc-code .sx{color:#008000}.pdoc-code .sr{color:#A45A77}.pdoc-code .s1{color:#BA2121}.pdoc-code .ss{color:#19177C}.pdoc-code .bp{color:#008000}.pdoc-code .fm{color:#0000FF}.pdoc-code .vc{color:#19177C}.pdoc-code .vg{color:#19177C}.pdoc-code .vi{color:#19177C}.pdoc-code .vm{color:#19177C}.pdoc-code .il{color:#666666}</style>
+    <style>/*! theme.css */:root{--pdoc-background:#fff;}.pdoc{--text:#212529;--muted:#6c757d;--link:#3660a5;--link-hover:#1659c5;--code:#f8f8f8;--active:#fff598;--accent:#eee;--accent2:#c1c1c1;--nav-hover:rgba(255, 255, 255, 0.5);--name:#0066BB;--def:#008800;--annotation:#007020;}</style>
+    <style>/*! layout.css */html, body{width:100%;height:100%;}html, main{scroll-behavior:smooth;}body{background-color:var(--pdoc-background);}@media (max-width:769px){#navtoggle{cursor:pointer;position:absolute;width:50px;height:40px;top:1rem;right:1rem;border-color:var(--text);color:var(--text);display:flex;opacity:0.8;z-index:999;}#navtoggle:hover{opacity:1;}#togglestate + div{display:none;}#togglestate:checked + div{display:inherit;}main, header{padding:2rem 3vw;}header + main{margin-top:-3rem;}.git-button{display:none !important;}nav input[type="search"]{max-width:77%;}nav input[type="search"]:first-child{margin-top:-6px;}nav input[type="search"]:valid ~ *{display:none !important;}}@media (min-width:770px){:root{--sidebar-width:clamp(12.5rem, 28vw, 22rem);}nav{position:fixed;overflow:auto;height:100vh;width:var(--sidebar-width);}main, header{padding:3rem 2rem 3rem calc(var(--sidebar-width) + 3rem);width:calc(54rem + var(--sidebar-width));max-width:100%;}header + main{margin-top:-4rem;}#navtoggle{display:none;}}#togglestate{position:absolute;height:0;opacity:0;}nav.pdoc{--pad:clamp(0.5rem, 2vw, 1.75rem);--indent:1.5rem;background-color:var(--accent);border-right:1px solid var(--accent2);box-shadow:0 0 20px rgba(50, 50, 50, .2) inset;padding:0 0 0 var(--pad);overflow-wrap:anywhere;scrollbar-width:thin; scrollbar-color:var(--accent2) transparent }nav.pdoc::-webkit-scrollbar{width:.4rem; }nav.pdoc::-webkit-scrollbar-thumb{background-color:var(--accent2); }nav.pdoc > div{padding:var(--pad) 0;}nav.pdoc .module-list-button{display:inline-flex;align-items:center;color:var(--text);border-color:var(--muted);margin-bottom:1rem;}nav.pdoc .module-list-button:hover{border-color:var(--text);}nav.pdoc input[type=search]{display:block;outline-offset:0;width:calc(100% - var(--pad));}nav.pdoc .logo{max-width:calc(100% - var(--pad));max-height:35vh;display:block;margin:0 auto 1rem;transform:translate(calc(-.5 * var(--pad)), 0);}nav.pdoc ul{list-style:none;padding-left:0;}nav.pdoc > div > ul{margin-left:calc(0px - var(--pad));}nav.pdoc li a{padding:.2rem 0 .2rem calc(var(--pad) + var(--indent));}nav.pdoc > div > ul > li > a{padding-left:var(--pad);}nav.pdoc li{transition:all 100ms;}nav.pdoc li:hover{background-color:var(--nav-hover);}nav.pdoc a, nav.pdoc a:hover{color:var(--text);}nav.pdoc a{display:block;}nav.pdoc > h2:first-of-type{margin-top:1.5rem;}nav.pdoc .class:before{content:"class ";color:var(--muted);}nav.pdoc .function:after{content:"()";color:var(--muted);}nav.pdoc footer:before{content:"";display:block;width:calc(100% - var(--pad));border-top:solid var(--accent2) 1px;margin-top:1.5rem;padding-top:.5rem;}nav.pdoc footer{font-size:small;}</style>
+    <style>/*! content.css */.pdoc{color:var(--text);box-sizing:border-box;line-height:1.5;background:none;}.pdoc .pdoc-button{cursor:pointer;display:inline-block;border:solid black 1px;border-radius:2px;font-size:.75rem;padding:calc(0.5em - 1px) 1em;transition:100ms all;}.pdoc .pdoc-alert{padding:1rem 1rem 1rem calc(1.5rem + 24px);border:1px solid transparent;border-radius:.25rem;background-repeat:no-repeat;background-position:1rem center;margin-bottom:1rem;}.pdoc .pdoc-alert > *:last-child{margin-bottom:0;}.pdoc .pdoc-alert-note {color:#084298;background-color:#cfe2ff;border-color:#b6d4fe;background-image:url("data:image/svg+xml,%3Csvg%20xmlns%3D%22http%3A//www.w3.org/2000/svg%22%20width%3D%2224%22%20height%3D%2224%22%20fill%3D%22%23084298%22%20viewBox%3D%220%200%2016%2016%22%3E%3Cpath%20d%3D%22M8%2016A8%208%200%201%200%208%200a8%208%200%200%200%200%2016zm.93-9.412-1%204.705c-.07.34.029.533.304.533.194%200%20.487-.07.686-.246l-.088.416c-.287.346-.92.598-1.465.598-.703%200-1.002-.422-.808-1.319l.738-3.468c.064-.293.006-.399-.287-.47l-.451-.081.082-.381%202.29-.287zM8%205.5a1%201%200%201%201%200-2%201%201%200%200%201%200%202z%22/%3E%3C/svg%3E");}.pdoc .pdoc-alert-warning{color:#664d03;background-color:#fff3cd;border-color:#ffecb5;background-image:url("data:image/svg+xml,%3Csvg%20xmlns%3D%22http%3A//www.w3.org/2000/svg%22%20width%3D%2224%22%20height%3D%2224%22%20fill%3D%22%23664d03%22%20viewBox%3D%220%200%2016%2016%22%3E%3Cpath%20d%3D%22M8.982%201.566a1.13%201.13%200%200%200-1.96%200L.165%2013.233c-.457.778.091%201.767.98%201.767h13.713c.889%200%201.438-.99.98-1.767L8.982%201.566zM8%205c.535%200%20.954.462.9.995l-.35%203.507a.552.552%200%200%201-1.1%200L7.1%205.995A.905.905%200%200%201%208%205zm.002%206a1%201%200%201%201%200%202%201%201%200%200%201%200-2z%22/%3E%3C/svg%3E");}.pdoc .pdoc-alert-danger{color:#842029;background-color:#f8d7da;border-color:#f5c2c7;background-image:url("data:image/svg+xml,%3Csvg%20xmlns%3D%22http%3A//www.w3.org/2000/svg%22%20width%3D%2224%22%20height%3D%2224%22%20fill%3D%22%23842029%22%20viewBox%3D%220%200%2016%2016%22%3E%3Cpath%20d%3D%22M5.52.359A.5.5%200%200%201%206%200h4a.5.5%200%200%201%20.474.658L8.694%206H12.5a.5.5%200%200%201%20.395.807l-7%209a.5.5%200%200%201-.873-.454L6.823%209.5H3.5a.5.5%200%200%201-.48-.641l2.5-8.5z%22/%3E%3C/svg%3E");}.pdoc .visually-hidden{position:absolute !important;width:1px !important;height:1px !important;padding:0 !important;margin:-1px !important;overflow:hidden !important;clip:rect(0, 0, 0, 0) !important;white-space:nowrap !important;border:0 !important;}.pdoc h1, .pdoc h2, .pdoc h3{font-weight:300;margin:.3em 0;padding:.2em 0;}.pdoc > section:not(.module-info) h1{font-size:1.5rem;font-weight:500;}.pdoc > section:not(.module-info) h2{font-size:1.4rem;font-weight:500;}.pdoc > section:not(.module-info) h3{font-size:1.3rem;font-weight:500;}.pdoc > section:not(.module-info) h4{font-size:1.2rem;}.pdoc > section:not(.module-info) h5{font-size:1.1rem;}.pdoc a{text-decoration:none;color:var(--link);}.pdoc a:hover{color:var(--link-hover);}.pdoc blockquote{margin-left:2rem;}.pdoc pre{border-top:1px solid var(--accent2);border-bottom:1px solid var(--accent2);margin-top:0;margin-bottom:1em;padding:.5rem 0 .5rem .5rem;overflow-x:auto;background-color:var(--code);}.pdoc code{color:var(--text);padding:.2em .4em;margin:0;font-size:85%;background-color:var(--code);border-radius:6px;}.pdoc a > code{color:inherit;}.pdoc pre > code{display:inline-block;font-size:inherit;background:none;border:none;padding:0;}.pdoc > section:not(.module-info){margin-bottom:1.5rem;}.pdoc .modulename{margin-top:0;font-weight:bold;}.pdoc .modulename a{color:var(--link);transition:100ms all;}.pdoc .git-button{float:right;border:solid var(--link) 1px;}.pdoc .git-button:hover{background-color:var(--link);color:var(--pdoc-background);}.view-source-toggle-state,.view-source-toggle-state ~ .pdoc-code{display:none;}.view-source-toggle-state:checked ~ .pdoc-code{display:block;}.view-source-button{display:inline-block;float:right;font-size:.75rem;line-height:1.5rem;color:var(--muted);padding:0 .4rem 0 1.3rem;cursor:pointer;text-indent:-2px;}.view-source-button > span{visibility:hidden;}.module-info .view-source-button{float:none;display:flex;justify-content:flex-end;margin:-1.2rem .4rem -.2rem 0;}.view-source-button::before{position:absolute;content:"View Source";display:list-item;list-style-type:disclosure-closed;}.view-source-toggle-state:checked ~ .attr .view-source-button::before,.view-source-toggle-state:checked ~ .view-source-button::before{list-style-type:disclosure-open;}.pdoc .docstring{margin-bottom:1.5rem;}.pdoc section:not(.module-info) .docstring{margin-left:clamp(0rem, 5vw - 2rem, 1rem);}.pdoc .docstring .pdoc-code{margin-left:1em;margin-right:1em;}.pdoc h1:target,.pdoc h2:target,.pdoc h3:target,.pdoc h4:target,.pdoc h5:target,.pdoc h6:target,.pdoc .pdoc-code > pre > span:target{background-color:var(--active);box-shadow:-1rem 0 0 0 var(--active);}.pdoc .pdoc-code > pre > span:target{display:block;}.pdoc div:target > .attr,.pdoc section:target > .attr,.pdoc dd:target > a{background-color:var(--active);}.pdoc *{scroll-margin:2rem;}.pdoc .pdoc-code .linenos{user-select:none;}.pdoc .attr:hover{filter:contrast(0.95);}.pdoc section, .pdoc .classattr{position:relative;}.pdoc .headerlink{--width:clamp(1rem, 3vw, 2rem);position:absolute;top:0;left:calc(0rem - var(--width));transition:all 100ms ease-in-out;opacity:0;}.pdoc .headerlink::before{content:"#";display:block;text-align:center;width:var(--width);height:2.3rem;line-height:2.3rem;font-size:1.5rem;}.pdoc .attr:hover ~ .headerlink,.pdoc *:target > .headerlink,.pdoc .headerlink:hover{opacity:1;}.pdoc .attr{display:block;margin:.5rem 0 .5rem;padding:.4rem .4rem .4rem 1rem;background-color:var(--accent);overflow-x:auto;}.pdoc .classattr{margin-left:2rem;}.pdoc .name{color:var(--name);font-weight:bold;}.pdoc .def{color:var(--def);font-weight:bold;}.pdoc .signature{background-color:transparent;}.pdoc .param, .pdoc .return-annotation{white-space:pre;}.pdoc .signature.multiline .param{display:block;}.pdoc .signature.condensed .param{display:inline-block;}.pdoc .annotation{color:var(--annotation);}.pdoc .view-value-toggle-state,.pdoc .view-value-toggle-state ~ .default_value{display:none;}.pdoc .view-value-toggle-state:checked ~ .default_value{display:inherit;}.pdoc .view-value-button{font-size:.5rem;vertical-align:middle;border-style:dashed;margin-top:-0.1rem;}.pdoc .view-value-button:hover{background:white;}.pdoc .view-value-button::before{content:"show";text-align:center;width:2.2em;display:inline-block;}.pdoc .view-value-toggle-state:checked ~ .view-value-button::before{content:"hide";}.pdoc .inherited{margin-left:2rem;}.pdoc .inherited dt{font-weight:700;}.pdoc .inherited dt, .pdoc .inherited dd{display:inline;margin-left:0;margin-bottom:.5rem;}.pdoc .inherited dd:not(:last-child):after{content:", ";}.pdoc .inherited .class:before{content:"class ";}.pdoc .inherited .function a:after{content:"()";}.pdoc .search-result .docstring{overflow:auto;max-height:25vh;}.pdoc .search-result.focused > .attr{background-color:var(--active);}.pdoc .attribution{margin-top:2rem;display:block;opacity:0.5;transition:all 200ms;filter:grayscale(100%);}.pdoc .attribution:hover{opacity:1;filter:grayscale(0%);}.pdoc .attribution img{margin-left:5px;height:35px;vertical-align:middle;width:70px;transition:all 200ms;}.pdoc table{display:block;width:max-content;max-width:100%;overflow:auto;margin-bottom:1rem;}.pdoc table th{font-weight:600;}.pdoc table th, .pdoc table td{padding:6px 13px;border:1px solid var(--accent2);}</style>
+    <style>/*! custom.css */</style><script>
+    window.MathJax = {
+        tex: {
+            inlineMath: [['$', '$'], ['\\(', '\\)']]
+        }
+    };
+</script>
+<script src="https://polyfill.io/v3/polyfill.min.js?features=es6"></script>
+<script id="MathJax-script" async src="https://cdn.jsdelivr.net/npm/mathjax@3/es5/tex-mml-chtml.js"></script>
+<script>
+    /* Re-invoke MathJax when DOM content changes, for example during search. */
+    document.addEventListener("DOMContentLoaded", () => {
+        new MutationObserver(() => MathJax.typeset()).observe(
+            document.querySelector("main.pdoc").parentNode,
+            {childList: true}
+        );
+    })
+</script>
+<style>
+    mjx-container {
+        overflow-x: auto;
+    }
+</style></head>
+<body>
+    <nav class="pdoc">
+        <label id="navtoggle" for="togglestate" class="pdoc-button"><svg xmlns='http://www.w3.org/2000/svg' viewBox='0 0 30 30'><path stroke-linecap='round' stroke="currentColor" stroke-miterlimit='10' stroke-width='2' d='M4 7h22M4 15h22M4 23h22'/></svg></label>
+        <input id="togglestate" type="checkbox" aria-hidden="true" tabindex="-1">
+        <div>            <a class="pdoc-button module-list-button" href="../vectorization.html">
+<svg xmlns="http://www.w3.org/2000/svg" width="16" height="16" fill="currentColor" class="bi bi-box-arrow-in-left" viewBox="0 0 16 16">
+  <path fill-rule="evenodd" d="M10 3.5a.5.5 0 0 0-.5-.5h-8a.5.5 0 0 0-.5.5v9a.5.5 0 0 0 .5.5h8a.5.5 0 0 0 .5-.5v-2a.5.5 0 0 1 1 0v2A1.5 1.5 0 0 1 9.5 14h-8A1.5 1.5 0 0 1 0 12.5v-9A1.5 1.5 0 0 1 1.5 2h8A1.5 1.5 0 0 1 11 3.5v2a.5.5 0 0 1-1 0v-2z"/>
+  <path fill-rule="evenodd" d="M4.146 8.354a.5.5 0 0 1 0-.708l3-3a.5.5 0 1 1 .708.708L5.707 7.5H14.5a.5.5 0 0 1 0 1H5.707l2.147 2.146a.5.5 0 0 1-.708.708l-3-3z"/>
+</svg>                &nbsp;sciterra.vectorization</a>
+
+
+            <input type="search" placeholder="Search..." role="searchbox" aria-label="search"
+                   pattern=".+" required>
+
+
+
+            <h2>API Documentation</h2>
+                <ul class="memberlist">
+            <li>
+                    <a class="variable" href="#EMBEDDING_DIM">EMBEDDING_DIM</a>
+            </li>
+            <li>
+                    <a class="variable" href="#current_file_abs_path">current_file_abs_path</a>
+            </li>
+            <li>
+                    <a class="variable" href="#corpora_path">corpora_path</a>
+            </li>
+            <li>
+                    <a class="variable" href="#ASTROPHYSICS_CORPUS">ASTROPHYSICS_CORPUS</a>
+            </li>
+            <li>
+                    <a class="variable" href="#DEFAULT_CORPUS">DEFAULT_CORPUS</a>
+            </li>
+            <li>
+                    <a class="class" href="#Word2VecVectorizer">Word2VecVectorizer</a>
+                            <ul class="memberlist">
+                        <li>
+                                <a class="function" href="#Word2VecVectorizer.__init__">Word2VecVectorizer</a>
+                        </li>
+                        <li>
+                                <a class="variable" href="#Word2VecVectorizer.tokenizer">tokenizer</a>
+                        </li>
+                        <li>
+                                <a class="variable" href="#Word2VecVectorizer.model">model</a>
+                        </li>
+                        <li>
+                                <a class="function" href="#Word2VecVectorizer.embed_documents">embed_documents</a>
+                        </li>
+                </ul>
+
+            </li>
+    </ul>
+
+
+
+        <a class="attribution" title="pdoc: Python API documentation generator" href="https://pdoc.dev" target="_blank">
+            built with <span class="visually-hidden">pdoc</span><img
+                alt="pdoc logo"
+                src="data:image/svg+xml,%3Csvg%20xmlns%3D%22http%3A//www.w3.org/2000/svg%22%20role%3D%22img%22%20aria-label%3D%22pdoc%20logo%22%20width%3D%22300%22%20height%3D%22150%22%20viewBox%3D%22-1%200%2060%2030%22%3E%3Ctitle%3Epdoc%3C/title%3E%3Cpath%20d%3D%22M29.621%2021.293c-.011-.273-.214-.475-.511-.481a.5.5%200%200%200-.489.503l-.044%201.393c-.097.551-.695%201.215-1.566%201.704-.577.428-1.306.486-2.193.182-1.426-.617-2.467-1.654-3.304-2.487l-.173-.172a3.43%203.43%200%200%200-.365-.306.49.49%200%200%200-.286-.196c-1.718-1.06-4.931-1.47-7.353.191l-.219.15c-1.707%201.187-3.413%202.131-4.328%201.03-.02-.027-.49-.685-.141-1.763.233-.721.546-2.408.772-4.076.042-.09.067-.187.046-.288.166-1.347.277-2.625.241-3.351%201.378-1.008%202.271-2.586%202.271-4.362%200-.976-.272-1.935-.788-2.774-.057-.094-.122-.18-.184-.268.033-.167.052-.339.052-.516%200-1.477-1.202-2.679-2.679-2.679-.791%200-1.496.352-1.987.9a6.3%206.3%200%200%200-1.001.029c-.492-.564-1.207-.929-2.012-.929-1.477%200-2.679%201.202-2.679%202.679A2.65%202.65%200%200%200%20.97%206.554c-.383.747-.595%201.572-.595%202.41%200%202.311%201.507%204.29%203.635%205.107-.037.699-.147%202.27-.423%203.294l-.137.461c-.622%202.042-2.515%208.257%201.727%2010.643%201.614.908%203.06%201.248%204.317%201.248%202.665%200%204.492-1.524%205.322-2.401%201.476-1.559%202.886-1.854%206.491.82%201.877%201.393%203.514%201.753%204.861%201.068%202.223-1.713%202.811-3.867%203.399-6.374.077-.846.056-1.469.054-1.537zm-4.835%204.313c-.054.305-.156.586-.242.629-.034-.007-.131-.022-.307-.157-.145-.111-.314-.478-.456-.908.221.121.432.25.675.355.115.039.219.051.33.081zm-2.251-1.238c-.05.33-.158.648-.252.694-.022.001-.125-.018-.307-.157-.217-.166-.488-.906-.639-1.573.358.344.754.693%201.198%201.036zm-3.887-2.337c-.006-.116-.018-.231-.041-.342.635.145%201.189.368%201.599.625.097.231.166.481.174.642-.03.049-.055.101-.067.158-.046.013-.128.026-.298.004-.278-.037-.901-.57-1.367-1.087zm-1.127-.497c.116.306.176.625.12.71-.019.014-.117.045-.345.016-.206-.027-.604-.332-.986-.695.41-.051.816-.056%201.211-.031zm-4.535%201.535c.209.22.379.47.358.598-.006.041-.088.138-.351.234-.144.055-.539-.063-.979-.259a11.66%2011.66%200%200%200%20.972-.573zm.983-.664c.359-.237.738-.418%201.126-.554.25.237.479.548.457.694-.006.042-.087.138-.351.235-.174.064-.694-.105-1.232-.375zm-3.381%201.794c-.022.145-.061.29-.149.401-.133.166-.358.248-.69.251h-.002c-.133%200-.306-.26-.45-.621.417.091.854.07%201.291-.031zm-2.066-8.077a4.78%204.78%200%200%201-.775-.584c.172-.115.505-.254.88-.378l-.105.962zm-.331%202.302a10.32%2010.32%200%200%201-.828-.502c.202-.143.576-.328.984-.49l-.156.992zm-.45%202.157l-.701-.403c.214-.115.536-.249.891-.376a11.57%2011.57%200%200%201-.19.779zm-.181%201.716c.064.398.194.702.298.893-.194-.051-.435-.162-.736-.398.061-.119.224-.3.438-.495zM8.87%204.141c0%20.152-.123.276-.276.276s-.275-.124-.275-.276.123-.276.276-.276.275.124.275.276zm-.735-.389a1.15%201.15%200%200%200-.314.783%201.16%201.16%200%200%200%201.162%201.162c.457%200%20.842-.27%201.032-.653.026.117.042.238.042.362a1.68%201.68%200%200%201-1.679%201.679%201.68%201.68%200%200%201-1.679-1.679c0-.843.626-1.535%201.436-1.654zM5.059%205.406A1.68%201.68%200%200%201%203.38%207.085a1.68%201.68%200%200%201-1.679-1.679c0-.037.009-.072.011-.109.21.3.541.508.935.508a1.16%201.16%200%200%200%201.162-1.162%201.14%201.14%200%200%200-.474-.912c.015%200%20.03-.005.045-.005.926.001%201.679.754%201.679%201.68zM3.198%204.141c0%20.152-.123.276-.276.276s-.275-.124-.275-.276.123-.276.276-.276.275.124.275.276zM1.375%208.964c0-.52.103-1.035.288-1.52.466.394%201.06.64%201.717.64%201.144%200%202.116-.725%202.499-1.738.383%201.012%201.355%201.738%202.499%201.738.867%200%201.631-.421%202.121-1.062.307.605.478%201.267.478%201.942%200%202.486-2.153%204.51-4.801%204.51s-4.801-2.023-4.801-4.51zm24.342%2019.349c-.985.498-2.267.168-3.813-.979-3.073-2.281-5.453-3.199-7.813-.705-1.315%201.391-4.163%203.365-8.423.97-3.174-1.786-2.239-6.266-1.261-9.479l.146-.492c.276-1.02.395-2.457.444-3.268a6.11%206.11%200%200%200%201.18.115%206.01%206.01%200%200%200%202.536-.562l-.006.175c-.802.215-1.848.612-2.021%201.25-.079.295.021.601.274.837.219.203.415.364.598.501-.667.304-1.243.698-1.311%201.179-.02.144-.022.507.393.787.213.144.395.26.564.365-1.285.521-1.361.96-1.381%201.126-.018.142-.011.496.427.746l.854.489c-.473.389-.971.914-.999%201.429-.018.278.095.532.316.713.675.556%201.231.721%201.653.721.059%200%20.104-.014.158-.02.207.707.641%201.64%201.513%201.64h.013c.8-.008%201.236-.345%201.462-.626.173-.216.268-.457.325-.692.424.195.93.374%201.372.374.151%200%20.294-.021.423-.068.732-.27.944-.704.993-1.021.009-.061.003-.119.002-.179.266.086.538.147.789.147.15%200%20.294-.021.423-.069.542-.2.797-.489.914-.754.237.147.478.258.704.288.106.014.205.021.296.021.356%200%20.595-.101.767-.229.438.435%201.094.992%201.656%201.067.106.014.205.021.296.021a1.56%201.56%200%200%200%20.323-.035c.17.575.453%201.289.866%201.605.358.273.665.362.914.362a.99.99%200%200%200%20.421-.093%201.03%201.03%200%200%200%20.245-.164c.168.428.39.846.68%201.068.358.273.665.362.913.362a.99.99%200%200%200%20.421-.093c.317-.148.512-.448.639-.762.251.157.495.257.726.257.127%200%20.25-.024.37-.071.427-.17.706-.617.841-1.314.022-.015.047-.022.068-.038.067-.051.133-.104.196-.159-.443%201.486-1.107%202.761-2.086%203.257zM8.66%209.925a.5.5%200%201%200-1%200c0%20.653-.818%201.205-1.787%201.205s-1.787-.552-1.787-1.205a.5.5%200%201%200-1%200c0%201.216%201.25%202.205%202.787%202.205s2.787-.989%202.787-2.205zm4.4%2015.965l-.208.097c-2.661%201.258-4.708%201.436-6.086.527-1.542-1.017-1.88-3.19-1.844-4.198a.4.4%200%200%200-.385-.414c-.242-.029-.406.164-.414.385-.046%201.249.367%203.686%202.202%204.896.708.467%201.547.7%202.51.7%201.248%200%202.706-.392%204.362-1.174l.185-.086a.4.4%200%200%200%20.205-.527c-.089-.204-.326-.291-.527-.206zM9.547%202.292c.093.077.205.114.317.114a.5.5%200%200%200%20.318-.886L8.817.397a.5.5%200%200%200-.703.068.5.5%200%200%200%20.069.703l1.364%201.124zm-7.661-.065c.086%200%20.173-.022.253-.068l1.523-.893a.5.5%200%200%200-.506-.863l-1.523.892a.5.5%200%200%200-.179.685c.094.158.261.247.432.247z%22%20transform%3D%22matrix%28-1%200%200%201%2058%200%29%22%20fill%3D%22%233bb300%22/%3E%3Cpath%20d%3D%22M.3%2021.86V10.18q0-.46.02-.68.04-.22.18-.5.28-.54%201.34-.54%201.06%200%201.42.28.38.26.44.78.76-1.04%202.38-1.04%201.64%200%203.1%201.54%201.46%201.54%201.46%203.58%200%202.04-1.46%203.58-1.44%201.54-3.08%201.54-1.64%200-2.38-.92v4.04q0%20.46-.04.68-.02.22-.18.5-.14.3-.5.42-.36.12-.98.12-.62%200-1-.12-.36-.12-.52-.4-.14-.28-.18-.5-.02-.22-.02-.68zm3.96-9.42q-.46.54-.46%201.18%200%20.64.46%201.18.48.52%201.2.52.74%200%201.24-.52.52-.52.52-1.18%200-.66-.48-1.18-.48-.54-1.26-.54-.76%200-1.22.54zm14.741-8.36q.16-.3.54-.42.38-.12%201-.12.64%200%201.02.12.38.12.52.42.16.3.18.54.04.22.04.68v11.94q0%20.46-.04.7-.02.22-.18.5-.3.54-1.7.54-1.38%200-1.54-.98-.84.96-2.34.96-1.8%200-3.28-1.56-1.48-1.58-1.48-3.66%200-2.1%201.48-3.68%201.5-1.58%203.28-1.58%201.48%200%202.3%201v-4.2q0-.46.02-.68.04-.24.18-.52zm-3.24%2010.86q.52.54%201.26.54.74%200%201.22-.54.5-.54.5-1.18%200-.66-.48-1.22-.46-.56-1.26-.56-.8%200-1.28.56-.48.54-.48%201.2%200%20.66.52%201.2zm7.833-1.2q0-2.4%201.68-3.96%201.68-1.56%203.84-1.56%202.16%200%203.82%201.56%201.66%201.54%201.66%203.94%200%201.66-.86%202.96-.86%201.28-2.1%201.9-1.22.6-2.54.6-1.32%200-2.56-.64-1.24-.66-2.1-1.92-.84-1.28-.84-2.88zm4.18%201.44q.64.48%201.3.48.66%200%201.32-.5.66-.5.66-1.48%200-.98-.62-1.46-.62-.48-1.34-.48-.72%200-1.34.5-.62.5-.62%201.48%200%20.96.64%201.46zm11.412-1.44q0%20.84.56%201.32.56.46%201.18.46.64%200%201.18-.36.56-.38.9-.38.6%200%201.46%201.06.46.58.46%201.04%200%20.76-1.1%201.42-1.14.8-2.8.8-1.86%200-3.58-1.34-.82-.64-1.34-1.7-.52-1.08-.52-2.36%200-1.3.52-2.34.52-1.06%201.34-1.7%201.66-1.32%203.54-1.32.76%200%201.48.22.72.2%201.06.4l.32.2q.36.24.56.38.52.4.52.92%200%20.5-.42%201.14-.72%201.1-1.38%201.1-.38%200-1.08-.44-.36-.34-1.04-.34-.66%200-1.24.48-.58.48-.58%201.34z%22%20fill%3D%22green%22/%3E%3C/svg%3E"/>
+        </a>
+</div>
+    </nav>
+    <main class="pdoc">
+            <section class="module-info">
+                    <h1 class="modulename">
+<a href="./../../sciterra.html">sciterra</a><wbr>.<a href="./../vectorization.html">vectorization</a><wbr>.word2vec    </h1>
+
+                        <div class="docstring"><p>We use a simple word2vec model that gets a document vector by averaging all words in the document.</p>
+
+<p>Since we are getting vectors for scientific documents, we must load a vocabulary to train the model from scratch. Therefore we define different subclasses for each scientific field, which may differ substantially by vocabulary.</p>
+
+<p>There exists a Doc2Vec module by gensim, but it seems that empirically Word2Vec + averaging can do just as well; furthermore, we're mainly interested in a simple baseline to compare with sophisticated embeddings.</p>
+
+<h6 id="links">Links:</h6>
+
+<blockquote>
+  <p>gensim: <a href="https://radimrehurek.com/gensim/auto_examples/tutorials/run_word2vec.html#">https://radimrehurek.com/gensim/auto_examples/tutorials/run_word2vec.html#</a></p>
+</blockquote>
+</div>
+
+                        <input id="mod-word2vec-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
+
+                        <label class="view-source-button" for="mod-word2vec-view-source"><span>View Source</span></label>
+
+                        <div class="pdoc-code codehilite"><pre><span></span><span id="L-1"><a href="#L-1"><span class="linenos">  1</span></a><span class="sd">&quot;&quot;&quot;We use a simple word2vec model that gets a document vector by averaging all words in the document.</span>
+</span><span id="L-2"><a href="#L-2"><span class="linenos">  2</span></a>
+</span><span id="L-3"><a href="#L-3"><span class="linenos">  3</span></a><span class="sd">Since we are getting vectors for scientific documents, we must load a vocabulary to train the model from scratch. Therefore we define different subclasses for each scientific field, which may differ substantially by vocabulary.</span>
+</span><span id="L-4"><a href="#L-4"><span class="linenos">  4</span></a>
+</span><span id="L-5"><a href="#L-5"><span class="linenos">  5</span></a><span class="sd">There exists a Doc2Vec module by gensim, but it seems that empirically Word2Vec + averaging can do just as well; furthermore, we&#39;re mainly interested in a simple baseline to compare with sophisticated embeddings.</span>
+</span><span id="L-6"><a href="#L-6"><span class="linenos">  6</span></a>
+</span><span id="L-7"><a href="#L-7"><span class="linenos">  7</span></a><span class="sd">Links:</span>
+</span><span id="L-8"><a href="#L-8"><span class="linenos">  8</span></a><span class="sd">    gensim: https://radimrehurek.com/gensim/auto_examples/tutorials/run_word2vec.html#</span>
+</span><span id="L-9"><a href="#L-9"><span class="linenos">  9</span></a><span class="sd">&quot;&quot;&quot;</span>
+</span><span id="L-10"><a href="#L-10"><span class="linenos"> 10</span></a>
+</span><span id="L-11"><a href="#L-11"><span class="linenos"> 11</span></a><span class="kn">import</span> <span class="nn">os</span>
+</span><span id="L-12"><a href="#L-12"><span class="linenos"> 12</span></a><span class="kn">import</span> <span class="nn">time</span>
+</span><span id="L-13"><a href="#L-13"><span class="linenos"> 13</span></a>
+</span><span id="L-14"><a href="#L-14"><span class="linenos"> 14</span></a><span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
+</span><span id="L-15"><a href="#L-15"><span class="linenos"> 15</span></a>
+</span><span id="L-16"><a href="#L-16"><span class="linenos"> 16</span></a><span class="kn">from</span> <span class="nn">.vectorizer</span> <span class="kn">import</span> <span class="n">Vectorizer</span>
+</span><span id="L-17"><a href="#L-17"><span class="linenos"> 17</span></a><span class="kn">from</span> <span class="nn">.preprocessing</span> <span class="kn">import</span> <span class="n">custom_preprocess</span>
+</span><span id="L-18"><a href="#L-18"><span class="linenos"> 18</span></a><span class="kn">from</span> <span class="nn">tqdm</span> <span class="kn">import</span> <span class="n">tqdm</span>
+</span><span id="L-19"><a href="#L-19"><span class="linenos"> 19</span></a><span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">Callable</span>
+</span><span id="L-20"><a href="#L-20"><span class="linenos"> 20</span></a>
+</span><span id="L-21"><a href="#L-21"><span class="linenos"> 21</span></a><span class="kn">from</span> <span class="nn">gensim.models</span> <span class="kn">import</span> <span class="n">Word2Vec</span>
+</span><span id="L-22"><a href="#L-22"><span class="linenos"> 22</span></a>
+</span><span id="L-23"><a href="#L-23"><span class="linenos"> 23</span></a><span class="kn">from</span> <span class="nn">multiprocessing</span> <span class="kn">import</span> <span class="n">cpu_count</span>
+</span><span id="L-24"><a href="#L-24"><span class="linenos"> 24</span></a>
+</span><span id="L-25"><a href="#L-25"><span class="linenos"> 25</span></a>
+</span><span id="L-26"><a href="#L-26"><span class="linenos"> 26</span></a><span class="n">EMBEDDING_DIM</span> <span class="o">=</span> <span class="mi">300</span>
+</span><span id="L-27"><a href="#L-27"><span class="linenos"> 27</span></a>
+</span><span id="L-28"><a href="#L-28"><span class="linenos"> 28</span></a><span class="c1"># Training data for vocabulary</span>
+</span><span id="L-29"><a href="#L-29"><span class="linenos"> 29</span></a>
+</span><span id="L-30"><a href="#L-30"><span class="linenos"> 30</span></a><span class="n">current_file_abs_path</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">dirname</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">abspath</span><span class="p">(</span><span class="vm">__file__</span><span class="p">))</span>
+</span><span id="L-31"><a href="#L-31"><span class="linenos"> 31</span></a><span class="n">corpora_path</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">current_file_abs_path</span><span class="p">,</span> <span class="s2">&quot;corpora&quot;</span><span class="p">)</span>
+</span><span id="L-32"><a href="#L-32"><span class="linenos"> 32</span></a><span class="n">ASTROPHYSICS_CORPUS</span> <span class="o">=</span> <span class="s2">&quot;astro_small.txt&quot;</span>
+</span><span id="L-33"><a href="#L-33"><span class="linenos"> 33</span></a><span class="n">DEFAULT_CORPUS</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">corpora_path</span><span class="p">,</span> <span class="n">ASTROPHYSICS_CORPUS</span><span class="p">)</span>
+</span><span id="L-34"><a href="#L-34"><span class="linenos"> 34</span></a>
+</span><span id="L-35"><a href="#L-35"><span class="linenos"> 35</span></a>
+</span><span id="L-36"><a href="#L-36"><span class="linenos"> 36</span></a><span class="k">class</span> <span class="nc">Word2VecVectorizer</span><span class="p">(</span><span class="n">Vectorizer</span><span class="p">):</span>
+</span><span id="L-37"><a href="#L-37"><span class="linenos"> 37</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+</span><span id="L-38"><a href="#L-38"><span class="linenos"> 38</span></a>        <span class="bp">self</span><span class="p">,</span>
+</span><span id="L-39"><a href="#L-39"><span class="linenos"> 39</span></a>        <span class="n">corpus_path</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">DEFAULT_CORPUS</span><span class="p">,</span>
+</span><span id="L-40"><a href="#L-40"><span class="linenos"> 40</span></a>        <span class="n">model_path</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="L-41"><a href="#L-41"><span class="linenos"> 41</span></a>        <span class="n">vector_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">EMBEDDING_DIM</span><span class="p">,</span>
+</span><span id="L-42"><a href="#L-42"><span class="linenos"> 42</span></a>        <span class="n">window</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">5</span><span class="p">,</span>
+</span><span id="L-43"><a href="#L-43"><span class="linenos"> 43</span></a>        <span class="n">min_count</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">2</span><span class="p">,</span>
+</span><span id="L-44"><a href="#L-44"><span class="linenos"> 44</span></a>        <span class="n">workers</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">cpu_count</span><span class="p">(),</span>
+</span><span id="L-45"><a href="#L-45"><span class="linenos"> 45</span></a>        <span class="n">epochs</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
+</span><span id="L-46"><a href="#L-46"><span class="linenos"> 46</span></a>        <span class="n">tokenizer</span><span class="p">:</span> <span class="n">Callable</span><span class="p">[[</span><span class="nb">str</span><span class="p">],</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="n">custom_preprocess</span><span class="p">,</span>
+</span><span id="L-47"><a href="#L-47"><span class="linenos"> 47</span></a>        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+</span><span id="L-48"><a href="#L-48"><span class="linenos"> 48</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="L-49"><a href="#L-49"><span class="linenos"> 49</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Construct a Word2Vec based document embedding model from a corpus.&quot;&quot;&quot;</span>
+</span><span id="L-50"><a href="#L-50"><span class="linenos"> 50</span></a>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+</span><span id="L-51"><a href="#L-51"><span class="linenos"> 51</span></a>
+</span><span id="L-52"><a href="#L-52"><span class="linenos"> 52</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span> <span class="o">=</span> <span class="n">tokenizer</span>
+</span><span id="L-53"><a href="#L-53"><span class="linenos"> 53</span></a>
+</span><span id="L-54"><a href="#L-54"><span class="linenos"> 54</span></a>        <span class="k">if</span> <span class="p">(</span><span class="n">model_path</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">)</span> <span class="ow">or</span> <span class="p">(</span><span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">model_path</span><span class="p">)):</span>
+</span><span id="L-55"><a href="#L-55"><span class="linenos"> 55</span></a>            <span class="n">start</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+</span><span id="L-56"><a href="#L-56"><span class="linenos"> 56</span></a>            <span class="c1"># Assume the file is line-based, and one document per line</span>
+</span><span id="L-57"><a href="#L-57"><span class="linenos"> 57</span></a>            <span class="nb">print</span><span class="p">(</span>
+</span><span id="L-58"><a href="#L-58"><span class="linenos"> 58</span></a>                <span class="sa">f</span><span class="s2">&quot;Loading and tokenizing data from </span><span class="si">{</span><span class="n">corpus_path</span><span class="si">}</span><span class="s2"> for vocabulary and training...&quot;</span>
+</span><span id="L-59"><a href="#L-59"><span class="linenos"> 59</span></a>            <span class="p">)</span>
+</span><span id="L-60"><a href="#L-60"><span class="linenos"> 60</span></a>            <span class="n">sentences</span> <span class="o">=</span> <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">(</span><span class="n">line</span><span class="p">)</span> <span class="k">for</span> <span class="n">line</span> <span class="ow">in</span> <span class="n">tqdm</span><span class="p">(</span><span class="nb">open</span><span class="p">(</span><span class="n">corpus_path</span><span class="p">))]</span>
+</span><span id="L-61"><a href="#L-61"><span class="linenos"> 61</span></a>
+</span><span id="L-62"><a href="#L-62"><span class="linenos"> 62</span></a>            <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Training Word2Vec model...&quot;</span><span class="p">)</span>
+</span><span id="L-63"><a href="#L-63"><span class="linenos"> 63</span></a>            <span class="n">model</span> <span class="o">=</span> <span class="n">Word2Vec</span><span class="p">(</span>
+</span><span id="L-64"><a href="#L-64"><span class="linenos"> 64</span></a>                <span class="n">sentences</span><span class="o">=</span><span class="n">sentences</span><span class="p">,</span>
+</span><span id="L-65"><a href="#L-65"><span class="linenos"> 65</span></a>                <span class="n">vector_size</span><span class="o">=</span><span class="n">vector_size</span><span class="p">,</span>
+</span><span id="L-66"><a href="#L-66"><span class="linenos"> 66</span></a>                <span class="n">window</span><span class="o">=</span><span class="n">window</span><span class="p">,</span>
+</span><span id="L-67"><a href="#L-67"><span class="linenos"> 67</span></a>                <span class="n">min_count</span><span class="o">=</span><span class="n">min_count</span><span class="p">,</span>
+</span><span id="L-68"><a href="#L-68"><span class="linenos"> 68</span></a>                <span class="n">workers</span><span class="o">=</span><span class="n">workers</span><span class="p">,</span>
+</span><span id="L-69"><a href="#L-69"><span class="linenos"> 69</span></a>                <span class="n">epochs</span><span class="o">=</span><span class="n">epochs</span><span class="p">,</span>
+</span><span id="L-70"><a href="#L-70"><span class="linenos"> 70</span></a>            <span class="p">)</span>
+</span><span id="L-71"><a href="#L-71"><span class="linenos"> 71</span></a>            <span class="n">duration</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span> <span class="o">-</span> <span class="n">start</span>
+</span><span id="L-72"><a href="#L-72"><span class="linenos"> 72</span></a>            <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Loaded corpus and trained model in </span><span class="si">{</span><span class="n">duration</span><span class="si">:</span><span class="s2">.2f</span><span class="si">}</span><span class="s2"> seconds.&quot;</span><span class="p">)</span>
+</span><span id="L-73"><a href="#L-73"><span class="linenos"> 73</span></a>        <span class="k">else</span><span class="p">:</span>
+</span><span id="L-74"><a href="#L-74"><span class="linenos"> 74</span></a>            <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Loading saved Word2Vec model from </span><span class="si">{</span><span class="n">model_path</span><span class="si">}</span><span class="s2">.&quot;</span><span class="p">)</span>
+</span><span id="L-75"><a href="#L-75"><span class="linenos"> 75</span></a>            <span class="n">model</span> <span class="o">=</span> <span class="n">Word2Vec</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">model_path</span><span class="p">)</span>
+</span><span id="L-76"><a href="#L-76"><span class="linenos"> 76</span></a>
+</span><span id="L-77"><a href="#L-77"><span class="linenos"> 77</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">model</span>
+</span><span id="L-78"><a href="#L-78"><span class="linenos"> 78</span></a>
+</span><span id="L-79"><a href="#L-79"><span class="linenos"> 79</span></a>        <span class="c1"># We don&#39;t plan to train the model any further, so we call `init_sims` to make the model much more memory-efficient</span>
+</span><span id="L-80"><a href="#L-80"><span class="linenos"> 80</span></a>        <span class="c1"># If `replace` is set, forget the original vectors and only keep the normalized ones = saves lots of memory!</span>
+</span><span id="L-81"><a href="#L-81"><span class="linenos"> 81</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">init_sims</span><span class="p">(</span><span class="n">replace</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+</span><span id="L-82"><a href="#L-82"><span class="linenos"> 82</span></a>
+</span><span id="L-83"><a href="#L-83"><span class="linenos"> 83</span></a>        <span class="c1"># write model to disk to load later and save time</span>
+</span><span id="L-84"><a href="#L-84"><span class="linenos"> 84</span></a>        <span class="k">if</span> <span class="n">model_path</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="L-85"><a href="#L-85"><span class="linenos"> 85</span></a>            <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Saving Word2Vec model at </span><span class="si">{</span><span class="n">model_path</span><span class="si">}</span><span class="s2">.&quot;</span><span class="p">)</span>
+</span><span id="L-86"><a href="#L-86"><span class="linenos"> 86</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">save</span><span class="p">(</span><span class="n">model_path</span><span class="p">)</span>
+</span><span id="L-87"><a href="#L-87"><span class="linenos"> 87</span></a>
+</span><span id="L-88"><a href="#L-88"><span class="linenos"> 88</span></a>    <span class="k">def</span> <span class="nf">embed_documents</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">docs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+</span><span id="L-89"><a href="#L-89"><span class="linenos"> 89</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Embed a list of documents (raw text) into word2vec document vectors by averaging the word vectors in each of the documents.</span>
+</span><span id="L-90"><a href="#L-90"><span class="linenos"> 90</span></a>
+</span><span id="L-91"><a href="#L-91"><span class="linenos"> 91</span></a><span class="sd">        Since there&#39;s no speedup via batching like there is in pytorch models, we iterate one document at a time.</span>
+</span><span id="L-92"><a href="#L-92"><span class="linenos"> 92</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="L-93"><a href="#L-93"><span class="linenos"> 93</span></a>
+</span><span id="L-94"><a href="#L-94"><span class="linenos"> 94</span></a>        <span class="c1"># return np.array(</span>
+</span><span id="L-95"><a href="#L-95"><span class="linenos"> 95</span></a>        <span class="c1">#     [</span>
+</span><span id="L-96"><a href="#L-96"><span class="linenos"> 96</span></a>        <span class="c1">#         np.mean(</span>
+</span><span id="L-97"><a href="#L-97"><span class="linenos"> 97</span></a>        <span class="c1">#             [</span>
+</span><span id="L-98"><a href="#L-98"><span class="linenos"> 98</span></a>        <span class="c1">#                 self.model.wv[word]</span>
+</span><span id="L-99"><a href="#L-99"><span class="linenos"> 99</span></a>        <span class="c1">#                 for word in self.tokenizer(doc)</span>
+</span><span id="L-100"><a href="#L-100"><span class="linenos">100</span></a>        <span class="c1">#                 if word in self.model.wv</span>
+</span><span id="L-101"><a href="#L-101"><span class="linenos">101</span></a>        <span class="c1">#             ],  # shape `(300,)`</span>
+</span><span id="L-102"><a href="#L-102"><span class="linenos">102</span></a>        <span class="c1">#             axis=0,</span>
+</span><span id="L-103"><a href="#L-103"><span class="linenos">103</span></a>        <span class="c1">#         )</span>
+</span><span id="L-104"><a href="#L-104"><span class="linenos">104</span></a>        <span class="c1">#         for doc in tqdm(</span>
+</span><span id="L-105"><a href="#L-105"><span class="linenos">105</span></a>        <span class="c1">#             docs,</span>
+</span><span id="L-106"><a href="#L-106"><span class="linenos">106</span></a>        <span class="c1">#             desc=&quot;embedding documents&quot;,</span>
+</span><span id="L-107"><a href="#L-107"><span class="linenos">107</span></a>        <span class="c1">#             leave=True,</span>
+</span><span id="L-108"><a href="#L-108"><span class="linenos">108</span></a>        <span class="c1">#         )</span>
+</span><span id="L-109"><a href="#L-109"><span class="linenos">109</span></a>        <span class="c1">#     ]</span>
+</span><span id="L-110"><a href="#L-110"><span class="linenos">110</span></a>        <span class="c1"># )</span>
+</span><span id="L-111"><a href="#L-111"><span class="linenos">111</span></a>        <span class="n">means</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="L-112"><a href="#L-112"><span class="linenos">112</span></a>        <span class="n">success_indices</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="L-113"><a href="#L-113"><span class="linenos">113</span></a>        <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">doc</span> <span class="ow">in</span> <span class="n">tqdm</span><span class="p">(</span><span class="nb">enumerate</span><span class="p">(</span><span class="n">docs</span><span class="p">),</span> <span class="n">desc</span><span class="o">=</span><span class="s2">&quot;embedding documents&quot;</span><span class="p">,</span> <span class="n">leave</span><span class="o">=</span><span class="kc">True</span><span class="p">):</span>
+</span><span id="L-114"><a href="#L-114"><span class="linenos">114</span></a>            <span class="n">mean</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">mean</span><span class="p">([</span>
+</span><span id="L-115"><a href="#L-115"><span class="linenos">115</span></a>                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">wv</span><span class="p">[</span><span class="n">word</span><span class="p">]</span>
+</span><span id="L-116"><a href="#L-116"><span class="linenos">116</span></a>                <span class="k">for</span> <span class="n">word</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">(</span><span class="n">doc</span><span class="p">)</span>
+</span><span id="L-117"><a href="#L-117"><span class="linenos">117</span></a>                <span class="k">if</span> <span class="n">word</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">wv</span>
+</span><span id="L-118"><a href="#L-118"><span class="linenos">118</span></a>                <span class="p">],</span>  <span class="c1"># shape `(300,)`</span>
+</span><span id="L-119"><a href="#L-119"><span class="linenos">119</span></a>                <span class="n">axis</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+</span><span id="L-120"><a href="#L-120"><span class="linenos">120</span></a>            <span class="p">)</span>
+</span><span id="L-121"><a href="#L-121"><span class="linenos">121</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="n">np</span><span class="o">.</span><span class="n">isnan</span><span class="p">(</span><span class="n">mean</span><span class="p">)</span><span class="o">.</span><span class="n">any</span><span class="p">():</span>
+</span><span id="L-122"><a href="#L-122"><span class="linenos">122</span></a>                <span class="n">means</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">mean</span><span class="p">)</span>
+</span><span id="L-123"><a href="#L-123"><span class="linenos">123</span></a>                <span class="n">success_indices</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">i</span><span class="p">)</span>
+</span><span id="L-124"><a href="#L-124"><span class="linenos">124</span></a>
+</span><span id="L-125"><a href="#L-125"><span class="linenos">125</span></a>        <span class="k">return</span> <span class="p">{</span>
+</span><span id="L-126"><a href="#L-126"><span class="linenos">126</span></a>            <span class="s2">&quot;embeddings&quot;</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">means</span><span class="p">),</span>
+</span><span id="L-127"><a href="#L-127"><span class="linenos">127</span></a>            <span class="s2">&quot;indices&quot;</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">success_indices</span><span class="p">),</span>
+</span><span id="L-128"><a href="#L-128"><span class="linenos">128</span></a>        <span class="p">}</span>
+</span></pre></div>
+
+
+            </section>
+                <section id="EMBEDDING_DIM">
+                    <div class="attr variable">
+            <span class="name">EMBEDDING_DIM</span>        =
+<span class="default_value">300</span>
+
+        
+    </div>
+    <a class="headerlink" href="#EMBEDDING_DIM"></a>
+    
+    
+
+                </section>
+                <section id="current_file_abs_path">
+                    <div class="attr variable">
+            <span class="name">current_file_abs_path</span>        =
+<span class="default_value">&#39;/Users/nathanielimel/uci/projects/sciterra/src/sciterra/vectorization&#39;</span>
+
+        
+    </div>
+    <a class="headerlink" href="#current_file_abs_path"></a>
+    
+    
+
+                </section>
+                <section id="corpora_path">
+                    <div class="attr variable">
+            <span class="name">corpora_path</span>        =
+<span class="default_value">&#39;/Users/nathanielimel/uci/projects/sciterra/src/sciterra/vectorization/corpora&#39;</span>
+
+        
+    </div>
+    <a class="headerlink" href="#corpora_path"></a>
+    
+    
+
+                </section>
+                <section id="ASTROPHYSICS_CORPUS">
+                    <div class="attr variable">
+            <span class="name">ASTROPHYSICS_CORPUS</span>        =
+<span class="default_value">&#39;astro_small.txt&#39;</span>
+
+        
+    </div>
+    <a class="headerlink" href="#ASTROPHYSICS_CORPUS"></a>
+    
+    
+
+                </section>
+                <section id="DEFAULT_CORPUS">
+                    <div class="attr variable">
+            <span class="name">DEFAULT_CORPUS</span>        =
+<span class="default_value">&#39;/Users/nathanielimel/uci/projects/sciterra/src/sciterra/vectorization/corpora/astro_small.txt&#39;</span>
+
+        
+    </div>
+    <a class="headerlink" href="#DEFAULT_CORPUS"></a>
+    
+    
+
+                </section>
+                <section id="Word2VecVectorizer">
+                            <input id="Word2VecVectorizer-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
+<div class="attr class">
+            
+    <span class="def">class</span>
+    <span class="name">Word2VecVectorizer</span><wbr>(<span class="base"><a href="vectorizer.html#Vectorizer">sciterra.vectorization.vectorizer.Vectorizer</a></span>):
+
+                <label class="view-source-button" for="Word2VecVectorizer-view-source"><span>View Source</span></label>
+
+    </div>
+    <a class="headerlink" href="#Word2VecVectorizer"></a>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="Word2VecVectorizer-37"><a href="#Word2VecVectorizer-37"><span class="linenos"> 37</span></a><span class="k">class</span> <span class="nc">Word2VecVectorizer</span><span class="p">(</span><span class="n">Vectorizer</span><span class="p">):</span>
+</span><span id="Word2VecVectorizer-38"><a href="#Word2VecVectorizer-38"><span class="linenos"> 38</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+</span><span id="Word2VecVectorizer-39"><a href="#Word2VecVectorizer-39"><span class="linenos"> 39</span></a>        <span class="bp">self</span><span class="p">,</span>
+</span><span id="Word2VecVectorizer-40"><a href="#Word2VecVectorizer-40"><span class="linenos"> 40</span></a>        <span class="n">corpus_path</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">DEFAULT_CORPUS</span><span class="p">,</span>
+</span><span id="Word2VecVectorizer-41"><a href="#Word2VecVectorizer-41"><span class="linenos"> 41</span></a>        <span class="n">model_path</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="Word2VecVectorizer-42"><a href="#Word2VecVectorizer-42"><span class="linenos"> 42</span></a>        <span class="n">vector_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">EMBEDDING_DIM</span><span class="p">,</span>
+</span><span id="Word2VecVectorizer-43"><a href="#Word2VecVectorizer-43"><span class="linenos"> 43</span></a>        <span class="n">window</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">5</span><span class="p">,</span>
+</span><span id="Word2VecVectorizer-44"><a href="#Word2VecVectorizer-44"><span class="linenos"> 44</span></a>        <span class="n">min_count</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">2</span><span class="p">,</span>
+</span><span id="Word2VecVectorizer-45"><a href="#Word2VecVectorizer-45"><span class="linenos"> 45</span></a>        <span class="n">workers</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">cpu_count</span><span class="p">(),</span>
+</span><span id="Word2VecVectorizer-46"><a href="#Word2VecVectorizer-46"><span class="linenos"> 46</span></a>        <span class="n">epochs</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
+</span><span id="Word2VecVectorizer-47"><a href="#Word2VecVectorizer-47"><span class="linenos"> 47</span></a>        <span class="n">tokenizer</span><span class="p">:</span> <span class="n">Callable</span><span class="p">[[</span><span class="nb">str</span><span class="p">],</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="n">custom_preprocess</span><span class="p">,</span>
+</span><span id="Word2VecVectorizer-48"><a href="#Word2VecVectorizer-48"><span class="linenos"> 48</span></a>        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+</span><span id="Word2VecVectorizer-49"><a href="#Word2VecVectorizer-49"><span class="linenos"> 49</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Word2VecVectorizer-50"><a href="#Word2VecVectorizer-50"><span class="linenos"> 50</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Construct a Word2Vec based document embedding model from a corpus.&quot;&quot;&quot;</span>
+</span><span id="Word2VecVectorizer-51"><a href="#Word2VecVectorizer-51"><span class="linenos"> 51</span></a>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+</span><span id="Word2VecVectorizer-52"><a href="#Word2VecVectorizer-52"><span class="linenos"> 52</span></a>
+</span><span id="Word2VecVectorizer-53"><a href="#Word2VecVectorizer-53"><span class="linenos"> 53</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span> <span class="o">=</span> <span class="n">tokenizer</span>
+</span><span id="Word2VecVectorizer-54"><a href="#Word2VecVectorizer-54"><span class="linenos"> 54</span></a>
+</span><span id="Word2VecVectorizer-55"><a href="#Word2VecVectorizer-55"><span class="linenos"> 55</span></a>        <span class="k">if</span> <span class="p">(</span><span class="n">model_path</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">)</span> <span class="ow">or</span> <span class="p">(</span><span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">model_path</span><span class="p">)):</span>
+</span><span id="Word2VecVectorizer-56"><a href="#Word2VecVectorizer-56"><span class="linenos"> 56</span></a>            <span class="n">start</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+</span><span id="Word2VecVectorizer-57"><a href="#Word2VecVectorizer-57"><span class="linenos"> 57</span></a>            <span class="c1"># Assume the file is line-based, and one document per line</span>
+</span><span id="Word2VecVectorizer-58"><a href="#Word2VecVectorizer-58"><span class="linenos"> 58</span></a>            <span class="nb">print</span><span class="p">(</span>
+</span><span id="Word2VecVectorizer-59"><a href="#Word2VecVectorizer-59"><span class="linenos"> 59</span></a>                <span class="sa">f</span><span class="s2">&quot;Loading and tokenizing data from </span><span class="si">{</span><span class="n">corpus_path</span><span class="si">}</span><span class="s2"> for vocabulary and training...&quot;</span>
+</span><span id="Word2VecVectorizer-60"><a href="#Word2VecVectorizer-60"><span class="linenos"> 60</span></a>            <span class="p">)</span>
+</span><span id="Word2VecVectorizer-61"><a href="#Word2VecVectorizer-61"><span class="linenos"> 61</span></a>            <span class="n">sentences</span> <span class="o">=</span> <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">(</span><span class="n">line</span><span class="p">)</span> <span class="k">for</span> <span class="n">line</span> <span class="ow">in</span> <span class="n">tqdm</span><span class="p">(</span><span class="nb">open</span><span class="p">(</span><span class="n">corpus_path</span><span class="p">))]</span>
+</span><span id="Word2VecVectorizer-62"><a href="#Word2VecVectorizer-62"><span class="linenos"> 62</span></a>
+</span><span id="Word2VecVectorizer-63"><a href="#Word2VecVectorizer-63"><span class="linenos"> 63</span></a>            <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Training Word2Vec model...&quot;</span><span class="p">)</span>
+</span><span id="Word2VecVectorizer-64"><a href="#Word2VecVectorizer-64"><span class="linenos"> 64</span></a>            <span class="n">model</span> <span class="o">=</span> <span class="n">Word2Vec</span><span class="p">(</span>
+</span><span id="Word2VecVectorizer-65"><a href="#Word2VecVectorizer-65"><span class="linenos"> 65</span></a>                <span class="n">sentences</span><span class="o">=</span><span class="n">sentences</span><span class="p">,</span>
+</span><span id="Word2VecVectorizer-66"><a href="#Word2VecVectorizer-66"><span class="linenos"> 66</span></a>                <span class="n">vector_size</span><span class="o">=</span><span class="n">vector_size</span><span class="p">,</span>
+</span><span id="Word2VecVectorizer-67"><a href="#Word2VecVectorizer-67"><span class="linenos"> 67</span></a>                <span class="n">window</span><span class="o">=</span><span class="n">window</span><span class="p">,</span>
+</span><span id="Word2VecVectorizer-68"><a href="#Word2VecVectorizer-68"><span class="linenos"> 68</span></a>                <span class="n">min_count</span><span class="o">=</span><span class="n">min_count</span><span class="p">,</span>
+</span><span id="Word2VecVectorizer-69"><a href="#Word2VecVectorizer-69"><span class="linenos"> 69</span></a>                <span class="n">workers</span><span class="o">=</span><span class="n">workers</span><span class="p">,</span>
+</span><span id="Word2VecVectorizer-70"><a href="#Word2VecVectorizer-70"><span class="linenos"> 70</span></a>                <span class="n">epochs</span><span class="o">=</span><span class="n">epochs</span><span class="p">,</span>
+</span><span id="Word2VecVectorizer-71"><a href="#Word2VecVectorizer-71"><span class="linenos"> 71</span></a>            <span class="p">)</span>
+</span><span id="Word2VecVectorizer-72"><a href="#Word2VecVectorizer-72"><span class="linenos"> 72</span></a>            <span class="n">duration</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span> <span class="o">-</span> <span class="n">start</span>
+</span><span id="Word2VecVectorizer-73"><a href="#Word2VecVectorizer-73"><span class="linenos"> 73</span></a>            <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Loaded corpus and trained model in </span><span class="si">{</span><span class="n">duration</span><span class="si">:</span><span class="s2">.2f</span><span class="si">}</span><span class="s2"> seconds.&quot;</span><span class="p">)</span>
+</span><span id="Word2VecVectorizer-74"><a href="#Word2VecVectorizer-74"><span class="linenos"> 74</span></a>        <span class="k">else</span><span class="p">:</span>
+</span><span id="Word2VecVectorizer-75"><a href="#Word2VecVectorizer-75"><span class="linenos"> 75</span></a>            <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Loading saved Word2Vec model from </span><span class="si">{</span><span class="n">model_path</span><span class="si">}</span><span class="s2">.&quot;</span><span class="p">)</span>
+</span><span id="Word2VecVectorizer-76"><a href="#Word2VecVectorizer-76"><span class="linenos"> 76</span></a>            <span class="n">model</span> <span class="o">=</span> <span class="n">Word2Vec</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">model_path</span><span class="p">)</span>
+</span><span id="Word2VecVectorizer-77"><a href="#Word2VecVectorizer-77"><span class="linenos"> 77</span></a>
+</span><span id="Word2VecVectorizer-78"><a href="#Word2VecVectorizer-78"><span class="linenos"> 78</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">model</span>
+</span><span id="Word2VecVectorizer-79"><a href="#Word2VecVectorizer-79"><span class="linenos"> 79</span></a>
+</span><span id="Word2VecVectorizer-80"><a href="#Word2VecVectorizer-80"><span class="linenos"> 80</span></a>        <span class="c1"># We don&#39;t plan to train the model any further, so we call `init_sims` to make the model much more memory-efficient</span>
+</span><span id="Word2VecVectorizer-81"><a href="#Word2VecVectorizer-81"><span class="linenos"> 81</span></a>        <span class="c1"># If `replace` is set, forget the original vectors and only keep the normalized ones = saves lots of memory!</span>
+</span><span id="Word2VecVectorizer-82"><a href="#Word2VecVectorizer-82"><span class="linenos"> 82</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">init_sims</span><span class="p">(</span><span class="n">replace</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+</span><span id="Word2VecVectorizer-83"><a href="#Word2VecVectorizer-83"><span class="linenos"> 83</span></a>
+</span><span id="Word2VecVectorizer-84"><a href="#Word2VecVectorizer-84"><span class="linenos"> 84</span></a>        <span class="c1"># write model to disk to load later and save time</span>
+</span><span id="Word2VecVectorizer-85"><a href="#Word2VecVectorizer-85"><span class="linenos"> 85</span></a>        <span class="k">if</span> <span class="n">model_path</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Word2VecVectorizer-86"><a href="#Word2VecVectorizer-86"><span class="linenos"> 86</span></a>            <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Saving Word2Vec model at </span><span class="si">{</span><span class="n">model_path</span><span class="si">}</span><span class="s2">.&quot;</span><span class="p">)</span>
+</span><span id="Word2VecVectorizer-87"><a href="#Word2VecVectorizer-87"><span class="linenos"> 87</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">save</span><span class="p">(</span><span class="n">model_path</span><span class="p">)</span>
+</span><span id="Word2VecVectorizer-88"><a href="#Word2VecVectorizer-88"><span class="linenos"> 88</span></a>
+</span><span id="Word2VecVectorizer-89"><a href="#Word2VecVectorizer-89"><span class="linenos"> 89</span></a>    <span class="k">def</span> <span class="nf">embed_documents</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">docs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+</span><span id="Word2VecVectorizer-90"><a href="#Word2VecVectorizer-90"><span class="linenos"> 90</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Embed a list of documents (raw text) into word2vec document vectors by averaging the word vectors in each of the documents.</span>
+</span><span id="Word2VecVectorizer-91"><a href="#Word2VecVectorizer-91"><span class="linenos"> 91</span></a>
+</span><span id="Word2VecVectorizer-92"><a href="#Word2VecVectorizer-92"><span class="linenos"> 92</span></a><span class="sd">        Since there&#39;s no speedup via batching like there is in pytorch models, we iterate one document at a time.</span>
+</span><span id="Word2VecVectorizer-93"><a href="#Word2VecVectorizer-93"><span class="linenos"> 93</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="Word2VecVectorizer-94"><a href="#Word2VecVectorizer-94"><span class="linenos"> 94</span></a>
+</span><span id="Word2VecVectorizer-95"><a href="#Word2VecVectorizer-95"><span class="linenos"> 95</span></a>        <span class="c1"># return np.array(</span>
+</span><span id="Word2VecVectorizer-96"><a href="#Word2VecVectorizer-96"><span class="linenos"> 96</span></a>        <span class="c1">#     [</span>
+</span><span id="Word2VecVectorizer-97"><a href="#Word2VecVectorizer-97"><span class="linenos"> 97</span></a>        <span class="c1">#         np.mean(</span>
+</span><span id="Word2VecVectorizer-98"><a href="#Word2VecVectorizer-98"><span class="linenos"> 98</span></a>        <span class="c1">#             [</span>
+</span><span id="Word2VecVectorizer-99"><a href="#Word2VecVectorizer-99"><span class="linenos"> 99</span></a>        <span class="c1">#                 self.model.wv[word]</span>
+</span><span id="Word2VecVectorizer-100"><a href="#Word2VecVectorizer-100"><span class="linenos">100</span></a>        <span class="c1">#                 for word in self.tokenizer(doc)</span>
+</span><span id="Word2VecVectorizer-101"><a href="#Word2VecVectorizer-101"><span class="linenos">101</span></a>        <span class="c1">#                 if word in self.model.wv</span>
+</span><span id="Word2VecVectorizer-102"><a href="#Word2VecVectorizer-102"><span class="linenos">102</span></a>        <span class="c1">#             ],  # shape `(300,)`</span>
+</span><span id="Word2VecVectorizer-103"><a href="#Word2VecVectorizer-103"><span class="linenos">103</span></a>        <span class="c1">#             axis=0,</span>
+</span><span id="Word2VecVectorizer-104"><a href="#Word2VecVectorizer-104"><span class="linenos">104</span></a>        <span class="c1">#         )</span>
+</span><span id="Word2VecVectorizer-105"><a href="#Word2VecVectorizer-105"><span class="linenos">105</span></a>        <span class="c1">#         for doc in tqdm(</span>
+</span><span id="Word2VecVectorizer-106"><a href="#Word2VecVectorizer-106"><span class="linenos">106</span></a>        <span class="c1">#             docs,</span>
+</span><span id="Word2VecVectorizer-107"><a href="#Word2VecVectorizer-107"><span class="linenos">107</span></a>        <span class="c1">#             desc=&quot;embedding documents&quot;,</span>
+</span><span id="Word2VecVectorizer-108"><a href="#Word2VecVectorizer-108"><span class="linenos">108</span></a>        <span class="c1">#             leave=True,</span>
+</span><span id="Word2VecVectorizer-109"><a href="#Word2VecVectorizer-109"><span class="linenos">109</span></a>        <span class="c1">#         )</span>
+</span><span id="Word2VecVectorizer-110"><a href="#Word2VecVectorizer-110"><span class="linenos">110</span></a>        <span class="c1">#     ]</span>
+</span><span id="Word2VecVectorizer-111"><a href="#Word2VecVectorizer-111"><span class="linenos">111</span></a>        <span class="c1"># )</span>
+</span><span id="Word2VecVectorizer-112"><a href="#Word2VecVectorizer-112"><span class="linenos">112</span></a>        <span class="n">means</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="Word2VecVectorizer-113"><a href="#Word2VecVectorizer-113"><span class="linenos">113</span></a>        <span class="n">success_indices</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="Word2VecVectorizer-114"><a href="#Word2VecVectorizer-114"><span class="linenos">114</span></a>        <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">doc</span> <span class="ow">in</span> <span class="n">tqdm</span><span class="p">(</span><span class="nb">enumerate</span><span class="p">(</span><span class="n">docs</span><span class="p">),</span> <span class="n">desc</span><span class="o">=</span><span class="s2">&quot;embedding documents&quot;</span><span class="p">,</span> <span class="n">leave</span><span class="o">=</span><span class="kc">True</span><span class="p">):</span>
+</span><span id="Word2VecVectorizer-115"><a href="#Word2VecVectorizer-115"><span class="linenos">115</span></a>            <span class="n">mean</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">mean</span><span class="p">([</span>
+</span><span id="Word2VecVectorizer-116"><a href="#Word2VecVectorizer-116"><span class="linenos">116</span></a>                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">wv</span><span class="p">[</span><span class="n">word</span><span class="p">]</span>
+</span><span id="Word2VecVectorizer-117"><a href="#Word2VecVectorizer-117"><span class="linenos">117</span></a>                <span class="k">for</span> <span class="n">word</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">(</span><span class="n">doc</span><span class="p">)</span>
+</span><span id="Word2VecVectorizer-118"><a href="#Word2VecVectorizer-118"><span class="linenos">118</span></a>                <span class="k">if</span> <span class="n">word</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">wv</span>
+</span><span id="Word2VecVectorizer-119"><a href="#Word2VecVectorizer-119"><span class="linenos">119</span></a>                <span class="p">],</span>  <span class="c1"># shape `(300,)`</span>
+</span><span id="Word2VecVectorizer-120"><a href="#Word2VecVectorizer-120"><span class="linenos">120</span></a>                <span class="n">axis</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+</span><span id="Word2VecVectorizer-121"><a href="#Word2VecVectorizer-121"><span class="linenos">121</span></a>            <span class="p">)</span>
+</span><span id="Word2VecVectorizer-122"><a href="#Word2VecVectorizer-122"><span class="linenos">122</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="n">np</span><span class="o">.</span><span class="n">isnan</span><span class="p">(</span><span class="n">mean</span><span class="p">)</span><span class="o">.</span><span class="n">any</span><span class="p">():</span>
+</span><span id="Word2VecVectorizer-123"><a href="#Word2VecVectorizer-123"><span class="linenos">123</span></a>                <span class="n">means</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">mean</span><span class="p">)</span>
+</span><span id="Word2VecVectorizer-124"><a href="#Word2VecVectorizer-124"><span class="linenos">124</span></a>                <span class="n">success_indices</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">i</span><span class="p">)</span>
+</span><span id="Word2VecVectorizer-125"><a href="#Word2VecVectorizer-125"><span class="linenos">125</span></a>
+</span><span id="Word2VecVectorizer-126"><a href="#Word2VecVectorizer-126"><span class="linenos">126</span></a>        <span class="k">return</span> <span class="p">{</span>
+</span><span id="Word2VecVectorizer-127"><a href="#Word2VecVectorizer-127"><span class="linenos">127</span></a>            <span class="s2">&quot;embeddings&quot;</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">means</span><span class="p">),</span>
+</span><span id="Word2VecVectorizer-128"><a href="#Word2VecVectorizer-128"><span class="linenos">128</span></a>            <span class="s2">&quot;indices&quot;</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">success_indices</span><span class="p">),</span>
+</span><span id="Word2VecVectorizer-129"><a href="#Word2VecVectorizer-129"><span class="linenos">129</span></a>        <span class="p">}</span>
+</span></pre></div>
+
+
+    
+
+                            <div id="Word2VecVectorizer.__init__" class="classattr">
+                                        <input id="Word2VecVectorizer.__init__-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
+<div class="attr function">
+            
+        <span class="name">Word2VecVectorizer</span><span class="signature pdoc-code multiline">(<span class="param">	<span class="n">corpus_path</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;/Users/nathanielimel/uci/projects/sciterra/src/sciterra/vectorization/corpora/astro_small.txt&#39;</span>,</span><span class="param">	<span class="n">model_path</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span>,</span><span class="param">	<span class="n">vector_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">300</span>,</span><span class="param">	<span class="n">window</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">5</span>,</span><span class="param">	<span class="n">min_count</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">2</span>,</span><span class="param">	<span class="n">workers</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">8</span>,</span><span class="param">	<span class="n">epochs</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">10</span>,</span><span class="param">	<span class="n">tokenizer</span><span class="p">:</span> <span class="n">Callable</span><span class="p">[[</span><span class="nb">str</span><span class="p">],</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="o">&lt;</span><span class="n">function</span> <span class="n">custom_preprocess</span><span class="o">&gt;</span>,</span><span class="param">	<span class="o">**</span><span class="n">kwargs</span></span>)</span>
+
+                <label class="view-source-button" for="Word2VecVectorizer.__init__-view-source"><span>View Source</span></label>
+
+    </div>
+    <a class="headerlink" href="#Word2VecVectorizer.__init__"></a>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="Word2VecVectorizer.__init__-38"><a href="#Word2VecVectorizer.__init__-38"><span class="linenos">38</span></a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+</span><span id="Word2VecVectorizer.__init__-39"><a href="#Word2VecVectorizer.__init__-39"><span class="linenos">39</span></a>        <span class="bp">self</span><span class="p">,</span>
+</span><span id="Word2VecVectorizer.__init__-40"><a href="#Word2VecVectorizer.__init__-40"><span class="linenos">40</span></a>        <span class="n">corpus_path</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">DEFAULT_CORPUS</span><span class="p">,</span>
+</span><span id="Word2VecVectorizer.__init__-41"><a href="#Word2VecVectorizer.__init__-41"><span class="linenos">41</span></a>        <span class="n">model_path</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+</span><span id="Word2VecVectorizer.__init__-42"><a href="#Word2VecVectorizer.__init__-42"><span class="linenos">42</span></a>        <span class="n">vector_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">EMBEDDING_DIM</span><span class="p">,</span>
+</span><span id="Word2VecVectorizer.__init__-43"><a href="#Word2VecVectorizer.__init__-43"><span class="linenos">43</span></a>        <span class="n">window</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">5</span><span class="p">,</span>
+</span><span id="Word2VecVectorizer.__init__-44"><a href="#Word2VecVectorizer.__init__-44"><span class="linenos">44</span></a>        <span class="n">min_count</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">2</span><span class="p">,</span>
+</span><span id="Word2VecVectorizer.__init__-45"><a href="#Word2VecVectorizer.__init__-45"><span class="linenos">45</span></a>        <span class="n">workers</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">cpu_count</span><span class="p">(),</span>
+</span><span id="Word2VecVectorizer.__init__-46"><a href="#Word2VecVectorizer.__init__-46"><span class="linenos">46</span></a>        <span class="n">epochs</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
+</span><span id="Word2VecVectorizer.__init__-47"><a href="#Word2VecVectorizer.__init__-47"><span class="linenos">47</span></a>        <span class="n">tokenizer</span><span class="p">:</span> <span class="n">Callable</span><span class="p">[[</span><span class="nb">str</span><span class="p">],</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="n">custom_preprocess</span><span class="p">,</span>
+</span><span id="Word2VecVectorizer.__init__-48"><a href="#Word2VecVectorizer.__init__-48"><span class="linenos">48</span></a>        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+</span><span id="Word2VecVectorizer.__init__-49"><a href="#Word2VecVectorizer.__init__-49"><span class="linenos">49</span></a>    <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Word2VecVectorizer.__init__-50"><a href="#Word2VecVectorizer.__init__-50"><span class="linenos">50</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Construct a Word2Vec based document embedding model from a corpus.&quot;&quot;&quot;</span>
+</span><span id="Word2VecVectorizer.__init__-51"><a href="#Word2VecVectorizer.__init__-51"><span class="linenos">51</span></a>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+</span><span id="Word2VecVectorizer.__init__-52"><a href="#Word2VecVectorizer.__init__-52"><span class="linenos">52</span></a>
+</span><span id="Word2VecVectorizer.__init__-53"><a href="#Word2VecVectorizer.__init__-53"><span class="linenos">53</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span> <span class="o">=</span> <span class="n">tokenizer</span>
+</span><span id="Word2VecVectorizer.__init__-54"><a href="#Word2VecVectorizer.__init__-54"><span class="linenos">54</span></a>
+</span><span id="Word2VecVectorizer.__init__-55"><a href="#Word2VecVectorizer.__init__-55"><span class="linenos">55</span></a>        <span class="k">if</span> <span class="p">(</span><span class="n">model_path</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">)</span> <span class="ow">or</span> <span class="p">(</span><span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">model_path</span><span class="p">)):</span>
+</span><span id="Word2VecVectorizer.__init__-56"><a href="#Word2VecVectorizer.__init__-56"><span class="linenos">56</span></a>            <span class="n">start</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+</span><span id="Word2VecVectorizer.__init__-57"><a href="#Word2VecVectorizer.__init__-57"><span class="linenos">57</span></a>            <span class="c1"># Assume the file is line-based, and one document per line</span>
+</span><span id="Word2VecVectorizer.__init__-58"><a href="#Word2VecVectorizer.__init__-58"><span class="linenos">58</span></a>            <span class="nb">print</span><span class="p">(</span>
+</span><span id="Word2VecVectorizer.__init__-59"><a href="#Word2VecVectorizer.__init__-59"><span class="linenos">59</span></a>                <span class="sa">f</span><span class="s2">&quot;Loading and tokenizing data from </span><span class="si">{</span><span class="n">corpus_path</span><span class="si">}</span><span class="s2"> for vocabulary and training...&quot;</span>
+</span><span id="Word2VecVectorizer.__init__-60"><a href="#Word2VecVectorizer.__init__-60"><span class="linenos">60</span></a>            <span class="p">)</span>
+</span><span id="Word2VecVectorizer.__init__-61"><a href="#Word2VecVectorizer.__init__-61"><span class="linenos">61</span></a>            <span class="n">sentences</span> <span class="o">=</span> <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">(</span><span class="n">line</span><span class="p">)</span> <span class="k">for</span> <span class="n">line</span> <span class="ow">in</span> <span class="n">tqdm</span><span class="p">(</span><span class="nb">open</span><span class="p">(</span><span class="n">corpus_path</span><span class="p">))]</span>
+</span><span id="Word2VecVectorizer.__init__-62"><a href="#Word2VecVectorizer.__init__-62"><span class="linenos">62</span></a>
+</span><span id="Word2VecVectorizer.__init__-63"><a href="#Word2VecVectorizer.__init__-63"><span class="linenos">63</span></a>            <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Training Word2Vec model...&quot;</span><span class="p">)</span>
+</span><span id="Word2VecVectorizer.__init__-64"><a href="#Word2VecVectorizer.__init__-64"><span class="linenos">64</span></a>            <span class="n">model</span> <span class="o">=</span> <span class="n">Word2Vec</span><span class="p">(</span>
+</span><span id="Word2VecVectorizer.__init__-65"><a href="#Word2VecVectorizer.__init__-65"><span class="linenos">65</span></a>                <span class="n">sentences</span><span class="o">=</span><span class="n">sentences</span><span class="p">,</span>
+</span><span id="Word2VecVectorizer.__init__-66"><a href="#Word2VecVectorizer.__init__-66"><span class="linenos">66</span></a>                <span class="n">vector_size</span><span class="o">=</span><span class="n">vector_size</span><span class="p">,</span>
+</span><span id="Word2VecVectorizer.__init__-67"><a href="#Word2VecVectorizer.__init__-67"><span class="linenos">67</span></a>                <span class="n">window</span><span class="o">=</span><span class="n">window</span><span class="p">,</span>
+</span><span id="Word2VecVectorizer.__init__-68"><a href="#Word2VecVectorizer.__init__-68"><span class="linenos">68</span></a>                <span class="n">min_count</span><span class="o">=</span><span class="n">min_count</span><span class="p">,</span>
+</span><span id="Word2VecVectorizer.__init__-69"><a href="#Word2VecVectorizer.__init__-69"><span class="linenos">69</span></a>                <span class="n">workers</span><span class="o">=</span><span class="n">workers</span><span class="p">,</span>
+</span><span id="Word2VecVectorizer.__init__-70"><a href="#Word2VecVectorizer.__init__-70"><span class="linenos">70</span></a>                <span class="n">epochs</span><span class="o">=</span><span class="n">epochs</span><span class="p">,</span>
+</span><span id="Word2VecVectorizer.__init__-71"><a href="#Word2VecVectorizer.__init__-71"><span class="linenos">71</span></a>            <span class="p">)</span>
+</span><span id="Word2VecVectorizer.__init__-72"><a href="#Word2VecVectorizer.__init__-72"><span class="linenos">72</span></a>            <span class="n">duration</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span> <span class="o">-</span> <span class="n">start</span>
+</span><span id="Word2VecVectorizer.__init__-73"><a href="#Word2VecVectorizer.__init__-73"><span class="linenos">73</span></a>            <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Loaded corpus and trained model in </span><span class="si">{</span><span class="n">duration</span><span class="si">:</span><span class="s2">.2f</span><span class="si">}</span><span class="s2"> seconds.&quot;</span><span class="p">)</span>
+</span><span id="Word2VecVectorizer.__init__-74"><a href="#Word2VecVectorizer.__init__-74"><span class="linenos">74</span></a>        <span class="k">else</span><span class="p">:</span>
+</span><span id="Word2VecVectorizer.__init__-75"><a href="#Word2VecVectorizer.__init__-75"><span class="linenos">75</span></a>            <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Loading saved Word2Vec model from </span><span class="si">{</span><span class="n">model_path</span><span class="si">}</span><span class="s2">.&quot;</span><span class="p">)</span>
+</span><span id="Word2VecVectorizer.__init__-76"><a href="#Word2VecVectorizer.__init__-76"><span class="linenos">76</span></a>            <span class="n">model</span> <span class="o">=</span> <span class="n">Word2Vec</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">model_path</span><span class="p">)</span>
+</span><span id="Word2VecVectorizer.__init__-77"><a href="#Word2VecVectorizer.__init__-77"><span class="linenos">77</span></a>
+</span><span id="Word2VecVectorizer.__init__-78"><a href="#Word2VecVectorizer.__init__-78"><span class="linenos">78</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">model</span>
+</span><span id="Word2VecVectorizer.__init__-79"><a href="#Word2VecVectorizer.__init__-79"><span class="linenos">79</span></a>
+</span><span id="Word2VecVectorizer.__init__-80"><a href="#Word2VecVectorizer.__init__-80"><span class="linenos">80</span></a>        <span class="c1"># We don&#39;t plan to train the model any further, so we call `init_sims` to make the model much more memory-efficient</span>
+</span><span id="Word2VecVectorizer.__init__-81"><a href="#Word2VecVectorizer.__init__-81"><span class="linenos">81</span></a>        <span class="c1"># If `replace` is set, forget the original vectors and only keep the normalized ones = saves lots of memory!</span>
+</span><span id="Word2VecVectorizer.__init__-82"><a href="#Word2VecVectorizer.__init__-82"><span class="linenos">82</span></a>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">init_sims</span><span class="p">(</span><span class="n">replace</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+</span><span id="Word2VecVectorizer.__init__-83"><a href="#Word2VecVectorizer.__init__-83"><span class="linenos">83</span></a>
+</span><span id="Word2VecVectorizer.__init__-84"><a href="#Word2VecVectorizer.__init__-84"><span class="linenos">84</span></a>        <span class="c1"># write model to disk to load later and save time</span>
+</span><span id="Word2VecVectorizer.__init__-85"><a href="#Word2VecVectorizer.__init__-85"><span class="linenos">85</span></a>        <span class="k">if</span> <span class="n">model_path</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+</span><span id="Word2VecVectorizer.__init__-86"><a href="#Word2VecVectorizer.__init__-86"><span class="linenos">86</span></a>            <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Saving Word2Vec model at </span><span class="si">{</span><span class="n">model_path</span><span class="si">}</span><span class="s2">.&quot;</span><span class="p">)</span>
+</span><span id="Word2VecVectorizer.__init__-87"><a href="#Word2VecVectorizer.__init__-87"><span class="linenos">87</span></a>            <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">save</span><span class="p">(</span><span class="n">model_path</span><span class="p">)</span>
+</span></pre></div>
+
+
+            <div class="docstring"><p>Construct a Word2Vec based document embedding model from a corpus.</p>
+</div>
+
+
+                            </div>
+                            <div id="Word2VecVectorizer.tokenizer" class="classattr">
+                                <div class="attr variable">
+            <span class="name">tokenizer</span>
+
+        
+    </div>
+    <a class="headerlink" href="#Word2VecVectorizer.tokenizer"></a>
+    
+    
+
+                            </div>
+                            <div id="Word2VecVectorizer.model" class="classattr">
+                                <div class="attr variable">
+            <span class="name">model</span>
+
+        
+    </div>
+    <a class="headerlink" href="#Word2VecVectorizer.model"></a>
+    
+    
+
+                            </div>
+                            <div id="Word2VecVectorizer.embed_documents" class="classattr">
+                                        <input id="Word2VecVectorizer.embed_documents-view-source" class="view-source-toggle-state" type="checkbox" aria-hidden="true" tabindex="-1">
+<div class="attr function">
+            
+        <span class="def">def</span>
+        <span class="name">embed_documents</span><span class="signature pdoc-code condensed">(<span class="param"><span class="bp">self</span>, </span><span class="param"><span class="n">docs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span>, </span><span class="param"><span class="o">**</span><span class="n">kwargs</span></span><span class="return-annotation">) -> <span class="n">numpy</span><span class="o">.</span><span class="n">ndarray</span>:</span></span>
+
+                <label class="view-source-button" for="Word2VecVectorizer.embed_documents-view-source"><span>View Source</span></label>
+
+    </div>
+    <a class="headerlink" href="#Word2VecVectorizer.embed_documents"></a>
+            <div class="pdoc-code codehilite"><pre><span></span><span id="Word2VecVectorizer.embed_documents-89"><a href="#Word2VecVectorizer.embed_documents-89"><span class="linenos"> 89</span></a>    <span class="k">def</span> <span class="nf">embed_documents</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">docs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+</span><span id="Word2VecVectorizer.embed_documents-90"><a href="#Word2VecVectorizer.embed_documents-90"><span class="linenos"> 90</span></a><span class="w">        </span><span class="sd">&quot;&quot;&quot;Embed a list of documents (raw text) into word2vec document vectors by averaging the word vectors in each of the documents.</span>
+</span><span id="Word2VecVectorizer.embed_documents-91"><a href="#Word2VecVectorizer.embed_documents-91"><span class="linenos"> 91</span></a>
+</span><span id="Word2VecVectorizer.embed_documents-92"><a href="#Word2VecVectorizer.embed_documents-92"><span class="linenos"> 92</span></a><span class="sd">        Since there&#39;s no speedup via batching like there is in pytorch models, we iterate one document at a time.</span>
+</span><span id="Word2VecVectorizer.embed_documents-93"><a href="#Word2VecVectorizer.embed_documents-93"><span class="linenos"> 93</span></a><span class="sd">        &quot;&quot;&quot;</span>
+</span><span id="Word2VecVectorizer.embed_documents-94"><a href="#Word2VecVectorizer.embed_documents-94"><span class="linenos"> 94</span></a>
+</span><span id="Word2VecVectorizer.embed_documents-95"><a href="#Word2VecVectorizer.embed_documents-95"><span class="linenos"> 95</span></a>        <span class="c1"># return np.array(</span>
+</span><span id="Word2VecVectorizer.embed_documents-96"><a href="#Word2VecVectorizer.embed_documents-96"><span class="linenos"> 96</span></a>        <span class="c1">#     [</span>
+</span><span id="Word2VecVectorizer.embed_documents-97"><a href="#Word2VecVectorizer.embed_documents-97"><span class="linenos"> 97</span></a>        <span class="c1">#         np.mean(</span>
+</span><span id="Word2VecVectorizer.embed_documents-98"><a href="#Word2VecVectorizer.embed_documents-98"><span class="linenos"> 98</span></a>        <span class="c1">#             [</span>
+</span><span id="Word2VecVectorizer.embed_documents-99"><a href="#Word2VecVectorizer.embed_documents-99"><span class="linenos"> 99</span></a>        <span class="c1">#                 self.model.wv[word]</span>
+</span><span id="Word2VecVectorizer.embed_documents-100"><a href="#Word2VecVectorizer.embed_documents-100"><span class="linenos">100</span></a>        <span class="c1">#                 for word in self.tokenizer(doc)</span>
+</span><span id="Word2VecVectorizer.embed_documents-101"><a href="#Word2VecVectorizer.embed_documents-101"><span class="linenos">101</span></a>        <span class="c1">#                 if word in self.model.wv</span>
+</span><span id="Word2VecVectorizer.embed_documents-102"><a href="#Word2VecVectorizer.embed_documents-102"><span class="linenos">102</span></a>        <span class="c1">#             ],  # shape `(300,)`</span>
+</span><span id="Word2VecVectorizer.embed_documents-103"><a href="#Word2VecVectorizer.embed_documents-103"><span class="linenos">103</span></a>        <span class="c1">#             axis=0,</span>
+</span><span id="Word2VecVectorizer.embed_documents-104"><a href="#Word2VecVectorizer.embed_documents-104"><span class="linenos">104</span></a>        <span class="c1">#         )</span>
+</span><span id="Word2VecVectorizer.embed_documents-105"><a href="#Word2VecVectorizer.embed_documents-105"><span class="linenos">105</span></a>        <span class="c1">#         for doc in tqdm(</span>
+</span><span id="Word2VecVectorizer.embed_documents-106"><a href="#Word2VecVectorizer.embed_documents-106"><span class="linenos">106</span></a>        <span class="c1">#             docs,</span>
+</span><span id="Word2VecVectorizer.embed_documents-107"><a href="#Word2VecVectorizer.embed_documents-107"><span class="linenos">107</span></a>        <span class="c1">#             desc=&quot;embedding documents&quot;,</span>
+</span><span id="Word2VecVectorizer.embed_documents-108"><a href="#Word2VecVectorizer.embed_documents-108"><span class="linenos">108</span></a>        <span class="c1">#             leave=True,</span>
+</span><span id="Word2VecVectorizer.embed_documents-109"><a href="#Word2VecVectorizer.embed_documents-109"><span class="linenos">109</span></a>        <span class="c1">#         )</span>
+</span><span id="Word2VecVectorizer.embed_documents-110"><a href="#Word2VecVectorizer.embed_documents-110"><span class="linenos">110</span></a>        <span class="c1">#     ]</span>
+</span><span id="Word2VecVectorizer.embed_documents-111"><a href="#Word2VecVectorizer.embed_documents-111"><span class="linenos">111</span></a>        <span class="c1"># )</span>
+</span><span id="Word2VecVectorizer.embed_documents-112"><a href="#Word2VecVectorizer.embed_documents-112"><span class="linenos">112</span></a>        <span class="n">means</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="Word2VecVectorizer.embed_documents-113"><a href="#Word2VecVectorizer.embed_documents-113"><span class="linenos">113</span></a>        <span class="n">success_indices</span> <span class="o">=</span> <span class="p">[]</span>
+</span><span id="Word2VecVectorizer.embed_documents-114"><a href="#Word2VecVectorizer.embed_documents-114"><span class="linenos">114</span></a>        <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">doc</span> <span class="ow">in</span> <span class="n">tqdm</span><span class="p">(</span><span class="nb">enumerate</span><span class="p">(</span><span class="n">docs</span><span class="p">),</span> <span class="n">desc</span><span class="o">=</span><span class="s2">&quot;embedding documents&quot;</span><span class="p">,</span> <span class="n">leave</span><span class="o">=</span><span class="kc">True</span><span class="p">):</span>
+</span><span id="Word2VecVectorizer.embed_documents-115"><a href="#Word2VecVectorizer.embed_documents-115"><span class="linenos">115</span></a>            <span class="n">mean</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">mean</span><span class="p">([</span>
+</span><span id="Word2VecVectorizer.embed_documents-116"><a href="#Word2VecVectorizer.embed_documents-116"><span class="linenos">116</span></a>                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">wv</span><span class="p">[</span><span class="n">word</span><span class="p">]</span>
+</span><span id="Word2VecVectorizer.embed_documents-117"><a href="#Word2VecVectorizer.embed_documents-117"><span class="linenos">117</span></a>                <span class="k">for</span> <span class="n">word</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">(</span><span class="n">doc</span><span class="p">)</span>
+</span><span id="Word2VecVectorizer.embed_documents-118"><a href="#Word2VecVectorizer.embed_documents-118"><span class="linenos">118</span></a>                <span class="k">if</span> <span class="n">word</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">wv</span>
+</span><span id="Word2VecVectorizer.embed_documents-119"><a href="#Word2VecVectorizer.embed_documents-119"><span class="linenos">119</span></a>                <span class="p">],</span>  <span class="c1"># shape `(300,)`</span>
+</span><span id="Word2VecVectorizer.embed_documents-120"><a href="#Word2VecVectorizer.embed_documents-120"><span class="linenos">120</span></a>                <span class="n">axis</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+</span><span id="Word2VecVectorizer.embed_documents-121"><a href="#Word2VecVectorizer.embed_documents-121"><span class="linenos">121</span></a>            <span class="p">)</span>
+</span><span id="Word2VecVectorizer.embed_documents-122"><a href="#Word2VecVectorizer.embed_documents-122"><span class="linenos">122</span></a>            <span class="k">if</span> <span class="ow">not</span> <span class="n">np</span><span class="o">.</span><span class="n">isnan</span><span class="p">(</span><span class="n">mean</span><span class="p">)</span><span class="o">.</span><span class="n">any</span><span class="p">():</span>
+</span><span id="Word2VecVectorizer.embed_documents-123"><a href="#Word2VecVectorizer.embed_documents-123"><span class="linenos">123</span></a>                <span class="n">means</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">mean</span><span class="p">)</span>
+</span><span id="Word2VecVectorizer.embed_documents-124"><a href="#Word2VecVectorizer.embed_documents-124"><span class="linenos">124</span></a>                <span class="n">success_indices</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">i</span><span class="p">)</span>
+</span><span id="Word2VecVectorizer.embed_documents-125"><a href="#Word2VecVectorizer.embed_documents-125"><span class="linenos">125</span></a>
+</span><span id="Word2VecVectorizer.embed_documents-126"><a href="#Word2VecVectorizer.embed_documents-126"><span class="linenos">126</span></a>        <span class="k">return</span> <span class="p">{</span>
+</span><span id="Word2VecVectorizer.embed_documents-127"><a href="#Word2VecVectorizer.embed_documents-127"><span class="linenos">127</span></a>            <span class="s2">&quot;embeddings&quot;</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">means</span><span class="p">),</span>
+</span><span id="Word2VecVectorizer.embed_documents-128"><a href="#Word2VecVectorizer.embed_documents-128"><span class="linenos">128</span></a>            <span class="s2">&quot;indices&quot;</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">success_indices</span><span class="p">),</span>
+</span><span id="Word2VecVectorizer.embed_documents-129"><a href="#Word2VecVectorizer.embed_documents-129"><span class="linenos">129</span></a>        <span class="p">}</span>
+</span></pre></div>
+
+
+            <div class="docstring"><p>Embed a list of documents (raw text) into word2vec document vectors by averaging the word vectors in each of the documents.</p>
+
+<p>Since there's no speedup via batching like there is in pytorch models, we iterate one document at a time.</p>
+</div>
+
+
+                            </div>
+                </section>
+    </main>
+<script>
+    function escapeHTML(html) {
+        return document.createElement('div').appendChild(document.createTextNode(html)).parentNode.innerHTML;
+    }
+
+    const originalContent = document.querySelector("main.pdoc");
+    let currentContent = originalContent;
+
+    function setContent(innerHTML) {
+        let elem;
+        if (innerHTML) {
+            elem = document.createElement("main");
+            elem.classList.add("pdoc");
+            elem.innerHTML = innerHTML;
+        } else {
+            elem = originalContent;
+        }
+        if (currentContent !== elem) {
+            currentContent.replaceWith(elem);
+            currentContent = elem;
+        }
+    }
+
+    function getSearchTerm() {
+        return (new URL(window.location)).searchParams.get("search");
+    }
+
+    const searchBox = document.querySelector(".pdoc input[type=search]");
+    searchBox.addEventListener("input", function () {
+        let url = new URL(window.location);
+        if (searchBox.value.trim()) {
+            url.hash = "";
+            url.searchParams.set("search", searchBox.value);
+        } else {
+            url.searchParams.delete("search");
+        }
+        history.replaceState("", "", url.toString());
+        onInput();
+    });
+    window.addEventListener("popstate", onInput);
+
+
+    let search, searchErr;
+
+    async function initialize() {
+        try {
+            search = await new Promise((resolve, reject) => {
+                const script = document.createElement("script");
+                script.type = "text/javascript";
+                script.async = true;
+                script.onload = () => resolve(window.pdocSearch);
+                script.onerror = (e) => reject(e);
+                script.src = "../../search.js";
+                document.getElementsByTagName("head")[0].appendChild(script);
+            });
+        } catch (e) {
+            console.error("Cannot fetch pdoc search index");
+            searchErr = "Cannot fetch search index.";
+        }
+        onInput();
+
+        document.querySelector("nav.pdoc").addEventListener("click", e => {
+            if (e.target.hash) {
+                searchBox.value = "";
+                searchBox.dispatchEvent(new Event("input"));
+            }
+        });
+    }
+
+    function onInput() {
+        setContent((() => {
+            const term = getSearchTerm();
+            if (!term) {
+                return null
+            }
+            if (searchErr) {
+                return `<h3>Error: ${searchErr}</h3>`
+            }
+            if (!search) {
+                return "<h3>Searching...</h3>"
+            }
+
+            window.scrollTo({top: 0, left: 0, behavior: 'auto'});
+
+            const results = search(term);
+
+            let html;
+            if (results.length === 0) {
+                html = `No search results for '${escapeHTML(term)}'.`
+            } else {
+                html = `<h4>${results.length} search result${results.length > 1 ? "s" : ""} for '${escapeHTML(term)}'.</h4>`;
+            }
+            for (let result of results.slice(0, 10)) {
+                let doc = result.doc;
+                let url = `../../${doc.modulename.replaceAll(".", "/")}.html`;
+                if (doc.qualname) {
+                    url += `#${doc.qualname}`;
+                }
+
+                let heading;
+                switch (result.doc.kind) {
+                    case "function":
+                        if (doc.fullname.endsWith(".__init__")) {
+                            heading = `<span class="name">${doc.fullname.replace(/\.__init__$/, "")}</span>${doc.signature}`;
+                        } else {
+                            heading = `<span class="def">${doc.funcdef}</span> <span class="name">${doc.fullname}</span>${doc.signature}`;
+                        }
+                        break;
+                    case "class":
+                        heading = `<span class="def">class</span> <span class="name">${doc.fullname}</span>`;
+                        if (doc.bases)
+                            heading += `<wbr>(<span class="base">${doc.bases}</span>)`;
+                        heading += `:`;
+                        break;
+                    case "variable":
+                        heading = `<span class="name">${doc.fullname}</span>`;
+                        if (doc.annotation)
+                            heading += `<span class="annotation">${doc.annotation}</span>`;
+                        if (doc.default_value)
+                            heading += `<span class="default_value"> = ${doc.default_value}</span>`;
+                        break;
+                    default:
+                        heading = `<span class="name">${doc.fullname}</span>`;
+                        break;
+                }
+                html += `
+                        <section class="search-result">
+                        <a href="${url}" class="attr ${doc.kind}">${heading}</a>
+                        <div class="docstring">${doc.doc}</div>
+                        </section>
+                    `;
+
+            }
+            return html;
+        })());
+    }
+
+    if (getSearchTerm()) {
+        initialize();
+        searchBox.value = getSearchTerm();
+        onInput();
+    } else {
+        searchBox.addEventListener("focus", initialize, {once: true});
+    }
+
+    searchBox.addEventListener("keydown", e => {
+        if (["ArrowDown", "ArrowUp", "Enter"].includes(e.key)) {
+            let focused = currentContent.querySelector(".search-result.focused");
+            if (!focused) {
+                currentContent.querySelector(".search-result").classList.add("focused");
+            } else if (
+                e.key === "ArrowDown"
+                && focused.nextElementSibling
+                && focused.nextElementSibling.classList.contains("search-result")
+            ) {
+                focused.classList.remove("focused");
+                focused.nextElementSibling.classList.add("focused");
+                focused.nextElementSibling.scrollIntoView({
+                    behavior: "smooth",
+                    block: "nearest",
+                    inline: "nearest"
+                });
+            } else if (
+                e.key === "ArrowUp"
+                && focused.previousElementSibling
+                && focused.previousElementSibling.classList.contains("search-result")
+            ) {
+                focused.classList.remove("focused");
+                focused.previousElementSibling.classList.add("focused");
+                focused.previousElementSibling.scrollIntoView({
+                    behavior: "smooth",
+                    block: "nearest",
+                    inline: "nearest"
+                });
+            } else if (
+                e.key === "Enter"
+            ) {
+                focused.querySelector("a").click();
+            }
+        }
+    });
+</script></body>
+</html>
\ No newline at end of file
diff --git a/docs/search.js b/docs/search.js
index 48e25bf..94683aa 100644
--- a/docs/search.js
+++ b/docs/search.js
@@ -1,6 +1,6 @@
 window.pdocSearch = (function(){
 /** elasticlunr - http://weixsong.github.io * Copyright (C) 2017 Oliver Nightingale * Copyright (C) 2017 Wei Song * MIT Licensed */!function(){function e(e){if(null===e||"object"!=typeof e)return e;var t=e.constructor();for(var n in e)e.hasOwnProperty(n)&&(t[n]=e[n]);return t}var t=function(e){var n=new t.Index;return n.pipeline.add(t.trimmer,t.stopWordFilter,t.stemmer),e&&e.call(n,n),n};t.version="0.9.5",lunr=t,t.utils={},t.utils.warn=function(e){return function(t){e.console&&console.warn&&console.warn(t)}}(this),t.utils.toString=function(e){return void 0===e||null===e?"":e.toString()},t.EventEmitter=function(){this.events={}},t.EventEmitter.prototype.addListener=function(){var e=Array.prototype.slice.call(arguments),t=e.pop(),n=e;if("function"!=typeof t)throw new TypeError("last argument must be a function");n.forEach(function(e){this.hasHandler(e)||(this.events[e]=[]),this.events[e].push(t)},this)},t.EventEmitter.prototype.removeListener=function(e,t){if(this.hasHandler(e)){var n=this.events[e].indexOf(t);-1!==n&&(this.events[e].splice(n,1),0==this.events[e].length&&delete this.events[e])}},t.EventEmitter.prototype.emit=function(e){if(this.hasHandler(e)){var t=Array.prototype.slice.call(arguments,1);this.events[e].forEach(function(e){e.apply(void 0,t)},this)}},t.EventEmitter.prototype.hasHandler=function(e){return e in this.events},t.tokenizer=function(e){if(!arguments.length||null===e||void 0===e)return[];if(Array.isArray(e)){var n=e.filter(function(e){return null===e||void 0===e?!1:!0});n=n.map(function(e){return t.utils.toString(e).toLowerCase()});var i=[];return n.forEach(function(e){var n=e.split(t.tokenizer.seperator);i=i.concat(n)},this),i}return e.toString().trim().toLowerCase().split(t.tokenizer.seperator)},t.tokenizer.defaultSeperator=/[\s\-]+/,t.tokenizer.seperator=t.tokenizer.defaultSeperator,t.tokenizer.setSeperator=function(e){null!==e&&void 0!==e&&"object"==typeof e&&(t.tokenizer.seperator=e)},t.tokenizer.resetSeperator=function(){t.tokenizer.seperator=t.tokenizer.defaultSeperator},t.tokenizer.getSeperator=function(){return t.tokenizer.seperator},t.Pipeline=function(){this._queue=[]},t.Pipeline.registeredFunctions={},t.Pipeline.registerFunction=function(e,n){n in t.Pipeline.registeredFunctions&&t.utils.warn("Overwriting existing registered function: "+n),e.label=n,t.Pipeline.registeredFunctions[n]=e},t.Pipeline.getRegisteredFunction=function(e){return e in t.Pipeline.registeredFunctions!=!0?null:t.Pipeline.registeredFunctions[e]},t.Pipeline.warnIfFunctionNotRegistered=function(e){var n=e.label&&e.label in this.registeredFunctions;n||t.utils.warn("Function is not registered with pipeline. This may cause problems when serialising the index.\n",e)},t.Pipeline.load=function(e){var n=new t.Pipeline;return e.forEach(function(e){var i=t.Pipeline.getRegisteredFunction(e);if(!i)throw new Error("Cannot load un-registered function: "+e);n.add(i)}),n},t.Pipeline.prototype.add=function(){var e=Array.prototype.slice.call(arguments);e.forEach(function(e){t.Pipeline.warnIfFunctionNotRegistered(e),this._queue.push(e)},this)},t.Pipeline.prototype.after=function(e,n){t.Pipeline.warnIfFunctionNotRegistered(n);var i=this._queue.indexOf(e);if(-1===i)throw new Error("Cannot find existingFn");this._queue.splice(i+1,0,n)},t.Pipeline.prototype.before=function(e,n){t.Pipeline.warnIfFunctionNotRegistered(n);var i=this._queue.indexOf(e);if(-1===i)throw new Error("Cannot find existingFn");this._queue.splice(i,0,n)},t.Pipeline.prototype.remove=function(e){var t=this._queue.indexOf(e);-1!==t&&this._queue.splice(t,1)},t.Pipeline.prototype.run=function(e){for(var t=[],n=e.length,i=this._queue.length,o=0;n>o;o++){for(var r=e[o],s=0;i>s&&(r=this._queue[s](r,o,e),void 0!==r&&null!==r);s++);void 0!==r&&null!==r&&t.push(r)}return t},t.Pipeline.prototype.reset=function(){this._queue=[]},t.Pipeline.prototype.get=function(){return this._queue},t.Pipeline.prototype.toJSON=function(){return this._queue.map(function(e){return t.Pipeline.warnIfFunctionNotRegistered(e),e.label})},t.Index=function(){this._fields=[],this._ref="id",this.pipeline=new t.Pipeline,this.documentStore=new t.DocumentStore,this.index={},this.eventEmitter=new t.EventEmitter,this._idfCache={},this.on("add","remove","update",function(){this._idfCache={}}.bind(this))},t.Index.prototype.on=function(){var e=Array.prototype.slice.call(arguments);return this.eventEmitter.addListener.apply(this.eventEmitter,e)},t.Index.prototype.off=function(e,t){return this.eventEmitter.removeListener(e,t)},t.Index.load=function(e){e.version!==t.version&&t.utils.warn("version mismatch: current "+t.version+" importing "+e.version);var n=new this;n._fields=e.fields,n._ref=e.ref,n.documentStore=t.DocumentStore.load(e.documentStore),n.pipeline=t.Pipeline.load(e.pipeline),n.index={};for(var i in e.index)n.index[i]=t.InvertedIndex.load(e.index[i]);return n},t.Index.prototype.addField=function(e){return this._fields.push(e),this.index[e]=new t.InvertedIndex,this},t.Index.prototype.setRef=function(e){return this._ref=e,this},t.Index.prototype.saveDocument=function(e){return this.documentStore=new t.DocumentStore(e),this},t.Index.prototype.addDoc=function(e,n){if(e){var n=void 0===n?!0:n,i=e[this._ref];this.documentStore.addDoc(i,e),this._fields.forEach(function(n){var o=this.pipeline.run(t.tokenizer(e[n]));this.documentStore.addFieldLength(i,n,o.length);var r={};o.forEach(function(e){e in r?r[e]+=1:r[e]=1},this);for(var s in r){var u=r[s];u=Math.sqrt(u),this.index[n].addToken(s,{ref:i,tf:u})}},this),n&&this.eventEmitter.emit("add",e,this)}},t.Index.prototype.removeDocByRef=function(e){if(e&&this.documentStore.isDocStored()!==!1&&this.documentStore.hasDoc(e)){var t=this.documentStore.getDoc(e);this.removeDoc(t,!1)}},t.Index.prototype.removeDoc=function(e,n){if(e){var n=void 0===n?!0:n,i=e[this._ref];this.documentStore.hasDoc(i)&&(this.documentStore.removeDoc(i),this._fields.forEach(function(n){var o=this.pipeline.run(t.tokenizer(e[n]));o.forEach(function(e){this.index[n].removeToken(e,i)},this)},this),n&&this.eventEmitter.emit("remove",e,this))}},t.Index.prototype.updateDoc=function(e,t){var t=void 0===t?!0:t;this.removeDocByRef(e[this._ref],!1),this.addDoc(e,!1),t&&this.eventEmitter.emit("update",e,this)},t.Index.prototype.idf=function(e,t){var n="@"+t+"/"+e;if(Object.prototype.hasOwnProperty.call(this._idfCache,n))return this._idfCache[n];var i=this.index[t].getDocFreq(e),o=1+Math.log(this.documentStore.length/(i+1));return this._idfCache[n]=o,o},t.Index.prototype.getFields=function(){return this._fields.slice()},t.Index.prototype.search=function(e,n){if(!e)return[];e="string"==typeof e?{any:e}:JSON.parse(JSON.stringify(e));var i=null;null!=n&&(i=JSON.stringify(n));for(var o=new t.Configuration(i,this.getFields()).get(),r={},s=Object.keys(e),u=0;u<s.length;u++){var a=s[u];r[a]=this.pipeline.run(t.tokenizer(e[a]))}var l={};for(var c in o){var d=r[c]||r.any;if(d){var f=this.fieldSearch(d,c,o),h=o[c].boost;for(var p in f)f[p]=f[p]*h;for(var p in f)p in l?l[p]+=f[p]:l[p]=f[p]}}var v,g=[];for(var p in l)v={ref:p,score:l[p]},this.documentStore.hasDoc(p)&&(v.doc=this.documentStore.getDoc(p)),g.push(v);return g.sort(function(e,t){return t.score-e.score}),g},t.Index.prototype.fieldSearch=function(e,t,n){var i=n[t].bool,o=n[t].expand,r=n[t].boost,s=null,u={};return 0!==r?(e.forEach(function(e){var n=[e];1==o&&(n=this.index[t].expandToken(e));var r={};n.forEach(function(n){var o=this.index[t].getDocs(n),a=this.idf(n,t);if(s&&"AND"==i){var l={};for(var c in s)c in o&&(l[c]=o[c]);o=l}n==e&&this.fieldSearchStats(u,n,o);for(var c in o){var d=this.index[t].getTermFrequency(n,c),f=this.documentStore.getFieldLength(c,t),h=1;0!=f&&(h=1/Math.sqrt(f));var p=1;n!=e&&(p=.15*(1-(n.length-e.length)/n.length));var v=d*a*h*p;c in r?r[c]+=v:r[c]=v}},this),s=this.mergeScores(s,r,i)},this),s=this.coordNorm(s,u,e.length)):void 0},t.Index.prototype.mergeScores=function(e,t,n){if(!e)return t;if("AND"==n){var i={};for(var o in t)o in e&&(i[o]=e[o]+t[o]);return i}for(var o in t)o in e?e[o]+=t[o]:e[o]=t[o];return e},t.Index.prototype.fieldSearchStats=function(e,t,n){for(var i in n)i in e?e[i].push(t):e[i]=[t]},t.Index.prototype.coordNorm=function(e,t,n){for(var i in e)if(i in t){var o=t[i].length;e[i]=e[i]*o/n}return e},t.Index.prototype.toJSON=function(){var e={};return this._fields.forEach(function(t){e[t]=this.index[t].toJSON()},this),{version:t.version,fields:this._fields,ref:this._ref,documentStore:this.documentStore.toJSON(),index:e,pipeline:this.pipeline.toJSON()}},t.Index.prototype.use=function(e){var t=Array.prototype.slice.call(arguments,1);t.unshift(this),e.apply(this,t)},t.DocumentStore=function(e){this._save=null===e||void 0===e?!0:e,this.docs={},this.docInfo={},this.length=0},t.DocumentStore.load=function(e){var t=new this;return t.length=e.length,t.docs=e.docs,t.docInfo=e.docInfo,t._save=e.save,t},t.DocumentStore.prototype.isDocStored=function(){return this._save},t.DocumentStore.prototype.addDoc=function(t,n){this.hasDoc(t)||this.length++,this.docs[t]=this._save===!0?e(n):null},t.DocumentStore.prototype.getDoc=function(e){return this.hasDoc(e)===!1?null:this.docs[e]},t.DocumentStore.prototype.hasDoc=function(e){return e in this.docs},t.DocumentStore.prototype.removeDoc=function(e){this.hasDoc(e)&&(delete this.docs[e],delete this.docInfo[e],this.length--)},t.DocumentStore.prototype.addFieldLength=function(e,t,n){null!==e&&void 0!==e&&0!=this.hasDoc(e)&&(this.docInfo[e]||(this.docInfo[e]={}),this.docInfo[e][t]=n)},t.DocumentStore.prototype.updateFieldLength=function(e,t,n){null!==e&&void 0!==e&&0!=this.hasDoc(e)&&this.addFieldLength(e,t,n)},t.DocumentStore.prototype.getFieldLength=function(e,t){return null===e||void 0===e?0:e in this.docs&&t in this.docInfo[e]?this.docInfo[e][t]:0},t.DocumentStore.prototype.toJSON=function(){return{docs:this.docs,docInfo:this.docInfo,length:this.length,save:this._save}},t.stemmer=function(){var e={ational:"ate",tional:"tion",enci:"ence",anci:"ance",izer:"ize",bli:"ble",alli:"al",entli:"ent",eli:"e",ousli:"ous",ization:"ize",ation:"ate",ator:"ate",alism:"al",iveness:"ive",fulness:"ful",ousness:"ous",aliti:"al",iviti:"ive",biliti:"ble",logi:"log"},t={icate:"ic",ative:"",alize:"al",iciti:"ic",ical:"ic",ful:"",ness:""},n="[^aeiou]",i="[aeiouy]",o=n+"[^aeiouy]*",r=i+"[aeiou]*",s="^("+o+")?"+r+o,u="^("+o+")?"+r+o+"("+r+")?$",a="^("+o+")?"+r+o+r+o,l="^("+o+")?"+i,c=new RegExp(s),d=new RegExp(a),f=new RegExp(u),h=new RegExp(l),p=/^(.+?)(ss|i)es$/,v=/^(.+?)([^s])s$/,g=/^(.+?)eed$/,m=/^(.+?)(ed|ing)$/,y=/.$/,S=/(at|bl|iz)$/,x=new RegExp("([^aeiouylsz])\\1$"),w=new RegExp("^"+o+i+"[^aeiouwxy]$"),I=/^(.+?[^aeiou])y$/,b=/^(.+?)(ational|tional|enci|anci|izer|bli|alli|entli|eli|ousli|ization|ation|ator|alism|iveness|fulness|ousness|aliti|iviti|biliti|logi)$/,E=/^(.+?)(icate|ative|alize|iciti|ical|ful|ness)$/,D=/^(.+?)(al|ance|ence|er|ic|able|ible|ant|ement|ment|ent|ou|ism|ate|iti|ous|ive|ize)$/,F=/^(.+?)(s|t)(ion)$/,_=/^(.+?)e$/,P=/ll$/,k=new RegExp("^"+o+i+"[^aeiouwxy]$"),z=function(n){var i,o,r,s,u,a,l;if(n.length<3)return n;if(r=n.substr(0,1),"y"==r&&(n=r.toUpperCase()+n.substr(1)),s=p,u=v,s.test(n)?n=n.replace(s,"$1$2"):u.test(n)&&(n=n.replace(u,"$1$2")),s=g,u=m,s.test(n)){var z=s.exec(n);s=c,s.test(z[1])&&(s=y,n=n.replace(s,""))}else if(u.test(n)){var z=u.exec(n);i=z[1],u=h,u.test(i)&&(n=i,u=S,a=x,l=w,u.test(n)?n+="e":a.test(n)?(s=y,n=n.replace(s,"")):l.test(n)&&(n+="e"))}if(s=I,s.test(n)){var z=s.exec(n);i=z[1],n=i+"i"}if(s=b,s.test(n)){var z=s.exec(n);i=z[1],o=z[2],s=c,s.test(i)&&(n=i+e[o])}if(s=E,s.test(n)){var z=s.exec(n);i=z[1],o=z[2],s=c,s.test(i)&&(n=i+t[o])}if(s=D,u=F,s.test(n)){var z=s.exec(n);i=z[1],s=d,s.test(i)&&(n=i)}else if(u.test(n)){var z=u.exec(n);i=z[1]+z[2],u=d,u.test(i)&&(n=i)}if(s=_,s.test(n)){var z=s.exec(n);i=z[1],s=d,u=f,a=k,(s.test(i)||u.test(i)&&!a.test(i))&&(n=i)}return s=P,u=d,s.test(n)&&u.test(n)&&(s=y,n=n.replace(s,"")),"y"==r&&(n=r.toLowerCase()+n.substr(1)),n};return z}(),t.Pipeline.registerFunction(t.stemmer,"stemmer"),t.stopWordFilter=function(e){return e&&t.stopWordFilter.stopWords[e]!==!0?e:void 0},t.clearStopWords=function(){t.stopWordFilter.stopWords={}},t.addStopWords=function(e){null!=e&&Array.isArray(e)!==!1&&e.forEach(function(e){t.stopWordFilter.stopWords[e]=!0},this)},t.resetStopWords=function(){t.stopWordFilter.stopWords=t.defaultStopWords},t.defaultStopWords={"":!0,a:!0,able:!0,about:!0,across:!0,after:!0,all:!0,almost:!0,also:!0,am:!0,among:!0,an:!0,and:!0,any:!0,are:!0,as:!0,at:!0,be:!0,because:!0,been:!0,but:!0,by:!0,can:!0,cannot:!0,could:!0,dear:!0,did:!0,"do":!0,does:!0,either:!0,"else":!0,ever:!0,every:!0,"for":!0,from:!0,get:!0,got:!0,had:!0,has:!0,have:!0,he:!0,her:!0,hers:!0,him:!0,his:!0,how:!0,however:!0,i:!0,"if":!0,"in":!0,into:!0,is:!0,it:!0,its:!0,just:!0,least:!0,let:!0,like:!0,likely:!0,may:!0,me:!0,might:!0,most:!0,must:!0,my:!0,neither:!0,no:!0,nor:!0,not:!0,of:!0,off:!0,often:!0,on:!0,only:!0,or:!0,other:!0,our:!0,own:!0,rather:!0,said:!0,say:!0,says:!0,she:!0,should:!0,since:!0,so:!0,some:!0,than:!0,that:!0,the:!0,their:!0,them:!0,then:!0,there:!0,these:!0,they:!0,"this":!0,tis:!0,to:!0,too:!0,twas:!0,us:!0,wants:!0,was:!0,we:!0,were:!0,what:!0,when:!0,where:!0,which:!0,"while":!0,who:!0,whom:!0,why:!0,will:!0,"with":!0,would:!0,yet:!0,you:!0,your:!0},t.stopWordFilter.stopWords=t.defaultStopWords,t.Pipeline.registerFunction(t.stopWordFilter,"stopWordFilter"),t.trimmer=function(e){if(null===e||void 0===e)throw new Error("token should not be undefined");return e.replace(/^\W+/,"").replace(/\W+$/,"")},t.Pipeline.registerFunction(t.trimmer,"trimmer"),t.InvertedIndex=function(){this.root={docs:{},df:0}},t.InvertedIndex.load=function(e){var t=new this;return t.root=e.root,t},t.InvertedIndex.prototype.addToken=function(e,t,n){for(var n=n||this.root,i=0;i<=e.length-1;){var o=e[i];o in n||(n[o]={docs:{},df:0}),i+=1,n=n[o]}var r=t.ref;n.docs[r]?n.docs[r]={tf:t.tf}:(n.docs[r]={tf:t.tf},n.df+=1)},t.InvertedIndex.prototype.hasToken=function(e){if(!e)return!1;for(var t=this.root,n=0;n<e.length;n++){if(!t[e[n]])return!1;t=t[e[n]]}return!0},t.InvertedIndex.prototype.getNode=function(e){if(!e)return null;for(var t=this.root,n=0;n<e.length;n++){if(!t[e[n]])return null;t=t[e[n]]}return t},t.InvertedIndex.prototype.getDocs=function(e){var t=this.getNode(e);return null==t?{}:t.docs},t.InvertedIndex.prototype.getTermFrequency=function(e,t){var n=this.getNode(e);return null==n?0:t in n.docs?n.docs[t].tf:0},t.InvertedIndex.prototype.getDocFreq=function(e){var t=this.getNode(e);return null==t?0:t.df},t.InvertedIndex.prototype.removeToken=function(e,t){if(e){var n=this.getNode(e);null!=n&&t in n.docs&&(delete n.docs[t],n.df-=1)}},t.InvertedIndex.prototype.expandToken=function(e,t,n){if(null==e||""==e)return[];var t=t||[];if(void 0==n&&(n=this.getNode(e),null==n))return t;n.df>0&&t.push(e);for(var i in n)"docs"!==i&&"df"!==i&&this.expandToken(e+i,t,n[i]);return t},t.InvertedIndex.prototype.toJSON=function(){return{root:this.root}},t.Configuration=function(e,n){var e=e||"";if(void 0==n||null==n)throw new Error("fields should not be null");this.config={};var i;try{i=JSON.parse(e),this.buildUserConfig(i,n)}catch(o){t.utils.warn("user configuration parse failed, will use default configuration"),this.buildDefaultConfig(n)}},t.Configuration.prototype.buildDefaultConfig=function(e){this.reset(),e.forEach(function(e){this.config[e]={boost:1,bool:"OR",expand:!1}},this)},t.Configuration.prototype.buildUserConfig=function(e,n){var i="OR",o=!1;if(this.reset(),"bool"in e&&(i=e.bool||i),"expand"in e&&(o=e.expand||o),"fields"in e)for(var r in e.fields)if(n.indexOf(r)>-1){var s=e.fields[r],u=o;void 0!=s.expand&&(u=s.expand),this.config[r]={boost:s.boost||0===s.boost?s.boost:1,bool:s.bool||i,expand:u}}else t.utils.warn("field name in user configuration not found in index instance fields");else this.addAllFields2UserConfig(i,o,n)},t.Configuration.prototype.addAllFields2UserConfig=function(e,t,n){n.forEach(function(n){this.config[n]={boost:1,bool:e,expand:t}},this)},t.Configuration.prototype.get=function(){return this.config},t.Configuration.prototype.reset=function(){this.config={}},lunr.SortedSet=function(){this.length=0,this.elements=[]},lunr.SortedSet.load=function(e){var t=new this;return t.elements=e,t.length=e.length,t},lunr.SortedSet.prototype.add=function(){var e,t;for(e=0;e<arguments.length;e++)t=arguments[e],~this.indexOf(t)||this.elements.splice(this.locationFor(t),0,t);this.length=this.elements.length},lunr.SortedSet.prototype.toArray=function(){return this.elements.slice()},lunr.SortedSet.prototype.map=function(e,t){return this.elements.map(e,t)},lunr.SortedSet.prototype.forEach=function(e,t){return this.elements.forEach(e,t)},lunr.SortedSet.prototype.indexOf=function(e){for(var t=0,n=this.elements.length,i=n-t,o=t+Math.floor(i/2),r=this.elements[o];i>1;){if(r===e)return o;e>r&&(t=o),r>e&&(n=o),i=n-t,o=t+Math.floor(i/2),r=this.elements[o]}return r===e?o:-1},lunr.SortedSet.prototype.locationFor=function(e){for(var t=0,n=this.elements.length,i=n-t,o=t+Math.floor(i/2),r=this.elements[o];i>1;)e>r&&(t=o),r>e&&(n=o),i=n-t,o=t+Math.floor(i/2),r=this.elements[o];return r>e?o:e>r?o+1:void 0},lunr.SortedSet.prototype.intersect=function(e){for(var t=new lunr.SortedSet,n=0,i=0,o=this.length,r=e.length,s=this.elements,u=e.elements;;){if(n>o-1||i>r-1)break;s[n]!==u[i]?s[n]<u[i]?n++:s[n]>u[i]&&i++:(t.add(s[n]),n++,i++)}return t},lunr.SortedSet.prototype.clone=function(){var e=new lunr.SortedSet;return e.elements=this.toArray(),e.length=e.elements.length,e},lunr.SortedSet.prototype.union=function(e){var t,n,i;this.length>=e.length?(t=this,n=e):(t=e,n=this),i=t.clone();for(var o=0,r=n.toArray();o<r.length;o++)i.add(r[o]);return i},lunr.SortedSet.prototype.toJSON=function(){return this.toArray()},function(e,t){"function"==typeof define&&define.amd?define(t):"object"==typeof exports?module.exports=t():e.elasticlunr=t()}(this,function(){return t})}();
-    /** pdoc search index */const docs = [{"fullname": "sciterra", "modulename": "sciterra", "kind": "module", "doc": "<h1 id=\"sciterra\">sciterra</h1>\n\n<p><a href=\"https://github.com/nathimel/sciterra/actions/workflows/test.yml\"><img src=\"https://github.com/nathimel/sciterra/actions/workflows/test.yml/badge.svg\" alt=\"build\" /></a></p>\n\n<p>Software library to support data-driven analyses of scientific literature</p>\n\n<p>Inspired heavily by Zach Hafen's <a href=\"https://github.com/zhafen/cc\">cc</a> library.</p>\n"}, {"fullname": "sciterra.librarians", "modulename": "sciterra.librarians", "kind": "module", "doc": "<p></p>\n"}, {"fullname": "sciterra.librarians.adslibrarian", "modulename": "sciterra.librarians.adslibrarian", "kind": "module", "doc": "<p></p>\n"}, {"fullname": "sciterra.librarians.adslibrarian.CALL_SIZE", "modulename": "sciterra.librarians.adslibrarian", "qualname": "CALL_SIZE", "kind": "variable", "doc": "<p></p>\n", "default_value": "2000"}, {"fullname": "sciterra.librarians.adslibrarian.NUM_ATTEMPTS_PER_QUERY", "modulename": "sciterra.librarians.adslibrarian", "qualname": "NUM_ATTEMPTS_PER_QUERY", "kind": "variable", "doc": "<p></p>\n", "default_value": "10"}, {"fullname": "sciterra.librarians.adslibrarian.QUERY_FIELDS", "modulename": "sciterra.librarians.adslibrarian", "qualname": "QUERY_FIELDS", "kind": "variable", "doc": "<p></p>\n", "default_value": "[&#x27;bibcode&#x27;, &#x27;abstract&#x27;, &#x27;title&#x27;, &#x27;entry_date&#x27;, &#x27;pubdate&#x27;, &#x27;year&#x27;, &#x27;citation_count&#x27;, &#x27;citation&#x27;, &#x27;reference&#x27;, &#x27;identifier&#x27;]"}, {"fullname": "sciterra.librarians.adslibrarian.ALLOWED_EXCEPTIONS", "modulename": "sciterra.librarians.adslibrarian", "qualname": "ALLOWED_EXCEPTIONS", "kind": "variable", "doc": "<p></p>\n", "default_value": "(&lt;class &#x27;ads.exceptions.APIResponseError&#x27;&gt;,)"}, {"fullname": "sciterra.librarians.adslibrarian.EXTERNAL_IDS", "modulename": "sciterra.librarians.adslibrarian", "qualname": "EXTERNAL_IDS", "kind": "variable", "doc": "<p></p>\n", "default_value": "[&#x27;DOI&#x27;, &#x27;arXiv&#x27;, &#x27;bibcode&#x27;]"}, {"fullname": "sciterra.librarians.adslibrarian.ADSLibrarian", "modulename": "sciterra.librarians.adslibrarian", "qualname": "ADSLibrarian", "kind": "class", "doc": "<p></p>\n", "bases": "sciterra.librarians.librarian.Librarian"}, {"fullname": "sciterra.librarians.adslibrarian.ADSLibrarian.bibtex_entry_identifier", "modulename": "sciterra.librarians.adslibrarian", "qualname": "ADSLibrarian.bibtex_entry_identifier", "kind": "function", "doc": "<p>Parse a bibtex entry for a usable identifier for querying ADS (see EXTERNAL_IDS).</p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"bp\">self</span>, </span><span class=\"param\"><span class=\"n\">bibtex_entry</span><span class=\"p\">:</span> <span class=\"nb\">dict</span></span><span class=\"return-annotation\">) -> <span class=\"nb\">str</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.librarians.adslibrarian.ADSLibrarian.get_publications", "modulename": "sciterra.librarians.adslibrarian", "qualname": "ADSLibrarian.get_publications", "kind": "function", "doc": "<p>Use the NASA ADS python package, which calls the ADS API to retrieve publications.</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>bibcodes:</strong>  the str ids required for querying. While it is possible to use one of EXTERNAL_IDS to query, if ADS returns a paper at all, it will return a bibcode, so it is preferred to use bibcodes.</li>\n<li><strong>n_attempts_per_query:</strong>  Number of attempts to access the API per query. Useful when experiencing connection issues.</li>\n<li><strong>call_size:</strong>  maximum number of papers to call API for in one query; if less than <code>len(bibcodes)</code>, chunking will be performed.</li>\n<li><strong>convert:</strong>  whether to convert each resulting ADS Article to sciterra Publications (True by default).</li>\n</ul>\n\n<h6 id=\"returns\">Returns:</h6>\n\n<blockquote>\n  <p>the list of publications (or Papers)</p>\n</blockquote>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"bp\">self</span>,</span><span class=\"param\">\t<span class=\"n\">bibcodes</span><span class=\"p\">:</span> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]</span>,</span><span class=\"param\">\t<span class=\"o\">*</span><span class=\"n\">args</span>,</span><span class=\"param\">\t<span class=\"n\">call_size</span><span class=\"p\">:</span> <span class=\"nb\">int</span> <span class=\"o\">=</span> <span class=\"mi\">2000</span>,</span><span class=\"param\">\t<span class=\"n\">n_attempts_per_query</span><span class=\"p\">:</span> <span class=\"nb\">int</span> <span class=\"o\">=</span> <span class=\"mi\">10</span>,</span><span class=\"param\">\t<span class=\"n\">convert</span><span class=\"p\">:</span> <span class=\"nb\">bool</span> <span class=\"o\">=</span> <span class=\"kc\">True</span>,</span><span class=\"param\">\t<span class=\"o\">**</span><span class=\"n\">kwargs</span></span><span class=\"return-annotation\">) -> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">publication</span><span class=\"o\">.</span><span class=\"n\">Publication</span><span class=\"p\">]</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.librarians.adslibrarian.ADSLibrarian.convert_publication", "modulename": "sciterra.librarians.adslibrarian", "qualname": "ADSLibrarian.convert_publication", "kind": "function", "doc": "<p>Convert a ADS Article object to a sciterra.publication.Publication.</p>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"bp\">self</span>,</span><span class=\"param\">\t<span class=\"n\">article</span><span class=\"p\">:</span> <span class=\"n\">ads</span><span class=\"o\">.</span><span class=\"n\">search</span><span class=\"o\">.</span><span class=\"n\">Article</span>,</span><span class=\"param\">\t<span class=\"o\">*</span><span class=\"n\">args</span>,</span><span class=\"param\">\t<span class=\"o\">**</span><span class=\"n\">kwargs</span></span><span class=\"return-annotation\">) -> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">publication</span><span class=\"o\">.</span><span class=\"n\">Publication</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.librarians.librarian", "modulename": "sciterra.librarians.librarian", "kind": "module", "doc": "<p></p>\n"}, {"fullname": "sciterra.librarians.librarian.Librarian", "modulename": "sciterra.librarians.librarian", "qualname": "Librarian", "kind": "class", "doc": "<p></p>\n"}, {"fullname": "sciterra.librarians.librarian.Librarian.bibtex_entry_identifier", "modulename": "sciterra.librarians.librarian", "qualname": "Librarian.bibtex_entry_identifier", "kind": "function", "doc": "<p>Parse a bibtex entry for a usable unique identifier appropriate to the API.</p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"bp\">self</span>, </span><span class=\"param\"><span class=\"n\">bibtex_entry</span><span class=\"p\">:</span> <span class=\"nb\">dict</span></span><span class=\"return-annotation\">) -> <span class=\"nb\">str</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.librarians.librarian.Librarian.get_publications", "modulename": "sciterra.librarians.librarian", "qualname": "Librarian.get_publications", "kind": "function", "doc": "<p>Call an API and retrieve the publications corresponding to str identifiers.</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>n_attempts_per_query:</strong>  Number of attempts to access the API per query. Useful when experiencing connection issues.</li>\n<li><strong>call_size:</strong>  (int): maximum number of papers to call API for in one query; if less than <code>len(paper_ids)</code>, chunking will be performed.</li>\n</ul>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"bp\">self</span>,</span><span class=\"param\">\t<span class=\"n\">identifiers</span><span class=\"p\">:</span> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]</span>,</span><span class=\"param\">\t<span class=\"o\">*</span><span class=\"n\">args</span>,</span><span class=\"param\">\t<span class=\"n\">call_size</span><span class=\"p\">:</span> <span class=\"nb\">int</span> <span class=\"o\">=</span> <span class=\"kc\">None</span>,</span><span class=\"param\">\t<span class=\"n\">n_attempts_per_query</span><span class=\"p\">:</span> <span class=\"nb\">int</span> <span class=\"o\">=</span> <span class=\"kc\">None</span>,</span><span class=\"param\">\t<span class=\"n\">convert</span><span class=\"p\">:</span> <span class=\"nb\">bool</span> <span class=\"o\">=</span> <span class=\"kc\">True</span>,</span><span class=\"param\">\t<span class=\"o\">**</span><span class=\"n\">kwargs</span></span><span class=\"return-annotation\">) -> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">publication</span><span class=\"o\">.</span><span class=\"n\">Publication</span><span class=\"p\">]</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.librarians.librarian.Librarian.convert_publication", "modulename": "sciterra.librarians.librarian", "qualname": "Librarian.convert_publication", "kind": "function", "doc": "<p>Convert an API-specific resulting publication data structure into a sciterra Publication object.</p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"bp\">self</span>, </span><span class=\"param\"><span class=\"n\">pub</span><span class=\"p\">:</span> <span class=\"n\">Any</span>, </span><span class=\"param\"><span class=\"o\">*</span><span class=\"n\">args</span>, </span><span class=\"param\"><span class=\"o\">**</span><span class=\"n\">kwargs</span></span><span class=\"return-annotation\">):</span></span>", "funcdef": "def"}, {"fullname": "sciterra.librarians.librarian.Librarian.convert_publications", "modulename": "sciterra.librarians.librarian", "qualname": "Librarian.convert_publications", "kind": "function", "doc": "<p>Convet a list of API-specific results to sciterra Publications, possibly using multiprocessing.</p>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"bp\">self</span>,</span><span class=\"param\">\t<span class=\"n\">papers</span><span class=\"p\">:</span> <span class=\"nb\">list</span>,</span><span class=\"param\">\t<span class=\"o\">*</span><span class=\"n\">args</span>,</span><span class=\"param\">\t<span class=\"n\">multiprocess</span><span class=\"p\">:</span> <span class=\"nb\">bool</span> <span class=\"o\">=</span> <span class=\"kc\">True</span>,</span><span class=\"param\">\t<span class=\"n\">num_processes</span><span class=\"o\">=</span><span class=\"mi\">6</span>,</span><span class=\"param\">\t<span class=\"o\">**</span><span class=\"n\">kwargs</span></span><span class=\"return-annotation\">) -> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">publication</span><span class=\"o\">.</span><span class=\"n\">Publication</span><span class=\"p\">]</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.librarians.s2librarian", "modulename": "sciterra.librarians.s2librarian", "kind": "module", "doc": "<p></p>\n"}, {"fullname": "sciterra.librarians.s2librarian.QUERY_FIELDS", "modulename": "sciterra.librarians.s2librarian", "qualname": "QUERY_FIELDS", "kind": "variable", "doc": "<p></p>\n", "default_value": "[&#x27;year&#x27;, &#x27;abstract&#x27;, &#x27;title&#x27;, &#x27;externalIds&#x27;, &#x27;citationCount&#x27;, &#x27;url&#x27;, &#x27;citations.externalIds&#x27;, &#x27;citations.url&#x27;, &#x27;references.externalIds&#x27;, &#x27;references.url&#x27;, &#x27;citationStyles&#x27;, &#x27;publicationDate&#x27;]"}, {"fullname": "sciterra.librarians.s2librarian.EXTERNAL_IDS", "modulename": "sciterra.librarians.s2librarian", "qualname": "EXTERNAL_IDS", "kind": "variable", "doc": "<p></p>\n", "default_value": "[&#x27;DOI&#x27;, &#x27;ArXiv&#x27;, &#x27;CorpusId&#x27;, &#x27;MAG&#x27;, &#x27;ACL&#x27;, &#x27;PubMed&#x27;, &#x27;Medline&#x27;, &#x27;PubMedCentral&#x27;, &#x27;DBLP&#x27;, &#x27;URL&#x27;]"}, {"fullname": "sciterra.librarians.s2librarian.STORE_FIELDS", "modulename": "sciterra.librarians.s2librarian", "qualname": "STORE_FIELDS", "kind": "variable", "doc": "<p></p>\n", "default_value": "[&#x27;abstract&#x27;, &#x27;externalIds&#x27;, &#x27;url&#x27;, &#x27;citations&#x27;, &#x27;references&#x27;, &#x27;citationStyles&#x27;, &#x27;publicationDate&#x27;]"}, {"fullname": "sciterra.librarians.s2librarian.ATTRS_TO_SAVE", "modulename": "sciterra.librarians.s2librarian", "qualname": "ATTRS_TO_SAVE", "kind": "variable", "doc": "<p></p>\n", "default_value": "[&#x27;paper&#x27;, &#x27;abstract&#x27;, &#x27;citations&#x27;, &#x27;references&#x27;, &#x27;bibcode&#x27;, &#x27;entry_date&#x27;, &#x27;notes&#x27;, &#x27;unofficial_flag&#x27;, &#x27;citation&#x27;, &#x27;stemmed_content_words&#x27;]"}, {"fullname": "sciterra.librarians.s2librarian.ALLOWED_EXCEPTIONS", "modulename": "sciterra.librarians.s2librarian", "qualname": "ALLOWED_EXCEPTIONS", "kind": "variable", "doc": "<p></p>\n", "default_value": "(&lt;class &#x27;Exception&#x27;&gt;, &lt;class &#x27;requests.exceptions.ReadTimeout&#x27;&gt;, &lt;class &#x27;requests.exceptions.ConnectionError&#x27;&gt;, &lt;class &#x27;semanticscholar.SemanticScholarException.ObjectNotFoundExeception&#x27;&gt;)"}, {"fullname": "sciterra.librarians.s2librarian.CALL_SIZE", "modulename": "sciterra.librarians.s2librarian", "qualname": "CALL_SIZE", "kind": "variable", "doc": "<p></p>\n", "default_value": "10"}, {"fullname": "sciterra.librarians.s2librarian.NUM_ATTEMPTS_PER_QUERY", "modulename": "sciterra.librarians.s2librarian", "qualname": "NUM_ATTEMPTS_PER_QUERY", "kind": "variable", "doc": "<p></p>\n", "default_value": "50"}, {"fullname": "sciterra.librarians.s2librarian.SemanticScholarLibrarian", "modulename": "sciterra.librarians.s2librarian", "qualname": "SemanticScholarLibrarian", "kind": "class", "doc": "<p></p>\n", "bases": "sciterra.librarians.librarian.Librarian"}, {"fullname": "sciterra.librarians.s2librarian.SemanticScholarLibrarian.sch", "modulename": "sciterra.librarians.s2librarian", "qualname": "SemanticScholarLibrarian.sch", "kind": "variable", "doc": "<p></p>\n"}, {"fullname": "sciterra.librarians.s2librarian.SemanticScholarLibrarian.bibtex_entry_identifier", "modulename": "sciterra.librarians.s2librarian", "qualname": "SemanticScholarLibrarian.bibtex_entry_identifier", "kind": "function", "doc": "<p>Parse a bibtex entry for a usable identifier for querying SemanticScholar (see EXTERNAL_IDS).</p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"bp\">self</span>, </span><span class=\"param\"><span class=\"n\">bibtex_entry</span><span class=\"p\">:</span> <span class=\"nb\">dict</span></span><span class=\"return-annotation\">) -> <span class=\"nb\">str</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.librarians.s2librarian.SemanticScholarLibrarian.get_publications", "modulename": "sciterra.librarians.s2librarian", "qualname": "SemanticScholarLibrarian.get_publications", "kind": "function", "doc": "<p>Use the (unofficial) S2 python package, which calls the Semantic Scholar API to retrieve publications from the S2AG.</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>paper_ids:</strong>  the str ids required for querying. While it is possible to use one of EXTERNAL_IDS to query, if SemanticScholar returns a paper at all, it will return a paperId, so it is preferred to use paperIds.</li>\n<li><strong>n_attempts_per_query:</strong>  Number of attempts to access the API per query. Useful when experiencing connection issues.</li>\n<li><strong>call_size:</strong>  maximum number of papers to call API for in one query; if less than <code>len(paper_ids)</code>, chunking will be performed.</li>\n<li><strong>convert:</strong>  whether to convert each resulting SemanticScholar Paper to sciterra Publications (True by default).</li>\n</ul>\n\n<h6 id=\"returns\">Returns:</h6>\n\n<blockquote>\n  <p>the list of publications (or Papers)</p>\n</blockquote>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"bp\">self</span>,</span><span class=\"param\">\t<span class=\"n\">paper_ids</span><span class=\"p\">:</span> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]</span>,</span><span class=\"param\">\t<span class=\"o\">*</span><span class=\"n\">args</span>,</span><span class=\"param\">\t<span class=\"n\">call_size</span><span class=\"p\">:</span> <span class=\"nb\">int</span> <span class=\"o\">=</span> <span class=\"mi\">10</span>,</span><span class=\"param\">\t<span class=\"n\">n_attempts_per_query</span><span class=\"p\">:</span> <span class=\"nb\">int</span> <span class=\"o\">=</span> <span class=\"mi\">50</span>,</span><span class=\"param\">\t<span class=\"n\">convert</span><span class=\"p\">:</span> <span class=\"nb\">bool</span> <span class=\"o\">=</span> <span class=\"kc\">True</span>,</span><span class=\"param\">\t<span class=\"o\">**</span><span class=\"n\">kwargs</span></span><span class=\"return-annotation\">) -> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">publication</span><span class=\"o\">.</span><span class=\"n\">Publication</span><span class=\"p\">]</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.librarians.s2librarian.SemanticScholarLibrarian.convert_publication", "modulename": "sciterra.librarians.s2librarian", "qualname": "SemanticScholarLibrarian.convert_publication", "kind": "function", "doc": "<p>Convert a SemanticScholar Paper object to a sciterra.publication.Publication.</p>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"bp\">self</span>,</span><span class=\"param\">\t<span class=\"n\">paper</span><span class=\"p\">:</span> <span class=\"n\">semanticscholar</span><span class=\"o\">.</span><span class=\"n\">Paper</span><span class=\"o\">.</span><span class=\"n\">Paper</span>,</span><span class=\"param\">\t<span class=\"o\">*</span><span class=\"n\">args</span>,</span><span class=\"param\">\t<span class=\"o\">**</span><span class=\"n\">kwargs</span></span><span class=\"return-annotation\">) -> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">publication</span><span class=\"o\">.</span><span class=\"n\">Publication</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.librarians.s2librarian.SemanticScholarLibrarian.get_papers", "modulename": "sciterra.librarians.s2librarian", "qualname": "SemanticScholarLibrarian.get_papers", "kind": "function", "doc": "<p>Custom function for calling the S2 API that doesn't fail on empty results.</p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"bp\">self</span>, </span><span class=\"param\"><span class=\"n\">paper_ids</span><span class=\"p\">:</span> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]</span>, </span><span class=\"param\"><span class=\"n\">fields</span><span class=\"p\">:</span> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]</span></span><span class=\"return-annotation\">):</span></span>", "funcdef": "def"}, {"fullname": "sciterra.librarians.s2librarian.SemanticScholarLibrarian.get_paper", "modulename": "sciterra.librarians.s2librarian", "qualname": "SemanticScholarLibrarian.get_paper", "kind": "function", "doc": "<p>Custom function for calling the S2 API that doesn't fail on empty results.</p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"bp\">self</span>, </span><span class=\"param\"><span class=\"n\">paper_id</span><span class=\"p\">:</span> <span class=\"nb\">str</span>, </span><span class=\"param\"><span class=\"n\">fields</span><span class=\"p\">:</span> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]</span></span><span class=\"return-annotation\">):</span></span>", "funcdef": "def"}, {"fullname": "sciterra.mapping", "modulename": "sciterra.mapping", "kind": "module", "doc": "<p>Classes for constructing maps of scientific literature.</p>\n\n<p>The <code>sciterra.mapping.atlas</code> submodule contains the basic data structure, the Atlas.</p>\n\n<p>The <code>sciterra.mapping.cartography</code> submodule contains functionality for manipulating an Atlas.</p>\n"}, {"fullname": "sciterra.mapping.atlas", "modulename": "sciterra.mapping.atlas", "kind": "module", "doc": "<p>Main container object for a large library of publications.</p>\n"}, {"fullname": "sciterra.mapping.atlas.Atlas", "modulename": "sciterra.mapping.atlas", "qualname": "Atlas", "kind": "class", "doc": "<p></p>\n"}, {"fullname": "sciterra.mapping.atlas.Atlas.__init__", "modulename": "sciterra.mapping.atlas", "qualname": "Atlas.__init__", "kind": "function", "doc": "<p></p>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"n\">publications</span><span class=\"p\">:</span> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">publication</span><span class=\"o\">.</span><span class=\"n\">Publication</span><span class=\"p\">]</span>,</span><span class=\"param\">\t<span class=\"n\">projection</span><span class=\"p\">:</span> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">vectorization</span><span class=\"o\">.</span><span class=\"n\">projection</span><span class=\"o\">.</span><span class=\"n\">Projection</span> <span class=\"o\">=</span> <span class=\"kc\">None</span></span>)</span>"}, {"fullname": "sciterra.mapping.atlas.Atlas.publications", "modulename": "sciterra.mapping.atlas", "qualname": "Atlas.publications", "kind": "variable", "doc": "<p></p>\n", "annotation": ": dict[str, sciterra.mapping.publication.Publication]"}, {"fullname": "sciterra.mapping.atlas.Atlas.projection", "modulename": "sciterra.mapping.atlas", "qualname": "Atlas.projection", "kind": "variable", "doc": "<p></p>\n", "annotation": ": sciterra.vectorization.projection.Projection"}, {"fullname": "sciterra.mapping.atlas.Atlas.save", "modulename": "sciterra.mapping.atlas", "qualname": "Atlas.save", "kind": "function", "doc": "<p>Write the Atlas to a directory containing a CSV file of publications and a .npy file of embeddings.</p>\n\n<p>Write the Atlas to a directory containing a .pkl file of publications and a .pkl file of the projection.</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>atlas_dirpath:</strong>  path of directory to save files to.</li>\n<li><strong>publications_fn:</strong>  name of file to save publications to.</li>\n<li><strong>projection_fn:</strong>  name of file to save projection to.</li>\n<li><strong>overwrite_publications:</strong>  whether to overwrite an existing publications file.</li>\n<li><strong>overwrite_projection:</strong>  whether to overwrite an existing projection file.</li>\n</ul>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"bp\">self</span>,</span><span class=\"param\">\t<span class=\"n\">atlas_dirpath</span><span class=\"p\">:</span> <span class=\"nb\">str</span>,</span><span class=\"param\">\t<span class=\"n\">publications_fn</span><span class=\"p\">:</span> <span class=\"nb\">str</span> <span class=\"o\">=</span> <span class=\"s1\">&#39;publications.pkl&#39;</span>,</span><span class=\"param\">\t<span class=\"n\">projection_fn</span><span class=\"p\">:</span> <span class=\"nb\">str</span> <span class=\"o\">=</span> <span class=\"s1\">&#39;projection.pkl&#39;</span>,</span><span class=\"param\">\t<span class=\"n\">overwrite_publications</span><span class=\"p\">:</span> <span class=\"nb\">bool</span> <span class=\"o\">=</span> <span class=\"kc\">True</span>,</span><span class=\"param\">\t<span class=\"n\">overwrite_projection</span><span class=\"p\">:</span> <span class=\"nb\">bool</span> <span class=\"o\">=</span> <span class=\"kc\">True</span></span><span class=\"return-annotation\">) -> <span class=\"kc\">None</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.mapping.atlas.Atlas.load", "modulename": "sciterra.mapping.atlas", "qualname": "Atlas.load", "kind": "function", "doc": "<p>Load an Atlas object from a directory containing publications and/or their projection.</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>atlas_dirpath:</strong>  file with vocab, assumed output from <code>save_to_file</code></li>\n<li><strong>publications_fn:</strong>  name of file to load publications from.</li>\n<li><strong>projection_fn:</strong>  name of file to load projection from.</li>\n</ul>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"bp\">cls</span>,</span><span class=\"param\">\t<span class=\"n\">atlas_dirpath</span><span class=\"p\">:</span> <span class=\"nb\">str</span>,</span><span class=\"param\">\t<span class=\"n\">publications_fn</span><span class=\"p\">:</span> <span class=\"nb\">str</span> <span class=\"o\">=</span> <span class=\"s1\">&#39;publications.pkl&#39;</span>,</span><span class=\"param\">\t<span class=\"n\">projection_fn</span><span class=\"p\">:</span> <span class=\"nb\">str</span> <span class=\"o\">=</span> <span class=\"s1\">&#39;projection.pkl&#39;</span>,</span><span class=\"param\">\t<span class=\"o\">**</span><span class=\"n\">kwargs</span></span><span class=\"return-annotation\">):</span></span>", "funcdef": "def"}, {"fullname": "sciterra.mapping.cartography", "modulename": "sciterra.mapping.cartography", "kind": "module", "doc": "<p>Functions for manipulating an atlas based on the document embeddings of the abstracts of its publications.</p>\n"}, {"fullname": "sciterra.mapping.cartography.Cartographer", "modulename": "sciterra.mapping.cartography", "qualname": "Cartographer", "kind": "class", "doc": "<p>A basic wrapper for obtaining and updating atlas projections.</p>\n"}, {"fullname": "sciterra.mapping.cartography.Cartographer.__init__", "modulename": "sciterra.mapping.cartography", "qualname": "Cartographer.__init__", "kind": "function", "doc": "<p></p>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"n\">librarian</span><span class=\"p\">:</span> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">librarians</span><span class=\"o\">.</span><span class=\"n\">librarian</span><span class=\"o\">.</span><span class=\"n\">Librarian</span> <span class=\"o\">=</span> <span class=\"kc\">None</span>,</span><span class=\"param\">\t<span class=\"n\">vectorizer</span><span class=\"p\">:</span> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">vectorization</span><span class=\"o\">.</span><span class=\"n\">vectorizer</span><span class=\"o\">.</span><span class=\"n\">Vectorizer</span> <span class=\"o\">=</span> <span class=\"kc\">None</span></span>)</span>"}, {"fullname": "sciterra.mapping.cartography.Cartographer.librarian", "modulename": "sciterra.mapping.cartography", "qualname": "Cartographer.librarian", "kind": "variable", "doc": "<p></p>\n"}, {"fullname": "sciterra.mapping.cartography.Cartographer.vectorizer", "modulename": "sciterra.mapping.cartography", "qualname": "Cartographer.vectorizer", "kind": "variable", "doc": "<p></p>\n"}, {"fullname": "sciterra.mapping.cartography.Cartographer.bibtex_to_atlas", "modulename": "sciterra.mapping.cartography", "qualname": "Cartographer.bibtex_to_atlas", "kind": "function", "doc": "<p>Convert a bibtex file to an atlas, by parsing each entry for an identifier, and querying an API for publications using <code>self.librarian</code>.</p>\n\n<p>NOTE: the identifiers in the corresponding atlas will be API-specific ids; there is no relationship between the parsed id used to query papers (e.g. 'DOI:XYZ' in the case of SemanticScholar) and the resulting identifier associated with the resulting Publication object, (a paperId, a bibcode, etc.) Therefore, the purpose of using the <code>bibtex_to_atlas</code> method is primarily for initializing literature exploration in a human-readable way. If you want to obtain as many publications as identifiers supplied, you need to use <code>get_publications</code>.</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>bibtex_fp:</strong>  the filepath where the bibtex file is saved.</li>\n<li>args and kwargs are passed to <code>get_publications</code>.</li>\n</ul>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"bp\">self</span>, </span><span class=\"param\"><span class=\"n\">bibtex_fp</span><span class=\"p\">:</span> <span class=\"nb\">str</span>, </span><span class=\"param\"><span class=\"o\">*</span><span class=\"n\">args</span>, </span><span class=\"param\"><span class=\"o\">**</span><span class=\"n\">kwargs</span></span><span class=\"return-annotation\">) -> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">atlas</span><span class=\"o\">.</span><span class=\"n\">Atlas</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.mapping.cartography.Cartographer.project", "modulename": "sciterra.mapping.cartography", "qualname": "Cartographer.project", "kind": "function", "doc": "<p>Update an atlas with its projection, i.e. the document embeddings for all publications using <code>self.vectorizer</code>, removing publications with no abstracts.</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>atl:</strong>  the Atlas containing publications to project to document embeddings</li>\n</ul>\n\n<h6 id=\"returns\">Returns:</h6>\n\n<blockquote>\n  <p>the updated atlas containing all nonempty-abstract-containing publications and their projection</p>\n</blockquote>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"bp\">self</span>, </span><span class=\"param\"><span class=\"n\">atl</span><span class=\"p\">:</span> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">atlas</span><span class=\"o\">.</span><span class=\"n\">Atlas</span></span><span class=\"return-annotation\">) -> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">atlas</span><span class=\"o\">.</span><span class=\"n\">Atlas</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.mapping.cartography.Cartographer.expand", "modulename": "sciterra.mapping.cartography", "qualname": "Cartographer.expand", "kind": "function", "doc": "<p>Expand an atlas by retrieving a list of publications resulting from traversal of the citation network.</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>atl:</strong>  the atlas containing the region to expand</li>\n<li><strong>center:</strong>  (if given) center the search on this publication, preferentially searching related publications.</li>\n<li><strong>n_pubs_max:</strong>  maximum number of publications allowed in the expansion.</li>\n<li><strong>n_sources_max:</strong>  maximum number of publications (already in the atlas) to draw references and citations from.</li>\n</ul>\n\n<h6 id=\"returns\">Returns:</h6>\n\n<blockquote>\n  <p>atl_expanded: the expanded atlas</p>\n</blockquote>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"bp\">self</span>,</span><span class=\"param\">\t<span class=\"n\">atl</span><span class=\"p\">:</span> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">atlas</span><span class=\"o\">.</span><span class=\"n\">Atlas</span>,</span><span class=\"param\">\t<span class=\"n\">center</span><span class=\"p\">:</span> <span class=\"nb\">str</span> <span class=\"o\">=</span> <span class=\"kc\">None</span>,</span><span class=\"param\">\t<span class=\"n\">n_pubs_max</span><span class=\"p\">:</span> <span class=\"nb\">int</span> <span class=\"o\">=</span> <span class=\"mi\">4000</span>,</span><span class=\"param\">\t<span class=\"n\">n_sources_max</span><span class=\"p\">:</span> <span class=\"nb\">int</span> <span class=\"o\">=</span> <span class=\"kc\">None</span></span><span class=\"return-annotation\">) -> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">atlas</span><span class=\"o\">.</span><span class=\"n\">Atlas</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.mapping.cartography.Cartographer.filter", "modulename": "sciterra.mapping.cartography", "qualname": "Cartographer.filter", "kind": "function", "doc": "<p>Update an atlas by dropping publications (and corresponding data in projection) when certain fields are empty.</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>atl:</strong>  the Atlas containing publications to filter</li>\n<li><strong>attributes:</strong>  the list of attributes to filter publications from the atlas if any of items are None for a publication. For example, if attributes = [\"abstract\"], then all publications <code>pub</code> such that <code>pub.abstract is None</code> is True will be removed from the atlas, along with the corresponding data in the projection.</li>\n</ul>\n\n<h6 id=\"returns\">Returns:</h6>\n\n<blockquote>\n  <p>the filtered atlas</p>\n</blockquote>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"bp\">self</span>,</span><span class=\"param\">\t<span class=\"n\">atl</span><span class=\"p\">:</span> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">atlas</span><span class=\"o\">.</span><span class=\"n\">Atlas</span>,</span><span class=\"param\">\t<span class=\"n\">attributes</span><span class=\"p\">:</span> <span class=\"nb\">list</span> <span class=\"o\">=</span> <span class=\"p\">[</span><span class=\"s1\">&#39;abstract&#39;</span><span class=\"p\">,</span> <span class=\"s1\">&#39;publication_date&#39;</span><span class=\"p\">]</span></span><span class=\"return-annotation\">) -> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">atlas</span><span class=\"o\">.</span><span class=\"n\">Atlas</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.mapping.publication", "modulename": "sciterra.mapping.publication", "kind": "module", "doc": "<p>The general container for data for any scientific publication, regardless of the API that was used to obtain it.</p>\n"}, {"fullname": "sciterra.mapping.publication.FIELDS", "modulename": "sciterra.mapping.publication", "qualname": "FIELDS", "kind": "variable", "doc": "<p></p>\n", "default_value": "[&#x27;identifier&#x27;, &#x27;abstract&#x27;, &#x27;publication_date&#x27;, &#x27;citation_count&#x27;, &#x27;citations&#x27;, &#x27;references&#x27;]"}, {"fullname": "sciterra.mapping.publication.ADDITIONAL_FIELDS", "modulename": "sciterra.mapping.publication", "qualname": "ADDITIONAL_FIELDS", "kind": "variable", "doc": "<p></p>\n", "default_value": "[&#x27;doi&#x27;, &#x27;url&#x27;, &#x27;title&#x27;, &#x27;issn&#x27;]"}, {"fullname": "sciterra.mapping.publication.Publication", "modulename": "sciterra.mapping.publication", "qualname": "Publication", "kind": "class", "doc": "<p>The Publication is a standardized container a scientific publication's retrieved data.</p>\n\n<p>In general, all data-cleaning shoud be done prior to constructing a Publication, in order to keep the class minimal.</p>\n\n<h6 id=\"attributes\">Attributes:</h6>\n\n<ul>\n<li><strong>identifier:</strong>  The string id that uniquely identifies the publication, used for\n<ul>\n<li>storing in an Atlas</li>\n<li>querying an API</li>\n</ul></li>\n<li><strong>abstract:</strong>  The string corresponding to the publication's abstract</li>\n<li><strong>publication_date:</strong>  A datetime representing the date of publication</li>\n<li><strong>citation_count:</strong>  An int corresponding to the number of citations received by the publication</li>\n</ul>\n"}, {"fullname": "sciterra.mapping.publication.Publication.__init__", "modulename": "sciterra.mapping.publication", "qualname": "Publication.__init__", "kind": "function", "doc": "<p>Construct a publication.</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>data:</strong>  to initialize attributes</li>\n</ul>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"n\">data</span><span class=\"p\">:</span> <span class=\"nb\">dict</span> <span class=\"o\">=</span> <span class=\"p\">{}</span></span>)</span>"}, {"fullname": "sciterra.mapping.publication.Publication.identifier", "modulename": "sciterra.mapping.publication", "qualname": "Publication.identifier", "kind": "variable", "doc": "<p></p>\n", "annotation": ": str"}, {"fullname": "sciterra.mapping.publication.Publication.abstract", "modulename": "sciterra.mapping.publication", "qualname": "Publication.abstract", "kind": "variable", "doc": "<p></p>\n", "annotation": ": str"}, {"fullname": "sciterra.mapping.publication.Publication.publication_date", "modulename": "sciterra.mapping.publication", "qualname": "Publication.publication_date", "kind": "variable", "doc": "<p></p>\n", "annotation": ": datetime.date"}, {"fullname": "sciterra.mapping.publication.Publication.citations", "modulename": "sciterra.mapping.publication", "qualname": "Publication.citations", "kind": "variable", "doc": "<p></p>\n", "annotation": ": list[str]"}, {"fullname": "sciterra.mapping.publication.Publication.references", "modulename": "sciterra.mapping.publication", "qualname": "Publication.references", "kind": "variable", "doc": "<p></p>\n", "annotation": ": list[str]"}, {"fullname": "sciterra.mapping.publication.Publication.citation_count", "modulename": "sciterra.mapping.publication", "qualname": "Publication.citation_count", "kind": "variable", "doc": "<p>The citation_count can be different from the length of <code>citations</code>, since the number of citations listed for a paper might be different from the number of (valid) citing papers indexed on the relevant API.</p>\n", "annotation": ": int"}, {"fullname": "sciterra.mapping.publication.Publication.init_attributes", "modulename": "sciterra.mapping.publication", "qualname": "Publication.init_attributes", "kind": "function", "doc": "<p></p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"bp\">self</span>, </span><span class=\"param\"><span class=\"n\">data</span></span><span class=\"return-annotation\">) -> <span class=\"kc\">None</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.misc", "modulename": "sciterra.misc", "kind": "module", "doc": "<p></p>\n"}, {"fullname": "sciterra.misc.utils", "modulename": "sciterra.misc.utils", "kind": "module", "doc": "<p>Miscellaneous helper functions.</p>\n"}, {"fullname": "sciterra.misc.utils.standardize_month", "modulename": "sciterra.misc.utils", "qualname": "standardize_month", "kind": "function", "doc": "<p></p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"n\">month</span><span class=\"p\">:</span> <span class=\"nb\">str</span></span><span class=\"return-annotation\">) -> <span class=\"nb\">str</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.misc.utils.keep_trying", "modulename": "sciterra.misc.utils", "qualname": "keep_trying", "kind": "function", "doc": "<p>Sometimes we receive server errors. We don't want that to disrupt the entire process, so this decorator allow trying n_attempts times.</p>\n\n<h2 id=\"api_extensionget_data_via_api\">API_extension::get_data_via_api</h2>\n\n<h2 id=\"this-decorator-is-general-except-for-the-default-allowed-exception\">This decorator is general, except for the default allowed exception.</h2>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>n_attempts (int):</strong>  Number of attempts before letting the exception happen.</li>\n<li><strong>allowed_exceptions (tuple of class):</strong>  Allowed exception class. Set to BaseException to keep trying regardless of exception.</li>\n<li><strong>sleep_after_attempt (int):</strong>  Number of seconds to wait before trying each additional attempt.</li>\n<li><strong>verbose (bool):</strong>  If True, be talkative.</li>\n</ul>\n\n<h6 id=\"example-usage\">Example Usage:</h6>\n\n<blockquote>\n  <blockquote>\n    <p>@keep_trying( n_attempts=4 )\n    def try_to_call_web_api():\n        \" do stuff \"</p>\n  </blockquote>\n</blockquote>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"n\">n_attempts</span><span class=\"o\">=</span><span class=\"mi\">5</span>,</span><span class=\"param\">\tallowed_exceptions=(&lt;class &#x27;requests.exceptions.ReadTimeout&#x27;&gt;, &lt;class &#x27;requests.exceptions.ConnectionError&#x27;&gt;),</span><span class=\"param\">\t<span class=\"n\">verbose</span><span class=\"o\">=</span><span class=\"kc\">True</span>,</span><span class=\"param\">\t<span class=\"n\">sleep_after_attempt</span><span class=\"o\">=</span><span class=\"mi\">1</span></span><span class=\"return-annotation\">):</span></span>", "funcdef": "def"}, {"fullname": "sciterra.misc.utils.chunk_ids", "modulename": "sciterra.misc.utils", "qualname": "chunk_ids", "kind": "function", "doc": "<p>Helper function to chunk bibcodes or paperIds into smaller sublists if appropriate.</p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"n\">ids</span><span class=\"p\">:</span> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]</span>, </span><span class=\"param\"><span class=\"n\">call_size</span><span class=\"o\">=</span><span class=\"mi\">2000</span></span><span class=\"return-annotation\">):</span></span>", "funcdef": "def"}, {"fullname": "sciterra.misc.utils.write_pickle", "modulename": "sciterra.misc.utils", "qualname": "write_pickle", "kind": "function", "doc": "<p></p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"n\">fn</span><span class=\"p\">:</span> <span class=\"nb\">str</span>, </span><span class=\"param\"><span class=\"n\">data</span></span><span class=\"return-annotation\">):</span></span>", "funcdef": "def"}, {"fullname": "sciterra.misc.utils.read_pickle", "modulename": "sciterra.misc.utils", "qualname": "read_pickle", "kind": "function", "doc": "<p></p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"n\">fn</span><span class=\"p\">:</span> <span class=\"nb\">str</span></span><span class=\"return-annotation\">):</span></span>", "funcdef": "def"}, {"fullname": "sciterra.vectorization", "modulename": "sciterra.vectorization", "kind": "module", "doc": "<p></p>\n"}, {"fullname": "sciterra.vectorization.projection", "modulename": "sciterra.vectorization.projection", "kind": "module", "doc": "<p></p>\n"}, {"fullname": "sciterra.vectorization.projection.Projection", "modulename": "sciterra.vectorization.projection", "qualname": "Projection", "kind": "class", "doc": "<p>Basic wrapper for document embeddings and helper methods.</p>\n"}, {"fullname": "sciterra.vectorization.projection.Projection.__init__", "modulename": "sciterra.vectorization.projection", "qualname": "Projection.__init__", "kind": "function", "doc": "<p>Construct a Projection object, a bidirectional mapping from identifiers to document embeddings.</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>identifiers_to_indices:</strong>  a map from Publication identifiers to indices in the embedding matrix.</li>\n<li><strong>indices_to_identifiers:</strong>  a map from embedding indices to Publication identifiers.</li>\n<li><strong>embeddings:</strong>  ndarray of document embeddings of shape <code>(num_pubs, embedding_dim)</code></li>\n</ul>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"n\">identifier_to_index</span><span class=\"p\">:</span> <span class=\"nb\">dict</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">,</span> <span class=\"nb\">int</span><span class=\"p\">]</span>,</span><span class=\"param\">\t<span class=\"n\">index_to_identifier</span><span class=\"p\">:</span> <span class=\"nb\">tuple</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]</span>,</span><span class=\"param\">\t<span class=\"n\">embeddings</span><span class=\"p\">:</span> <span class=\"n\">numpy</span><span class=\"o\">.</span><span class=\"n\">ndarray</span></span>)</span>"}, {"fullname": "sciterra.vectorization.projection.Projection.identifier_to_index", "modulename": "sciterra.vectorization.projection", "qualname": "Projection.identifier_to_index", "kind": "variable", "doc": "<p></p>\n"}, {"fullname": "sciterra.vectorization.projection.Projection.index_to_identifier", "modulename": "sciterra.vectorization.projection", "qualname": "Projection.index_to_identifier", "kind": "variable", "doc": "<p></p>\n"}, {"fullname": "sciterra.vectorization.projection.Projection.embeddings", "modulename": "sciterra.vectorization.projection", "qualname": "Projection.embeddings", "kind": "variable", "doc": "<p></p>\n"}, {"fullname": "sciterra.vectorization.projection.Projection.indices_to_identifiers", "modulename": "sciterra.vectorization.projection", "qualname": "Projection.indices_to_identifiers", "kind": "function", "doc": "<p>Retrieve the identifiers for a list of embedding matrix indices.</p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"bp\">self</span>, </span><span class=\"param\"><span class=\"n\">indices</span></span><span class=\"return-annotation\">) -> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.vectorization.projection.Projection.identifiers_to_embeddings", "modulename": "sciterra.vectorization.projection", "qualname": "Projection.identifiers_to_embeddings", "kind": "function", "doc": "<p>Retrieve the document embeddings for a list of identifiers.</p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"bp\">self</span>, </span><span class=\"param\"><span class=\"n\">identifiers</span><span class=\"p\">:</span> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]</span></span><span class=\"return-annotation\">) -> <span class=\"n\">numpy</span><span class=\"o\">.</span><span class=\"n\">ndarray</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.vectorization.projection.Projection.identifier_to_embedding", "modulename": "sciterra.vectorization.projection", "qualname": "Projection.identifier_to_embedding", "kind": "function", "doc": "<p>Retrieve the document embedding of a Publication.</p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"bp\">self</span>, </span><span class=\"param\"><span class=\"n\">identifier</span><span class=\"p\">:</span> <span class=\"nb\">str</span></span><span class=\"return-annotation\">) -> <span class=\"n\">numpy</span><span class=\"o\">.</span><span class=\"n\">ndarray</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.vectorization.projection.merge", "modulename": "sciterra.vectorization.projection", "qualname": "merge", "kind": "function", "doc": "<p>Return the result of merging projection <code>proj_a</code> with projection <code>proj_b</code>.</p>\n\n<p>NOTE: This is not a symmetric operation: it adds all embedding data contained in proj_a that is missing from proj_b. This means that the resulting projection can only be greater or equal in size to proj_a.</p>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"n\">proj_a</span><span class=\"p\">:</span> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">vectorization</span><span class=\"o\">.</span><span class=\"n\">projection</span><span class=\"o\">.</span><span class=\"n\">Projection</span>,</span><span class=\"param\">\t<span class=\"n\">proj_b</span><span class=\"p\">:</span> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">vectorization</span><span class=\"o\">.</span><span class=\"n\">projection</span><span class=\"o\">.</span><span class=\"n\">Projection</span></span><span class=\"return-annotation\">) -> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">vectorization</span><span class=\"o\">.</span><span class=\"n\">projection</span><span class=\"o\">.</span><span class=\"n\">Projection</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.vectorization.scibert", "modulename": "sciterra.vectorization.scibert", "kind": "module", "doc": "<p>SciBERT is a BERT model trained on scientific text.</p>\n\n<h6 id=\"links\">Links:</h6>\n\n<blockquote>\n  <p>Paper: <a href=\"https://aclanthology.org/D19-1371/\">https://aclanthology.org/D19-1371/</a>\n  Github:  <a href=\"https://github.com/allenai/scibert\">https://github.com/allenai/scibert</a>\n  HF: <a href=\"https://huggingface.co/allenai/scibert_scivocab_uncased\">https://huggingface.co/allenai/scibert_scivocab_uncased</a></p>\n</blockquote>\n"}, {"fullname": "sciterra.vectorization.scibert.MPS_DEVICE", "modulename": "sciterra.vectorization.scibert", "qualname": "MPS_DEVICE", "kind": "variable", "doc": "<p></p>\n", "default_value": "device(type=&#x27;mps&#x27;)"}, {"fullname": "sciterra.vectorization.scibert.MODEL_PATH", "modulename": "sciterra.vectorization.scibert", "qualname": "MODEL_PATH", "kind": "variable", "doc": "<p></p>\n", "default_value": "&#x27;allenai/scibert_scivocab_uncased&#x27;"}, {"fullname": "sciterra.vectorization.scibert.SciBERTVectorizer", "modulename": "sciterra.vectorization.scibert", "qualname": "SciBERTVectorizer", "kind": "class", "doc": "<p></p>\n", "bases": "sciterra.vectorization.vectorizer.Vectorizer"}, {"fullname": "sciterra.vectorization.scibert.SciBERTVectorizer.__init__", "modulename": "sciterra.vectorization.scibert", "qualname": "SciBERTVectorizer.__init__", "kind": "function", "doc": "<p></p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"n\">device</span><span class=\"o\">=</span><span class=\"s1\">&#39;cuda&#39;</span></span>)</span>"}, {"fullname": "sciterra.vectorization.scibert.SciBERTVectorizer.tokenizer", "modulename": "sciterra.vectorization.scibert", "qualname": "SciBERTVectorizer.tokenizer", "kind": "variable", "doc": "<p></p>\n"}, {"fullname": "sciterra.vectorization.scibert.SciBERTVectorizer.model", "modulename": "sciterra.vectorization.scibert", "qualname": "SciBERTVectorizer.model", "kind": "variable", "doc": "<p></p>\n"}, {"fullname": "sciterra.vectorization.scibert.SciBERTVectorizer.embed_documents", "modulename": "sciterra.vectorization.scibert", "qualname": "SciBERTVectorizer.embed_documents", "kind": "function", "doc": "<p>Embed a list of documents (raw text) into SciBERT vectors, by batching.</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>docs:</strong>  the documents to embed.</li>\n</ul>\n\n<h6 id=\"returns\">Returns:</h6>\n\n<blockquote>\n  <p>a numpy array of shape <code>(num_documents, 768)</code></p>\n</blockquote>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"bp\">self</span>, </span><span class=\"param\"><span class=\"n\">docs</span><span class=\"p\">:</span> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]</span>, </span><span class=\"param\"><span class=\"n\">batch_size</span><span class=\"p\">:</span> <span class=\"nb\">int</span> <span class=\"o\">=</span> <span class=\"mi\">64</span></span><span class=\"return-annotation\">) -> <span class=\"n\">numpy</span><span class=\"o\">.</span><span class=\"n\">ndarray</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.vectorization.vectorizer", "modulename": "sciterra.vectorization.vectorizer", "kind": "module", "doc": "<p>Base class for vectorizing abstracts.</p>\n"}, {"fullname": "sciterra.vectorization.vectorizer.Vectorizer", "modulename": "sciterra.vectorization.vectorizer", "qualname": "Vectorizer", "kind": "class", "doc": "<p></p>\n"}, {"fullname": "sciterra.vectorization.vectorizer.Vectorizer.embed_documents", "modulename": "sciterra.vectorization.vectorizer", "qualname": "Vectorizer.embed_documents", "kind": "function", "doc": "<p>Embed a list of documents into document vectors.</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>docs:</strong>  the documents to embed.</li>\n</ul>\n\n<h6 id=\"returns\">Returns:</h6>\n\n<blockquote>\n  <p>a numpy array of shape <code>(num_documents, embedding_dim)</code></p>\n</blockquote>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"bp\">self</span>, </span><span class=\"param\"><span class=\"n\">docs</span><span class=\"p\">:</span> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]</span></span><span class=\"return-annotation\">) -> <span class=\"n\">numpy</span><span class=\"o\">.</span><span class=\"n\">ndarray</span>:</span></span>", "funcdef": "def"}];
+    /** pdoc search index */const docs = [{"fullname": "sciterra", "modulename": "sciterra", "kind": "module", "doc": "<h1 id=\"sciterra\">sciterra</h1>\n\n<p><a href=\"https://github.com/nathimel/sciterra/actions/workflows/test.yml\"><img src=\"https://github.com/nathimel/sciterra/actions/workflows/test.yml/badge.svg\" alt=\"build\" /></a></p>\n\n<p>Software library to support data-driven analyses of scientific literature.</p>\n\n<p>This library is a reimplementation of Zach Hafen's <a href=\"https://github.com/zhafen/cc\">cc</a> library.</p>\n"}, {"fullname": "sciterra.librarians", "modulename": "sciterra.librarians", "kind": "module", "doc": "<p></p>\n"}, {"fullname": "sciterra.librarians.adslibrarian", "modulename": "sciterra.librarians.adslibrarian", "kind": "module", "doc": "<p></p>\n"}, {"fullname": "sciterra.librarians.adslibrarian.CALL_SIZE", "modulename": "sciterra.librarians.adslibrarian", "qualname": "CALL_SIZE", "kind": "variable", "doc": "<p></p>\n", "default_value": "50"}, {"fullname": "sciterra.librarians.adslibrarian.NUM_ATTEMPTS_PER_QUERY", "modulename": "sciterra.librarians.adslibrarian", "qualname": "NUM_ATTEMPTS_PER_QUERY", "kind": "variable", "doc": "<p></p>\n", "default_value": "10"}, {"fullname": "sciterra.librarians.adslibrarian.QUERY_FIELDS", "modulename": "sciterra.librarians.adslibrarian", "qualname": "QUERY_FIELDS", "kind": "variable", "doc": "<p></p>\n", "default_value": "[&#x27;bibcode&#x27;, &#x27;abstract&#x27;, &#x27;title&#x27;, &#x27;entry_date&#x27;, &#x27;pubdate&#x27;, &#x27;year&#x27;, &#x27;citation_count&#x27;, &#x27;citation&#x27;, &#x27;reference&#x27;, &#x27;identifier&#x27;]"}, {"fullname": "sciterra.librarians.adslibrarian.ALLOWED_EXCEPTIONS", "modulename": "sciterra.librarians.adslibrarian", "qualname": "ALLOWED_EXCEPTIONS", "kind": "variable", "doc": "<p></p>\n", "default_value": "(&lt;class &#x27;ads.exceptions.APIResponseError&#x27;&gt;,)"}, {"fullname": "sciterra.librarians.adslibrarian.EXTERNAL_IDS", "modulename": "sciterra.librarians.adslibrarian", "qualname": "EXTERNAL_IDS", "kind": "variable", "doc": "<p></p>\n", "default_value": "[&#x27;DOI&#x27;, &#x27;arXiv&#x27;, &#x27;bibcode&#x27;]"}, {"fullname": "sciterra.librarians.adslibrarian.ADSLibrarian", "modulename": "sciterra.librarians.adslibrarian", "qualname": "ADSLibrarian", "kind": "class", "doc": "<p></p>\n", "bases": "sciterra.librarians.librarian.Librarian"}, {"fullname": "sciterra.librarians.adslibrarian.ADSLibrarian.bibtex_entry_identifier", "modulename": "sciterra.librarians.adslibrarian", "qualname": "ADSLibrarian.bibtex_entry_identifier", "kind": "function", "doc": "<p>Parse a bibtex entry for a usable identifier for querying ADS (see EXTERNAL_IDS).</p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"bp\">self</span>, </span><span class=\"param\"><span class=\"n\">bibtex_entry</span><span class=\"p\">:</span> <span class=\"nb\">dict</span></span><span class=\"return-annotation\">) -> <span class=\"nb\">str</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.librarians.adslibrarian.ADSLibrarian.get_publications", "modulename": "sciterra.librarians.adslibrarian", "qualname": "ADSLibrarian.get_publications", "kind": "function", "doc": "<p>Use the NASA ADS python package, which calls the ADS API to retrieve publications.</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>bibcodes:</strong>  the str ids required for querying. While it is possible to use one of EXTERNAL_IDS to query, if ADS returns a paper at all, it will return a bibcode, so it is preferred to use bibcodes.</li>\n<li><strong>n_attempts_per_query:</strong>  Number of attempts to access the API per query. Useful when experiencing connection issues.</li>\n<li><strong>call_size:</strong>  maximum number of papers to call API for in one query; if less than <code>len(bibcodes)</code>, chunking will be performed.</li>\n<li><strong>convert:</strong>  whether to convert each resulting ADS Article to sciterra Publications (True by default).</li>\n</ul>\n\n<h6 id=\"returns\">Returns:</h6>\n\n<blockquote>\n  <p>the list of publications (or Papers)</p>\n</blockquote>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"bp\">self</span>,</span><span class=\"param\">\t<span class=\"n\">bibcodes</span><span class=\"p\">:</span> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]</span>,</span><span class=\"param\">\t<span class=\"o\">*</span><span class=\"n\">args</span>,</span><span class=\"param\">\t<span class=\"n\">call_size</span><span class=\"p\">:</span> <span class=\"nb\">int</span> <span class=\"o\">=</span> <span class=\"mi\">50</span>,</span><span class=\"param\">\t<span class=\"n\">n_attempts_per_query</span><span class=\"p\">:</span> <span class=\"nb\">int</span> <span class=\"o\">=</span> <span class=\"mi\">10</span>,</span><span class=\"param\">\t<span class=\"n\">convert</span><span class=\"p\">:</span> <span class=\"nb\">bool</span> <span class=\"o\">=</span> <span class=\"kc\">True</span>,</span><span class=\"param\">\t<span class=\"o\">**</span><span class=\"n\">kwargs</span></span><span class=\"return-annotation\">) -> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">publication</span><span class=\"o\">.</span><span class=\"n\">Publication</span><span class=\"p\">]</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.librarians.adslibrarian.ADSLibrarian.convert_publication", "modulename": "sciterra.librarians.adslibrarian", "qualname": "ADSLibrarian.convert_publication", "kind": "function", "doc": "<p>Convert a ADS Article object to a sciterra.publication.Publication.</p>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"bp\">self</span>,</span><span class=\"param\">\t<span class=\"n\">article</span><span class=\"p\">:</span> <span class=\"n\">ads</span><span class=\"o\">.</span><span class=\"n\">search</span><span class=\"o\">.</span><span class=\"n\">Article</span>,</span><span class=\"param\">\t<span class=\"o\">*</span><span class=\"n\">args</span>,</span><span class=\"param\">\t<span class=\"o\">**</span><span class=\"n\">kwargs</span></span><span class=\"return-annotation\">) -> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">publication</span><span class=\"o\">.</span><span class=\"n\">Publication</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.librarians.librarian", "modulename": "sciterra.librarians.librarian", "kind": "module", "doc": "<p></p>\n"}, {"fullname": "sciterra.librarians.librarian.Librarian", "modulename": "sciterra.librarians.librarian", "qualname": "Librarian", "kind": "class", "doc": "<p></p>\n"}, {"fullname": "sciterra.librarians.librarian.Librarian.bibtex_entry_identifier", "modulename": "sciterra.librarians.librarian", "qualname": "Librarian.bibtex_entry_identifier", "kind": "function", "doc": "<p>Parse a bibtex entry for a usable unique identifier appropriate to the API.</p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"bp\">self</span>, </span><span class=\"param\"><span class=\"n\">bibtex_entry</span><span class=\"p\">:</span> <span class=\"nb\">dict</span></span><span class=\"return-annotation\">) -> <span class=\"nb\">str</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.librarians.librarian.Librarian.get_publications", "modulename": "sciterra.librarians.librarian", "qualname": "Librarian.get_publications", "kind": "function", "doc": "<p>Call an API and retrieve the publications corresponding to str identifiers.</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>n_attempts_per_query:</strong>  Number of attempts to access the API per query. Useful when experiencing connection issues.</li>\n<li><strong>call_size:</strong>  (int): maximum number of papers to call API for in one query; if less than <code>len(paper_ids)</code>, chunking will be performed.</li>\n</ul>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"bp\">self</span>,</span><span class=\"param\">\t<span class=\"n\">identifiers</span><span class=\"p\">:</span> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]</span>,</span><span class=\"param\">\t<span class=\"o\">*</span><span class=\"n\">args</span>,</span><span class=\"param\">\t<span class=\"n\">call_size</span><span class=\"p\">:</span> <span class=\"nb\">int</span> <span class=\"o\">=</span> <span class=\"kc\">None</span>,</span><span class=\"param\">\t<span class=\"n\">n_attempts_per_query</span><span class=\"p\">:</span> <span class=\"nb\">int</span> <span class=\"o\">=</span> <span class=\"kc\">None</span>,</span><span class=\"param\">\t<span class=\"n\">convert</span><span class=\"p\">:</span> <span class=\"nb\">bool</span> <span class=\"o\">=</span> <span class=\"kc\">True</span>,</span><span class=\"param\">\t<span class=\"o\">**</span><span class=\"n\">kwargs</span></span><span class=\"return-annotation\">) -> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">publication</span><span class=\"o\">.</span><span class=\"n\">Publication</span><span class=\"p\">]</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.librarians.librarian.Librarian.convert_publication", "modulename": "sciterra.librarians.librarian", "qualname": "Librarian.convert_publication", "kind": "function", "doc": "<p>Convert an API-specific resulting publication data structure into a sciterra Publication object.</p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"bp\">self</span>, </span><span class=\"param\"><span class=\"n\">pub</span><span class=\"p\">:</span> <span class=\"n\">Any</span>, </span><span class=\"param\"><span class=\"o\">*</span><span class=\"n\">args</span>, </span><span class=\"param\"><span class=\"o\">**</span><span class=\"n\">kwargs</span></span><span class=\"return-annotation\">):</span></span>", "funcdef": "def"}, {"fullname": "sciterra.librarians.librarian.Librarian.convert_publications", "modulename": "sciterra.librarians.librarian", "qualname": "Librarian.convert_publications", "kind": "function", "doc": "<p>Convet a list of API-specific results to sciterra Publications, possibly using multiprocessing.</p>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"bp\">self</span>,</span><span class=\"param\">\t<span class=\"n\">papers</span><span class=\"p\">:</span> <span class=\"nb\">list</span>,</span><span class=\"param\">\t<span class=\"o\">*</span><span class=\"n\">args</span>,</span><span class=\"param\">\t<span class=\"n\">multiprocess</span><span class=\"p\">:</span> <span class=\"nb\">bool</span> <span class=\"o\">=</span> <span class=\"kc\">True</span>,</span><span class=\"param\">\t<span class=\"n\">num_processes</span><span class=\"o\">=</span><span class=\"mi\">6</span>,</span><span class=\"param\">\t<span class=\"o\">**</span><span class=\"n\">kwargs</span></span><span class=\"return-annotation\">) -> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">publication</span><span class=\"o\">.</span><span class=\"n\">Publication</span><span class=\"p\">]</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.librarians.s2librarian", "modulename": "sciterra.librarians.s2librarian", "kind": "module", "doc": "<p></p>\n"}, {"fullname": "sciterra.librarians.s2librarian.QUERY_FIELDS", "modulename": "sciterra.librarians.s2librarian", "qualname": "QUERY_FIELDS", "kind": "variable", "doc": "<p></p>\n", "default_value": "[&#x27;year&#x27;, &#x27;abstract&#x27;, &#x27;title&#x27;, &#x27;externalIds&#x27;, &#x27;citationCount&#x27;, &#x27;url&#x27;, &#x27;citations.externalIds&#x27;, &#x27;citations.url&#x27;, &#x27;references.externalIds&#x27;, &#x27;references.url&#x27;, &#x27;citationStyles&#x27;, &#x27;publicationDate&#x27;]"}, {"fullname": "sciterra.librarians.s2librarian.EXTERNAL_IDS", "modulename": "sciterra.librarians.s2librarian", "qualname": "EXTERNAL_IDS", "kind": "variable", "doc": "<p></p>\n", "default_value": "[&#x27;DOI&#x27;, &#x27;ArXiv&#x27;, &#x27;CorpusId&#x27;, &#x27;MAG&#x27;, &#x27;ACL&#x27;, &#x27;PubMed&#x27;, &#x27;Medline&#x27;, &#x27;PubMedCentral&#x27;, &#x27;DBLP&#x27;, &#x27;URL&#x27;]"}, {"fullname": "sciterra.librarians.s2librarian.STORE_FIELDS", "modulename": "sciterra.librarians.s2librarian", "qualname": "STORE_FIELDS", "kind": "variable", "doc": "<p></p>\n", "default_value": "[&#x27;abstract&#x27;, &#x27;externalIds&#x27;, &#x27;url&#x27;, &#x27;citations&#x27;, &#x27;references&#x27;, &#x27;citationStyles&#x27;, &#x27;publicationDate&#x27;]"}, {"fullname": "sciterra.librarians.s2librarian.ATTRS_TO_SAVE", "modulename": "sciterra.librarians.s2librarian", "qualname": "ATTRS_TO_SAVE", "kind": "variable", "doc": "<p></p>\n", "default_value": "[&#x27;paper&#x27;, &#x27;abstract&#x27;, &#x27;citations&#x27;, &#x27;references&#x27;, &#x27;bibcode&#x27;, &#x27;entry_date&#x27;, &#x27;notes&#x27;, &#x27;unofficial_flag&#x27;, &#x27;citation&#x27;, &#x27;stemmed_content_words&#x27;]"}, {"fullname": "sciterra.librarians.s2librarian.ALLOWED_EXCEPTIONS", "modulename": "sciterra.librarians.s2librarian", "qualname": "ALLOWED_EXCEPTIONS", "kind": "variable", "doc": "<p></p>\n", "default_value": "(&lt;class &#x27;Exception&#x27;&gt;, &lt;class &#x27;requests.exceptions.ReadTimeout&#x27;&gt;, &lt;class &#x27;requests.exceptions.ConnectionError&#x27;&gt;, &lt;class &#x27;semanticscholar.SemanticScholarException.ObjectNotFoundException&#x27;&gt;)"}, {"fullname": "sciterra.librarians.s2librarian.CALL_SIZE", "modulename": "sciterra.librarians.s2librarian", "qualname": "CALL_SIZE", "kind": "variable", "doc": "<p></p>\n", "default_value": "10"}, {"fullname": "sciterra.librarians.s2librarian.NUM_ATTEMPTS_PER_QUERY", "modulename": "sciterra.librarians.s2librarian", "qualname": "NUM_ATTEMPTS_PER_QUERY", "kind": "variable", "doc": "<p></p>\n", "default_value": "50"}, {"fullname": "sciterra.librarians.s2librarian.SemanticScholarLibrarian", "modulename": "sciterra.librarians.s2librarian", "qualname": "SemanticScholarLibrarian", "kind": "class", "doc": "<p></p>\n", "bases": "sciterra.librarians.librarian.Librarian"}, {"fullname": "sciterra.librarians.s2librarian.SemanticScholarLibrarian.sch", "modulename": "sciterra.librarians.s2librarian", "qualname": "SemanticScholarLibrarian.sch", "kind": "variable", "doc": "<p></p>\n"}, {"fullname": "sciterra.librarians.s2librarian.SemanticScholarLibrarian.bibtex_entry_identifier", "modulename": "sciterra.librarians.s2librarian", "qualname": "SemanticScholarLibrarian.bibtex_entry_identifier", "kind": "function", "doc": "<p>Parse a bibtex entry for a usable identifier for querying SemanticScholar (see EXTERNAL_IDS).</p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"bp\">self</span>, </span><span class=\"param\"><span class=\"n\">bibtex_entry</span><span class=\"p\">:</span> <span class=\"nb\">dict</span></span><span class=\"return-annotation\">) -> <span class=\"nb\">str</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.librarians.s2librarian.SemanticScholarLibrarian.get_publications", "modulename": "sciterra.librarians.s2librarian", "qualname": "SemanticScholarLibrarian.get_publications", "kind": "function", "doc": "<p>Use the (unofficial) S2 python package, which calls the Semantic Scholar API to retrieve publications from the S2AG.</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>paper_ids:</strong>  the str ids required for querying. While it is possible to use one of EXTERNAL_IDS to query, if SemanticScholar returns a paper at all, it will return a paperId, so it is preferred to use paperIds.</li>\n<li><strong>n_attempts_per_query:</strong>  Number of attempts to access the API per query. Useful when experiencing connection issues.</li>\n<li><strong>call_size:</strong>  maximum number of papers to call API for in one query; if less than <code>len(paper_ids)</code>, chunking will be performed. Maximum that S2 allows is 500.</li>\n<li><strong>convert:</strong>  whether to convert each resulting SemanticScholar Paper to sciterra Publications (True by default).</li>\n</ul>\n\n<h6 id=\"returns\">Returns:</h6>\n\n<blockquote>\n  <p>the list of publications (or Papers)</p>\n</blockquote>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"bp\">self</span>,</span><span class=\"param\">\t<span class=\"n\">paper_ids</span><span class=\"p\">:</span> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]</span>,</span><span class=\"param\">\t<span class=\"o\">*</span><span class=\"n\">args</span>,</span><span class=\"param\">\t<span class=\"n\">call_size</span><span class=\"p\">:</span> <span class=\"nb\">int</span> <span class=\"o\">=</span> <span class=\"mi\">10</span>,</span><span class=\"param\">\t<span class=\"n\">n_attempts_per_query</span><span class=\"p\">:</span> <span class=\"nb\">int</span> <span class=\"o\">=</span> <span class=\"mi\">50</span>,</span><span class=\"param\">\t<span class=\"n\">convert</span><span class=\"p\">:</span> <span class=\"nb\">bool</span> <span class=\"o\">=</span> <span class=\"kc\">True</span>,</span><span class=\"param\">\t<span class=\"o\">**</span><span class=\"n\">kwargs</span></span><span class=\"return-annotation\">) -> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">publication</span><span class=\"o\">.</span><span class=\"n\">Publication</span><span class=\"p\">]</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.librarians.s2librarian.SemanticScholarLibrarian.convert_publication", "modulename": "sciterra.librarians.s2librarian", "qualname": "SemanticScholarLibrarian.convert_publication", "kind": "function", "doc": "<p>Convert a SemanticScholar Paper object to a sciterra.publication.Publication.</p>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"bp\">self</span>,</span><span class=\"param\">\t<span class=\"n\">paper</span><span class=\"p\">:</span> <span class=\"n\">semanticscholar</span><span class=\"o\">.</span><span class=\"n\">Paper</span><span class=\"o\">.</span><span class=\"n\">Paper</span>,</span><span class=\"param\">\t<span class=\"o\">*</span><span class=\"n\">args</span>,</span><span class=\"param\">\t<span class=\"o\">**</span><span class=\"n\">kwargs</span></span><span class=\"return-annotation\">) -> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">publication</span><span class=\"o\">.</span><span class=\"n\">Publication</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.librarians.s2librarian.SemanticScholarLibrarian.get_papers", "modulename": "sciterra.librarians.s2librarian", "qualname": "SemanticScholarLibrarian.get_papers", "kind": "function", "doc": "<p>Custom function for calling the S2 API that doesn't fail on empty results.</p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"bp\">self</span>, </span><span class=\"param\"><span class=\"n\">paper_ids</span><span class=\"p\">:</span> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]</span>, </span><span class=\"param\"><span class=\"n\">fields</span><span class=\"p\">:</span> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]</span></span><span class=\"return-annotation\">):</span></span>", "funcdef": "def"}, {"fullname": "sciterra.librarians.s2librarian.SemanticScholarLibrarian.get_paper", "modulename": "sciterra.librarians.s2librarian", "qualname": "SemanticScholarLibrarian.get_paper", "kind": "function", "doc": "<p>Custom function for calling the S2 API that doesn't fail on empty results.</p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"bp\">self</span>, </span><span class=\"param\"><span class=\"n\">paper_id</span><span class=\"p\">:</span> <span class=\"nb\">str</span>, </span><span class=\"param\"><span class=\"n\">fields</span><span class=\"p\">:</span> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]</span></span><span class=\"return-annotation\">):</span></span>", "funcdef": "def"}, {"fullname": "sciterra.mapping", "modulename": "sciterra.mapping", "kind": "module", "doc": "<p>Classes for constructing maps of scientific literature.</p>\n\n<p>The <code>sciterra.mapping.atlas</code> submodule contains the basic data structure, the Atlas.</p>\n\n<p>The <code>sciterra.mapping.cartography</code> submodule contains functionality for manipulating an Atlas.</p>\n"}, {"fullname": "sciterra.mapping.atlas", "modulename": "sciterra.mapping.atlas", "kind": "module", "doc": "<p>Main container object for a large library of publications.</p>\n"}, {"fullname": "sciterra.mapping.atlas.Atlas", "modulename": "sciterra.mapping.atlas", "qualname": "Atlas", "kind": "class", "doc": "<p>Data structure for storing publications.</p>\n\n<p><code>self.projection</code>: the Projection object containing the embeddings of all publications and their mapping to str identifiers.</p>\n\n<p><code>self.bad_ids</code>: a list of identifiers that have failed for some reason or other during an expansion, and will be excluded from subsequent expansions.</p>\n\n<p><code>self.history</code>: dict of the form {'pubs_per_update': list[list[str]], 'kernel_size': np.ndarray of ints of shape <code>(num_pubs, last_update)</code> where last_update &lt;= the total number of expansions performed.}</p>\n"}, {"fullname": "sciterra.mapping.atlas.Atlas.__init__", "modulename": "sciterra.mapping.atlas", "qualname": "Atlas.__init__", "kind": "function", "doc": "<p></p>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"n\">publications</span><span class=\"p\">:</span> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">publication</span><span class=\"o\">.</span><span class=\"n\">Publication</span><span class=\"p\">]</span>,</span><span class=\"param\">\t<span class=\"n\">projection</span><span class=\"p\">:</span> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">vectorization</span><span class=\"o\">.</span><span class=\"n\">projection</span><span class=\"o\">.</span><span class=\"n\">Projection</span> <span class=\"o\">=</span> <span class=\"kc\">None</span>,</span><span class=\"param\">\t<span class=\"n\">bad_ids</span><span class=\"p\">:</span> <span class=\"nb\">set</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]</span> <span class=\"o\">=</span> <span class=\"nb\">set</span><span class=\"p\">()</span>,</span><span class=\"param\">\t<span class=\"n\">history</span><span class=\"p\">:</span> <span class=\"nb\">dict</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">,</span> <span class=\"n\">typing</span><span class=\"o\">.</span><span class=\"n\">Any</span><span class=\"p\">]</span> <span class=\"o\">=</span> <span class=\"p\">{}</span></span>)</span>"}, {"fullname": "sciterra.mapping.atlas.Atlas.publications", "modulename": "sciterra.mapping.atlas", "qualname": "Atlas.publications", "kind": "variable", "doc": "<p></p>\n", "annotation": ": dict[str, sciterra.mapping.publication.Publication]"}, {"fullname": "sciterra.mapping.atlas.Atlas.projection", "modulename": "sciterra.mapping.atlas", "qualname": "Atlas.projection", "kind": "variable", "doc": "<p></p>\n"}, {"fullname": "sciterra.mapping.atlas.Atlas.bad_ids", "modulename": "sciterra.mapping.atlas", "qualname": "Atlas.bad_ids", "kind": "variable", "doc": "<p></p>\n"}, {"fullname": "sciterra.mapping.atlas.Atlas.history", "modulename": "sciterra.mapping.atlas", "qualname": "Atlas.history", "kind": "variable", "doc": "<p></p>\n"}, {"fullname": "sciterra.mapping.atlas.Atlas.ids", "modulename": "sciterra.mapping.atlas", "qualname": "Atlas.ids", "kind": "function", "doc": "<p>Get a list of all the publication identifiers in the Atlas.</p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"bp\">self</span></span><span class=\"return-annotation\">) -> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.mapping.atlas.Atlas.save", "modulename": "sciterra.mapping.atlas", "qualname": "Atlas.save", "kind": "function", "doc": "<p>Write the Atlas to a directory containing a .pkl binary for each attribute.</p>\n\n<p>Warnings cannot be silenced.</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>atlas_dirpath:</strong>  path of directory to save files to.</li>\n</ul>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"bp\">self</span>, </span><span class=\"param\"><span class=\"n\">atlas_dirpath</span><span class=\"p\">:</span> <span class=\"nb\">str</span>, </span><span class=\"param\"><span class=\"n\">overwrite</span><span class=\"p\">:</span> <span class=\"nb\">bool</span> <span class=\"o\">=</span> <span class=\"kc\">True</span></span><span class=\"return-annotation\">) -> <span class=\"kc\">None</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.mapping.atlas.Atlas.load", "modulename": "sciterra.mapping.atlas", "qualname": "Atlas.load", "kind": "function", "doc": "<p>Load an Atlas object from a directory containing the .pkl binary for each attribute.</p>\n\n<p>Warnings cannot be silenced.</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>atlas_dirpath:</strong>  directory where .pkl binaries will be read from</li>\n</ul>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"bp\">cls</span>, </span><span class=\"param\"><span class=\"n\">atlas_dirpath</span><span class=\"p\">:</span> <span class=\"nb\">str</span></span><span class=\"return-annotation\">):</span></span>", "funcdef": "def"}, {"fullname": "sciterra.mapping.cartography", "modulename": "sciterra.mapping.cartography", "kind": "module", "doc": "<p>Functions for manipulating an atlas based on the document embeddings of the abstracts of its publications.</p>\n"}, {"fullname": "sciterra.mapping.cartography.batch_cospsi_matrix", "modulename": "sciterra.mapping.cartography", "qualname": "batch_cospsi_matrix", "kind": "function", "doc": "<p>Batch-process a pairwise cosine similarity matrix between embeddings.</p>\n\n<p>In order to avoid memory errors (e.g. bus error, segfaults) resulting from too large arrays, we batch process the construction of the cospsi_matrix.</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>embeddings:</strong>  a 1D numpy array of embeddings</li>\n</ul>\n\n<h6 id=\"returns\">Returns:</h6>\n\n<blockquote>\n  <p>cosine_similarities: a 2D numpy array representing the pairwise cosine similarity between each embedding</p>\n</blockquote>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"n\">embeddings</span><span class=\"p\">:</span> <span class=\"n\">numpy</span><span class=\"o\">.</span><span class=\"n\">ndarray</span></span><span class=\"return-annotation\">) -> <span class=\"n\">numpy</span><span class=\"o\">.</span><span class=\"n\">ndarray</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.mapping.cartography.Cartographer", "modulename": "sciterra.mapping.cartography", "qualname": "Cartographer", "kind": "class", "doc": "<p>A basic wrapper for obtaining and updating atlas projections.</p>\n\n<p><code>self.librarian</code>: the Librarian object used to query a bibliographic database API.\n<code>self.vectorizer</code>: the Vectorizer object used to get a document embedding for each abstract\n<code>self.pubs_per_update</code>: a list of lists of publication str ids, representing the publications that exist at each time step / expansion update.\n<code>self.update_history</code>: an np.array of ints representing when publications were added. A value of -2 indicates no record of being added.</p>\n"}, {"fullname": "sciterra.mapping.cartography.Cartographer.__init__", "modulename": "sciterra.mapping.cartography", "qualname": "Cartographer.__init__", "kind": "function", "doc": "<p></p>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"n\">librarian</span><span class=\"p\">:</span> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">librarians</span><span class=\"o\">.</span><span class=\"n\">librarian</span><span class=\"o\">.</span><span class=\"n\">Librarian</span> <span class=\"o\">=</span> <span class=\"kc\">None</span>,</span><span class=\"param\">\t<span class=\"n\">vectorizer</span><span class=\"p\">:</span> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">vectorization</span><span class=\"o\">.</span><span class=\"n\">vectorizer</span><span class=\"o\">.</span><span class=\"n\">Vectorizer</span> <span class=\"o\">=</span> <span class=\"kc\">None</span></span>)</span>"}, {"fullname": "sciterra.mapping.cartography.Cartographer.librarian", "modulename": "sciterra.mapping.cartography", "qualname": "Cartographer.librarian", "kind": "variable", "doc": "<p></p>\n"}, {"fullname": "sciterra.mapping.cartography.Cartographer.vectorizer", "modulename": "sciterra.mapping.cartography", "qualname": "Cartographer.vectorizer", "kind": "variable", "doc": "<p></p>\n"}, {"fullname": "sciterra.mapping.cartography.Cartographer.pubs_per_update", "modulename": "sciterra.mapping.cartography", "qualname": "Cartographer.pubs_per_update", "kind": "variable", "doc": "<p></p>\n", "annotation": ": list[list[str]]"}, {"fullname": "sciterra.mapping.cartography.Cartographer.update_history", "modulename": "sciterra.mapping.cartography", "qualname": "Cartographer.update_history", "kind": "variable", "doc": "<p></p>\n", "annotation": ": numpy.ndarray"}, {"fullname": "sciterra.mapping.cartography.Cartographer.bibtex_to_atlas", "modulename": "sciterra.mapping.cartography", "qualname": "Cartographer.bibtex_to_atlas", "kind": "function", "doc": "<p>Convert a bibtex file to an atlas, by parsing each entry for an identifier, and querying an API for publications using <code>self.librarian</code>.</p>\n\n<p>NOTE: the identifiers in the corresponding atlas will be API-specific ids; there is no relationship between the parsed id used to query papers (e.g. 'DOI:XYZ' in the case of SemanticScholar) and the resulting identifier associated with the resulting Publication object, (a paperId, a bibcode, etc.) Therefore, the purpose of using the <code>bibtex_to_atlas</code> method is primarily for initializing literature exploration in a human-readable way. If you want to obtain as many publications as identifiers supplied, you need to use <code>get_publications</code>.</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>bibtex_fp:</strong>  the filepath where the bibtex file is saved.</li>\n<li>args and kwargs are passed to <code>get_publications</code>.</li>\n</ul>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"bp\">self</span>, </span><span class=\"param\"><span class=\"n\">bibtex_fp</span><span class=\"p\">:</span> <span class=\"nb\">str</span>, </span><span class=\"param\"><span class=\"o\">*</span><span class=\"n\">args</span>, </span><span class=\"param\"><span class=\"o\">**</span><span class=\"n\">kwargs</span></span><span class=\"return-annotation\">) -> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">atlas</span><span class=\"o\">.</span><span class=\"n\">Atlas</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.mapping.cartography.Cartographer.project", "modulename": "sciterra.mapping.cartography", "qualname": "Cartographer.project", "kind": "function", "doc": "<p>Update an atlas with its projection, i.e. the document embeddings for all publications using <code>self.vectorizer</code>, removing publications with no abstracts.</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>atl:</strong>  the Atlas containing publications to project to document embeddings</li>\n</ul>\n\n<h6 id=\"returns\">Returns:</h6>\n\n<blockquote>\n  <p>the updated atlas containing all nonempty-abstract-containing publications and their projection</p>\n</blockquote>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"bp\">self</span>,</span><span class=\"param\">\t<span class=\"n\">atl</span><span class=\"p\">:</span> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">atlas</span><span class=\"o\">.</span><span class=\"n\">Atlas</span>,</span><span class=\"param\">\t<span class=\"o\">**</span><span class=\"n\">kwargs</span></span><span class=\"return-annotation\">) -> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">atlas</span><span class=\"o\">.</span><span class=\"n\">Atlas</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.mapping.cartography.Cartographer.expand", "modulename": "sciterra.mapping.cartography", "qualname": "Cartographer.expand", "kind": "function", "doc": "<p>Expand an atlas by retrieving a list of publications resulting from traversal of the citation network.</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>atl:</strong>  the atlas containing the region to expand</li>\n<li><strong>center:</strong>  (if given) center the search on this publication, preferentially searching related publications.</li>\n<li><strong>n_pubs_max:</strong>  maximum number of publications allowed in the expansion.</li>\n<li><strong>n_sources_max:</strong>  maximum number of publications (already in the atlas) to draw references and citations from.</li>\n<li><strong>record_pubs_per_update:</strong>  whether to track all the publications that exist in the resulting atlas to <code>self.pubs_per_update</code>. This should only be set to <code>True</code> when you need to later filter by degree of convergence of the atlas.</li>\n</ul>\n\n<h6 id=\"returns\">Returns:</h6>\n\n<blockquote>\n  <p>atl_expanded: the expanded atlas</p>\n</blockquote>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"bp\">self</span>,</span><span class=\"param\">\t<span class=\"n\">atl</span><span class=\"p\">:</span> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">atlas</span><span class=\"o\">.</span><span class=\"n\">Atlas</span>,</span><span class=\"param\">\t<span class=\"o\">*</span><span class=\"n\">args</span>,</span><span class=\"param\">\t<span class=\"n\">center</span><span class=\"p\">:</span> <span class=\"nb\">str</span> <span class=\"o\">=</span> <span class=\"kc\">None</span>,</span><span class=\"param\">\t<span class=\"n\">n_pubs_max</span><span class=\"p\">:</span> <span class=\"nb\">int</span> <span class=\"o\">=</span> <span class=\"mi\">4000</span>,</span><span class=\"param\">\t<span class=\"n\">n_sources_max</span><span class=\"p\">:</span> <span class=\"nb\">int</span> <span class=\"o\">=</span> <span class=\"kc\">None</span>,</span><span class=\"param\">\t<span class=\"n\">record_pubs_per_update</span><span class=\"p\">:</span> <span class=\"nb\">bool</span> <span class=\"o\">=</span> <span class=\"kc\">False</span>,</span><span class=\"param\">\t<span class=\"o\">**</span><span class=\"n\">kwargs</span></span><span class=\"return-annotation\">) -> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">atlas</span><span class=\"o\">.</span><span class=\"n\">Atlas</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.mapping.cartography.Cartographer.filter_by_attributes", "modulename": "sciterra.mapping.cartography", "qualname": "Cartographer.filter_by_attributes", "kind": "function", "doc": "<p>Update an atlas by dropping publications (and corresponding data in projection) when certain fields are empty.</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>atl:</strong>  the Atlas containing publications to filter</li>\n<li><strong>attributes:</strong>  the list of attributes to filter publications from the atlas IF any of items are None for a publication. For example, if attributes = [\"abstract\"], then all publications <code>pub</code> such that <code>pub.abstract is None</code> is True will be removed from the atlas, along with the corresponding data in the projection.</li>\n<li><strong>record_pubs_per_update:</strong>  whether to track all the publications that exist in the resulting atlas to <code>self.pubs_per_update</code>. This should only be set to <code>True</code> when you need to later filter by degree of convergence of the atlas. This is an important parameter because <code>self.filter</code> is called in <code>self.project</code>, which typically is called after <code>self.expand</code>, where we pass in the same parameter.</li>\n</ul>\n\n<h6 id=\"returns\">Returns:</h6>\n\n<blockquote>\n  <p>the filtered atlas</p>\n</blockquote>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"bp\">self</span>,</span><span class=\"param\">\t<span class=\"n\">atl</span><span class=\"p\">:</span> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">atlas</span><span class=\"o\">.</span><span class=\"n\">Atlas</span>,</span><span class=\"param\">\t<span class=\"n\">attributes</span><span class=\"p\">:</span> <span class=\"nb\">list</span> <span class=\"o\">=</span> <span class=\"p\">[</span><span class=\"s1\">&#39;abstract&#39;</span><span class=\"p\">,</span> <span class=\"s1\">&#39;publication_date&#39;</span><span class=\"p\">]</span>,</span><span class=\"param\">\t<span class=\"n\">record_pubs_per_update</span><span class=\"o\">=</span><span class=\"kc\">False</span>,</span><span class=\"param\">\t<span class=\"o\">**</span><span class=\"n\">kwargs</span></span><span class=\"return-annotation\">) -> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">atlas</span><span class=\"o\">.</span><span class=\"n\">Atlas</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.mapping.cartography.Cartographer.filter_by_ids", "modulename": "sciterra.mapping.cartography", "qualname": "Cartographer.filter_by_ids", "kind": "function", "doc": "<p>Update an atlas by dropping publications (and corresponding data in projection).</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>atl:</strong>  the Atlas containing publications to filter</li>\n<li><strong>keep_ids:</strong>  the list of publication ids to NOT filter; all other publications in <code>atl</code> not matching one of these ids will be removed.</li>\n<li><strong>drop_ids:</strong>  the list of publications to filter; all publications in <code>atl</code> matching one of these ids will be removed.</li>\n</ul>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"bp\">self</span>,</span><span class=\"param\">\t<span class=\"n\">atl</span><span class=\"p\">:</span> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">atlas</span><span class=\"o\">.</span><span class=\"n\">Atlas</span>,</span><span class=\"param\">\t<span class=\"n\">keep_ids</span><span class=\"p\">:</span> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]</span> <span class=\"o\">=</span> <span class=\"kc\">None</span>,</span><span class=\"param\">\t<span class=\"n\">drop_ids</span><span class=\"p\">:</span> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]</span> <span class=\"o\">=</span> <span class=\"kc\">None</span></span><span class=\"return-annotation\">) -> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">atlas</span><span class=\"o\">.</span><span class=\"n\">Atlas</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.mapping.cartography.Cartographer.track", "modulename": "sciterra.mapping.cartography", "qualname": "Cartographer.track", "kind": "function", "doc": "<p>Overwrite the data associated with tracking degree of convergence of publications in an atlas over multiple expansions. N.B.: the atlas must be fully projected, or else <code>converged_kernel_size</code> will raise a KeyError.</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>atl:</strong>  the Atlas that will be updated by overwriting <code>Atlas.history</code></li>\n</ul>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"bp\">self</span>,</span><span class=\"param\">\t<span class=\"n\">atl</span><span class=\"p\">:</span> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">atlas</span><span class=\"o\">.</span><span class=\"n\">Atlas</span>,</span><span class=\"param\">\t<span class=\"n\">pubs</span><span class=\"p\">:</span> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]</span> <span class=\"o\">=</span> <span class=\"kc\">None</span>,</span><span class=\"param\">\t<span class=\"n\">pubs_per_update</span><span class=\"p\">:</span> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]]</span> <span class=\"o\">=</span> <span class=\"kc\">None</span></span><span class=\"return-annotation\">) -> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">atlas</span><span class=\"o\">.</span><span class=\"n\">Atlas</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.mapping.cartography.Cartographer.record_update_history", "modulename": "sciterra.mapping.cartography", "qualname": "Cartographer.record_update_history", "kind": "function", "doc": "<p>Record when publications were added, by updating atl.update_history.</p>\n\n<p>atl.update_history is a np.array of ints representing when publications were added. A value of -2 indicates no record of being added.</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>pubs:</strong>  a list of str ids corresponding to publications at the final update in the update history. By default <code>None</code>, and <code>self.pubs_per_update[-1]</code> will be used.</li>\n<li><strong>pubs_per_update:</strong>  a list of which publications existed at which iteration, with the index of the overall list corresponding to the iteration the publication was added. By default <code>None</code>, and <code>self.pubs_per_update</code> will be used.</li>\n</ul>\n\n<h6 id=\"updates\">Updates:</h6>\n\n<blockquote>\n  <p><code>self.update_history</code>: an np.array of ints representing when publications were added. A value of -2 indicates no record of being added.</p>\n</blockquote>\n\n<h6 id=\"returns\">Returns:</h6>\n\n<blockquote>\n  <p><code>None</code></p>\n</blockquote>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"bp\">self</span>,</span><span class=\"param\">\t<span class=\"n\">pubs</span><span class=\"p\">:</span> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]</span> <span class=\"o\">=</span> <span class=\"kc\">None</span>,</span><span class=\"param\">\t<span class=\"n\">pubs_per_update</span><span class=\"p\">:</span> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]]</span> <span class=\"o\">=</span> <span class=\"kc\">None</span></span><span class=\"return-annotation\">) -> <span class=\"kc\">None</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.mapping.cartography.Cartographer.converged_kernel_size", "modulename": "sciterra.mapping.cartography", "qualname": "Cartographer.converged_kernel_size", "kind": "function", "doc": "<p>Calculate the largest size of the kernel that's converged (at differing levels of convergence) for each publication in a sample at each update.</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>atl:</strong>  Atlas containing publications; for each publication we compute the largest converged kernel size at each update</li>\n</ul>\n\n<h6 id=\"returns\">Returns:</h6>\n\n<blockquote>\n  <p>kernel_size: an array of ints of shape <code>(num_pubs, max_update)</code> representing the kernel size for converged kernels.\n      - The first column indicates the largest kernel size that hasn't changed since the beginning,\n      - The second column indicates the largest kernel size that hasn't changed since the first update,\n      - etc. for the nth column.</p>\n</blockquote>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"bp\">self</span>, </span><span class=\"param\"><span class=\"n\">atl</span><span class=\"p\">:</span> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">atlas</span><span class=\"o\">.</span><span class=\"n\">Atlas</span></span><span class=\"return-annotation\">) -> <span class=\"n\">numpy</span><span class=\"o\">.</span><span class=\"n\">ndarray</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.mapping.cartography.Cartographer.measure_topography", "modulename": "sciterra.mapping.cartography", "qualname": "Cartographer.measure_topography", "kind": "function", "doc": "<p>Measure topographic properties of all publications relative to prior\npublications.</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>atl:</strong>  the Atlas to measure</li>\n<li><strong>publication_indices:</strong>  an np.ndarray of ints representing the indices of publications in the Atlas projection to measure</li>\n<li><p><strong>metrics:</strong>  A list of strings representing the metrics to use. Options are...\nconstant_asymmetry: The asymmetry of a publication $p_i$ w.r.t the entire atlas ${ p_j \\forall j \\in {1, ..., k} } where $k$ is the length of the atlas</p>\n\n<p>$| \\sum_{j}^{k-1}( p_i - p_j ) |$</p>\n\n<p>kernel_constant_asymmetry: The asymmetry of a publication w.r.t. its kernel, { p_j for all j in {1, ..., k} } where k is <code>kernel_size</code>, i.e. the k nearest neighbors.</p>\n\n<p>density: the density of a publication's surrounding area, estimated by a heuristic inspired by mass / volume = k publications divided by the minimum arc length enclosing the furthest publication.</p>\n\n<p>$\\frac{ k }{ smoothing_length(k) }$</p>\n\n<p>smoothing_length: The distance (in radians) to the farthest publication in the kernel, i.e. the kth nearest neighbor.</p></li>\n<li><strong>min_prior_pubs:</strong>  The minimum number of publications prior to the target publication for which to calculate the metric.</li>\n<li><strong>kernel_size:</strong>  the number of publications surrounding the publication for which to compute the topography metric, i.e. k nearest neighbors for k=kernel_size.</li>\n</ul>\n\n<h6 id=\"returns\">Returns:</h6>\n\n<blockquote>\n  <p>estimates: an np.ndarray of shape <code>(len(publication_indices), len(metrics))</code> representing the estimated topography metric values for each publication.</p>\n</blockquote>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"bp\">self</span>,</span><span class=\"param\">\t<span class=\"n\">atl</span><span class=\"p\">:</span> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">atlas</span><span class=\"o\">.</span><span class=\"n\">Atlas</span>,</span><span class=\"param\">\t<span class=\"n\">ids</span><span class=\"p\">:</span> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]</span> <span class=\"o\">=</span> <span class=\"kc\">None</span>,</span><span class=\"param\">\t<span class=\"n\">metrics</span><span class=\"p\">:</span> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]</span> <span class=\"o\">=</span> <span class=\"p\">[</span><span class=\"s1\">&#39;density&#39;</span><span class=\"p\">]</span>,</span><span class=\"param\">\t<span class=\"n\">min_prior_pubs</span><span class=\"p\">:</span> <span class=\"nb\">int</span> <span class=\"o\">=</span> <span class=\"mi\">2</span>,</span><span class=\"param\">\t<span class=\"n\">kernel_size</span><span class=\"o\">=</span><span class=\"mi\">16</span>,</span><span class=\"param\">\t<span class=\"o\">**</span><span class=\"n\">kwargs</span></span><span class=\"return-annotation\">):</span></span>", "funcdef": "def"}, {"fullname": "sciterra.mapping.cartography.iterate_expand", "modulename": "sciterra.mapping.cartography", "qualname": "iterate_expand", "kind": "function", "doc": "<p>Build out an Atlas of publications, i.e. search for similar publications. This is done by iterating a sequence of [expand, save, project, save, track, save].</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>atl:</strong>  the Atlas to expand</li>\n<li><strong>crt:</strong>  the Cartographer to use</li>\n<li><strong>atlas_dir:</strong>  the directory where Atlas binaries will be saved/loaded from</li>\n<li><strong>target_size:</strong>  stop iterating when we reach this number of publications in the Atlas</li>\n<li><strong>max_failed_expansions:</strong>  stop iterating when we fail to add new publications after this many successive iterations. Default is 2.</li>\n<li><strong>center:</strong>  (if given) center the search on this publication, preferentially searching related publications.</li>\n<li><strong>n_pubs_max:</strong>  maximum number of publications allowed in the expansion.</li>\n<li><strong>call_size:</strong>  maximum number of papers to call API for in one query; if less than <code>len(paper_ids)</code>, chunking will be performed.</li>\n<li><strong>n_sources_max:</strong>  maximum number of publications (already in the atlas) to draw references and citations from.</li>\n<li><strong>record_pubs_per_update:</strong>  whether to track all the publications that exist in the resulting atlas to <code>self.pubs_per_update</code>. This should only be set to <code>True</code> when you need to later filter by degree of convergence of the atlas.</li>\n</ul>\n\n<h6 id=\"returns\">Returns:</h6>\n\n<blockquote>\n  <p>atl: the expanded Atlas</p>\n</blockquote>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"n\">atl</span><span class=\"p\">:</span> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">atlas</span><span class=\"o\">.</span><span class=\"n\">Atlas</span>,</span><span class=\"param\">\t<span class=\"n\">crt</span><span class=\"p\">:</span> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">cartography</span><span class=\"o\">.</span><span class=\"n\">Cartographer</span>,</span><span class=\"param\">\t<span class=\"n\">atlas_dir</span><span class=\"p\">:</span> <span class=\"nb\">str</span>,</span><span class=\"param\">\t<span class=\"n\">target_size</span><span class=\"p\">:</span> <span class=\"nb\">int</span>,</span><span class=\"param\">\t<span class=\"n\">max_failed_expansions</span><span class=\"p\">:</span> <span class=\"nb\">int</span> <span class=\"o\">=</span> <span class=\"mi\">2</span>,</span><span class=\"param\">\t<span class=\"n\">center</span><span class=\"p\">:</span> <span class=\"nb\">str</span> <span class=\"o\">=</span> <span class=\"kc\">None</span>,</span><span class=\"param\">\t<span class=\"n\">n_pubs_max</span><span class=\"p\">:</span> <span class=\"nb\">int</span> <span class=\"o\">=</span> <span class=\"kc\">None</span>,</span><span class=\"param\">\t<span class=\"n\">call_size</span><span class=\"p\">:</span> <span class=\"nb\">int</span> <span class=\"o\">=</span> <span class=\"kc\">None</span>,</span><span class=\"param\">\t<span class=\"n\">n_sources_max</span><span class=\"p\">:</span> <span class=\"nb\">int</span> <span class=\"o\">=</span> <span class=\"kc\">None</span>,</span><span class=\"param\">\t<span class=\"n\">record_pubs_per_update</span><span class=\"p\">:</span> <span class=\"nb\">bool</span> <span class=\"o\">=</span> <span class=\"kc\">False</span></span><span class=\"return-annotation\">) -> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">mapping</span><span class=\"o\">.</span><span class=\"n\">atlas</span><span class=\"o\">.</span><span class=\"n\">Atlas</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.mapping.publication", "modulename": "sciterra.mapping.publication", "kind": "module", "doc": "<p>The general container for data for any scientific publication, regardless of the API that was used to obtain it.</p>\n"}, {"fullname": "sciterra.mapping.publication.FIELDS", "modulename": "sciterra.mapping.publication", "qualname": "FIELDS", "kind": "variable", "doc": "<p></p>\n", "default_value": "[&#x27;identifier&#x27;, &#x27;abstract&#x27;, &#x27;publication_date&#x27;, &#x27;citation_count&#x27;, &#x27;citations&#x27;, &#x27;references&#x27;]"}, {"fullname": "sciterra.mapping.publication.ADDITIONAL_FIELDS", "modulename": "sciterra.mapping.publication", "qualname": "ADDITIONAL_FIELDS", "kind": "variable", "doc": "<p></p>\n", "default_value": "[&#x27;doi&#x27;, &#x27;url&#x27;, &#x27;title&#x27;, &#x27;issn&#x27;]"}, {"fullname": "sciterra.mapping.publication.Publication", "modulename": "sciterra.mapping.publication", "qualname": "Publication", "kind": "class", "doc": "<p>The Publication is a standardized container a scientific publication's retrieved data.</p>\n\n<p>In general, all data-cleaning shoud be done prior to constructing a Publication, in order to keep the class minimal.</p>\n\n<h6 id=\"attributes\">Attributes:</h6>\n\n<ul>\n<li><strong>identifier:</strong>  The string id that uniquely identifies the publication, used for\n<ul>\n<li>storing in an Atlas</li>\n<li>querying an API</li>\n</ul></li>\n<li><strong>abstract:</strong>  The string corresponding to the publication's abstract</li>\n<li><strong>publication_date:</strong>  A datetime representing the date of publication</li>\n<li><strong>citation_count:</strong>  An int corresponding to the number of citations received by the publication</li>\n</ul>\n"}, {"fullname": "sciterra.mapping.publication.Publication.__init__", "modulename": "sciterra.mapping.publication", "qualname": "Publication.__init__", "kind": "function", "doc": "<p>Construct a publication.</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>data:</strong>  to initialize attributes</li>\n</ul>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"n\">data</span><span class=\"p\">:</span> <span class=\"nb\">dict</span>, </span><span class=\"param\"><span class=\"o\">**</span><span class=\"n\">kwargs</span></span>)</span>"}, {"fullname": "sciterra.mapping.publication.Publication.identifier", "modulename": "sciterra.mapping.publication", "qualname": "Publication.identifier", "kind": "variable", "doc": "<p></p>\n", "annotation": ": str"}, {"fullname": "sciterra.mapping.publication.Publication.abstract", "modulename": "sciterra.mapping.publication", "qualname": "Publication.abstract", "kind": "variable", "doc": "<p></p>\n", "annotation": ": str"}, {"fullname": "sciterra.mapping.publication.Publication.publication_date", "modulename": "sciterra.mapping.publication", "qualname": "Publication.publication_date", "kind": "variable", "doc": "<p></p>\n", "annotation": ": datetime.date"}, {"fullname": "sciterra.mapping.publication.Publication.citations", "modulename": "sciterra.mapping.publication", "qualname": "Publication.citations", "kind": "variable", "doc": "<p></p>\n", "annotation": ": list[str]"}, {"fullname": "sciterra.mapping.publication.Publication.references", "modulename": "sciterra.mapping.publication", "qualname": "Publication.references", "kind": "variable", "doc": "<p></p>\n", "annotation": ": list[str]"}, {"fullname": "sciterra.mapping.publication.Publication.citation_count", "modulename": "sciterra.mapping.publication", "qualname": "Publication.citation_count", "kind": "variable", "doc": "<p>The citation_count can be different from the length of <code>citations</code>, since the number of citations listed for a paper might be different from the number of (valid) citing papers indexed on the relevant API.</p>\n", "annotation": ": int"}, {"fullname": "sciterra.mapping.publication.Publication.init_attributes", "modulename": "sciterra.mapping.publication", "qualname": "Publication.init_attributes", "kind": "function", "doc": "<p></p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"bp\">self</span>, </span><span class=\"param\"><span class=\"n\">data</span>, </span><span class=\"param\"><span class=\"o\">**</span><span class=\"n\">kwargs</span></span><span class=\"return-annotation\">) -> <span class=\"kc\">None</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.mapping.topography", "modulename": "sciterra.mapping.topography", "kind": "module", "doc": "<p>Functions for measuring topographic properties of (the semantic feature space of publications inside) an Atlas.</p>\n"}, {"fullname": "sciterra.mapping.topography.smoothing_length_metric", "modulename": "sciterra.mapping.topography", "qualname": "smoothing_length_metric", "kind": "function", "doc": "<p>Proxy for the density of a publication defined as the minimum\narc length that encloses kernel_size other publications.</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>idx:</strong>  the index of the vector to calculate the measurement for.</li>\n<li><strong>cospsi_matrix:</strong>  a 2D matrix of pairwise cosine similarity scores for publication embeddings.</li>\n<li><strong>valid_indices:</strong>  Indices of the other publication used when calculating the measurements.</li>\n<li><strong>kernel_size:</strong>  number of K nearest neighbors to calculate the measurement on.</li>\n</ul>\n\n<h6 id=\"returns\">Returns:</h6>\n\n<blockquote>\n  <p>h: float representing arc length containing <code>kernel_size</code> other publications. (Assumes normalized to a radius of 1.)</p>\n</blockquote>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"n\">idx</span><span class=\"p\">:</span> <span class=\"nb\">int</span>,</span><span class=\"param\">\t<span class=\"n\">cospsi_matrix</span><span class=\"p\">:</span> <span class=\"n\">numpy</span><span class=\"o\">.</span><span class=\"n\">ndarray</span>,</span><span class=\"param\">\t<span class=\"n\">valid_indices</span><span class=\"p\">:</span> <span class=\"n\">numpy</span><span class=\"o\">.</span><span class=\"n\">ndarray</span>,</span><span class=\"param\">\t<span class=\"n\">kernel_size</span><span class=\"p\">:</span> <span class=\"nb\">int</span> <span class=\"o\">=</span> <span class=\"mi\">16</span></span><span class=\"return-annotation\">):</span></span>", "funcdef": "def"}, {"fullname": "sciterra.mapping.topography.density_metric", "modulename": "sciterra.mapping.topography", "qualname": "density_metric", "kind": "function", "doc": "<p>Estimate the density of a publication by calculating the\nsmoothing length that encloses kernel_size other publications.</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>idx:</strong>  the index of the vector to calculate the measurement for.</li>\n<li><strong>cospsi_matrix:</strong>  a 2D matrix of pairwise cosine similarity scores for publication embeddings.</li>\n<li><strong>valid_indices:</strong>  Indices of the other publication used when calculating the measurements.</li>\n<li><strong>kernel_size:</strong>  number of K nearest neighbors to calculate the measurement on.</li>\n</ul>\n\n<h6 id=\"returns\">Returns:</h6>\n\n<blockquote>\n  <p>density: a float representing <code>kernel_size</code> divided by arc length containing <code>kernel_size</code> other publications.</p>\n</blockquote>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"n\">idx</span><span class=\"p\">:</span> <span class=\"nb\">int</span>,</span><span class=\"param\">\t<span class=\"n\">cospsi_matrix</span><span class=\"p\">:</span> <span class=\"n\">numpy</span><span class=\"o\">.</span><span class=\"n\">ndarray</span>,</span><span class=\"param\">\t<span class=\"n\">valid_indices</span><span class=\"p\">:</span> <span class=\"n\">numpy</span><span class=\"o\">.</span><span class=\"n\">ndarray</span>,</span><span class=\"param\">\t<span class=\"n\">kernel_size</span><span class=\"p\">:</span> <span class=\"nb\">int</span> <span class=\"o\">=</span> <span class=\"mi\">16</span></span><span class=\"return-annotation\">):</span></span>", "funcdef": "def"}, {"fullname": "sciterra.mapping.topography.edginess_metric", "modulename": "sciterra.mapping.topography", "qualname": "edginess_metric", "kind": "function", "doc": "<p>Estimate the asymmetry of a publication by calculating the difference between that publication's projection and the other publications within the kernel. Normalized to between 0 and 1.</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>idx:</strong>  the index of the vector to calculate the measurement for.</li>\n<li><strong>cospsi_matrix:</strong>  an np.ndarray of shape <code>(num_pubs, num_pubs)</code> representing pairwise cosine similarity scores for publication embeddings.</li>\n<li><strong>valid_indices:</strong>  an np.ndarray of shape <code>(num_valid_pubs)</code> representing indices of the other publications used when calculating the measurements, i.e. num_valid_pubs &lt;= num_pubs.</li>\n<li><strong>publication_indices:</strong>  an np.ndarray of shape <code>(num_pubs,)</code> representing indices of all publications in the atlas projection</li>\n<li><strong>embeddings:</strong>  an np.ndarray of shape <code>(num_pubs, embedding_dim)</code> vectors for all publications in the atlas projection</li>\n<li><strong>kernel_size:</strong>  number of K nearest neighbors to calculate the measurement on.</li>\n</ul>\n\n<h6 id=\"returns\">Returns:</h6>\n\n<blockquote>\n  <p>a float representing the normalized magnitude of the asymmetry metric.</p>\n</blockquote>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"n\">idx</span><span class=\"p\">:</span> <span class=\"nb\">int</span>,</span><span class=\"param\">\t<span class=\"n\">cospsi_matrix</span><span class=\"p\">:</span> <span class=\"n\">numpy</span><span class=\"o\">.</span><span class=\"n\">ndarray</span>,</span><span class=\"param\">\t<span class=\"n\">valid_indices</span><span class=\"p\">:</span> <span class=\"n\">numpy</span><span class=\"o\">.</span><span class=\"n\">ndarray</span>,</span><span class=\"param\">\t<span class=\"n\">publication_indices</span><span class=\"p\">:</span> <span class=\"n\">numpy</span><span class=\"o\">.</span><span class=\"n\">ndarray</span>,</span><span class=\"param\">\t<span class=\"n\">embeddings</span><span class=\"p\">:</span> <span class=\"n\">numpy</span><span class=\"o\">.</span><span class=\"n\">ndarray</span>,</span><span class=\"param\">\t<span class=\"n\">kernel_size</span><span class=\"p\">:</span> <span class=\"nb\">int</span> <span class=\"o\">=</span> <span class=\"mi\">16</span></span><span class=\"return-annotation\">) -> <span class=\"nb\">float</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.mapping.topography.kernel_constant_asymmetry_metric", "modulename": "sciterra.mapping.topography", "qualname": "kernel_constant_asymmetry_metric", "kind": "function", "doc": "<p>Estimate the asymmetry of a publication by calculating the difference\nbetween that publication's projection and the other publications within\nthe kernel.</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>idx:</strong>  an int representing the index of the vector to calculate the measurement for.</li>\n<li><strong>cospsi_matrix:</strong>  an np.ndarray of shape <code>(num_pubs, num_pubs)</code> representing pairwise cosine similarity scores for publication embeddings.</li>\n<li><strong>valid_indices:</strong>  an np.ndarray of shape <code>(num_valid_pubs)</code> representing indices of the other publications used when calculating the measurements, i.e. num_valid_pubs &lt;= num_pubs.</li>\n<li><strong>publication_indices:</strong>  an np.ndarray of shape <code>(num_pubs,)</code> representing indices of all publications in the atlas projection</li>\n<li><strong>embeddings:</strong>  an np.ndarray of shape <code>(num_pubs, embedding_dim)</code> vectors for all publications in the atlas projection</li>\n<li><strong>kernel_size:</strong>  an int representing the number of K nearest neighbors to calculate the measurement on.</li>\n</ul>\n\n<h6 id=\"returns\">Returns:</h6>\n\n<blockquote>\n  <p>mag: a float representing the magnitude of the asymmetry metric.</p>\n</blockquote>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"n\">idx</span><span class=\"p\">:</span> <span class=\"nb\">int</span>,</span><span class=\"param\">\t<span class=\"n\">cospsi_matrix</span><span class=\"p\">:</span> <span class=\"n\">numpy</span><span class=\"o\">.</span><span class=\"n\">ndarray</span>,</span><span class=\"param\">\t<span class=\"n\">valid_indices</span><span class=\"p\">:</span> <span class=\"n\">numpy</span><span class=\"o\">.</span><span class=\"n\">ndarray</span>,</span><span class=\"param\">\t<span class=\"n\">publication_indices</span><span class=\"p\">:</span> <span class=\"n\">numpy</span><span class=\"o\">.</span><span class=\"n\">ndarray</span>,</span><span class=\"param\">\t<span class=\"n\">embeddings</span><span class=\"p\">:</span> <span class=\"n\">numpy</span><span class=\"o\">.</span><span class=\"n\">ndarray</span>,</span><span class=\"param\">\t<span class=\"n\">kernel_size</span><span class=\"p\">:</span> <span class=\"nb\">int</span> <span class=\"o\">=</span> <span class=\"mi\">16</span></span><span class=\"return-annotation\">) -> <span class=\"nb\">float</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.misc", "modulename": "sciterra.misc", "kind": "module", "doc": "<p></p>\n"}, {"fullname": "sciterra.misc.utils", "modulename": "sciterra.misc.utils", "kind": "module", "doc": "<p>Miscellaneous helper functions.</p>\n"}, {"fullname": "sciterra.misc.utils.standardize_month", "modulename": "sciterra.misc.utils", "qualname": "standardize_month", "kind": "function", "doc": "<p></p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"n\">month</span><span class=\"p\">:</span> <span class=\"nb\">str</span></span><span class=\"return-annotation\">) -> <span class=\"nb\">str</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.misc.utils.keep_trying", "modulename": "sciterra.misc.utils", "qualname": "keep_trying", "kind": "function", "doc": "<p>Sometimes we receive server errors. We don't want that to disrupt the entire process, so this decorator allow trying n_attempts times.</p>\n\n<h2 id=\"api_extensionget_data_via_api\">API_extension::get_data_via_api</h2>\n\n<h2 id=\"this-decorator-is-general-except-for-the-default-allowed-exception\">This decorator is general, except for the default allowed exception.</h2>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>n_attempts (int):</strong>  Number of attempts before letting the exception happen.</li>\n<li><strong>allowed_exceptions (tuple of class):</strong>  Allowed exception class. Set to BaseException to keep trying regardless of exception.</li>\n<li><strong>sleep_after_attempt (int):</strong>  Number of seconds to wait before trying each additional attempt.</li>\n<li><strong>verbose (bool):</strong>  If True, be talkative.</li>\n</ul>\n\n<h6 id=\"example-usage\">Example Usage:</h6>\n\n<blockquote>\n  <blockquote>\n    <p>@keep_trying( n_attempts=4 )\n    def try_to_call_web_api():\n        \" do stuff \"</p>\n  </blockquote>\n</blockquote>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"n\">n_attempts</span><span class=\"o\">=</span><span class=\"mi\">5</span>,</span><span class=\"param\">\tallowed_exceptions=(&lt;class &#x27;requests.exceptions.ReadTimeout&#x27;&gt;, &lt;class &#x27;requests.exceptions.ConnectionError&#x27;&gt;),</span><span class=\"param\">\t<span class=\"n\">verbose</span><span class=\"o\">=</span><span class=\"kc\">True</span>,</span><span class=\"param\">\t<span class=\"n\">sleep_after_attempt</span><span class=\"o\">=</span><span class=\"mi\">1</span></span><span class=\"return-annotation\">):</span></span>", "funcdef": "def"}, {"fullname": "sciterra.misc.utils.chunk_ids", "modulename": "sciterra.misc.utils", "qualname": "chunk_ids", "kind": "function", "doc": "<p>Helper function to chunk bibcodes or paperIds into smaller sublists if appropriate.</p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"n\">ids</span><span class=\"p\">:</span> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]</span>, </span><span class=\"param\"><span class=\"n\">call_size</span></span><span class=\"return-annotation\">):</span></span>", "funcdef": "def"}, {"fullname": "sciterra.misc.utils.write_pickle", "modulename": "sciterra.misc.utils", "qualname": "write_pickle", "kind": "function", "doc": "<p></p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"n\">fn</span><span class=\"p\">:</span> <span class=\"nb\">str</span>, </span><span class=\"param\"><span class=\"n\">data</span></span><span class=\"return-annotation\">):</span></span>", "funcdef": "def"}, {"fullname": "sciterra.misc.utils.read_pickle", "modulename": "sciterra.misc.utils", "qualname": "read_pickle", "kind": "function", "doc": "<p></p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"n\">fn</span><span class=\"p\">:</span> <span class=\"nb\">str</span></span><span class=\"return-annotation\">):</span></span>", "funcdef": "def"}, {"fullname": "sciterra.misc.utils.get_verbose", "modulename": "sciterra.misc.utils", "qualname": "get_verbose", "kind": "function", "doc": "<p></p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"n\">kwargs</span><span class=\"p\">:</span> <span class=\"nb\">dict</span></span><span class=\"return-annotation\">):</span></span>", "funcdef": "def"}, {"fullname": "sciterra.misc.utils.custom_formatwarning", "modulename": "sciterra.misc.utils", "qualname": "custom_formatwarning", "kind": "function", "doc": "<p></p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"n\">msg</span>, </span><span class=\"param\"><span class=\"o\">*</span><span class=\"n\">args</span>, </span><span class=\"param\"><span class=\"o\">**</span><span class=\"n\">kwargs</span></span><span class=\"return-annotation\">):</span></span>", "funcdef": "def"}, {"fullname": "sciterra.vectorization", "modulename": "sciterra.vectorization", "kind": "module", "doc": "<p></p>\n"}, {"fullname": "sciterra.vectorization.vectorizers", "modulename": "sciterra.vectorization", "qualname": "vectorizers", "kind": "variable", "doc": "<p></p>\n", "default_value": "{&#x27;SciBERT&#x27;: &lt;class &#x27;sciterra.vectorization.scibert.SciBERTVectorizer&#x27;&gt;, &#x27;SBERT&#x27;: &lt;class &#x27;sciterra.vectorization.sbert.SBERTVectorizer&#x27;&gt;, &#x27;Word2Vec&#x27;: &lt;class &#x27;sciterra.vectorization.word2vec.Word2VecVectorizer&#x27;&gt;}"}, {"fullname": "sciterra.vectorization.preprocessing", "modulename": "sciterra.vectorization.preprocessing", "kind": "module", "doc": "<p>Simple preprocessing of scientific abstracts prior to vectorization.</p>\n"}, {"fullname": "sciterra.vectorization.preprocessing.nlp", "modulename": "sciterra.vectorization.preprocessing", "qualname": "nlp", "kind": "variable", "doc": "<p></p>\n", "default_value": "&lt;spacy.lang.en.English object&gt;"}, {"fullname": "sciterra.vectorization.preprocessing.custom_preprocess", "modulename": "sciterra.vectorization.preprocessing", "qualname": "custom_preprocess", "kind": "function", "doc": "<p>Get all of the lemmas of the words in a document, filtering by POS.</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>document:</strong>  a multi-sentence string</li>\n<li><strong>allowed_pos_tags:</strong>  keep and lemmatize words that are tagged as one of these POS categories.</li>\n</ul>\n\n<h6 id=\"returns\">Returns:</h6>\n\n<blockquote>\n  <p>a list of the lemmatized, filtered words in the document</p>\n</blockquote>\n\n<p>Given the domain-specificity, we choose to heuristically stem instead of performing full, linguistically precise lemmatization that would require detailed vocabulary rules. That said, the nltk WordNet lemmatizer doesn't immediately seem to do better than basic stemming</p>\n\n<p>See <a href=\"https://github.com/zhafen/cc/blob/master/cc/utils.py#L173\">https://github.com/zhafen/cc/blob/master/cc/utils.py#L173</a>.</p>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"n\">document</span><span class=\"p\">:</span> <span class=\"nb\">str</span>,</span><span class=\"param\">\t<span class=\"n\">allowed_pos_tags</span><span class=\"p\">:</span> <span class=\"nb\">set</span> <span class=\"o\">=</span> <span class=\"p\">{</span><span class=\"s1\">&#39;VERB&#39;</span><span class=\"p\">,</span> <span class=\"s1\">&#39;NOUN&#39;</span><span class=\"p\">,</span> <span class=\"s1\">&#39;ADJ&#39;</span><span class=\"p\">}</span></span><span class=\"return-annotation\">) -> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.vectorization.projection", "modulename": "sciterra.vectorization.projection", "kind": "module", "doc": "<p></p>\n"}, {"fullname": "sciterra.vectorization.projection.Projection", "modulename": "sciterra.vectorization.projection", "qualname": "Projection", "kind": "class", "doc": "<p>Basic wrapper for document embeddings and helper methods.</p>\n"}, {"fullname": "sciterra.vectorization.projection.Projection.__init__", "modulename": "sciterra.vectorization.projection", "qualname": "Projection.__init__", "kind": "function", "doc": "<p>Construct a Projection object, a bidirectional mapping from identifiers to document embeddings.</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>identifier_to_index:</strong>  a dict mapping Publication identifiers to indices in the embedding matrix.</li>\n<li><strong>index_to_identifier:</strong>  a tuple mapping embedding indices to Publication identifiers.</li>\n<li><strong>embeddings:</strong>  ndarray of document embeddings of shape <code>(num_pubs, embedding_dim)</code></li>\n</ul>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"n\">identifier_to_index</span><span class=\"p\">:</span> <span class=\"nb\">dict</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">,</span> <span class=\"nb\">int</span><span class=\"p\">]</span>,</span><span class=\"param\">\t<span class=\"n\">index_to_identifier</span><span class=\"p\">:</span> <span class=\"nb\">tuple</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]</span>,</span><span class=\"param\">\t<span class=\"n\">embeddings</span><span class=\"p\">:</span> <span class=\"n\">numpy</span><span class=\"o\">.</span><span class=\"n\">ndarray</span></span>)</span>"}, {"fullname": "sciterra.vectorization.projection.Projection.identifier_to_index", "modulename": "sciterra.vectorization.projection", "qualname": "Projection.identifier_to_index", "kind": "variable", "doc": "<p></p>\n"}, {"fullname": "sciterra.vectorization.projection.Projection.index_to_identifier", "modulename": "sciterra.vectorization.projection", "qualname": "Projection.index_to_identifier", "kind": "variable", "doc": "<p></p>\n"}, {"fullname": "sciterra.vectorization.projection.Projection.embeddings", "modulename": "sciterra.vectorization.projection", "qualname": "Projection.embeddings", "kind": "variable", "doc": "<p></p>\n"}, {"fullname": "sciterra.vectorization.projection.Projection.indices_to_identifiers", "modulename": "sciterra.vectorization.projection", "qualname": "Projection.indices_to_identifiers", "kind": "function", "doc": "<p>Retrieve the identifiers for a list of embedding matrix indices.</p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"bp\">self</span>, </span><span class=\"param\"><span class=\"n\">indices</span></span><span class=\"return-annotation\">) -> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.vectorization.projection.Projection.identifiers_to_embeddings", "modulename": "sciterra.vectorization.projection", "qualname": "Projection.identifiers_to_embeddings", "kind": "function", "doc": "<p>Retrieve the document embeddings for a list of identifiers.</p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"bp\">self</span>, </span><span class=\"param\"><span class=\"n\">identifiers</span><span class=\"p\">:</span> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]</span></span><span class=\"return-annotation\">) -> <span class=\"n\">numpy</span><span class=\"o\">.</span><span class=\"n\">ndarray</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.vectorization.projection.Projection.identifiers_to_indices", "modulename": "sciterra.vectorization.projection", "qualname": "Projection.identifiers_to_indices", "kind": "function", "doc": "<p>Retrieve the embedding indices for a list of identifiers.</p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"bp\">self</span>, </span><span class=\"param\"><span class=\"n\">identifiers</span><span class=\"p\">:</span> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]</span></span><span class=\"return-annotation\">) -> <span class=\"n\">numpy</span><span class=\"o\">.</span><span class=\"n\">ndarray</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.vectorization.projection.merge", "modulename": "sciterra.vectorization.projection", "qualname": "merge", "kind": "function", "doc": "<p>Return the result of merging projection <code>proj_a</code> with projection <code>proj_b</code>.</p>\n\n<p>This adds to proj_a all embedding data contained in proj_b that is missing from proj_a. This means that the resulting projection can only be greater or equal in size to proj_a.</p>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"n\">proj_a</span><span class=\"p\">:</span> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">vectorization</span><span class=\"o\">.</span><span class=\"n\">projection</span><span class=\"o\">.</span><span class=\"n\">Projection</span>,</span><span class=\"param\">\t<span class=\"n\">proj_b</span><span class=\"p\">:</span> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">vectorization</span><span class=\"o\">.</span><span class=\"n\">projection</span><span class=\"o\">.</span><span class=\"n\">Projection</span></span><span class=\"return-annotation\">) -> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">vectorization</span><span class=\"o\">.</span><span class=\"n\">projection</span><span class=\"o\">.</span><span class=\"n\">Projection</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.vectorization.projection.get_empty_projection", "modulename": "sciterra.vectorization.projection", "qualname": "get_empty_projection", "kind": "function", "doc": "<p>Construct a Projection with no data (but is not None).</p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"return-annotation\">) -> <span class=\"n\">sciterra</span><span class=\"o\">.</span><span class=\"n\">vectorization</span><span class=\"o\">.</span><span class=\"n\">projection</span><span class=\"o\">.</span><span class=\"n\">Projection</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.vectorization.sbert", "modulename": "sciterra.vectorization.sbert", "kind": "module", "doc": "<p>We use the acronym SBERT as a catch-all for BERT-based sentence transformers. In particular, we use a lightweight/fast version of one the top-performing model.</p>\n\n<h6 id=\"links\">Links:</h6>\n\n<blockquote>\n  <p>sbert: <a href=\"https://www.sbert.net/docs/pretrained_models.html#sentence-embedding-models\">https://www.sbert.net/docs/pretrained_models.html#sentence-embedding-models</a>.\n  HF: <a href=\"https://huggingface.co/sentence-transformers\">https://huggingface.co/sentence-transformers</a></p>\n</blockquote>\n"}, {"fullname": "sciterra.vectorization.sbert.MPS_DEVICE", "modulename": "sciterra.vectorization.sbert", "qualname": "MPS_DEVICE", "kind": "variable", "doc": "<p></p>\n", "default_value": "device(type=&#x27;mps&#x27;)"}, {"fullname": "sciterra.vectorization.sbert.MODEL_PATH", "modulename": "sciterra.vectorization.sbert", "qualname": "MODEL_PATH", "kind": "variable", "doc": "<p></p>\n", "default_value": "&#x27;all-MiniLM-L6-v2&#x27;"}, {"fullname": "sciterra.vectorization.sbert.EMBEDDING_DIM", "modulename": "sciterra.vectorization.sbert", "qualname": "EMBEDDING_DIM", "kind": "variable", "doc": "<p></p>\n", "default_value": "384"}, {"fullname": "sciterra.vectorization.sbert.MAX_SEQ_LENGTH", "modulename": "sciterra.vectorization.sbert", "qualname": "MAX_SEQ_LENGTH", "kind": "variable", "doc": "<p></p>\n", "default_value": "256"}, {"fullname": "sciterra.vectorization.sbert.SBERTVectorizer", "modulename": "sciterra.vectorization.sbert", "qualname": "SBERTVectorizer", "kind": "class", "doc": "<p></p>\n", "bases": "sciterra.vectorization.vectorizer.Vectorizer"}, {"fullname": "sciterra.vectorization.sbert.SBERTVectorizer.__init__", "modulename": "sciterra.vectorization.sbert", "qualname": "SBERTVectorizer.__init__", "kind": "function", "doc": "<p></p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"n\">device</span><span class=\"o\">=</span><span class=\"s1\">&#39;cuda&#39;</span>, </span><span class=\"param\"><span class=\"o\">**</span><span class=\"n\">kwargs</span></span>)</span>"}, {"fullname": "sciterra.vectorization.sbert.SBERTVectorizer.model", "modulename": "sciterra.vectorization.sbert", "qualname": "SBERTVectorizer.model", "kind": "variable", "doc": "<p></p>\n"}, {"fullname": "sciterra.vectorization.sbert.SBERTVectorizer.embed_documents", "modulename": "sciterra.vectorization.sbert", "qualname": "SBERTVectorizer.embed_documents", "kind": "function", "doc": "<p>Embed a list of documents (raw text) into SBERT vectors, by batching.</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>docs:</strong>  the documents to embed.</li>\n</ul>\n\n<h6 id=\"returns\">Returns:</h6>\n\n<blockquote>\n  <p>a numpy array of shape <code>(num_documents, 384)</code></p>\n</blockquote>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"bp\">self</span>, </span><span class=\"param\"><span class=\"n\">docs</span><span class=\"p\">:</span> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]</span>, </span><span class=\"param\"><span class=\"n\">batch_size</span><span class=\"p\">:</span> <span class=\"nb\">int</span> <span class=\"o\">=</span> <span class=\"mi\">64</span></span><span class=\"return-annotation\">) -> <span class=\"n\">numpy</span><span class=\"o\">.</span><span class=\"n\">ndarray</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.vectorization.scibert", "modulename": "sciterra.vectorization.scibert", "kind": "module", "doc": "<p>SciBERT is a BERT model trained on scientific text.</p>\n\n<h6 id=\"links\">Links:</h6>\n\n<blockquote>\n  <p>Paper: <a href=\"https://aclanthology.org/D19-1371/\">https://aclanthology.org/D19-1371/</a>\n  Github:  <a href=\"https://github.com/allenai/scibert\">https://github.com/allenai/scibert</a>\n  HF: <a href=\"https://huggingface.co/allenai/scibert_scivocab_uncased\">https://huggingface.co/allenai/scibert_scivocab_uncased</a></p>\n</blockquote>\n"}, {"fullname": "sciterra.vectorization.scibert.MPS_DEVICE", "modulename": "sciterra.vectorization.scibert", "qualname": "MPS_DEVICE", "kind": "variable", "doc": "<p></p>\n", "default_value": "device(type=&#x27;mps&#x27;)"}, {"fullname": "sciterra.vectorization.scibert.MODEL_PATH", "modulename": "sciterra.vectorization.scibert", "qualname": "MODEL_PATH", "kind": "variable", "doc": "<p></p>\n", "default_value": "&#x27;allenai/scibert_scivocab_uncased&#x27;"}, {"fullname": "sciterra.vectorization.scibert.EMBEDDING_DIM", "modulename": "sciterra.vectorization.scibert", "qualname": "EMBEDDING_DIM", "kind": "variable", "doc": "<p></p>\n", "default_value": "768"}, {"fullname": "sciterra.vectorization.scibert.SciBERTVectorizer", "modulename": "sciterra.vectorization.scibert", "qualname": "SciBERTVectorizer", "kind": "class", "doc": "<p></p>\n", "bases": "sciterra.vectorization.vectorizer.Vectorizer"}, {"fullname": "sciterra.vectorization.scibert.SciBERTVectorizer.__init__", "modulename": "sciterra.vectorization.scibert", "qualname": "SciBERTVectorizer.__init__", "kind": "function", "doc": "<p></p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"n\">device</span><span class=\"o\">=</span><span class=\"s1\">&#39;cuda&#39;</span>, </span><span class=\"param\"><span class=\"o\">**</span><span class=\"n\">kwargs</span></span>)</span>"}, {"fullname": "sciterra.vectorization.scibert.SciBERTVectorizer.tokenizer", "modulename": "sciterra.vectorization.scibert", "qualname": "SciBERTVectorizer.tokenizer", "kind": "variable", "doc": "<p></p>\n"}, {"fullname": "sciterra.vectorization.scibert.SciBERTVectorizer.model", "modulename": "sciterra.vectorization.scibert", "qualname": "SciBERTVectorizer.model", "kind": "variable", "doc": "<p></p>\n"}, {"fullname": "sciterra.vectorization.scibert.SciBERTVectorizer.embed_documents", "modulename": "sciterra.vectorization.scibert", "qualname": "SciBERTVectorizer.embed_documents", "kind": "function", "doc": "<p>Embed a list of documents (raw text) into SciBERT vectors, by batching.</p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"bp\">self</span>, </span><span class=\"param\"><span class=\"n\">docs</span><span class=\"p\">:</span> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]</span>, </span><span class=\"param\"><span class=\"n\">batch_size</span><span class=\"p\">:</span> <span class=\"nb\">int</span> <span class=\"o\">=</span> <span class=\"mi\">64</span></span><span class=\"return-annotation\">) -> <span class=\"nb\">dict</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">,</span> <span class=\"n\">numpy</span><span class=\"o\">.</span><span class=\"n\">ndarray</span><span class=\"p\">]</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.vectorization.vectorizer", "modulename": "sciterra.vectorization.vectorizer", "kind": "module", "doc": "<p>Base class for vectorizing abstracts.</p>\n"}, {"fullname": "sciterra.vectorization.vectorizer.Vectorizer", "modulename": "sciterra.vectorization.vectorizer", "qualname": "Vectorizer", "kind": "class", "doc": "<p></p>\n"}, {"fullname": "sciterra.vectorization.vectorizer.Vectorizer.embed_documents", "modulename": "sciterra.vectorization.vectorizer", "qualname": "Vectorizer.embed_documents", "kind": "function", "doc": "<p>Embed a list of documents into document vectors.</p>\n\n<h6 id=\"arguments\">Arguments:</h6>\n\n<ul>\n<li><strong>docs:</strong>  the documents to embed.</li>\n</ul>\n\n<h6 id=\"returns\">Returns:</h6>\n\n<blockquote>\n  <p>a dict of the form \n  {\n      \"embeddings\": a numpy array of shape <code>(num_successful, embedding_dim)</code>, containing the document embeddingss</p>\n\n<pre><code>\"indices\": a numpy array of shape `(num_successful,)`, containing the indices of all the documents for which document embeddings were successfully obtained.\n</code></pre>\n  \n  <p>}\n  where <code>num_successful</code> is the number of documents in <code>docs</code> that were successfully embedded.</p>\n</blockquote>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"bp\">self</span>, </span><span class=\"param\"><span class=\"n\">docs</span><span class=\"p\">:</span> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]</span></span><span class=\"return-annotation\">) -> <span class=\"nb\">dict</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">,</span> <span class=\"n\">numpy</span><span class=\"o\">.</span><span class=\"n\">ndarray</span><span class=\"p\">]</span>:</span></span>", "funcdef": "def"}, {"fullname": "sciterra.vectorization.word2vec", "modulename": "sciterra.vectorization.word2vec", "kind": "module", "doc": "<p>We use a simple word2vec model that gets a document vector by averaging all words in the document.</p>\n\n<p>Since we are getting vectors for scientific documents, we must load a vocabulary to train the model from scratch. Therefore we define different subclasses for each scientific field, which may differ substantially by vocabulary.</p>\n\n<p>There exists a Doc2Vec module by gensim, but it seems that empirically Word2Vec + averaging can do just as well; furthermore, we're mainly interested in a simple baseline to compare with sophisticated embeddings.</p>\n\n<h6 id=\"links\">Links:</h6>\n\n<blockquote>\n  <p>gensim: <a href=\"https://radimrehurek.com/gensim/auto_examples/tutorials/run_word2vec.html#\">https://radimrehurek.com/gensim/auto_examples/tutorials/run_word2vec.html#</a></p>\n</blockquote>\n"}, {"fullname": "sciterra.vectorization.word2vec.EMBEDDING_DIM", "modulename": "sciterra.vectorization.word2vec", "qualname": "EMBEDDING_DIM", "kind": "variable", "doc": "<p></p>\n", "default_value": "300"}, {"fullname": "sciterra.vectorization.word2vec.current_file_abs_path", "modulename": "sciterra.vectorization.word2vec", "qualname": "current_file_abs_path", "kind": "variable", "doc": "<p></p>\n", "default_value": "&#x27;/Users/nathanielimel/uci/projects/sciterra/src/sciterra/vectorization&#x27;"}, {"fullname": "sciterra.vectorization.word2vec.corpora_path", "modulename": "sciterra.vectorization.word2vec", "qualname": "corpora_path", "kind": "variable", "doc": "<p></p>\n", "default_value": "&#x27;/Users/nathanielimel/uci/projects/sciterra/src/sciterra/vectorization/corpora&#x27;"}, {"fullname": "sciterra.vectorization.word2vec.ASTROPHYSICS_CORPUS", "modulename": "sciterra.vectorization.word2vec", "qualname": "ASTROPHYSICS_CORPUS", "kind": "variable", "doc": "<p></p>\n", "default_value": "&#x27;astro_small.txt&#x27;"}, {"fullname": "sciterra.vectorization.word2vec.DEFAULT_CORPUS", "modulename": "sciterra.vectorization.word2vec", "qualname": "DEFAULT_CORPUS", "kind": "variable", "doc": "<p></p>\n", "default_value": "&#x27;/Users/nathanielimel/uci/projects/sciterra/src/sciterra/vectorization/corpora/astro_small.txt&#x27;"}, {"fullname": "sciterra.vectorization.word2vec.Word2VecVectorizer", "modulename": "sciterra.vectorization.word2vec", "qualname": "Word2VecVectorizer", "kind": "class", "doc": "<p></p>\n", "bases": "sciterra.vectorization.vectorizer.Vectorizer"}, {"fullname": "sciterra.vectorization.word2vec.Word2VecVectorizer.__init__", "modulename": "sciterra.vectorization.word2vec", "qualname": "Word2VecVectorizer.__init__", "kind": "function", "doc": "<p>Construct a Word2Vec based document embedding model from a corpus.</p>\n", "signature": "<span class=\"signature pdoc-code multiline\">(<span class=\"param\">\t<span class=\"n\">corpus_path</span><span class=\"p\">:</span> <span class=\"nb\">str</span> <span class=\"o\">=</span> <span class=\"s1\">&#39;/Users/nathanielimel/uci/projects/sciterra/src/sciterra/vectorization/corpora/astro_small.txt&#39;</span>,</span><span class=\"param\">\t<span class=\"n\">model_path</span><span class=\"p\">:</span> <span class=\"nb\">str</span> <span class=\"o\">=</span> <span class=\"kc\">None</span>,</span><span class=\"param\">\t<span class=\"n\">vector_size</span><span class=\"p\">:</span> <span class=\"nb\">int</span> <span class=\"o\">=</span> <span class=\"mi\">300</span>,</span><span class=\"param\">\t<span class=\"n\">window</span><span class=\"p\">:</span> <span class=\"nb\">int</span> <span class=\"o\">=</span> <span class=\"mi\">5</span>,</span><span class=\"param\">\t<span class=\"n\">min_count</span><span class=\"p\">:</span> <span class=\"nb\">int</span> <span class=\"o\">=</span> <span class=\"mi\">2</span>,</span><span class=\"param\">\t<span class=\"n\">workers</span><span class=\"p\">:</span> <span class=\"nb\">int</span> <span class=\"o\">=</span> <span class=\"mi\">8</span>,</span><span class=\"param\">\t<span class=\"n\">epochs</span><span class=\"p\">:</span> <span class=\"nb\">int</span> <span class=\"o\">=</span> <span class=\"mi\">10</span>,</span><span class=\"param\">\t<span class=\"n\">tokenizer</span><span class=\"p\">:</span> <span class=\"n\">Callable</span><span class=\"p\">[[</span><span class=\"nb\">str</span><span class=\"p\">],</span> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]]</span> <span class=\"o\">=</span> <span class=\"o\">&lt;</span><span class=\"n\">function</span> <span class=\"n\">custom_preprocess</span><span class=\"o\">&gt;</span>,</span><span class=\"param\">\t<span class=\"o\">**</span><span class=\"n\">kwargs</span></span>)</span>"}, {"fullname": "sciterra.vectorization.word2vec.Word2VecVectorizer.tokenizer", "modulename": "sciterra.vectorization.word2vec", "qualname": "Word2VecVectorizer.tokenizer", "kind": "variable", "doc": "<p></p>\n"}, {"fullname": "sciterra.vectorization.word2vec.Word2VecVectorizer.model", "modulename": "sciterra.vectorization.word2vec", "qualname": "Word2VecVectorizer.model", "kind": "variable", "doc": "<p></p>\n"}, {"fullname": "sciterra.vectorization.word2vec.Word2VecVectorizer.embed_documents", "modulename": "sciterra.vectorization.word2vec", "qualname": "Word2VecVectorizer.embed_documents", "kind": "function", "doc": "<p>Embed a list of documents (raw text) into word2vec document vectors by averaging the word vectors in each of the documents.</p>\n\n<p>Since there's no speedup via batching like there is in pytorch models, we iterate one document at a time.</p>\n", "signature": "<span class=\"signature pdoc-code condensed\">(<span class=\"param\"><span class=\"bp\">self</span>, </span><span class=\"param\"><span class=\"n\">docs</span><span class=\"p\">:</span> <span class=\"nb\">list</span><span class=\"p\">[</span><span class=\"nb\">str</span><span class=\"p\">]</span>, </span><span class=\"param\"><span class=\"o\">**</span><span class=\"n\">kwargs</span></span><span class=\"return-annotation\">) -> <span class=\"n\">numpy</span><span class=\"o\">.</span><span class=\"n\">ndarray</span>:</span></span>", "funcdef": "def"}];
 
     // mirrored in build-search-index.js (part 1)
     // Also split on html tags. this is a cheap heuristic, but good enough.
diff --git a/src/examples/scratch/outputs/atlas_s2-11-11-23_w2v-centered_hafenetal/astro_1.model b/src/examples/scratch/outputs/atlas_s2-11-11-23_w2v-centered_hafenetal/astro_1.model
index ac817e7..deba504 100644
Binary files a/src/examples/scratch/outputs/atlas_s2-11-11-23_w2v-centered_hafenetal/astro_1.model and b/src/examples/scratch/outputs/atlas_s2-11-11-23_w2v-centered_hafenetal/astro_1.model differ
diff --git a/src/sciterra/librarians/__init__.py b/src/sciterra/librarians/__init__.py
index 1b2880f..5a6e5b4 100644
--- a/src/sciterra/librarians/__init__.py
+++ b/src/sciterra/librarians/__init__.py
@@ -2,5 +2,10 @@
 from .adslibrarian import ADSLibrarian
 from .s2librarian import SemanticScholarLibrarian
 
+librarians = {
+    "S2": SemanticScholarLibrarian,
+    "ADS": ADSLibrarian,
+}
+
 """Why is there not an ArxivLibrarian? For now, we are restricting to APIs that allow us to traverse literature graphs, and arxiv does not have one. While there is a useful pip-installable package for querying the arxiv api for papers, https://pypi.org/project/arxiv/, the returned object does not have information on references and citations. However, it may still be possible to obtain a large sample of publications with abstracts and submission dates (though no citation counts), because the arxiv API's limit for a single query is 300,000 results.
 """
diff --git a/src/sciterra/mapping/cartography.py b/src/sciterra/mapping/cartography.py
index 0ce4cd4..13e01ca 100644
--- a/src/sciterra/mapping/cartography.py
+++ b/src/sciterra/mapping/cartography.py
@@ -164,6 +164,7 @@ def project(self, atl: Atlas, **kwargs) -> Atlas:
             id for id in atl_filtered.publications if id not in previously_embedded_ids
         ]
 
+        fail_ids = set()
         if embed_ids:
             if verbose:
                 if atl_filtered.projection is not None:
@@ -171,22 +172,40 @@ def project(self, atl: Atlas, **kwargs) -> Atlas:
                         f"Found {len(atl_filtered.publications) - len(atl_filtered.projection)} publications not contained in Atlas projection."
                     )
                 warnings.warn(f"Embedding {len(embed_ids)} total documents.")
+
             # Embed documents
-            embeddings = self.vectorizer.embed_documents(
+            result = self.vectorizer.embed_documents(
                 [atl_filtered[id].abstract for id in embed_ids]
             )
+            embeddings = result["embeddings"]
+            success_indices = result["success_indices"]
+            fail_indices = result["fail_indices"]
 
-        if embeddings is None and verbose:
-            warnings.warn(f"Obtained no new publication embeddings.")
+            if fail_indices.tolist() and verbose:
+                warnings.warn(
+                    f"Failed to get embeddings for all {len(embed_ids)} publications; only {len(embeddings)} will be added to the Atlas."
+                )
 
-        # create new projection
-        projection = Projection(
-            identifier_to_index={
-                identifier: idx for idx, identifier in enumerate(embed_ids)
-            },
-            index_to_identifier=tuple(embed_ids),
-            embeddings=embeddings,
-        )
+            # successful_ids = [id for i, id in enumerate(embed_ids) if i in successful_indices]
+            embed_ids_array = np.array(embed_ids)
+            success_ids = embed_ids_array[success_indices]
+            try:
+                fail_ids = set(embed_ids_array[fail_indices])
+            except IndexError:
+                breakpoint()
+
+            # create new projection
+            projection = Projection(
+                identifier_to_index={
+                    identifier: idx for idx, identifier in enumerate(success_ids)
+                },
+                index_to_identifier=tuple(success_ids),
+                embeddings=embeddings,
+            )
+
+        if not embed_ids or embed_ids is None and verbose:
+            warnings.warn(f"Obtained no new publication embeddings.")
+            projection = get_empty_projection()
 
         # merge existing projection with new projection
         merged_projection = merge(atl_filtered.projection, projection)
@@ -197,11 +216,14 @@ def project(self, atl: Atlas, **kwargs) -> Atlas:
             for id, pub in atl_filtered.publications.items()
             if id in merged_projection.identifier_to_index
         }
-        assert not set(atl_filtered.ids()) - set(embedded_publications.keys())
+
+        # get new set of bad ids
+        bad_ids = atl_filtered.bad_ids.union(fail_ids)
 
         # Overwrite atlas data
         atl_filtered.publications = embedded_publications
         atl_filtered.projection = merged_projection
+        atl_filtered.bad_ids = bad_ids
         return atl_filtered
 
     ######################################################################
diff --git a/src/sciterra/vectorization/sbert.py b/src/sciterra/vectorization/sbert.py
index 16bab3b..0e5ba0c 100644
--- a/src/sciterra/vectorization/sbert.py
+++ b/src/sciterra/vectorization/sbert.py
@@ -68,4 +68,9 @@ def embed_documents(self, docs: list[str], batch_size: int = 64) -> np.ndarray:
             pbar.update(batch_size)
         pbar.close()
 
-        return np.array(embeddings)
+        # We don't have to deal with OOV, so we always return full list of ids
+        return {
+            "embeddings": np.array(embeddings),
+            "success_indices": np.arange(len(embeddings)),
+            "fail_indices": np.array([], dtype=int),
+        }
diff --git a/src/sciterra/vectorization/scibert.py b/src/sciterra/vectorization/scibert.py
index f032ee8..71bd3fb 100644
--- a/src/sciterra/vectorization/scibert.py
+++ b/src/sciterra/vectorization/scibert.py
@@ -52,15 +52,10 @@ def __init__(self, device="cuda", **kwargs) -> None:
         self.model.eval()
         super().__init__()
 
-    def embed_documents(self, docs: list[str], batch_size: int = 64) -> np.ndarray:
-        """Embed a list of documents (raw text) into SciBERT vectors, by batching.
-
-        Args:
-            docs: the documents to embed.
-
-        Returns:
-            a numpy array of shape `(num_documents, 768)`
-        """
+    def embed_documents(
+        self, docs: list[str], batch_size: int = 64
+    ) -> dict[str, np.ndarray]:
+        """Embed a list of documents (raw text) into SciBERT vectors, by batching."""
 
         embeddings = []
 
@@ -111,4 +106,9 @@ def embed_documents(self, docs: list[str], batch_size: int = 64) -> np.ndarray:
             pbar.update(batch_size)
         pbar.close()
 
-        return np.array(embeddings)
+        # We don't have to deal with OOV, so we always return full list of ids
+        return {
+            "embeddings": np.array(embeddings),
+            "success_indices": np.arange(len(embeddings)),
+            "fail_indices": np.array([], dtype=int),
+        }
diff --git a/src/sciterra/vectorization/vectorizer.py b/src/sciterra/vectorization/vectorizer.py
index b88fc24..34a82ae 100644
--- a/src/sciterra/vectorization/vectorizer.py
+++ b/src/sciterra/vectorization/vectorizer.py
@@ -7,13 +7,22 @@ class Vectorizer:
     def __init__(self) -> None:
         pass
 
-    def embed_documents(self, docs: list[str]) -> np.ndarray:
+    def embed_documents(self, docs: list[str]) -> dict[str, np.ndarray]:
         """Embed a list of documents into document vectors.
 
         Args:
             docs: the documents to embed.
 
         Returns:
-            a numpy array of shape `(num_documents, embedding_dim)`
+            a dict of the form
+            {
+                "embeddings": a numpy array of shape `(num_successful, embedding_dim)`, containing the document embeddingss
+
+                "success_indices": a numpy array of shape `(num_successful,)`, containing the indices of all the documents for which document embeddings were successfully obtained.
+
+                "fail_indices": a numpy array of shape `(len(docs) - num_successful,)`, containing the indices of all the documents for which document embeddings could not be obtained
+            }
+            where the indices are with respect to the `docs` list passed.
+
         """
         raise NotImplementedError
diff --git a/src/sciterra/vectorization/word2vec.py b/src/sciterra/vectorization/word2vec.py
index a298bcc..dfef981 100644
--- a/src/sciterra/vectorization/word2vec.py
+++ b/src/sciterra/vectorization/word2vec.py
@@ -89,28 +89,45 @@ def embed_documents(self, docs: list[str], **kwargs) -> np.ndarray:
         """Embed a list of documents (raw text) into word2vec document vectors by averaging the word vectors in each of the documents.
 
         Since there's no speedup via batching like there is in pytorch models, we iterate one document at a time.
-
-        Args:
-            docs: the documents to embed.
-
-        Returns:
-            a numpy array of shape `(num_documents, 300)`
         """
 
-        return np.array(
-            [
-                np.mean(
-                    [
-                        self.model.wv[word]
-                        for word in self.tokenizer(doc)
-                        if word in self.model.wv
-                    ],  # shape `(300,)`
-                    axis=0,
-                )
-                for doc in tqdm(
-                    docs,
-                    desc="embedding documents",
-                    leave=True,
-                )
-            ]
-        )
+        # return np.array(
+        #     [
+        #         np.mean(
+        #             [
+        #                 self.model.wv[word]
+        #                 for word in self.tokenizer(doc)
+        #                 if word in self.model.wv
+        #             ],  # shape `(300,)`
+        #             axis=0,
+        #         )
+        #         for doc in tqdm(
+        #             docs,
+        #             desc="embedding documents",
+        #             leave=True,
+        #         )
+        #     ]
+        # )
+        means = []
+        success_indices = []
+        failed_indices = []
+        for i, doc in tqdm(enumerate(docs), desc="embedding documents", leave=True):
+            mean = np.mean(
+                [
+                    self.model.wv[word]
+                    for word in self.tokenizer(doc)
+                    if word in self.model.wv
+                ],  # shape `(300,)`
+                axis=0,
+            )
+            if np.isnan(mean).any():
+                failed_indices.append(i)
+            else:
+                means.append(mean)
+                success_indices.append(i)
+
+        return {
+            "embeddings": np.array(means),
+            "success_indices": np.array(success_indices),
+            "fail_indices": np.array(failed_indices),
+        }
diff --git a/src/tests/data/models/word2vec_model_example.model b/src/tests/data/models/word2vec_model_example.model
new file mode 100644
index 0000000..e971c61
Binary files /dev/null and b/src/tests/data/models/word2vec_model_example.model differ
diff --git a/src/tests/test_cartography.py b/src/tests/test_cartography.py
index 1e61581..17e90a9 100644
--- a/src/tests/test_cartography.py
+++ b/src/tests/test_cartography.py
@@ -10,7 +10,7 @@
 from sciterra.mapping.cartography import Cartographer, iterate_expand
 from sciterra.librarians.s2librarian import SemanticScholarLibrarian
 from sciterra.mapping.publication import Publication
-from sciterra.vectorization.scibert import SciBERTVectorizer
+from sciterra.vectorization import SciBERTVectorizer, Word2VecVectorizer
 
 bib_dir = "src/tests/data/bib"
 single_pub_bibtex_fp = f"{bib_dir}/single_publication.bib"
@@ -171,6 +171,38 @@ def test_dummy_projection(self):
         vector1 = projection.identifiers_to_embeddings(["id_9"])
         assert np.array_equal(vector0, vector1)
 
+    def test_dummy_projection_partial(self):
+        crt = Cartographer(vectorizer=Word2VecVectorizer())
+
+        pubs = [
+            Publication(
+                {
+                    "identifier": f"id_{0}",
+                    "abstract": "We use cosmological hydrodynamic simulations with stellar feedback from the FIRE (Feedback In Realistic Environments) project to study the physical nature of Lyman limit systems (LLSs) at z ≤ 1.",  # everything here should be in the Word2Vec default vocab, since it trains on this abstract.
+                    "publication_date": datetime(2023, 1, 1),
+                }
+            ),
+            Publication(
+                {
+                    "identifier": f"id_{1}",
+                    "abstract": "outofvocabularyitem",  # this should not
+                    "publication_date": datetime(2023, 1, 1),
+                }
+            ),
+            Publication(
+                {
+                    "identifier": f"id_{2}",
+                    "abstract": "We use cosmological hydrodynamic simulations with stellar feedback from the FIRE (Feedback In Realistic Environments) project to study the physical nature of Lyman limit systems (LLSs) at z ≤ 1.",
+                    "publication_date": datetime(2023, 1, 1),
+                }
+            ),
+        ]
+        atl = Atlas(pubs)
+
+        atl_proj = crt.project(atl)
+
+        assert len(atl_proj) == 2
+
     def test_single_projection(self, tmp_path):
         path = tmp_path / atlas_dir
         path.mkdir()
diff --git a/src/tests/test_vectorization.py b/src/tests/test_vectorization.py
index 17f107f..5772407 100644
--- a/src/tests/test_vectorization.py
+++ b/src/tests/test_vectorization.py
@@ -7,8 +7,8 @@
 from sciterra.vectorization.vectorizer import Vectorizer
 from sciterra.vectorization import scibert, sbert, word2vec
 
-astro_corpus_1 = "src/tests/data/corpora/astro_1.txt"
-model_path_1 = "src/tests/data/models/word2vec_model_astro_1.model"
+astro_corpus_1 = "src/tests/data/corpora/example.txt"
+model_path_1 = "src/tests/data/models/word2vec_model_example.model"
 
 abstract_str = "We use cosmological hydrodynamic simulations with stellar feedback from the FIRE (Feedback In Realistic Environments) project to study the physical nature of Lyman limit systems (LLSs) at z ≤ 1. At these low redshifts, LLSs are closely associated with dense gas structures surrounding galaxies, such as galactic winds, dwarf satellites and cool inflows from the intergalactic medium. Our analysis is based on 14 zoom-in simulations covering the halo mass range M<SUB>h</SUB> ≈ 10<SUP>9</SUP>-10<SUP>13</SUP> M<SUB>⊙</SUB> at z = 0, which we convolve with the dark matter halo mass function to produce cosmological statistics. We find that the majority of cosmologically selected LLSs are associated with haloes in the mass range 10<SUP>10</SUP> ≲ M<SUB>h</SUB> ≲ 10<SUP>12</SUP> M<SUB>⊙</SUB>. The incidence and H I column density distribution of simulated absorbers with columns in the range 10^{16.2} ≤ N_{H I} ≤ 2× 10^{20} cm<SUP>-2</SUP> are consistent with observations. High-velocity outflows (with radial velocity exceeding the halo circular velocity by a factor of ≳ 2) tend to have higher metallicities ([X/H] ∼ -0.5) while very low metallicity ([X/H] &lt; -2) LLSs are typically associated with gas infalling from the intergalactic medium. However, most LLSs occupy an intermediate region in metallicity-radial velocity space, for which there is no clear trend between metallicity and radial kinematics. The overall simulated LLS metallicity distribution has a mean (standard deviation) [X/H] = -0.9 (0.4) and does not show significant evidence for bimodality, in contrast to recent observational studies, but consistent with LLSs arising from haloes with a broad range of masses and metallicities."  # 252 tokens
 
@@ -22,7 +22,9 @@ class TestSciBERTVectorizer:
     embedding_dim = scibert.EMBEDDING_DIM
 
     def test_single_vector(self):
-        embedding = TestSciBERTVectorizer.vectorizer.embed_documents([abstract_str])
+        embedding = TestSciBERTVectorizer.vectorizer.embed_documents([abstract_str])[
+            "embeddings"
+        ]
 
         # Check embedding is of correct type, shape, and has no nans
         assert isinstance(embedding, np.ndarray)
@@ -32,14 +34,14 @@ def test_single_vector(self):
     def test_identity_of_embeddings(self):
         embeddings = TestSciBERTVectorizer.vectorizer.embed_documents(
             [abstract_str, abstract_str]
-        )
+        )["embeddings"]
         # check identity
         assert np.all(embeddings[0] == embeddings[1])
 
     def test_single_cosine_pair(self):
         embeddings = TestSciBERTVectorizer.vectorizer.embed_documents(
             [abstract_str, abstract_str]
-        )
+        )["embeddings"]
 
         # Check that the cosine sim of doc w/ itself is 1
         # n.b., see sklearn.metrics.pairwise.cosine_similarity
@@ -57,7 +59,7 @@ def test_basic_cosine_matrix(self):
             [
                 TestSciBERTVectorizer.vectorizer.embed_documents(
                     [abstract_str] * num_pubs
-                ).flatten()
+                )["embeddings"].flatten()
             ]
         )
         cosine_matrix = cosine_distances(embeddings, embeddings)
@@ -74,7 +76,9 @@ class TestSBERTVectorizer:
     embedding_dim = sbert.EMBEDDING_DIM
 
     def test_single_vector(self):
-        embedding = TestSBERTVectorizer.vectorizer.embed_documents([abstract_str])
+        embedding = TestSBERTVectorizer.vectorizer.embed_documents([abstract_str])[
+            "embeddings"
+        ]
 
         # Check embedding is of correct type, shape, and has no nans
         assert isinstance(embedding, np.ndarray)
@@ -84,14 +88,14 @@ def test_single_vector(self):
     def test_identity_of_embeddings(self):
         embeddings = TestSBERTVectorizer.vectorizer.embed_documents(
             [abstract_str, abstract_str]
-        )
+        )["embeddings"]
         # check identity
         assert np.all(embeddings[0] == embeddings[1])
 
     def test_single_cosine_pair(self):
         embeddings = TestSBERTVectorizer.vectorizer.embed_documents(
             [abstract_str, abstract_str]
-        )
+        )["embeddings"]
 
         # Check that the cosine sim of doc w/ itself is 1
         # n.b., see sklearn.metrics.pairwise.cosine_similarity
@@ -109,7 +113,7 @@ def test_basic_cosine_matrix(self):
             [
                 TestSBERTVectorizer.vectorizer.embed_documents(
                     [abstract_str] * num_pubs
-                ).flatten()
+                )["embeddings"].flatten()
             ]
         )
         cosine_matrix = cosine_distances(embeddings, embeddings)
@@ -131,24 +135,36 @@ class TestWord2VecVectorizer:
     embedding_dim = word2vec.EMBEDDING_DIM
 
     def test_single_vector(self):
-        embedding = TestWord2VecVectorizer.vectorizer.embed_documents([abstract_str])
+        embedding = TestWord2VecVectorizer.vectorizer.embed_documents([abstract_str])[
+            "embeddings"
+        ]
 
         # Check embedding is of correct type, shape, and has no nans
         assert isinstance(embedding, np.ndarray)
         assert embedding.shape == (1, TestWord2VecVectorizer.embedding_dim)
         assert not np.isnan(embedding).any()
 
+    def test_failed_embedding(self):
+        result = TestWord2VecVectorizer.vectorizer.embed_documents(
+            ["outofvocabularyitem"]
+        )
+
+        # Check embedding is of correct type, shape, and has no nans
+        assert np.array_equal(result["fail_indices"], np.array([0]))
+        assert np.array_equal(result["success_indices"], np.array([]))
+        assert np.array_equal(result["embeddings"], np.array([]))
+
     def test_identity_of_embeddings(self):
         embeddings = TestWord2VecVectorizer.vectorizer.embed_documents(
             [abstract_str, abstract_str]
-        )
+        )["embeddings"]
         # check identity
         assert np.all(embeddings[0] == embeddings[1])
 
     def test_single_cosine_pair(self):
         embeddings = TestWord2VecVectorizer.vectorizer.embed_documents(
             [abstract_str, abstract_str]
-        )
+        )["embeddings"]
 
         # Check that the cosine sim of doc w/ itself is 1
         # n.b., see sklearn.metrics.pairwise.cosine_similarity
@@ -166,7 +182,7 @@ def test_basic_cosine_matrix(self):
             [
                 TestWord2VecVectorizer.vectorizer.embed_documents(
                     [abstract_str] * num_pubs
-                ).flatten()
+                )["embeddings"].flatten()
             ]
         )
         cosine_matrix = cosine_distances(embeddings, embeddings)